你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

手机应用市场趋于饱和,测序数据比对工具仅剩三四个,你知道吗?

发布时间:2025-06-11

浏览次数:0

大家或许都有类似的体验:许久未曾浏览应用商店,手机中亦鲜少新增应用……至少对我而言便是如此。究其原因,乃是因为当前的手机应用市场正逐渐走向饱和,各个领域的市场几乎已被瓜分殆尽。生物信息领域的软件亦遵循此理,历经十余年的演变,经过一番筛选,现存的测序数据比对软件已缩减至三四款。本次内容dnastar序列比对,我们将对短序列比对工具进行详细介绍。<[]p>

测序数据比对

比对测序数据与参照序列是高通量测序数据解析的关键环节。鉴于早期的高通量测序主要涉及短序列,相应的软件设计也是基于短序列比对算法。所谓的短序列比对,指的是将测序得到的reads重新定位至基因组中的具体位置,这一过程亦被称作回贴,或简称为回贴。我们可将测序数据重新映射至其自身基因组,亦或映射至参考基因组,具体取决于研究目标。此外,映射不仅限于基因组序列,还包括基因集序列,乃至rRNA序列等。进行短序列比对时,至少需具备一个fasta格式的目标序列,以及fastq格式的测序数据,这些数据可以是单端测序,亦或是双端测序。请注意,短序列比对仅限于DNA与DNA之间的比较,无法在氨基酸层面上进行进一步的比对。

短序列比对的主要目的是实现这种累积效应,借助累积效应,我们能够计算出每个位点的比对详细信息,诸如覆盖范围、覆盖比例、reads的利用率以及每个位点的具体比对状况。据此,我们可以进行基因差异表达和丰度差异的计算。此外,变异检测、宏基因组分析以及组装结果的纠错等后续工作,都需依托短序列比对的结果来展开。

图片

早期的短序列比对软件种类繁多,呈现出一种竞相发展的局面,诸如map、bwa、soap等工具纷纷涌现,众多大型基因组研究机构都致力于研发独具特色的比对软件。随着长读长测序技术的出现,又陆续出现了ngmlr等新型工具。

经过十几年的发展,最终就剩下三款,bwa,以及star。

DNA比对bwa

众多短序列比对工具中,bwa、soap等软件颇受欢迎,其中BWA更是普遍被选作行业内的标准工具。

测序技术的进步推动了BWA软件的不断更新发展。该软件采用了多种算法,包括BWA-、BWA-SW、BWA-MEM和最新版的BWA-MEM2。最初,短序列比对主要依赖bwt算法,这一算法正是BWA软件名称的由来。

bwa-mem2的官方网站链接为:https://.com/bwa-mem2/bwa-mem2。

#建立索引ln -s /ifs1/Vip2Data/15.human/data/CFT073.fna .bwa index CFT073.fna
#bwa比对bwa mem CFT073.fna /ifs1/Vip2Data/15.human/data/illumina.sra_1.fastq.gz/ifs1/Vip2Data/15.human/data将illumina.sra_2.fastq.gz文件输出,并生成all.sam文件。
#bwa-mem2比对bwa-mem2 index CFT073.fna运行bwa-mem2软件对CFT073.fna文件进行比对,并将结果保存在/ifs1/Vip2目录下。Data/15.human/data/illumina.sra_1.fastq.gz/ifs1/Vip2Data/15.human/data将文件illumina.sra_2.fastq.gz输出至cft073_bwamem2.sam文件中。

比对star

比对软件种类繁多,涵盖了从最初级到如STAR等众多工具,鉴于可变剪接现象的存在,reads的比对工作变得必要,故在数据分析阶段,挑选合适的比对软件至关重要。目前,STAR工具因其广泛的应用而备受青睐。对于三代测序数据dnastar序列比对,用户可以选择其他相关工具进行比对。

star比对也是先建立索引,然后比对。

# 构建索引 STARSTAR --runThreadN 12 --runMode genomeGenerate--genomeDir star \  --genomeFastaFilesArabidopsis_thaliana.TAIR10.dna.toplevel.fa \  --sjdbGTFfileArabidopsis_thaliana.TAIR10.55.gtf

# STAR比对star/ --runThreadN 6 \执行读取操作,针对文件read1.fq.gz和reads2.fq.gz,进行数据输入。--readFilesCommand zcat \将输出文件前缀设定为"output",并指定输出格式为未排序的BAM文件类型。    --outSAMattributes All

三代长读长比对

李恒,bwa软件的创作者,研发了一款工具,该工具主要针对三代测序数据的比对任务。这款工具与bwa的必读策略有所区别,它特别适用于处理长读长和高测序错误率的数据。

本系统具备丰富的比对功能,不仅限于处理常规数据,还能应对各类数据比对需求。这些比对模式涵盖reads与reads之间的比对、reads与基因组之间的比对、基因组与基因组之间的比对,以及短序列与基因组的比对。每种比对方式都有其独特用途,务必注意正确设置,以免出错。接下来,我们将通过实际案例进行演示。

最常使用的功能是将测序数据与基因组进行匹配,这一过程与bwa的比对方法相似,首先需构建索引,接着进行比对,最终产出sam格式的比对结果;若对bwa比对较为熟悉,那么这一操作将变得相当简便。

比对输入的测序数据文件,通常为fastq或fasta格式,所参照的基因组文件也通常为fasta格式。输出结果支持paf或sam格式,其中默认格式为paf。

第一步:建立索引

minimap2 -d co92.min co92.fna

第二步:比对

minimap2 -ax map-ont co92.min ../4.filter将过滤后的长序列文件clean.filtlong.fq.gz重定向输出至s1037.sam文件。

如有侵权请联系删除!

13262879759

微信二维码