发布时间:2026-05-25
浏览次数:0
不清楚大家是否存有这般的感受: 良久未开启应用商店, 手机之中已然许久未曾下载新的App了……起码我便是如此。这是源于当下手机应用市场已逐趋饱和, 各个领域市场皆被占据。生物信息软件亦是同样情形, 历经了十多年的发展, 大浪淘沙, 当前测序数据比对工具大体上也就仅余三四个了, 此次内容我们来对短序列比对工具予以介绍。
测序数据比对
将测序数据跟参考序列进行比对, 这是高通量测序数据分析的核心步骤, 因为最早的高通量测序全是短序列, 所以软件都是基于短序列比对的算法, 所谓的短序列比对就是把这些测序的reads重新定位到基因组上, 此过程也称作回贴或者叫, 我们能够把测序的reads重新定位到自身的基因组, 也能够定位到参考基因组上, 这依据不同的研究目的来定, 同样, 不但能够定位到基因组序列, 也能够定位到基因集序列, 或者rRNA序列等。进行短序列比对, 起码得要有一个为fasta格式标准样式的目标序列, 接着呢, 是fastq格式的测序读取数据, 其呈现方式既能够是单端的情形, 也能够是双末端的情况。需要留意的是, 短序列比对仅仅能够在DNA与DNA之间展开比对, 是不可以在氨基酸对应水平层面持续进行比对操作的。
将短序列进行比对, 主要目的在于获得那种堆叠效果, 借助堆叠能够计算出每一个位点的比对详情, 其中涵盖覆盖度、覆盖比率、reads 占有率、详尽的每个位点比对情形。如此一来便能够用以计算基因层面的差异表达、丰度之别等。变异检测、宏基因组、组装结果纠错等均需借助短序列比对的结果来开展后续分析。
最早之时, 短序列比对工具所处态势可谓是尽显纷繁多样、各展繁荣景象, 存在map、bwa、soap以及star各类工具, 每一家大型基因组研究机构皆期望去研发一款专属自身的比对工具。后来之际, 伴随长读长测序的出现, 接二连三又有了ngmlr等工具。
经过十几年的发展,最终就剩下三款,bwadnastar序列比对,以及star。
DNA比对bwa
就短序列比对而言, 存在着诸多的比对软件, 像bwa, soap等等, 在这许多的短序列比对软当中, BWA差不多已然变成了默认的行业标准。
伴随着测序技术朝着更高水平发展, BWA软件持续不停歇地在开展着进化前行。其所运用的算法包含BWA- , 以及BWA-SW , 还有BWA-MEM , 甚至是最新的BWA-MEM2。起初最早阶段的短序列比对主要运用的是bwt算法 , (–), BWA软件的名称同样也是源自于对bwt算法的利用的。
bwa - mem2的官方网站是: https://.com/bwa - mem2/bwa - mem2。
#建立索引ln -s /ifs1/Vip2Data/15.human/data/CFT073.fna .bwa index CFT073.fna#bwa比对bwa mem CFT073.fna /ifs1/Vip2Data/15.human/data/illumina.sra_1.fastq.gz/ifs1/Vip2Data/15.human/data/illumina.sra_2.fastq.gz >all.sam#bwa-mem2比对bwa-mem2 index CFT073.fnabwa-mem2 mem CFT073.fna /ifs1/Vip2Data/15.human/data/illumina.sra_1.fastq.gz/ifs1/Vip2Data/15.human/data/illumina.sra_2.fastq.gz >cft073_bwamem2.sam
比对star
用于比对的工具数目不少, 起于最初之时, 直至, SRAR, 诸如此类, 缘因可变剪切的存有致使要将reads予以比对, 所以针对分析而言得挑选适配比对的工具。当下最为流行的便是STAR工具。要是属于三代测序数据, 能够择取抑或工具。
star比对也是先建立索引,然后比对。
# 构建索引 STARSTAR --runThreadN 12 --runMode genomeGenerate--genomeDir star \--genomeFastaFilesArabidopsis_thaliana.TAIR10.dna.toplevel.fa \--sjdbGTFfileArabidopsis_thaliana.TAIR10.55.gtf
# STAR比对star/ --runThreadN 6 \--readFilesIn read1.fq.gz reads2.fq.gz \--readFilesCommand zcat \--outFileNamePrefix output --outSAMtype BAM Unsorted \--outSAMattributes All
三代长读长比对
有一位名为李恒的人士, 是bwa软件的作者, 他开发了专门用于三代测序数据比对的工具, 此工具与bwa必读策略不同, 需要去适应长读长、高测序错误的数据。
存在多种比对功能, 在处理支持之数据之外, 进而还支持数据。其比对模式能够是reads与reads之前进行比对, reads与基因组予以比对, 基因组与基因组开展比对, 以及短序列同基因组的这样一种比对, 这些不一样的比对具备不一样的作用, 绝对不可以设置错误了。下面我们把具体案例拿来演示一番。
最为常用的功能便是把测序数据比对至基因组之上, 此过程跟bwa比对相类似, 要先行建立索引, 接着进行比对, 最终获取sam格式的比对结果, 要是对bwa比对颇为熟悉, 那么这个操作就极为容易。
进行比对时所使用的输入文件, 是经过测序得到的reads, 普遍呈现为fastq或者fasta格式, 而参考基因组dnastar序列比对,一般是以fasta格式存在。其能够输出paf格式以及sam格式, 默认所采用的格式是paf格式。
第一步:建立索引
minimap2 -d co92.min co92.fna
第二步:比对
minimap2 -ax map-ont co92.min ../4.filter/clean.filtlong.fq.gz >s1037.sam如有侵权请联系删除!
TAGS:
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码