发布时间:2024-01-01
浏览次数:0
由于测序仪机器读长的限制,建库过程中需要先对DNA进行片段化,测序得到的序列只是基因组的部分序列。 为了确定测序读数在基因组上的位置,需要将读数与参考基因组进行比较。 这一步称为。
进行时,需要考虑以下因素
1、硬件资源消耗
一般来说,基因组越大,占用的内存就越多。 对于大型基因组,例如人类基因组,优化内存消耗至关重要。
2、运行速度
随着测序价格的下降以及数据深度挖掘的需要,测序量不断增加,海量测序reads的比对必须足够快。
3. 准确度
SNP/indel、测序错误率等因素会导致测序的reads与基因组上的原始序列之间存在几个bp的错误,因此算法必须支持碱基错配或缺口的存在。 同时,由于测序的短序列可能与基因组上的多个位置同源,因此一次读取将与基因组上的多个位置进行比较。 双端测序技术可以在一定程度上纠正多个位置,因为双端读段来自同一个DNA片段,并且基因组上的两个位置相距并不算太远,但仅凭这一点并不能解决所有同源比。 是的,这需要比对算法对多个位置进行判断和打分,才能给出比对结果的可靠性。
4.RNA
对于转录组数据来说,真核生物中选择性剪接的存在导致cDNA片段在基因组上不连续,中间可能存在内含子。 比较转录组数据时,需要考虑跳过的剪接位点。
目前可用的工具有很多,比如bwa、hisat、star等,hisat是其中速度最快的,并且是软件的升级版本。 采用改进的FM索引算法,人类基因组仅需要约4.3GB内存。还支持DNA和RNA数据的比较。 该软件的官方网站如下:
目前最新版本是。 安装过程如下
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip
只需下载并解压即可。
在进行比较之前,首先需要对参考基因组进行索引。 基本用法如下
hisat2-build -p 20 hg19.fa hg19
对于转录组数据,构建索引时,可以通过gtf文件获取剪接位点和外显子信息。 用法如下
hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 --ss hg19.ss --exon hg19.exon hg19.fa hg19
支持多种格式的输入文件。 常见的格式有以下两种
法斯塔
快q
-f参数表示输入文件格式为fasta,-q参数表示输入文件格式为fastq。 输入文件可以是gzip压缩文件,默认输入文件是fastq格式。
对于单端数据,使用-U指定输入文件; 对于双端数据dnastar序列比对,使用-1和-2分别指定R1端和R2端的输入文件。
读取被映射到基因组上的一个位置,我们称之为“1”。 软件会对所有项目进行评分和判断,符合筛选条件的为有效。 仅输出有效的项目。
与爆炸类似,每一种也都有相应的评分机制。 hisat从以下几个方面进行评分:
1. 不匹配基数惩罚
碱基不匹配的惩罚是通过 --mp 参数指定的。 它的值是两个用逗号分隔的数字。 第一个数字是最高处罚,第二个数字是最低处罚。
2. 读取时的间隙惩罚
空位惩罚分为两部分,第一次出现空位的惩罚和空位扩展的惩罚。 读取时的间隙惩罚通过 --rdg 参数指定。 它的值是两个用逗号分隔的数字。 第一个数字是对空位第一个位置的罚分,第二个数字是对空位扩展的罚分。
3. 间隙罚分
间隙惩罚是通过 --rdg 参数指定的。 它的值是两个用逗号分隔的数字。 第一个数字是对空位第一个位置的罚分,第二个数字是对空位扩展的罚分。
经过一系列的惩罚机制后,每一个都会有相应的分数,然后用一个阈值来判断这个分数是否符合有效的要求。
hisat 通过 --score--min 参数指定阈值。 指定方法是与读取程度相关的函数。 默认值为L,0,-0.2,对应函数为
f(x) = 0 - 0.2 * x
根据阅读长度,可以计算分数阈值。 那些大于阈值的被认为是有效的并且可以被输出。 L表示线性函数。 此外,它还支持其他类型的函数,例如常量、自然对数等dnastar序列比对,更多选择请参考官方文档。
一次读取可能有多个有效值。 输出时,并不是全部输出,而是只输出-k参数指定的N。 -k 参数的默认值为 5。
输出结果以SAM格式保存,默认输出到屏幕。 可以通过-S参数指定输出文件。
通常情况下,默认参数就可以满足我们的需求。单端数据比较的用法如下:
hisat -x hg19 -p 20 -U reads.fq -S align.sam
双端数据的用法如下
hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam
·结尾·
—如果您喜欢,请分享给您的朋友 —
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码