你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

hisat2:比对基因组工具简介

发布时间:2024-01-01

浏览次数:0

由于测序仪机器读长的限制,建库过程中需要先对DNA进行片段化,测序得到的序列只是基因组的部分序列。 为了确定测序读数在基因组上的位置,需要将读数与参考基因组进行比较。 这一步称为。

进行时,需要考虑以下因素

1、硬件资源消耗

一般来说,基因组越大,占用的内存就越多。 对于大型基因组,例如人类基因组,优化内存消耗至关重要。

2、运行速度

随着测序价格的下降以及数据深度挖掘的需要,测序量不断增加,海量测序reads的比对必须足够快。

3. 准确度

SNP/indel、测序错误率等因素会导致测序的reads与基因组上的原始序列之间存在几个bp的错误,因此算法必须支持碱基错配或缺口的存在。 同时,由于测序的短序列可能与基因组上的多个位置同源,因此一次读取将与基因组上的多个位置进行比较。 双端测序技术可以在一定程度上纠正多个位置,因为双端读段来自同一个DNA片段,并且基因组上的两个位置相距并不算太远,但仅凭这一点并不能解决所有同源比。 是的,这需要比对算法对多个位置进行判断和打分,才能给出比对结果的可靠性。

4.RNA

对于转录组数据来说,真核生物中选择性剪接的存在导致cDNA片段在基因组上不连续,中间可能存在内含子。 比较转录组数据时,需要考虑跳过的剪接位点。

目前可用的工具有很多,比如bwa、hisat、star等,hisat是其中速度最快的,并且是软件的升级版本。 采用改进的FM索引算法,人类基因组仅需要约4.3GB内存。还支持DNA和RNA数据的比较。 该软件的官方网站如下:

目前最新版本是。 安装过程如下

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

只需下载并解压即可。

在进行比较之前,首先需要对参考基因组进行索引。 基本用法如下

hisat2-build -p 20   hg19.fa hg19

对于转录组数据,构建索引时,可以通过gtf文件获取剪接位点和外显子信息。 用法如下

hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20  --ss hg19.ss --exon hg19.exon  hg19.fa hg19

支持多种格式的输入文件。 常见的格式有以下两种

法斯塔

快q

-f参数表示输入文件格式为fasta,-q参数表示输入文件格式为fastq。 输入文件可以是gzip压缩文件,默认输入文件是fastq格式。

对于单端数据,使用-U指定输入文件; 对于双端数据dnastar序列比对,使用-1和-2分别指定R1端和R2端的输入文件。

读取被映射到基因组上的一个位置,我们称之为“1”。 软件会对所有项目进行评分和判断,符合筛选条件的为有效。 仅输出有效的项目。

与爆炸类似,每一种也都有相应的评分机制。 hisat从以下几个方面进行评分:

1. 不匹配基数惩罚

碱基不匹配的惩罚是通过 --mp 参数指定的。 它的值是两个用逗号分隔的数字。 第一个数字是最高处罚,第二个数字是最低处罚。

2. 读取时的间隙惩罚

空位惩罚分为两部分,第一次出现空位的惩罚和空位扩展的惩罚。 读取时的间隙惩罚通过 --rdg 参数指定。 它的值是两个用逗号分隔的数字。 第一个数字是对空位第一个位置的罚分,第二个数字是对空位扩展的罚分。

3. 间隙罚分

间隙惩罚是通过 --rdg 参数指定的。 它的值是两个用逗号分隔的数字。 第一个数字是对空位第一个位置的罚分,第二个数字是对空位扩展的罚分。

经过一系列的惩罚机制后,每一个都会有相应的分数,然后用一个阈值来判断这个分数是否符合有效的要求。

hisat 通过 --score--min 参数指定阈值。 指定方法是与读取程度相关的函数。 默认值为L,0,-0.2,对应函数为

f(x) = 0 - 0.2 * x

根据阅读长度,可以计算分数阈值。 那些大于阈值的被认为是有效的并且可以被输出。 L表示线性函数。 此外,它还支持其他类型的函数,例如常量、自然对数等dnastar序列比对,更多选择请参考官方文档。

一次读取可能有多个有效值。 输出时,并不是全部输出,而是只输出-k参数指定的N。 -k 参数的默认值为 5。

输出结果以SAM格式保存,默认输出到屏幕。 可以通过-S参数指定输出文件。

通常情况下,默认参数就可以满足我们的需求。单端数据比较的用法如下:

hisat -x hg19 -p 20 -U reads.fq -S align.sam

双端数据的用法如下

hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam

·结尾·

—如果您喜欢,请分享给您的朋友 —

如有侵权请联系删除!

13262879759

微信二维码