你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

RNA-seq和DNA-seq数据分析关键:高通量测序读取数据比对参考基因组

发布时间:2025-07-13

浏览次数:0

高通量测序读取数据在RNA-seq和DNA-seq数据分析中,比对至参考基因组是一个至关重要的环节。这一步骤能够将序列读取数据准确映射到参考基因组,从而促进基因的发现、基因表达量的测定、可变剪接事件的分析、变异的检测以及嵌合(融合)基因的识别。

STAR工具旨在将RNA-seq的读取数据与参考基因组序列进行高度精确且极快的剪接感知比对。值得注意的是,STAR是一款专为RNA-seq数据映射设计的比对软件dnastar序列比对,因此它不适用于DNA数据的比对。

与众多广泛应用的RNA-seq比对软件相比,STAR展现出更优越的映射效果以及更迅速的处理速度。

STAR在识别经典与非经典剪接位点上表现出极高的准确性,并且能够识别出嵌合或融合的转录本。它不仅能够处理映射短读取数据,如长度不超过200碱基对的序列,还能精确映射较长的读取数据,例如来自Ion或数Kbp的序列。

STAR在检测基因变异(包括单核苷酸多态性和插入/缺失)方面展现出更高的检测能力,故而它被纳入GATK推荐的工作流程之中,专门用于从RNA测序数据中筛选出微小的变异。

STAR工具的不足之处在于其对内存的需求相对较高,因此在进行比对分析时,可能需要配备性能较强的计算机。此外dnastar序列比对,STAR的比对速度也可能受到可用内存量的影响,存在一定的波动。

STAR的算法通过执行两个步骤来实现高效比对:

种子搜索

对于STAR比对过程中的每一份读取数据,STAR会寻找在参考基因组中存在的一个或多个位置上与之完全对应的最长序列。这些最长的匹配序列被称作最大可映射前缀,简称为MMPs。

各个部分读取的数据在映射过程中,有一个特定的名称叫做“种子”。基于这个定义,首个映射至基因组的MMP便被称作seed1。

接着,STAR会重新扫描那些尚未完成映射的读取数据,目的是寻找与参考基因组完全吻合的最长序列,亦或是下一个MMP,也就是seed2。

对仅剩未匹配部分的读取数据实施有序检索,构成了STAR算法高效运作的核心。STAR算法通过运用未经压缩的后缀数组(SA)进行高效检索MMPs,从而实现了对甚至是最庞大的参考基因组的快速搜索。而其他速度较慢的比对工具,在将读取数据分割并执行迭代比对之前,往往会对整个读取序列进行搜索。

若STAR因不匹配或插入/缺失问题而无法精确识别读取数据的各个部分,那么就需要对先前的MMPs进行扩展。

若扩展过程未能产生满意的匹配效果,则可能对质量不佳的序列或适配器序列(以及可能的污染序列)进行软性剪切处理。

聚类、拼接和评分

首先,基于一组“锚”种子(这些种子不涉及多重映射)的邻近性,对这些分离的种子进行聚类。接着,依据读取数据的最佳比对结果(包括不匹配、插入/缺失、间隙等因素),将这些种子拼接起来,最终形成一个完整的读取数据。

使用STAR

STAR比对算法_dnastar序列比对_高通量测序RNA-seq比对工具

使用STAR将读取数据映射到参考基因组包括两个步骤:

通过使用基因组数据(以FASTA格式存储)以及相应的注释信息(采用GTF或GFF3格式),构建起参考基因组的索引体系。

将数据(无论是FASTQ还是FASTA格式)导入并匹配至已构建索引的基因组序列。

构建基因组索引

STAR工具通过读取FASTA格式的基因组文件以及GTF或GFF3格式的基因注释文件来构建基因组索引。这些基因注释文件有助于确定已知的剪接位点,从而增强基因组映射的精确度。虽然基因注释文件并非必须,但若条件允许,我们强烈推荐您使用它们。








在此,我们建立拟南芥(Arabidopsis thaliana)的基因序列数据库索引。
STAR --runThreadN 12 \ # 使用的线程数(处理器数)
--runMode genomeGenerate \ 基因组构建过程中,采用基因组生成模式以建立基因组索引。
--genomeDir ath_star_index \ # 存储基因组索引的目录路径
请指定需要重新改写的句子。# FASTA格式的参考基因组文件
对Athaliana基因的gtf文件进行限制,确保sjdbGTFfile的使用符合规定。# 用于基因注释的GTF文件(可选)
--sjdbOverhang 149 # 剪接位点周围的读取长度

对于参数而言,通常情况下是取读取长度的前一个数值(或者说是最大读取长度的前一个数值)。以读取长度为150为例,对应的参数值应当是149。在多数情形下,默认的100这个数值也是适用的。

将读取映射到基因组

基因组索引一旦构建完毕,即可运用STAR(默认执行一次映射操作)将单端及成对端RNA-seq数据读取准确映射至参考基因组。

对于单端读取(-end reads):








# 将单端 reads 映射到基因组
STAR --runThreadN 12 \
将文件ath_seed_sample.fastq中的数据读取,用于对基因组进行映射。
基因组索引的构建目录路径为ath_star_index,其中包含了所需的所有基因组索引信息。
输出文件类型为按坐标排序的 BAM 格式,名为 outSAMtype BAM SortedByCoordinate。
指定输出文件的前缀名为seed_sample,用以标识后续生成的文件。
从主SAM文件中提取,并以SAM格式输出那些未成功映射的reads,标记为#outSAMunmapped Within。

对于双端读取(-end reads):








# 将双端reads 映射到基因组
STAR --runThreadN 12 \
执行读取文件操作,针对文件ath_sample_read1.fastq和ath_sample_read2.fastq,进行数据输入处理。
--genomeDir ath_star_index \
设置输出为按坐标排序的BAM格式,确保数据已正确排序。
设置输出文件前缀为seed_sample,
--outSAMunmapped Within

若文件系gzip格式压缩(如*.fastq.gz),在执行上述映射指令时,需额外加入--zcat或-- -c选项。

有关STAR更详细的用法和参数设置还请参考官方文档。

参考资料:

1.https://.com//STAR

2. to RNA-Seq using high- -

3. RNA-seq Read With STAR

如有侵权请联系删除!

13262879759

微信二维码