STAR:转录组数据比对工具简介

发布时间：2023-12-06

浏览次数：0

STAR是一款专门针对数据的比较软件。比较速度非常快。最大的优点是灵敏度高。 GATK建议使用STAR比对dnastar序列比对，然后进行下游SNP分析。软件源代码存放在以下地址：

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压后，bin/目录下会提供编译好的可执行文件STAR。与hisat等软件不同dnastar序列比对，STAR将所有功能集成到同一个程序中，并通过切换来执行不同的任务。

1. 建立基因组索引

在进行比较之前，您首先需要对基因组进行索引。对应的索引是。基本用法如下

STAR --runMode genomeGenerate \\
--runThreadN  20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149

构建索引需要基因组的fasta和gtf文件，分别由和指定；要构建 STAR 索引，您需要指定输出目录。该目录必须提前创建。该目录下会生成很多文件，所以必须有写权限。 ; 指定线程数；默认值为100。实际设置时，最佳值为max() - 1。

建立索引时，也支持添加区间信息。通过指定对应的文件，多个文件之间用逗号分隔。这种格式的文件是通过STAR比较生成的，通常用于2-pass比较模式。

官方推荐的fasta版本基因组不应包含and。对于人类来说，NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//

下方链接

ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz

2. 运行比较

STAR 支持 fasta/fastq 格式的输入文件。如果序列文件是压缩的，则需要使用参数指定文件解压方式。对于gzip压缩文件，有以下两种写法：

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后会输出很多文件，包括4类

日志档案

萨姆文件

bam文件

剪切站点文件

每个文件都有一个预定义的名称。当同时运行多个样本时，为了区分它们，可以指定输出文件的前缀。前三种类型的文件相对容易理解。剪切的站点文件实际上是根据情况估计的间隔信息。默认文件名为 SJ.out.tab。

默认输出比较文件为 SAM 格式。为了节省磁盘空间并方便下游分析，可以通过参数指定输出bam文件。该参数有两个字段值。第一个值指定文件类型。值为 SAM 和 BAM。 kind，第二个值指定是否排序，取值范围包括，，写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序后的bam文件。

dnastar序列比对_序列比对算法_序列比对测定的是

单端数据比较的基本用法如下

STAR \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

双端数据比较的基本用法如下

STAR  \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand  zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

以上只是一个基本的比较。 STAR官方推荐使用2-pass比较模式，即比较两次。有两种方法：

多2遍

第一种对齐方式与上面的用法一致。比对后，每个样本都会生成一个区间文件SJ.out.tab；在第二次比对之前，重建基因组索引并添加所有样本。 SJ.out.tab 文件，然后使用新的基因组索引重新对齐。这种方法结合了多个样本的信息，比较的灵敏度会更高。缺点是操作比较麻烦。

每2遍

对于单个样本，比较时直接添加--Basic参数，软件会自动进行两次比较，将第一次比较的SJ.out.tab添加到索引中，然后再次比较。该方法操作简单，适合单个样品的两遍比较。

如有侵权请联系删除！

TAGS：索引

上一篇：sketch导出svg图标大厂设计师的交付细节全公开

下一篇：不写文档你就输了

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

STAR:转录组数据比对工具简介

联系我们