你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

STAR:转录组数据比对工具简介

发布时间:2023-06-06

浏览次数:0

欢迎来到《生信修行指南》!

STAR是一款数据专用的比对软件,比对速度非常快。 最大的优点是灵敏度高。 GATK推荐使用STAR比对,然后进行下游SNP分析。软件源码存放于dnastar序列比对,地址如下

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压后在bin/目录下提供了编译好的可执行文件STAR。 与hisat等软件不同,STAR将所有功能集成在同一个程序中,通过切换执行不同的任务。

1. 建立基因组索引

在运行比对之前,首先需要在基因组上建立一个索引,对应的基本用法如下

STAR --runMode genomeGenerate \\
--runThreadN  20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149

建索引需要基因组的fasta和gtf文件,由 和 这两个参数分别指定; STAR建立索引需要指定一个输出目录,这个目录必须提前创建好。 在这个目录下,会生成很多文件,所以必须要有写权限;指定线程数; 默认值为100,实际设置中最佳值为max()-1。

在建立索引时,还支持添加区间信息。 通过指定对应的文件dnastar序列比对,多个文件之间用冒号隔开。 这些格式的文件都是通过STAR比对形成的,一般用于2-pass比对模式。

官方推荐的fasta版本的基因组应该是不包含and的。对于人类,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//

链接如下

ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz

2.运行比较

STAR 支持 fasta/fastq 格式的输入文件。 如果序列文件是压缩文件,则需要使用参数指定解压文件的方式。 对于gzip压缩后的文件,有两种写法:

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后会输出很多文件,包括4类

日志文件

山姆文件

文件

剪切站点文件

每个文件都有一个预定义的名称。 当多个样本同时运行时,为了区分它们,可以指定输出文件的前缀。 前三类文件比较容易理解。 切点文件其实就是根据情况计算出来的区间信息。 默认文件名为 SJ.out.tab。

默认输出比较文件为 SAM 格式。 为了节省c盘空间,方便下游分析,可以通过参数指定输出的bam文件。 此参数有两个数组值。 第一个值指定文件类型,取值有SAM和BAM两种类型,第二个值指定是否排序,取值范围包括,,写法如下

--outSAMtype BAM SortedByCoordinate

以上写法输出排序后的bam文件。

推拉数据对比的基本用法如下

STAR \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

双端数据比较的基本用法如下

STAR  \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand  zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

以上只是一个基本的比较。 STAR官方推荐使用2-pass比较模式,即两次比较,如下两种形式

多2遍

第一个比较和上面的用法是一致的。 比对后,每个样本会形成一个区间文件SJ.out.tab; 第二次比对前,重新建立基因组索引并添加所有样本的SJ.out.tab文件,然后与新的基因组索引重新比对。 这些方法结合了多个样本的信息,比较的灵敏度会更高。 缺点是操作比较繁琐。

每 2 遍

对于单个样品,比对时直接加上--Basic参数,软件会手动进行两次比对,将第一个比对的SJ.out.tab添加到索引中,然后重新比对。 这些方法操作简单,适用于单个样品的 2-pass 比较。

更多参数和使用方法,请参考官方文档。

·结尾·

—喜欢就分享给您的同事吧—

扫一扫关注微信,更多精彩内容等你来!

如有侵权请联系删除!

13262879759

微信二维码