你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

STAR:转录组数据比对工具简介

发布时间:2023-12-06

浏览次数:0

STAR是一款专门针对数据的比较软件。 比较速度非常快。 最大的优点是灵敏度高。 GATK建议使用STAR比对dnastar序列比对,然后进行下游SNP分析。软件源代码存放在以下地址:

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压后,bin/目录下会提供编译好的可执行文件STAR。 与hisat等软件不同dnastar序列比对,STAR将所有功能集成到同一个程序中,并通过切换来执行不同的任务。

1. 建立基因组索引

在进行比较之前,您首先需要对基因组进行索引。 对应的索引是。 基本用法如下

STAR --runMode genomeGenerate \\
--runThreadN  20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149

构建索引需要基因组的fasta和gtf文件,分别由 和 指定; 要构建 STAR 索引,您需要指定输出目录。 该目录必须提前创建。 该目录下会生成很多文件,所以必须有写权限。 ; 指定线程数; 默认值为100。实际设置时,最佳值为max() - 1。

建立索引时,也支持添加区间信息。 通过指定对应的文件,多个文件之间用逗号分隔。 这种格式的文件是通过STAR比较生成的,通常用于2-pass比较模式。

官方推荐的fasta版本基因组不应包含and。对于人类来说,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//

下方链接

ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz

2. 运行比较

STAR 支持 fasta/fastq 格式的输入文件。 如果序列文件是压缩的,则需要使用参数指定文件解压方式。 对于gzip压缩文件,有以下两种写法:

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后会输出很多文件,包括4类

日志档案

萨姆文件

bam文件

剪切站点文件

每个文件都有一个预定义的名称。 当同时运行多个样本时,为了区分它们,可以指定输出文件的前缀。 前三种类型的文件相对容易理解。 剪切的站点文件实际上是根据情况估计的间隔信息​​。 默认文件名为 SJ.out.tab。

默认输出比较文件为 SAM 格式。 为了节省磁盘空间并方便下游分析,可以通过参数指定输出bam文件。 该参数有两个字段值。 第一个值指定文件类型。 值为 SAM 和 BAM。 kind,第二个值指定是否排序,取值范围包括, ,写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序后的bam文件。

dnastar序列比对_序列比对算法_序列比对测定的是

单端数据比较的基本用法如下

STAR \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

双端数据比较的基本用法如下

STAR  \\
--runThreadN  20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand  zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang  149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

以上只是一个基本的比较。 STAR官方推荐使用2-pass比较模式,即比较两次。 有两种方法:

多2遍

第一种对齐方式与上面的用法一致。 比对后,每个样本都会生成一个区间文件SJ.out.tab; 在第二次比对之前,重建基因组索引并添加所有样本。 SJ.out.tab 文件,然后使用新的基因组索引重新对齐。 这种方法结合了多个样本的信息,比较的灵敏度会更高。 缺点是操作比较麻烦。

每2遍

对于单个样本,比较时直接添加--Basic参数,软件会自动进行两次比较,将第一次比较的SJ.out.tab添加到索引中,然后再次比较。 该方法操作简单,适合单个样品的两遍比较。

如有侵权请联系删除!

13262879759

微信二维码