发布时间:2023-12-06
浏览次数:0
STAR是一款专门针对数据的比较软件。 比较速度非常快。 最大的优点是灵敏度高。 GATK建议使用STAR比对dnastar序列比对,然后进行下游SNP分析。软件源代码存放在以下地址:
安装过程如下
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz
解压后,bin/目录下会提供编译好的可执行文件STAR。 与hisat等软件不同dnastar序列比对,STAR将所有功能集成到同一个程序中,并通过切换来执行不同的任务。
1. 建立基因组索引
在进行比较之前,您首先需要对基因组进行索引。 对应的索引是。 基本用法如下
STAR --runMode genomeGenerate \\
--runThreadN 20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149
构建索引需要基因组的fasta和gtf文件,分别由 和 指定; 要构建 STAR 索引,您需要指定输出目录。 该目录必须提前创建。 该目录下会生成很多文件,所以必须有写权限。 ; 指定线程数; 默认值为100。实际设置时,最佳值为max() - 1。
建立索引时,也支持添加区间信息。 通过指定对应的文件,多个文件之间用逗号分隔。 这种格式的文件是通过STAR比较生成的,通常用于2-pass比较模式。
官方推荐的fasta版本基因组不应包含and。对于人类来说,NCBI的链接如下
ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//
下方链接
ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz
2. 运行比较
STAR 支持 fasta/fastq 格式的输入文件。 如果序列文件是压缩的,则需要使用参数指定文件解压方式。 对于gzip压缩文件,有以下两种写法:
--readFilesCommand zcat
--readFilesCommand gzip -c
比对完成后会输出很多文件,包括4类
日志档案
萨姆文件
bam文件
剪切站点文件
每个文件都有一个预定义的名称。 当同时运行多个样本时,为了区分它们,可以指定输出文件的前缀。 前三种类型的文件相对容易理解。 剪切的站点文件实际上是根据情况估计的间隔信息。 默认文件名为 SJ.out.tab。
默认输出比较文件为 SAM 格式。 为了节省磁盘空间并方便下游分析,可以通过参数指定输出bam文件。 该参数有两个字段值。 第一个值指定文件类型。 值为 SAM 和 BAM。 kind,第二个值指定是否排序,取值范围包括, ,写法如下
--outSAMtype BAM SortedByCoordinate
上述写法输出排序后的bam文件。
单端数据比较的基本用法如下
STAR \\
--runThreadN 20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
双端数据比较的基本用法如下
STAR \\
--runThreadN 20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
以上只是一个基本的比较。 STAR官方推荐使用2-pass比较模式,即比较两次。 有两种方法:
多2遍
第一种对齐方式与上面的用法一致。 比对后,每个样本都会生成一个区间文件SJ.out.tab; 在第二次比对之前,重建基因组索引并添加所有样本。 SJ.out.tab 文件,然后使用新的基因组索引重新对齐。 这种方法结合了多个样本的信息,比较的灵敏度会更高。 缺点是操作比较麻烦。
每2遍
对于单个样本,比较时直接添加--Basic参数,软件会自动进行两次比较,将第一次比较的SJ.out.tab添加到索引中,然后再次比较。 该方法操作简单,适合单个样品的两遍比较。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码