发布时间:2023-06-06
浏览次数:0
欢迎来到《生信修行指南》!
STAR是一款数据专用的比对软件,比对速度非常快。 最大的优点是灵敏度高。 GATK推荐使用STAR比对,然后进行下游SNP分析。软件源码存放于dnastar序列比对,地址如下
安装过程如下
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz
解压后在bin/目录下提供了编译好的可执行文件STAR。 与hisat等软件不同,STAR将所有功能集成在同一个程序中,通过切换执行不同的任务。
1. 建立基因组索引
在运行比对之前,首先需要在基因组上建立一个索引,对应的基本用法如下
STAR --runMode genomeGenerate \\
--runThreadN 20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149
建索引需要基因组的fasta和gtf文件,由 和 这两个参数分别指定; STAR建立索引需要指定一个输出目录,这个目录必须提前创建好。 在这个目录下,会生成很多文件,所以必须要有写权限;指定线程数; 默认值为100,实际设置中最佳值为max()-1。
在建立索引时,还支持添加区间信息。 通过指定对应的文件dnastar序列比对,多个文件之间用冒号隔开。 这些格式的文件都是通过STAR比对形成的,一般用于2-pass比对模式。
官方推荐的fasta版本的基因组应该是不包含and的。对于人类,NCBI的链接如下
ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//
链接如下
ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz
2.运行比较
STAR 支持 fasta/fastq 格式的输入文件。 如果序列文件是压缩文件,则需要使用参数指定解压文件的方式。 对于gzip压缩后的文件,有两种写法:
--readFilesCommand zcat
--readFilesCommand gzip -c
比对完成后会输出很多文件,包括4类
日志文件
山姆文件
文件
剪切站点文件
每个文件都有一个预定义的名称。 当多个样本同时运行时,为了区分它们,可以指定输出文件的前缀。 前三类文件比较容易理解。 切点文件其实就是根据情况计算出来的区间信息。 默认文件名为 SJ.out.tab。
默认输出比较文件为 SAM 格式。 为了节省c盘空间,方便下游分析,可以通过参数指定输出的bam文件。 此参数有两个数组值。 第一个值指定文件类型,取值有SAM和BAM两种类型,第二个值指定是否排序,取值范围包括,,写法如下
--outSAMtype BAM SortedByCoordinate
以上写法输出排序后的bam文件。
推拉数据对比的基本用法如下
STAR \\
--runThreadN 20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
双端数据比较的基本用法如下
STAR \\
--runThreadN 20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang 149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
以上只是一个基本的比较。 STAR官方推荐使用2-pass比较模式,即两次比较,如下两种形式
多2遍
第一个比较和上面的用法是一致的。 比对后,每个样本会形成一个区间文件SJ.out.tab; 第二次比对前,重新建立基因组索引并添加所有样本的SJ.out.tab文件,然后与新的基因组索引重新比对。 这些方法结合了多个样本的信息,比较的灵敏度会更高。 缺点是操作比较繁琐。
每 2 遍
对于单个样品,比对时直接加上--Basic参数,软件会手动进行两次比对,将第一个比对的SJ.out.tab添加到索引中,然后重新比对。 这些方法操作简单,适用于单个样品的 2-pass 比较。
更多参数和使用方法,请参考官方文档。
·结尾·
—喜欢就分享给您的同事吧—
扫一扫关注微信,更多精彩内容等你来!
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码