RNA-seq数据分析完全指北-06：比对到基因组并定量

发布时间：2023-06-06

浏览次数：0

完成以上操作后，就可以进行量化了。对于参考转录组，通常采用比较和量化的方法。在这里，我使用 STAR 进行量化。

一、STAR介绍与安装 1.1．介绍

STAR全称toadnastar序列比对，是著名项目使用的RNA-seq比对软件。 STAR使用底层C++语言编译，可在多核上运行，比对速度极快。与其他两款常用的参考转录组比对软件相比dnastar序列比对，具有更高的独特比对率。与GATK的良好兼容性使得RNA-seq更容易发现基因突变。据悉，10X的单细胞转录组上游软件也是基于STAR的。

下载地址为；创建的索引文件和可以用来建立索引的文件的下载地址是。值得注意的是，本站索引仅适用于star2.7.4a，其他版本需要自行创建。

1.2. 安装

如果后期有融合基因等需求，一定要注意版本。

1.2.1、自行编译

可以下载源码自行编译安装。 STAR 只依赖于最基本的 gcc 库。

## 适用于Ubuntusudo apt-get updatesudo apt-get install g++sudo apt-get install make
## 适用于Red Hat, CentOS和Fedorasudo yum updatesudo yum install makesudo yum install gcc-c++sudo yum install glibc-static
## 适用于SUSEsudo zypper updatesudo zypper in gcc gcc-c++
wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gztar -xzf 2.7.1a.tar.gzcd STAR-2.7.1amake STAR

1.2.2、conda安装

conda install -c bioconda star    ## 默认安装conda上的最新版

1.3. 基本流程

STAR的基本过程包括两个步骤：

基因组索引创建：在这一步中，用户需要提供基因组参考序列（FASTA文件）和注释文件（GTF文件）。它只需要创建一次，就可以用于所有后续的比较。

将读数与基因组对齐。

2.基因组索引的构建 2.1．基本参数

STAR --runThreadN NumberOfThreads \\--runMode genomeGenerate \\--genomeDir /path/to/genomeDir \\--genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 ... \\--sjdbGTFfile /path/to/annotations.gtf \\--sjdbOverhang ReadLength-1

参数说明：

您也可以下载创建的索引

wget https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gztar -zxvf GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gz

2.2. 建立索引时应该包括什么//

这里有几个定义

：指染色体组装后的更新序列（相当于更新包）。包括两种类型：

: 指基因组某一区域不同版本的序列，与原始基因组组装序列平行，常存在于不同个体中，可以看作是对原始参考基因组的补充

索引时最好包括主要染色体（人类的 chr1-22、chrX、chrY 和 chrM）和未映射的染色体。建索引的时候加入这个pair与索引的大小无关，实际比对的时候会有大量的rRNA序列比对。如果这些序列未包含在构建中，则此类读取将被视为未映射到基因组，甚至错误映射到基因组中的其他位置。

但是，在建立索引时，最好不要包括和。

也就是说，在 *.dna.. 中标有 PRI() 数组的文件被推荐用于索引。

3. Fastq 文件与基因组的比较 3.1。 STAR 命令参数

mkdir 5.mappingcd ./5.mapping/
ln -s ~/path/to/4.trimg/*.fq.gz ./
cat ../SRR_Acc_List.txt | while read iddoecho -n "STAR --runThreadN 12 "echo -n "--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/ "echo -n "--outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx "echo -n "--quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic "echo -n "--outFilterType BySJout --outFilterMultimapNmax 20 "echo -n "--outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 "echo -n "--alignSJoverhangMin 8 --alignSJDBoverhangMin 1 "echo -n "--chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 "echo -n "--alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 "echo -n "--chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 "echo "--readFilesIn ${id}_rm_1_val_1.fq.gz ${id}_rm_2_val_2.fq.gz --outFileNamePrefix ${id}"done > star.sh
less star.shnohup bash star.sh &

3.2. 参数块分析 3.2.1．定量比较

STAR --runThreadN 12    # 12线程--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/    # 参考基因组索引所在位置--outSAMtype BAM SortedByCoordinate    # 输出经过坐标排序的BAM文件--outReadsUnmapped Fastx   # 输出没能比对到基因组上的序列，格式与输入文件相同--quantMode GeneCounts TranscriptomeSAM    # 输出基因的Read Count文件以及转录本定量的SAM文件--readFilesCommand zcat    # 输入的fastq文件经过gzip压缩--twopassMode Basic    # STAR特有，两次对比模式--readFilesIn ${id}_1_val_1.fq.gz ${id}_2_val_2.fq.gz    # 输入文件的名称--outFileNamePrefix ${id}    # 输出文件的前缀
## 以下参数设置来自ENCODE官方，有些解释很难翻译成中文，参见下图--outFilterMultimapNmax 20    # 如果一个读段被多重比对超过20次，则认为这个读段不能被比对到基因组--outFilterMismatchNmax 999    # 每对读段允许错配999个碱基（相当于不过滤）--outFilterMismatchNoverReadLmax 0.04    # 每对读段允许出现读长*4%的碱基错配，即PE150允许2*150*0.04=12个碱基错配--alignIntronMin 20    # 内含子最短是20个碱基--alignIntronMax 1000000    # 内含子最长是1000000个碱基--alignMatesGapMax 1000000    # 一对读段之间最长距离为1000000个碱基

3.2.2、可变剪切部分

## 以下参数设置来自ENCODE官方，有些解释很难翻译成中文，参见下图--outFilterType BySJout    # 对junction进行过滤以减少错误--alignSJoverhangMin 8    # 未注释过的junction的最少的overhang是8个碱基--alignSJDBoverhangMin 1    # 注释过的junction的最少的overhang是1个碱基
## 其他参数--alignSJstitchMismatchNmax 0 -1 0 0    # 允许剪切点错配的个数（-1代表无限制）四个数字分别代表(1)非经典；(2)GT/AG或CT/AC；(3)GC/AG或CT/GC(4)AT/AC或GT/AT

3.2.3. 融合基因部分

--chimSegmentMin 20    # 每对嵌合读段较短的一端至少有20个碱基，即PE150允许280+20结构的融合基因--chimOutJunctionFormat 1    # 输出的Chimeric.out.junction文件可直接用于融合基因--chimSegmentReadGapMax 0    # 嵌合读段之间不允许空位--chimJunctionOverhangMin 20    # 嵌合的junction的最少的overhang是20个碱基，为了过滤非常短的外显子，即连续剪切事件

4.STAR参数图

序列比对 blast_blast序列比对_dnastar序列比对

等着瞧吧。 . .

现在对比量化已经完成，下期我们将对STAR的输出文件进行回顾分析

文末友情推荐

如有侵权请联系删除！

TAGS：基因构建索引比对序列

上一篇：【经典干货】程序员必看的各种优秀资料、神器及框架整理（下）

下一篇：程序员用了这个网站后，不再为变量命名头疼

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

RNA-seq数据分析完全指北-06：比对到基因组并定量

联系我们