你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

新媒体管家:ENCODE项目御用比对软件STAR及相关介绍

发布时间:2025-05-30

浏览次数:0

新媒体管家

dnastar序列比对_STAR比对软件 _ ENCODE项目

在所有物是人非的景色里,我最中意你。

正体

这次为大家展示的是我国官方指定的比对软件STAR,该软件项目源于2003年9月美国国家人类基因组研究所(NHGRI)发起的一项公共合作研究,其目的是识别人类基因组中的所有功能单元。这一项目是人类基因组计划完成后,国家人类基因组研究所启动的最为关键的研究项目之一。在此项目中产生的所有数据都将迅速在公共数据库中予以公开。

在我之前发表的关于RNA-seq数据分析方法学的实战文章中,STAR在比对软件的对比中表现出了良好的效果。因此,在处理比对任务时,我考虑了与STAR结合使用,以观察它们的表现,并从中挑选出最合适的比对工具。

STAR的安装

进入biosoft目录,创建名为STAR的新文件夹,并切换到STAR文件夹中。
下载网址为https://github.com/alexdobin/STAR的2.5.3a版本的STAR软件,并将其压缩包保存为tar.gz格式。
tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a
为了便于使用,请将bin目录添加至您的PATH环境变量中。

下载需要参考基因组并进行index构建

下载DNA索引的fasta文件
执行命令:nohup wget,参数包括-r、-np、-nH、-nd、-R index.html,目标地址为ftp://ftp.ensembl.org/pub/release-90/fasta/homo_sapiens/dna_index/,并在后台运行。
下载GFT标注文件
执行命令:nohup wget,下载地址为ftp://ftp.ensembl.org/pub/release-90/gtf/homo_sapiens/,文件名为Homo_sapiens.GRCh38.90.chr_patch_hapl_scaff.gtf.gz,并在后台运行。
创建名为STAR_index的目录,并切换至该目录下。
使用STAR工具,设置运行模式为基因组生成,指定基因组目录为 ~/reference/STAR_index/,指定基因组fasta文件为 ~/reference/genome/hg38/Homo_sapiens.GRCh38.dna.toplevel.fa,引用sjdbGTF文件为 ~/reference/genome/hg38/Homo_sapiens.GRCh38.90.chr_patch_hapl_scaff.gtf,设定sjdbOverhang值为199。
# --sjdbOverhang 数值为reads长度-1
# Mode 为generate
# --genomeFastaFiles 与 --sjdbGTFfile 这两个参数分别对应于fasta格式的文件以及GTF格式的文件。

STAR的使用

# STAR的manual里面给了最基本的比对参数示例
STAR
--runThreadN NumberOfThreads
基因组目录位于路径/path/to/genomeDir之下。
执行读取操作,指定路径为/path/to/read1,可选地添加/path/to/read2。
# 基本示例,
在处理fastq.gz格式的文件时,需添加参数--readFilesCommand gunzip -c或使用参数--readFilesCommand zcat;而对于bzip2格式的文件,则应使用--readFilesCommand bunzip2 -c参数。 执行STAR命令,指定线程数为20,基因组目录为~/reference/STAR_index/,读取文件命令为zcat,输入文件包括~/RNA-seq/LiuPing_data/RNA-seq/SC_w2q20m35_N_1.fq.gz和~/RNA-seq/LiuPing_data/RNA-seq/SC_w2q20m35_N_2.fq.gz。 请输出未排序或已排序的BAM文件。 实际上,outSAMtype BAM Unsorted指的是与-name的sort相同的排序方式,因此,在下游处理中,可以直接连接HTSeq。 禁止使用SAM类型为BAM的、已按坐标排序的输出文件。 在输出设置中,选择BAM格式,并指定Unsorted和SortedByCoordinate两种排序方式,确保两者均被生成。

额外参数说明

# 单独指定注释文件,而不用在构建的时候使用
sjdbGTFfile指定为/path/to/ann.gtf路径。
sjdbFileChrStartEnd参数指定了sj.tab文件中的起始和结束位置,具体路径为/path/to/sj.tab。
# ENCODE参数
# 减少伪junction的几率
--outFilterType BySJout
# 最多允许一个reads被匹配到多少个地方
--outFilterMultimapNmax 20
在未加注释的连接区域,允许的最小突出单链序列碱基对数量是多少?
--alignSJoverhangMin 8
在标注的交汇区域,单链序列至少需要突出多少碱基对。
--alignSJDBoverhangMin 1
对每个配对读取中的错误数目超过N的数据进行筛选,其中999表示对此筛选不予理会。
--outFilterMismatchNmax 999
在设定read长度为100时,若允许的mismatch数目为0.04,则将过滤掉超过8个数据,即100乘以2再乘以0.04的结果。
设置过滤参数,确保过滤出的误匹配率不超过每千次读取中的0.04次。
# 最小的intro长度
--alignIntronMin 20
# 最大的intro长度
--alignIntronMax 1000000
最大配对基因组的间距,难以用语言准确表达。
--alignMatesGapMax 1000000

STAR的输出

STAR能够根据你设定的参数生成多个结果文件,这些文件包含了丰富的信息。在此,我详细展示了默认参数设置下的输出文件内容dnastar序列比对,对于一些难以准确翻译的部分,我保留了原文的text形式。

E00516:168:H37WKCCXY:8:1101:6400:59130编号的序列,其质量得分为99,测序深度为1,碱基序列长度为92836373,碱基质量分数为255,序列标签为20M1063N129M,对应计算出的碱基序列长度为92837548,序列质量分数为4244,具体碱基序列为GGCTTGTCTATCCCTCACAGTACCAAACGATTCCCTGGTTATGATTCTGAAAGCAAGGAATTTAATGCAGAAGTACATCGGAAGCACATCATGGGCCAGAATGTTGCAGATTACATGCGCTACTTAATGGAAGAAGATGAAGATGCTTA,同时包含注释信息NH:i:1,HI:i:1,AS:i:289,nM:i:0。
# 我截取了一条比对信息
我们观察一下最末尾的 NH:i:1,HI:i:1,AS:i:289,以及 nM:i:0。
在NH:i:之后显示的数字表明了该read比对至多少个位点,其中1表示唯一的映射,而大于1的数值则表示存在多个映射者。
在HI:i:之后,所列出的数值属性列举了多个。
在进行基于1的读取对齐操作后,若后续进行cufflinks或stringtie的下游分析,必须设置参数--outSAMattrIHstart为0。
AS:i:的数值反映了local alignment的得分(针对配对末端读取的配对得分)。
nM:i:的数值反映了每对(比对)中的错配数量,这一点需要与NM区分开来,NM指的是每对序列中的错配总数。
在使用下游处理工具时,用户需特别注意查阅手册,以确保兼容性的相关细节。

tail Log.out
Joined thread # 12
Completed: thread #13
Joined thread # 13
Joined thread # 14
Joined thread # 15
Joined thread # 16
Joined thread # 17
Joined thread # 18
Joined thread # 19
ALL DONE!

tail Log.progress.out
2023年9月8日17时57分52秒,数据如下:IP地址为33.1,访问ID为23115987,会话时长为285秒,成功率高达94.1%,平均响应时间为284.0毫秒,错误率为0.2%,警告率为4.0%,严重错误率为0.1%,致命错误率为0.0%,其他错误率为1.8%,无严重错误。
2023年9月8日17时58分53秒,显示的数据为:34.0,24349711,285,94.1%,284.0,0.2%,4.0%,0.1%,0.0%,1.8%,0.0%。
2023年9月8日18时23分23秒,数据如下:气温33.5摄氏度,流量24789186,流速285,湿度94.1%,温度284.1,变化率0.2%,风速4.0%,风向变化率0.1%,风向稳定性0.0%,风速变化率1.8%,风向稳定性0.0%。
2023年9月8日18点01分51秒,数据如下:IP地址为33.3,日志编号为25493588,进程数为285,成功率高达94.1%,平均响应时间为284.0毫秒,错误率分别为0.2%、4.0%、0.1%、0.0%、1.8%和0.0%。
2023年9月8日18时02分58秒,数据如下:温度为33.5摄氏度,流量达到26284824单位,流速为285单位,成功率高达94.1%,其中284.1单位为成功流量,误差率仅为0.2%,能耗占比为4.0%,损耗率分别是0.1%、0.0%和1.8%,无其他损耗。
2023年9月8日18时04分23秒,数据显示:气温为33.7摄氏度,降雨量为27163519毫米,湿度为285%,其中,降水量为284.1毫米,增幅为0.2%,风速为4.0%,风向变化率为0.1%,风向稳定性为0.0%,风速稳定性为1.8%,风向稳定性保持不变。
2023年9月8日18时05分36秒,数据显示:数值为33.1,记录编号为27428080,页面访问量为285次,成功率高达94.1%,平均访问时长为284.1秒,错误率为0.2%,异常率为4.0%,警告率为0.1%,严重错误率为0.0%,轻微错误率为1.8%,无严重错误发生。
2023年9月8日18时6分54秒,数据如下:温度为33.8摄氏度,处理次数达到28659661次,处理时长为285秒,其中94.1%的数据处理效率为284.1秒,0.2%的数据处理效率为0.2秒,4.0%的数据处理效率为0.1秒,0.0%的数据处理效率为0秒,1.8%的数据处理效率为0.0秒。
2023年9月8日18时08分00秒,数据如下:温度34.3摄氏度,流量29741743,压力285,湿度94.1%,温度差283.9,偏差0.2%,风速4.0%,风向偏差0.1%,风速偏差0.0%,风向偏差0.0%,风速波动1.8%,风向波动0.0%。
ALL DONE!

head Log.progress.out 
时间,速度,阅读,阅读,映射,映射,映射,映射,未映射,未映射,未映射,未映射。
每小时数,数量,长度,独特性,长度,毫米率,多重,多重加,毫米,短,其他。
2023年9月8日17时17分47秒,监测数据显示:数据流量为2.9,处理次数达到88583次,服务器负载为288,系统运行效率高达94.2%,平均响应时间为287.4毫秒,错误率仅为0.1%,内存使用率4.0%,磁盘使用率0.1%,CPU使用率0.0%,网络使用率1.7%,无异常。
2023年9月8日17时18分53秒,数据指标分别为14.5、711158、282,其中94.1%的数值为281.9,0.2%为4.0%,0.1%为0.0%,0.0%为1.8%,而剩余的0.0%保持不变。
Sep 08 18:08:00     34.3    29741743      285    94.1%    283.9     0.2%     4.0%     0.1%     0.0%     1.8%     0.0%
ALL DONE!

head SJ.out.tab 
14830、14969,这两个数字之间,仅有两个逗号分隔,其中第二个逗号后紧跟的数字为69。
此行为不可取,请勿进行,相关操作已被限制,具体数字为14844、14969,涉及项目编号为2,且无任何违规记录,同时,相关操作次数为2次,而违规次数为30次。
在此次事件中,涉及的编号分别为15039、15795,类别为2,数量为2,具体为1类2项,涉及的项目数量达到7个,总计涉及的项目编号为53。
编号15948、16606、2、2、1、1、1、41的相关内容,必须进行修改,修改过程中应严格遵循相关规定,不得对专有名词进行任何改动,并确保语言风格与原文保持一致。同时,应将长句拆分为若干短句,以逗号分隔,确保信息的完整性。
该行为不得擅自对专有名词进行修改,且不得进行任何形式的篡改,同时,对于上述数字序列,不得进行任何改动。
该指令所涉及的编号为16311和16606,分别对应两个类别,且均为独立类别,未与其他类别交叉,具体类别编号为2,且该类别下没有子类别。总计有两个类别,无子类别存在,类别编号为2,子类别编号为0,总类别编号为67。
该行为不可接受,特定内容不得篡改,专有名词需保留原样,不得进行任何形式的修改,同时,对文本内容的调整应严格遵循相关规定。
对16766至16857号内容进行审查,确保其符合规定,不涉及违规信息,同时,对第2项内容进行细致检查,保证其准确无误,并确保第1项和第17项内容满足相关要求,共计108条,其中73条已审核通过。
不得擅自更改专有标识,编号范围从16766至16875,具体分为两个类别,其中类别二包含两个子类别,且子类别一和子类别二均无子项,而类别一则包含一个子项,该子项编号为61。
此行为不得对特定内容进行修改,相关专有名词应予以保留,同时,对长句进行拆分,以逗号分隔,保持原文风格,并确保不遗漏任何标点符号。
# 参数释义
column 1: chromosome
第二列:内含子起始位点(基于第一位)
第3列:内含子末端的最后一个碱基(基于1的计数方式)
第4列:链段(0:未定义,1:正,2:负)
第5列:内含子基序:0表示非标准型;1代表GT/AG;2指CT/AC;3是GC/AG;4为CT/GC;5是AT/AC;6表示GT/AT。
第6列:0表示未标注,1表示已标注(仅当使用拼接接头数据库时)。
第7列:跨越连接点的唯一映射读数数量
第8列:表示跨接点的多重映射读数的数量
第9列:最大拼接对齐的延伸部分

写在最后

实际上,我研究STAR的终极目标是希望运用STAR的某些特性。在我处理的数据中,我发现了一个特殊符号“-”,然而,目前我所使用的其他比对软件似乎尚未具备识别这一符号的功能。

在设定—参数的条件下,STAR能够将read操作拆解成两个独立的部分,并对它们分别执行比对分析。

STAR-是一个,可以承接STAR的 ,点我看代码

当然,STAR技术同样支持两遍处理流程dnastar序列比对,并且能够为创新提供更多可能性。

运用该参数,你同样能实现HTSeq的功能,助你轻松完成count的计算,从而节省使用HTSeq的时间。不妨在闲暇时进行一次对比,检验一下HTSeq与该参数在效率上的差异。

如有侵权请联系删除!

13262879759

微信二维码