你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

⑤转录组上游数据分析——hisat2比对

发布时间:2023-12-08

浏览次数:0

在上一篇文章中,我们过滤了数据以进行质量控制,所以现在下一步是进行比较。 在比较之前,我们要明白比较的目的是什么? RNA-Seq数据比较和DNA-Seq数据比较有什么区别?

RNA-Seq数据分析可以分为多种类型,例如寻找差异表达基因或寻找新的选择性剪接。 如果我们要寻找差异表达的基因,我们只需要确定不同的read技术即可。 我们可以使用bwa等比较工具,或者align-free工具,后者速度更快。

但如果您需要找到新的或替代的 RNA 剪接,您将需要像 STAR 这样的工具来找到剪接位点。 由于RNA-Seq与DNA-Seq不同,当DNA转录为mRNA时,内含子部分被去除。 因此dnastar序列比对,如果反向的mRNA cDNA无法与参考序列进行比较,则会将其分离并重新比对,以确定中间是否有内含子。

本文重点

下载索引

建立索引

比较

1.下载索引

人类索引一般都是现成的。 我建议你尝试下载现成的,使用服务器自己创建索引,时间比较长。

#切换到工作目录,并创建index文件夹
master@master:~$ cd User/Projects/rna/biotree && mkdir index && cd index

#下载索引文件,并解压
master@master:~/User/Projects/rna/biotree/index$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz

master@master:~/User/Projects/rna/biotree/index$ tar -zxvf hg19.tar.gz

2. 建立索引

工具中有一个命令叫-build。 您只需要指定基因组fasta序列文件和构建的索引系列文件的前缀:

master@master:~$ conda activate rna

(rna) master@master:~/User/Projects/rna/biotree/index$ hisat2-build GRCh38.p13.genome.fa hisat2_index_GRCh38

请记住,这个构建的索引系列文件的前缀非常重要。 后面的比较实际上需要这个前缀。

3. 比较

# hisat2 -p 线程数 -x 索引 -1 转录组文件1.fastq -2 转录组文件2.fastq -S 输出文件.sam 

(rna) master@master:~/User/Projects/rna/biotree$ hisat2 -p 10 -x /index/hisat2_index_GRCh38 -1 SRR11618610_1.fasta.gz -2 SRR11618610_2.fasta.gz -S output/SRR11618610.sam

#重复其他两个数据

在复现这些代码的过程中,你可能会遇到各种问题dnastar序列比对,或者我的代码可能不正确。 这时候你需要有足够的耐心和思考,相信自己能做到。

如有侵权请联系删除!

13262879759

微信二维码