发布时间:2025-10-15
浏览次数:0
[id_[]]
纵使理论知识学得再好,然而要能够使其付诸实践并灵活运用才可以,所以我们常常强调知行是合一的,并且实践能够产生真知。实战演练这个特定的栏目,恰恰就是带领大家从起始到末尾完整地复现单细胞文献分析其流程。好了,干货数量较多,废话数量较少,我们来观看实战的流程。
[]
[]
首先对上次改好名称的fastq数据进行质控
# 以P2586-4为例
mkdir -p $wkd/qc
cd $wkd/qc
find $wkd/raw/P2586-4 -name '*R1*.gz'>P2586-4-id-1.txt
find $wkd/raw/P2586-4 -name '*R2*.gz'>P2586-4-id-2.txt
catP2586 - 4 - id - 1.txt,P2586 - 4 - id - 2.txt,它们被重定向输出到P2586 - 4 - id - all.txt 。
cat先获取P2586-4-id-all.txt,接着对其使用xargs,然后执行fastqc 。-t 20 -o ./
[]
首先呢,是属于R1的,这一个呀,乃是16bp加上10bp的UMI,能够看到,Phred值呢,倒是比较稳定的。
接着看一看真实的测序数据,它的Phred值在起始的时候质量欠佳,处于中间阶段的时候质量较为良好,在测序即将结束的位置质量出现下降,这与测序仪的工作原理存在关联 。
测序仪在起始合成反应时,反应不稳会致质量值波动;碱基合成借助聚合酶化学反应,能在5’端向3’端合成延伸;合成中链增长时,DNA聚合酶效率降,特异性变差,至后碱基合成错误率越高。
总体上还是在Q30以上的,数据质量不错,并且没有接头序列
若是想要对于结果予以详细的知悉 ,能够前往官网的帮助资讯 ,极为的简洁明了 。
Cell 的介绍
什么是Cell ?
官网所给出的说明具备着最为纯正未被改动的原本味道:Cell属于一组,这组使得细胞3’RNA测序去对齐读取内容,还有基因与细胞,以及基因本身。
截至当下,它存在1.0版本,存在1.1版本,存在1.2版本,存在1.3版本,存在2.0版本,存在2.1版本,存在2.2版本,存在3.0版本,这8个版本之中,在1.2版本以后的是能够对Cell 3' v1以及v2试剂予以支持的,而最新的V3试剂是需要运用3.0版本的。
要对文章就哪方面进行分析呢,是使用了两个不同版本,这两个版本分别是2.0以及2.1,然后用这两个版本去做什么呢dnastar key,是用来分析两个患者的数据 :
那么这个软件能干什么事?
它主要包括四个主要基因表达分析流程:
它的结果主要是,包含有细胞信息的文件,这些文件是BAM,MEX,CSV,HDF5以及HTML文件。
相关的术语大体流程
主要根据、、的数量来定义分析的复杂程度(由浅入深)
Cell 的安装与配置
系统要求软件依赖
好多软件是与Cell捆绑一块儿的,然而,依旧得要,(要求版本在2.17以上;要是使用的话,最好用版本2.20或者还要再高些)
使用资源限制
修改后的句子:默认情况下如果在本地运行(或者使用--=local指定),它会占用90%空余内存以及所有空余CPU。若要进行资源限制可使用—或者--
下载软件
为了进行文章复现,我们要用到Cell 2.0,还要用到Cell 2.1,2.0版本是在2017年9月发布的,2.1版本是在2018年2月发布的。
# 2.0版本下载(732M)
curl -o cellranger-2.0.2.tar.gz 这不是一个可按需求改写成熟句子的文本呀,它看起来像是一个链接,包含了众多参数等信息,无法按照常规方式构句展示,请确认是否提供有误,若不是,请详细说明需求以便准确改写 。
# 2.1版本下载
curl -o cellranger-2.1.1.tar.gz 很抱歉,你提供的内容看起来是一个链接,并不符合改写句子的要求,请提供一个完整的句子以便我进行改写 。
软件被下载完成后,需要花费点儿时间来进行解压缩,这是由于它对大量多样的软件跟丰富繁杂的资源进行了打包 。
把tar,执行zxvf操作,针对cellranger-2.0.2.tar.gz包 。
之后,添加环境变量,注意,要是之前安装过别的版本,像我先前装过3.0dnastar key,然而当前只想用这个2.0版本,那么就得在~/.里把新安装的2.0版本路径放置于3.0的下方,由于linux是依据$PATH自上往下调用软件的,把新安装的路径放在.下方的话,那么在$PATH中显示的便是新路径在上方,它们的顺序是相反的。
# 举个例子
原先在我的~/.bashrc里,存在着一个叫作cell ranger 3.0的内容 , 。
export PATH=/home目录下名为biosoft的文件夹里,有一个名为cellranger且版本号为2.2.0的内容:$PATH
现在,我想要输入cellranger的时候,先拨打2.0版本,那么就在3.0的下方写下
export PATH=/home/biosoft/cellranger-3.0:$PATH
export PATH=位于/home/biosoft这个路径下的,名为cellranger-2.0.2的对象:$PATH
# 然后保存退出,激活环境变量
# 这时查看环境变量
echo $PATH
位于/home/biosoft 处的 cellranger - 2.0.2 ,以及,位于/home/biosoft 的 cellranger - 3.0 。
# 于是输入cellranger,给出的帮助文档就是
cellranger (2.0.2)
Copyright (c) 2017注意根据你的要求严格避免使用英文单词,此句按照中文习惯表述更加符合要求,若强行拆分拗口表述不符合正常语言表达逻辑且意义不大,故为你按照中文习惯重新表述了,希望符合你的需求,若有错误请指出,我会及时修改。 (此补充内容仅为说明,无需按要求书写)
你似乎没有提供具体句子内容,请提供相关句子以便进行改写。
Usage:
cellranger mkfastq
cellranger count
cellranger aggr
cellranger reanalyze
cellranger mkloupe
cellranger mat2csv
cellranger mkgtf
cellranger mkref
cellranger vdj
cellranger mkvdjref
cellranger testrun
cellranger upload
cellranger sitecheck
# 成功切换了版本!
安装就绪之后,提供了一个小工具,我觉得这是个饶有趣味之处,能使你全方位知悉你的linux性能情况,无需自行寻觅代码,此外这些代码我们可行借鉴,后续再度选用。
$ cellranger sitecheck > sitecheck.txt
为了确保软件所有的自带流程都成功安装,可以进行一个软件自检
cellranger testrun [id_954342132]=tiny
# 我使用了12个CPU,大约需要20分钟检查完
# 如果成功完整地安装的话,最后会给出这样一个报告:
cellranger testrun (2.0.2)
Copyright (c) 2017 10x Genomics, Inc. All rights reserved.
-------------------------------------------------------------------------------
Running Cell Ranger in test mode...
Martian Runtime - 2.0.2-2.2.2
正在运行预检检查,请耐心等待,……
在运行时,处于就绪状态,身份标识为微小部分,与单链核糖核酸计数器相关的计数器系统,其中的单链核糖核酸计数器,进行设置块操作 。
运行时,(分割完成),标识微小,单拷贝核糖核酸计数器代码段中的单拷贝核糖核酸计数器,设置块。
...
参考序列下载(1.2.0版本,2016年12月发布)
文章进行比对时,所比对的对象是hg38,此hg38是基于数据库的,不能直接去使用从网站下载而来的基因组,还有注释文件,对于这些需要进行过滤 。
倘若直接进行下载,其总量是11GB,当然,这里面涵盖了基因组,还有注释源文件,并且包括cell自身借助mkgtf构建而成的注释以及利用mkref构建的基因组。
curl -O这个句子无法按照要求在不影响意思的前提下改写得拗口难读,因为它是一个网址链接,并非一个完整的、可以进行语言结构调整的句子形式 。
# 然后解压
tar -xzvf包含refdata的cellranger,针对GRCh38版本,版本号为1.2.0的压缩文件.tar.gz
如果要自己尝试构建,可以使用
# 下载基因组
wget这不是一个可以按照要求进行无意义改写的普通句子呀,它是一个文件地址链接,无法进行那样的改写。地址链接一般保持原样才具有准确应用价值,不能随意去打乱其结构变得拗口难读而失去其原本指向意义 。你可以给我提供一个正常的可描述性句子让我进行改写。
解开压缩,针对人类智人,遵循GRCh38版本,关于DNA的主要组装部分的,后缀名为fa且经过压缩的文件,即Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 。
# 下载注释
wget网站传输协议为ftp,其地址是ftp.ensembl.org,公开版本日期是release - 84 ,文件类型为gtf ,所属物种是homo sapiens ,具体文件是Homo_sapiens.GRCh38.84.gtf.gz 。
针对Homo_sapiens.GRCh38.84.gtf.gz这个 ,去执行gunzip操作 。
# 软件构建注释
# mkgtf [--attribute=KEY:VALUE...]
细胞 ranger 制作基因转录本格式文件,关于智人的基因组版本 38 且版本号为 84 的基因转录本格式文件,智人的基因组版本 38 且版本号为 84 经过筛选后的基因转录本格式文件,
--attribute=gene_biotype:protein_coding \
--attribute=gene_biotype:lincRNA \
--attribute=gene_biotype:antisense \
--attribute=gene_biotype:IG_LV_gene \
--attribute=gene_biotype:IG_V_gene \
--attribute=gene_biotype:IG_V_pseudogene, 其中IG_V_pseudogene表示某个特定的基因生物型类别,它具有独特的生物学特征和相应功能的体现, 就犹如某种特定的基因类型标识一般, 有着自身专门的定义范畴和相关特性的关联, 是用于描述基因相关属性的一种特定表述方式, 代表着一类具有特定性质的基因生物型, 它在基因研究领域中占据着特定的位置和有着特定的意义。
--attribute=gene_biotype:IG_D_gene \
--attribute=gene_biotype:IG_J_gene \
--attribute=gene_biotype:IG_J_pseudo_gene, 其为一种特殊类型, 属于特定的基因分类之中的一种, 是具有特定功能状态的基因表现形式 \
--attribute=gene_biotype:IG_C_gene \
--attribute=基因生物类型为免疫球蛋白恒定区假基因,\
--attribute=gene_biotype:TR_V_gene \
--attribute=基因生物类型:TR_V假基因 ,
--attribute=gene_biotype:TR_D_gene \
--attribute=gene_biotype:TR_J_gene \
--attribute=gene_biotype 是这样子指定的,它代表的是 TR_J 这种形式的假基因 ,\
--attribute=gene_biotype:TR_C_gene
# 我瞧见此处写了这般多的gene_biotype(此即基因的生物类型)的键值对,不由心生好奇,GTF里存有多少种基因类型呢?
$ cat人属智人种的GRCh38版本84号经过筛选的基因转录本格式文件,该文件用于基因注释等 ,通过使用grep命令 进行查找,查找特定的内容 ,|将前面命令的输出传递给后面的命令 ,grep是一个在文本中查找匹配模式的工具 ,它通过接受输入文本 ,然后在其中搜索指定的模式 ,并输出包含该模式的行 ,用于在文本文件中进行快速的信息检索 ,针对Homo_sapiens.GRCh38.84.filtered.gtf文件进行操作 。,-v "#" |awk -v FS='gene_biotype ' 'NF>1{print $2}'|awk -F ";" [id_1312548749]|sort | uniq -c
213 "IG_C_gene"
33 "IG_C_pseudogene"
152 "IG_D_gene"
76 "IG_J_gene"
9 "IG_J_pseudogene"
1209 "IG_V_gene"
646 "IG_V_pseudogene"
125 "TR_C_gene"
16 "TR_D_gene"
316 "TR_J_gene"
12 "TR_J_pseudogene"
848 "TR_V_gene"
110 "TR_V_pseudogene"
45662 "antisense"
58181 "lincRNA"
2337766 "protein_coding"
# 软件利用构建好的注释,去构建需要的基因组
cellranger mkref --genome=GRCh38 \
--fasta=智人,基因组参考序列GRCh38版本的,脱氧核糖核酸的,主要组装的,序列文件.fa
--genes=人属智人种的基因组参考序列GRCh38版本下的84号经过筛选的基因转移格式文件,
--ref-version=1.2.0
往期精彩
倘若你针对单细胞转录组研究存有兴趣,然而却不清楚怎样入门 。那么或许你能够留意下接下来的课程 。
单细胞天地欢迎你
单细胞天地
生信技能树
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码