发布时间:2023-05-31
浏览次数:0
完成它
R
转录组分析方法
-5·30-
应该总结
啦啦啦~明天就是星期六啦!
明天的帖子来自粉丝投稿~一起来看看吧!
01
转录组()
定义:转录组的概念最早由等人提出。 in 1997 [PMID:],它指的是在特定物种的特定组织或细胞中转录的所有RNA的集合。
应用:
① 转录组可以阐明基因表达的时空动态,反映生物个体特定生长发育阶段特定细胞、组织或器官中所有基因的转录表达水平;
② 同时dnastar拼接序列,转录组也常被用来比较一个器官、组织或细胞在不同环境条件下的基因表达差异;
02
RNA-seq数据分析流程
RNA-seq,即RNA,RNA测序。
实验步骤如下:
① 靶组织总RNA的制备
② RNA样本的片段化
③反转录成cDNA片段
④测序文库构建
⑤ 原始数据处理(基于Linux或)
那么如何分析RNA-seq数据呢?
常规的RNA-seq数据分析流程如下:
数字。 RNA-seq分析过程
下面,将详细解释分析操作的每个步骤。
03
原始数据质量控制
①原始数据格式:
序列确定后,输出FASTQ格式的原始数据();
②序列质控软件:
序列质控软件主要包括:软件、软件等。
一)软件:
用于:过滤掉 ()、低质量、重复和未检测到的序列以获得;
二)软件:
用于:检查的核苷酸质量值(score,Q-score)和核苷酸分布,判断测序和过滤的功效,用核苷酸测序错误率(Q20和Q30)来表示质量。
其中:Q20和Q30分别代表测序错误率为1%和0.1%的核苷酸比例。
GC 浓度和样本间相关性也用于原始测序质量鉴定。
04
的比对拼接
完成了从到的原始数据质量控制,接下来就是的比对拼接。
一般来说,对于不同类型的测序数据,有不同的拼序列和序列比对方式:
① 参考基因组序列测序数据:
使用参考基因组序列组装测序数据时,您可以:
a) 首先通过序列比对定位()到参考基因组的所有reads;
b) 将比对到相应位置的reads降维,生成代表所有可能可变剪切模式的图(graph);
c) 最后将graph信息转化为信息;
具体步骤如下:
a) 首先从UCSC数据库()下载参考基因组序列,用软件构建成基因组索引(index)文件。
b) 随后借助软件,在建立的索引文件、全基因组序列信息和参考基因注释信息的指导下,将质控测序reads映射到基因组中。
常用的序列比对软件如下:
,, STAR, GSNAP, SOAP2, S-MART等
② 无参考基因组序列的测序数据:
在本领域中,在没有参考基因组序列的情况下对测序数据进行序列组装也称为从头测序组装()。
它的基本流程是:
a) 将每个测序读长组装成一个();
b) 重新组装成支架();
c) 最后填充脚手架中间的空隙,组装成一个连续的长序列;
d) 与模型动物序列(, BLAST)比对确定基因序列;
常用的序列比对软件如下:
以软件为代表的从头组装平台为转录组从头组装提供了有效的工具。
该软件包含 3 个独立的模块。
使用时,依次运行三个软件模块,将reads组装成完整的转录本。 拼接策略是对进行分割拼接,得到多个独立的de maps(基因转录本),然后通过reads来追溯reads。 最后通过de graph 获得全长转录本,根据graph 区分直系同源基因。
从头开始组装常用的软件有:
埃德纳
深渊
成绩单问题:
在真核细胞中,每个基因可以形成多个转录本。 这会导致同一个测序片段同时出现在多个转录本中,使RNA拼接成多个不连通的图结构,每个图对应基因对应的转录本。
上述两种方法在进行序列拼接时,希望将算法问题简化为各个基因的拼接问题,提出了拼接图、重叠图、去图等多种图模型,以实现各个图与对应的图的统一。基因。 一一对应。 两种方法采用不同的拼接策略,各有各的使用范围,互为补充。
一般来说,由于参考信息的缺失以及测序错误和覆盖不均匀的影响,从头组装算法的准确率明显高于基于参考基因组的组装算法。 但有些物种没有完整的基因组序列,从头组装方法对这个物种来说是开创性的。
此外,虽然个体物种具有完整的基因组序列,但由于个体癌症等诱因,基因组存在严重的突变和缺失。 这时,从头拼接方法就会显示出显着的优势。
需要解决的问题:
可以说,尽管经过几年的研究,序列拼接仍未得到圆满解决,其主要问题如下:
A);
B) 序列组装的时间和空间挑战;
c) 序列片段错误(杂质序列和核苷酸读出错误);
d) 不能准确确定它们之间的位置和距离;
上述类型的问题通常会导致数据库中不可避免的拼接错误。
05
转录物表达谱
建立的转录组分析方法可以根据与基因组相比的序列数对各基因的表达量进行归一化处理、定量或表达状态分析和差异表达分析。
常用的软件有:
/,, RSEM, DESeq, edgeR
在这些软件的帮助下,可以计算:
A) 表达基因作图的reads数量;
B) 基因宽度和结构;
c) 获取基因的RPKM()或FPKM(ds)值;
D) 最终表达差异分析
通常,
A) 软件:您可以从位于基因组上的同一转录本中获取片段;
b) 软件:可将此类片段组装成全长转录本;
c)-pare软件:将全长转录本与已有的基因组注释文件进行比对,评估转录本的建立,定义内含子、外显子、基因间等区域;
D) 软件:每组样本可以拼接得到各自的转录本信息,软件可以将它们合并成一个转录本集,作为下一步差异表达信息分析的依据
E)中包含的软件可用于估计两个或多个样本的基因表达量,但针对基因表达量,对表达量进行统计分析和统计检验,得到不同样本间差异表达的RNA分子.
F) DESeq包:在这一步中,DESeq包也可以用来分析不同处理之间的差异表达。 通过估计相同基因在两次处理中表达量相等的P值,然后利用多重假设检验对F值进行校准,校准后的P值可用于检验差异表达基因的显着性。
06
可变剪接分析
可变剪接的分析通常使用软件将reads与基因组序列进行比对,根据位置、长度和结构信息预测剪接体的类型,然后使用软件包分析剪接体的表达差异。
其中,可用的软件包包括:
,,,, 等等。
目前转录组序列的剪接位点识别算法主要有两种:
① 以基因组序列潜在位点为核心的剪接鉴定:
常用算法:
优点:可以同时使用多机多核CPU资源并行运行,分析效率大幅提升
缺点:其剪接模式搜索依赖于潜在基因组位点的预识别,只能检测特定距离内的保守剪接方式
② 以reads分割和匹配为中心的拼接位点识别:
常用算法:
优点:完全以reads为中心,搜索拼接位点,不受保守拼接方式限制
缺点:由于基因组本身有很多重复序列,测序过程中产生的短片段过多,影响估计效率和匹配精度,增加了剪接位点的可靠性
常用的变剪力数据库有:
数据库
马斯
.php
欧盟
.com
07
基因功能富集分析
基因功能:是指代表某种功能特性和生物过程的一组基因功能。
基因功能富集分析:可将数百种具有不同功能的基因、蛋白质或其他分子还原到不同的生物通路。 其中,在生物体中实现某些功能性状的一组基因或蛋白质往往富集到某条路径上。 基因功能富集分析降低了后续分析的复杂性,还可以发现在生物过程中起关键作用的生物通路,有助于阐明和理解生物过程的基本分子机制。
常用的基因功能数据库包括:
GO, KEGG,,,,,, 尔格, Gen-MAPP
例如:
①KEGG数据库:
概述:能够系统分析基因产物的细胞代谢途径和功能,通过KEGG分析实现表达基因的富集,并获得相应的注释。
方法:可通过KOBAS或DAVID等软件实现分析,KEGG网站提供各生物学通路的专用图。
②数据库:
概述:数据库提供生物通路划定模板,研究者可以按照数据库要求和规定的标准上传相应的生物通路分析结果。
但数据库不负责对用户上传的生物通路分析结果进行质检,导致数据库资源质量参差不齐,重复现象较多。 尽管如此,该数据库拥有庞大的数据资源,而且与KEGG数据库不同的是,它包含了大量代谢途径以外的生物学途径,对于筛选能力强的研究者具有重要的参考价值。
③数据库:
概述:该数据库可免费使用。 用户可以利用数据库资源勾勒出生物通路,并以MAPP格式保存。 这个文件很小,很容易在网上传播,有利于研究者之间随时交流。
08
蛋白质相互作用网络
蛋白质相互作用网络
(-,生产者价格指数)
概述:蛋白质相互作用网络可用于分析不同基因表达蛋白质参与的生物信号传递、基因表达调控、能量物质代谢、细胞周期调控等生命过程。
意义:除了了解蛋白质之间的功能关系外,还可以了解癌症等特殊生理状态下生物信号和能量物质代谢的反应机制。
常用的数据库包括:
SWISS-PROT, , PDB, SDSPB 等
软件:
将差异表达的基因数据导出到软件中,实现蛋白质相互作用网络的可视化分析。
对于数据库中没有注释信息的物种,需要将候选基因序列与数据库中收录的近缘物种的基因进行比对,从而利用数据库中已经存在的物种的蛋白质相互作用关系进行预测候选靶基因之间的PPI。
这些方法首先需要根据文献信息确定候选分子之间是否存在或可能存在相互关系,然后利用软件建立相互作用网络并对关键节点进行分析,最终确定PPI。
网络系统生物学可以利用网络分析的方法,从整体层面研究生物体内各种相关生命活动之间的相互关系和动态变化dnastar拼接序列,为全面阐明生命奥秘提供重要的研究方法。 网络系统生物学综合分析文献挖掘所获得的信息,填补了还原论分析方法的不足,更有利于深入认识生命现象的科学本质。
09
加权基因共表达网络分析
加权基因共表达网络分析
(-, WGCNA)
概述:WGCNA可以找出共表达的基因,基因网络与表型的相关性,以及基因网络中的核心基因。
用途:适用于不同器官或组织的发育调控、同一组织不同时期的发育调控等复杂数据模式的转录组数据挖掘。
方式:
两个环节:WGCNA分为表达量降维分析和表型关联两个环节;
四个步骤:WGCNA的实现包括四个步骤:基因间相关系数的估计、基因模块的确定、共表达网络的建立、模块与性状的关联;
通过上述网络分析,找到调控中心的hub基因,进而深入分析该基因,挖掘其功能。
传统方法的缺点:
由于传统的表达调控网络分析方法是基于基因间表达的相关系数,当样本数量较少时,相关系数的可靠性较差,得到的调控网络价值不大。
WGCNA的优势:
WGCNA抛开以往通过设置相关系数的阈值来判断基因间“相关”或“不相关”的做法,而是对基因表达量的相关系数进行适当的加权,避免信息丢失,使得相应的基因表达式调节网络近似服从无标度网络分布。
10
成绩单数据分析的两个问题
在之前的讨论中,我们简要回顾了转录组数据的分析流程以及基本分析所涉及的各个部分。
其实在转录数据分析的过程中,有两个重要的问题:
① 如何从海量测序数据中准确拼接RNA序列;
② 如何筛选目标候选基因,从海量RNA序列中发现新基因;
下面,我们将着重介绍一些筛选目标候选基因和发现新基因的方法:
11
序列同源性比较
基本假设:
如果基因 A 与基因 B 同源,则基因 A 可能具有与基因 B 相似的功能。
基本方式:
富集分析是对转录组数据分析得到的差异基因进行富集分析,找出相关通路富集的候选基因,然后在NCBI上找到该基因或蛋白质序列,再利用序列同源性比对预测新基因的功能。
借助同源比对算法,在DNA或蛋白质序列数据库中查找待测序列的同源基因,得到一系列与该基因同源性较高的基因或片段。 该基因或片段的已知功能信息为进一步研究该基因的功能提供了指导。
实现方式:
① 同源检索:
软件一:软件:
可以通过软件进行同源基因检索。 在序列检索时,根据序列的结构和可能的功能,通过旁系同源基因和直系同源基因两种方式,利用软件对待检索序列进行检索。
一般认为,具有相同功能域的基因序列,即使来自不同物种,也可以定义为旁系同源基因;属于不同功能域的基因序列,即使来自同一物种,也可以定义为直系同源基因。 同源搜索为基因组进化解剖和预测候选基因功能提供了证据。 而且,基于该软件寻找旁系同源基因必须在相对完整的基因组之间进行;
软件二:.0软件:
此外,基于隐马尔可夫模型,.0软件可用于检查序列比对结果中的保守区域,识别序列中已知的核苷酸或蛋白质结构域,揭示序列与序列之间的超家族、家族和亚家族。物种特异性。
优点是可以测量远处的同源序列。
同源检索为发现进化或物种分化过程中的关键功能基因提供了重要工具。
②多序列比对:
就是同时对多个序列进行同源比较,发现它们共同的结构特征。 该方法为寻找基因家族或蛋白质家族的保守区域提供了重要的技术支持。 保护区与家庭成员的功能密切相关。 这样构建的蛋白质家族数据库将有助于搜索和拯救新基因所属的蛋白质家族及其保守区域,并提供该家族其他成员的结构和功能信息。
多序列比对软件主要包括:
/X,,, SAGA, MEGA7, MSA, MAFFT 等
这种多序列比对软件是使用各种程序开发的。
其中应用最广泛的比对程序是基于渐进式比对算法的Clust-alW程序,但其准确率不高。
为此,相继开发了其他比较程序,其中比较有代表性和影响力的有:
基于迭代求精策略的PRRN/PRRP;
基于傅立叶变换;
基于多次迭代和 T-COF-FEEJ 等人。
这个新程序提高了多序列比对的速度和精度。
12
选定的信号方法
选择信号():
物种的产生经历了自然选择或自然与人工的双重选择。 在常年定向选择的压力下,生物体的个体性状和表型会发生定向变化,基因组各个区域的遗传组成会发生质变和量变,从而导致位基因频率的不均等变化,甚至形成新的突变。
其中,这些因选择而在基因组中留下的印记被称为选择信号( )。
利用选择信号法对转录组数据进行功能基因挖掘的步骤如下:
① 首先,借助Gatk等软件,对转录组测序得到的SNP(sigle)数据进行筛选;
②结合XP-EHH(cross-)方法测量SNP数据,获得组选择信号;
③然后通过and方法扫描组选择信号,最终得到相关性状的基因组选择区域。
其中,由于每个选中区域的基因较多,因此先估算每个基因中每个SNP位点的XP-,然后将XP-从低到高排序,SNP位点的得分与得分最高的基因定义为其选择的难度,最后将该区域XP-最高的SNP位点得分确定为该选择区域的选择硬度,因此XP-最高的基因SNP该区域的位点是选择区域的候选基因。
建立系统发育树对筛选出的候选基因进行分析,挖掘出与种群和目标性状密切相关的筛选基因。 同时,将其与自然选择、人工选择联系起来,进一步解释被选择的基因在当时的环境和进化中的作用。
13
极端数据
极端数据方法基于以下假设:
健康组织中高表达的基因对于生物体充分发挥其生理功能具有潜在意义。
在实际应用中:
使用百分位数法,将同源基因集分为:
高表达组:表达量在前10%的基因组;
中央表达组:位于基因组的10%~50%;
低表达组:位于50%~90%的基因集中;
极低表达组:位于最后10%的基因组;
其中,极低表达组和高表达组被定义为极端数据集。
极端数据方法是指:
比较物种A的高表达组和物种B相应组织的极低表达组共有的同源基因,两者的交集就是物种A表达的同源奢侈基因,即基因为在物种A中高表达,而在物种B的相应组织中表达。组织表达很低或不表达。
类似地,可以筛选出在物种B组织中特异性高表达而在物种A相应组织中表达极低或不表达的同源基因。
目前,百分位数法已被广泛用于挖掘具有较高表达或物种特异性表达的同源基因。 但由于测序平台、比对方法和软件的差异,该方法容易出现一定的系统偏差,导致假阴性结果比例高,影响基因挖掘的准确性,高表达基因定义标准不当也可能影响这项技术。 挖掘疗效。
14
G0 注释和 KEGG 富集
基于GO和KEGG数据库开发:
David、GOSim等软件可以实现差异表达基因的注释、富集分析和功能预测。
围棋分析:
一般认为,一组具有相同生物学功能和调控机制的基因具有相似的G0注释项。 只要计算出已知基因与候选基因之间的GO项相似度,就可以推断出候选基因产物的近似函数。
通过与已知功能基因的GO语义进行相似度比较,为未知基因的功能预测提供重要参考。
DAVID、GO是GO富集分析常用的数据库,可以通过GO对差异基因进行分类,并基于离散分布分析分类结果的显着性、误判率和富集程度,得到与差异基因明显相关的结果实验目的,对低误判率、高富集度的基因功能进行分类,然后从分类中找出属于同一个GO功能分类的发生变化的基因,并检验统计显着性得到发生变化的基因的生物学功能主要参与.
凯格分析:
通过估计差异表达基因通路的超几何分布概率,富集每条差异表达基因通路上的所有差异表达基因,然后通过统计检验确定与个体差异表达基因显着相关的通路,从而找到差异表达基因的细胞生化基因可能参与的过程。
通路富集分析的生物学假设是:
通路中上游基因表达量的变化会引起下游相关基因表达量的变化,进而改变通路中大量基因的表达量,表达量的变化将达到统计学上的显着水平的富集分析。
在众多的差异表达基因中,很多基因并不在相应的通路中直接相互调控,而是参与某一过程的不同环节。 这些基因简单地构成了通路的总体轮廓。
实际剖析时:
将差异表达基因集导出至通路分析软件,通过超几何分布概率估计和差异表达基因的显着性检验,预测差异表达基因显着富集的通路。
事实上,预测结果仍需深入观察和了解某一核心通路中基因的相互作用,才能判断差异表达基因是否具有生物学意义。 可以解释,具有生物学意义,也可以作为后续生物学验证分析的候选基因。
KEGG等数据库收录了现有的研究成果,很多通路的信息还远未建立,导致很多通路只能显示大概的调控通路,其中涉及到哪些转录因子,是否有重庆产生的其他代谢产物不清楚。 知道。
数据库中这些通路的完整性也会影响富集分析的结果。 随着研究的深入,每条通路的更多节点将被阐明,生命之谜的面纱将逐渐揭开。 基因功能分析也将变得更快、更准确、更高效。
15
BSR-Seq方法
聚类分离分析 (, BSA)
将目标性状的两个极差表型自交,在F1代亲本后获得性状的F2代,将选出的表型极差的F2代个体组织样本混合,建立两个DNA或mRNA库. 它们之间的基因序列差异就是该基因或数量性状位点(,QTL)可能存在的候选区域。
该方法主要适用于:
质性状单个基因或数量性状主基因的定位是快速获得目标性状主基因或与其密切连锁的分子标记的有效途径,但对次要基因的定位分析意义不大。
BSR-Seq方法:
结合BSA和RNA-Seq,实现实验设计、测序分析、差异表达分析、基因功能分析鉴定的全链条设计。
该方法首先在隔离群体中选择具有极端表型的个体,收集组织样本建立两个具有差异表型的样本池,分别提取总RNA,进行转录组测序。 根据测序得到的核苷酸总数(bp)与基因组大小的比值决定测序因子。 将转录组测序得到的与参考基因组进行比对,将比对到参考序列唯一位置的reads用于SNP挖掘。 之后利用经典的贝叶斯算法对SNP位点进行分析,最终找到与突变表型密切相关的基因组片段。
大量的RNA-Seq数据保证了在特定表达模式下开发与特定物种性状表达相关的基因的SNP标记,并通过对相关基因表达的进一步精细作图和差异分析,逐步确定候选基因及其功能决定。 但该技术的定位结果由物种自交多态性、测量深度、混合池数量等多个参数决定。 要想得到最好的参数,需要进行多次模拟实验和参考基因组的支持。
你完成了~
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码