发布时间:2023-09-15
浏览次数:0
全基因组测序的进步已经引发了数字生物学的一场革命。
随着下一代测序成本的增加,基因组学项目正在世界各地启动。
无论是对患有罕见癌症的危重患者进行测序还是对大量人群进行基因研究,全基因组测序正在成为临床工作流程和抗生素开发的重要组成部分。
但基因组测序只是第一步。 基因组测序数据分析需要加速计算、数据科学和人工智能来读取和理解基因组。 随着摩尔定理的终结,即集成电路中的晶体管数量每三年翻一番,我们需要新的估计方法来降低数据分析成本,提高读取吞吐量和准确性,并最终解锁整个人类基因组。 潜在的。
生物信息学数据的爆炸式增长
对一个人的整个基因组进行测序会产生大约 100GB 的原始数据。 当使用复杂的算法和深度学习和自然语言处理等应用程序对基因组进行测序时,这个数字将增加一倍以上。
随着人类基因组测序成本不断增加,测序数据量呈指数下降。
预计到2025年,整个人类基因组存储的数据量将达到40EB,比存储人类从古至今所说的每一个单词所需的存储空间高出八倍。
许多基因组分析流程正在努力应对不断增长的原始数据量。
加速基因组测序分析过程
测序分析非常复杂且计算量大dnastar序列比对,并且需要许多步骤来测量人类基因组中的遗传变异。
深度学习对于使用基于循环神经网络 (RNN) 和频域神经网络 (CNN) 的模型的基因组仪器中的核苷酸检测越来越重要。 神经网络分析仪器生成的图像和信号数据,并对人类基因组的 30 亿个碱基对做出推断。 这提高了读取准确性,同时确保更实时的核苷酸检查,进一步促进从样本到变异检查格式 (VCF) 再到最终报告的整个基因组分析过程。
在二级基因组分析中,比对技术使用参考基因组来帮助在对 DNA 片段进行测序后重新组装基因组。
领先的比对算法BWA-MEM可以帮助研究人员快速将DNA序列读数映射到参考基因组。 STAR是RNA-seq数据的另一种黄金标准比对算法,可以通过准确且极快的比对更好地理解基因表达。
动态编程算法 Smith(也广泛用于比较)在包含动态编程加速器的 GPU 上将比较步骤提高了 35 倍。
发现遗传变异
测序项目最关键的阶段之一是检查变异dnastar序列比对,例如单碱基变化、小插入和缺失或复杂的重排。 在此阶段,研究人员将测量患者样本和参考基因组之间的差异。 这可以帮助临床医生识别重症患者可能患有的遗传性疾病,或者帮助研究人员在整个人群中发现新的抗生素靶标。
GPU 优化和加速的测量工具,例如 Broad 的 GATK(用于种系变异测量的基因组分析工具包),可以提高分析速度。 为了帮助研究人员消除GATK结果中的假阳性结果,与布罗德研究所联合推出了利用CNN过滤突变的深度学习工具。
基于深度学习的变异测量工具(例如微软的)可以提高检查的准确性,而无需单独的过滤步骤。 采用CNN架构来检查突变,通过对各个基因组平台的输出结果进行反复微调训练,提高检查的准确性。
Clara工具套件中的二次分析软件使该变异检查工具的速度提高了80倍。 在基于 CPU 的环境中使用 Clara 等 GPU 加速可以将运行时间从 16 小时减少到 5 分钟以内。
加速基因组学新浪潮
它通过为短读长和长读长测序平台提供加速的人工智能核苷酸检查和变异检查,帮助推动下一波基因组学浪潮。 行业领导者和初创企业正在共同努力推动全基因组测序的突破。
例如,生物技术公司最近发布了 Revio,这是一种使用 的新型长读长测序系统。 与之前的系统相比,Revio的计算能力提高了20倍,使其能够以超过1000美元的成本对人类基因组进行大规模、高精度的长读长测序。
牛津纳米孔技术有限公司提供业界唯一能够对任意宽度的DNA或RNA片段进行实时测序的单一技术,使研究人员能够快速发现更多的遗传变异。 西雅图儿童诊所最近使用 纳米孔测序仪在出生后数小时内检测婴儿的遗传性癌症。
规模的全基因组测序每个样本仅需 100 英镑。 G4测序仪是目前功能最强大的桌面测序系统。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码