发布时间:2024-02-08
浏览次数:0
临近过年,最少不了的就是各种库存汇总。
这不,中国一家机构在7分钟内实现了人类全基因组测序30倍测序深度的成就,时隔3个月再次被提及。
看不懂也没关系,我们只需要知道,这一成果意味着基因筛查将很可能被纳入常规体检,遗传病检测也可能像咽拭子检测一样可用。
例如,所有由基因异常引起的疾病,如镰状细胞性贫血、先天性心脏病等,都可以通过基因检测来及早发现、预防和治疗,这对于生殖健康而言具有重要意义。
然而,目前的基因检测项目大多只筛查常见的遗传病dnastar拼接序列,一些罕见的遗传病很难检测出来。 而且检测机构出具报告通常需要20多天,检测项目周期过长。
华大基因单基因遗传病检测项目的一部分。 ▼
中国团队直接将人类全基因组测序所需时间压缩至7分钟,相当于为生物界开启了和谐,获取生物体全部遗传信息只需几分钟。
如果你想知道7分钟的意义,我们先来了解一下什么是全基因组测序。
基因测序是将DNA信息转换为人类可以读取的数字信息的过程,而全基因组测序是将生物体的所有DNA信息转换为数字信息的过程。
读取整条DNA链的碱基排列信息不仅速度慢而且容易出错。 在实际操作中,长DNA链被切割成许多小片段并同时测序,可以大大减少测序时间。
虽然获取小片段序列信息更加快捷、容易,但也带来了新的问题:如何正确地将这些小片段拼接成完整的序列?
玩过拼图的人都知道,判断两块拼图是否相邻,需要参考它们的图案是否吻合。
DNA 片段的剪接也是如此。 两个片段是否相邻取决于其末端的序列能否完全重叠。
只要两个序列的开头和结尾存在相同的序列,就可以将两个序列合并为一个。
当然,这是运气好的情况,两个相邻的碎片都能顺利找到。 如果运气不好的话,可能在某个断点处找不到与其匹配的片段。
为了保证测序片段能够覆盖整个基因序列,唯一常用的方法就是数量。 将十倍以上的片段填充到模板中。 如果您仍然无法填空,那么就该买彩票了。
但分片数量增加一倍的直接后果就是拼接工作量呈指数级增长。 毕竟,组装一块 1,000 块拼图所需的时间是组装 100 块拼图所需时间的十倍以上。
这是多少工作? 我们以一个具体的排序案例来计算一下。
以人类全基因组测序为例,人类有23对染色体,总共3.2Gb的碱基对数据。 一般测序的片段大小选择在150-350bp范围内,即人类基因组测序所需处理的最小片段数。
为了提高测序精度和覆盖率,片段序列数据一般远远超过基因组数据。 例如,采用常用的30X测序深度,测序获得的总数据达到基因组数据的30倍,序列数量增加到约100个片段。
粗略估计,组装一对小碎片需要一次数据读取,第二次组装至少需要再读取一次,以此类推。
现在我们已经了解了数据读取的次数,我们来换算一下数据的内存占用情况。 根据不准确的计算,1 bp 碱基大约占用 3B 内存,因此 30 倍测序深度的整个人类基因组大概占用接近 300GB 内存。
别说读取分析数据,光是存储起来就足以让电脑崩溃,所以这样的任务一般都交给专业测序公司强大的服务器来完成。 以目前的行业水平,完成人类整个基因组的拼接至少需要24小时。
这样一比较,它能在7分钟内完成24小时的海量数据处理工作,确实要好很多。 难道超级CPU已经出现了吗?
CPU仍然是那些CPU,但新的数据处理方法已经出现。
我们将数据读取和写入视为将包裹运输到仓库。 各种大大小小的包裹都要装进去,无论大小,都按顺序摆放。 不仅运输效率低,而且空间利用率也低。
正确的方法是将小包裹装入大盒子中,并与其他大包裹依次放置。 这不仅提高了整体空间利用率,还减少了运输时间。
这就是为什么24小时的工作可以在7分钟内完成的原因之一。 大数据直接写入,小文件聚合成大文件再写入。 不仅节省得更快,而且节省得更多。
在几秒钟内处理大量数据的另一个秘密是“同一个世界”。
通常,不同类型的数据彼此不认识,需要使用单独的协议进行私密对话,调用不方便。
如果想提高数据调用的效率,就让他们都到广场来喊吧。 在露天找人比在社区挨家挨户找人要快得多。
只要打破不同数据之间的加解密逻辑,采用统一的数据访问协议,省去加载过程,就可以快速调用磁盘中的所有数据。
除了这两项突破性的数据处理方法之外dnastar拼接序列,一些硬件和软件的增强也促成了这7分钟的成绩。
例如,压缩磁盘大小、改造服务器结构、用相同的卷放置更多的固态硬盘,实现更大容量的数据存储。
此外,平台还开发了多线操作数据读写模式,可以将数据处理的速度提升一个层次; 并且还改进了数据压缩算法,可以用更小的磁盘容量处理更多的数据。
各种创新技术的强强结合,实现了海量数据分析从24小时到7分钟的跨越。 即使是天文数字量的生物信息也可以在几分钟内处理完毕。 还有什么不能做的呢?
这7分钟的意义不仅在于快速获取所有基因信息,更是数据处理领域非常重要的突破。
需要精确计算和海量数据的应用领域可以使用中国自己的服务器快速、安全地处理。
比如卫星遥感、药物研发、能源测量等都需要海量数据的分析; 而自动驾驶等技术则需要数据的实时反馈,高速的数据处理能力至关重要。
换句话说,驯服数据就相当于掌握了科技的命脉。 谁掌握了数据,谁就赢得了世界。 所有依赖这个基础的领域都必须再努力一波。
或许一向跌跌撞撞的AR眼镜很快就会流行起来。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码