发布时间:2025-06-14
浏览次数:0
信息技术的发展日新月异,全球范围内的数据量正以惊人的速度攀升。在这些数据中,有很大一部分是所谓的“冷数据”,这类数据虽不常被使用,却需要被长期妥善保存。传统的存储方式在能耗与耐用性上存在困难,故学术界与产业界正致力于探索新的存储技术。在此背景下,脱氧核糖核酸(DNA)凭借其极长的存储周期、极高的数据存储容量以及低能耗的维护特性,已成为极具发展前景的下一代存储介质。DNA数据存储的基本步骤涵盖:将二进制信息转化为DNA碱基序列(A、T、C、G),制备成名为寡核苷酸(oligo)的短DNA链,利用聚合酶链式反应(PCR)技术进行复制,最终通过高通量测序(NGS)技术读取序列,并将其解码为二进制数据。但需注意,DNA的合成与测序过程中,难免会出现替换、缺失以及插入等错误。为了保证数据读写过程的稳定性,一般会实施内外两层的纠错机制。内部纠错码主要负责识别单个oligo序列中的错误,而外部纠错码(例如喷泉码)则承担起修复因错误或测序深度不够而导致的整个oligo(即所谓的“擦除”)信息丢失的任务。为了减少误差的引入,传统序列分析手段往往舍弃了在测序过程中产生的低质量序列,例如那些未通过平台检测的(NPF)reads。这种做法无疑导致了宝贵测序数据的浪费,同时也迫使我们必须增加测序深度以达到理想的数据恢复效果,进而提高了测序的总成本。
韩国全南大学智能电子与计算机工程系的Park团队携手浦项工科大学的研究人员,共同在《》期刊上刊登了一篇论文。该论文题目为“ and with Extra Low-Reads for DNA Data”,并介绍了一种创新的序列分析与解码方法。该策略致力于通过创新性地运用传统测序中常被舍弃的低质和超长序列,大幅削减DNA数据存储的读取费用。研究团队研发了新型的序列分组及共序列构建算法,证实了此方法在保持写入成本稳定的前提下,平均能够将读取成本减少6.83%,最高降幅可达19.67%。
主要研究结果介绍低质量(NPF)测序数据的错误特征分析
为了验证采用低质量(NPF)序列数据的可行性,研究小组首先对其错误特性进行了深入研究。他们针对一个含有513.6KB图像数据的DNA存储库进行了测序实验,成功获取了高质量(PF)和低质量(NPF)的序列数据。结果显示,NPF reads相较于PF readsdnastar,其替换错误率显著升高,而插入和缺失错误率则仅略有上升(见表1)。值得注意的是,这些错误在NPF reads中的分布并不均匀,而是主要集中在部分reads上。研究发现,即便在NPF reads中,也存在着大量reads其错误率极低或几乎没有错误(比如,高达39.42%的NPF reads错误数不超过5个),这些reads在序列分析中具备显著的纠错能力(参见图5)。这一成果为将废弃资源转化为宝贵财富奠定了理论基础:我们不应彻底舍弃NPF reads,而是应当研发一种算法,该算法能高效地提取并利用其中的有益信息。
图5创新的三阶段渐进式序列分析与解码流程
针对这一发现,研究团队精心构建了一个由三个阶段组成的逐步推进的序列分析和解码流程,该流程旨在从所有测序数据中,包括那些质量较低和长度异常的reads,尽可能精确地恢复出无误差的oligo序列(如图2所示)。
采用这种分步递进的三阶段策略,该流程能够有计划地、由浅入深地对所有测序数据进行信息提取,显著提高无错误序列的提取效率。
图2
图3
图4实验验证:显著降低DNA存储读取成本
为了对新型方法的效果进行衡量,研究团队精心构建了三个不同的测试场景:首先,采用仅以高品质PF reads为基础的传统方法;其次,将高品质PF reads与低品质NPF reads简单结合,再运用传统方法;最后,运用研究团队创新提出的分三步走的新策略,对所有的PF和NPF reads进行处理。
经过36次独立进行的随机抽样解码实验,研究发现,采用Prop-和-的方法相较于仅使用PF reads的基准方法,在实现数据的精确恢复方面,所需的测序reads数量更少。具体来说,Prop-方法表现最为出色,与基准方法相比,平均降低了6.83%的读取成本,即完成数据完美恢复所需的测序reads数量,最高降幅可达19.67%(见图6)。在某个特定的解码实例中,Prop算法仅需104,000次读取就能实现成功解码,而-和-PF算法分别需要106,000次和110,000次读取(见表3)。这一结果充分展示了新算法在提高数据恢复效率方面的显著成效。此外,新算法的实施仅使计算时间略有上升(大约增加了2.3%),展现了其高性价比的特点。
图6全文总结与展望
本研究致力于解决DNA数据存储领域读取成本高昂的难题,提出了一种新颖且高效的序列分析与解码方法。在深入分析测序数据过程中,研究者发现,那些传统方法中被视为低质量(NPF)的reads,实际上蕴含着丰富的有用信息。据此,他们制定了一套由三个阶段构成的逐步推进的工作流程,同时研发了两个关键算法:一是代码辅助的概率多数共有序列构建算法,简称CAPMB;二是专门用于处理异常长度序列的定制化编辑距离聚类算法。该策略能够全面运用所有测序数据,涵盖低质量及异常长度的序列片段,无需额外增加写入成本,显著减少了实现数据完美恢复所需的测序深度,进而有效减少了DNA存储读取的费用。实验数据表明,该策略平均能将读取成本降低约7%,最高降幅可接近20%,并且其可靠性极高。这项工作在DNA数据存储领域贡献了一个应用广泛、性价比高的数据恢复方案dnastar,对打造高可靠性、低成本、可扩展的DNA数据存储系统起到了关键作用,助力DNA存储技术迈向实用化,实现了坚实的一步。
研究团队与资助
本文的首要作者是Park。负责联系的是全南大学的Park教授。其余作者均来自韩国的全南大学以及浦项工科大学。
该研究受到了韩国国家研究基金会(NRF)以及信息通信技术规划与评估研究所(IITP)的经费支持。
DOI链接
https://doi.org/10.1093//
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码