开个脑洞:如果地球正面临一场即将来临的毁灭性星际灾难,而人类又想尽可能地保全地球的生命和文明,那么在目前的条件下该怎么办呢? 地球可能已经来不及像刘那样停止自转逃离太阳系了。而如果像诺亚方舟那样,将人类、动物、植物和人类的知识全部转移到飞船上,现有的火箭运载能力可能装不下这些物质的十亿分之一。 想要保存尽可能多的生物,保存尽可能长的时间,只需要收集并打包所有物种的DNA序列信息,这些信息在低温环境下可以保存数十万年航天器;而人类文明的信息呢?我们知道,这些信息最有效的形式是数据,而这些数据主要存储在硬盘和光盘中。 考虑到这些硬盘的重量和数据密度,我们不得不再次泄气。更有什者,也许飞船还没有逃出太阳系,这些数据就会因为硬盘或者光盘报废而丢失。 那么DNA是否可以作为硬盘来存储数据信息呢?答案是肯定的。 DNA绝对是这个星球上最古老的生命信息储存工具。它还可以作为数据信息的存储介质,其存储密度和使用寿命远远超过现有的基于磁盘的存储解决方案。因此,DNA存储正被人类视为数据存储的未来,成为挽救人类数据存储危机的最佳选择。 DNA储存是如何运作的?现在发展到了什么阶段?商业使用的障碍是什么?这就需要我们一一解答了。 DNA存储是如何工作的? 在了解DNA存储的工作原理之前,我们先简单了解一下现有的两种解决方案磁存储和光存储的原理。 磁存储的原理是在金属材料上涂上一层磁性介质,通电后形成电磁效应,可以存储和表示0101的二进制信息。磁存储硬盘的优点是记录速度快,读取速度快,但缺点是数据密度与体积重量相比偏低。经过60年的发展,一块3.5英寸的硬盘大约可以存储3TB的数据。 光存储的原理是将经过数字编码的视频和音频存储记录在光盘表面的凹槽中,然后通过激光读取这些凹槽中的数据进行传输或播放。目前,光存储也正在经历存储的极限。因为如果要存储更多的数据,凹槽必须更小更紧凑,对激光器的精度要求更高。目前,一张单层蓝光光盘可以存储超过25GB的信息。如果另一种紫外激光器研制成功,其光盘容量可达500GB。 DNA存储相对于磁存储和光存储有什么优势? 首先是节省空间。然而,这些单层平铺存储方式与DNA的双螺旋三维结构相比,存储容量存在多个数量级的差距。DAN本身的物理体极小,具有三维结构,单位空间的数据密度非常高。举个简单的例子,1克DNA比指尖上的一滴露珠还小,却可以存储700TB的数据,相当于14000张50GB容量的蓝光光盘,即233张3TB硬盘(重量约151KG)。 而且非常省电。现有的存储方式,比如数据中心,消耗大量的单晶硅,耗电量也很大。DNA材料只需要存放在阴凉、干燥的地方,基本不需要额外的人工维护。即使需要冷冻DNA,所消耗的资源和能源也几乎可以忽略不计。 另外,最重要的一点就是保存时间很长。如今,高密度记忆会随着时间的推移而衰减。存储时间最长的工具是磁带,它的寿命只有50年,其他存储器的寿命更短。相比之下,DNA的保质期是以数百年计算的。若是冷冻起来,可以保存几千年,甚至几万年。 人类文明似乎有了拯救计划,但DNA存储是怎么做到的呢? 众所周知,DNA由四个含氮碱基组成——A、T、C和G,它们是互补对。科学家们让腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)被赋予二进制值(A和C=0,G和T=1),然后由基因序列合成微流控芯片,使序列位置与相关数据集相匹配。这样,这些碱基对被编码成1和0的组合,就可以利用DNA的序列信息来表达二进制语言。 每次将二进制语言写入DNA序列时,“DNA硬盘”就可以在低温环境下保存。当需要读取数据时,只需要对目标DNA进行测序,将碱基对还原为二进制码,完成解码,即可还原为我们常用的数据。 原理很简单,但是科学家是怎么做到的呢?这是对DNA存储技术发展历史的简要回顾。 DNA存储是如何一步步发展起来的? 最先想到这个方法的是艺术家JoeDavis。他于1988年与哈佛研究人员合作,将一张名为Microvenus(小维纳斯)的7*5像素矩阵的照片转换成35个碱基的DNA序列插入大肠杆菌中,写入了不属于自然进化的信息第一次进入DNA。(Microvenus代表女性和地球) 2010年,美国合成生物学家克雷格文特尔(CraigVenter)带领研究团队化学合成了支原体的全基因组DNA,命名为“Synthia”,并编码信息如名字以“自娱自乐”的方式,将研究人员、研究所网址、爱尔兰诗人詹姆士的诗句,写入新合成的DNA中。 2011年,哈佛大学合成生物学家加州大学乔治·丘奇和斯里拉姆·科苏里领导的团队与约翰·霍普金斯大学基因组专家高远共同进行了第一次概念验证实验。用短的DNA片段编码了一本书Church的659KB数据。 2013年,NickGoldman和他在欧洲生物信息学研究所(EBI)的研究团队还成功收录了莎士比亚的十四行诗和马丁路德金的“我有一个梦想”的节选演讲、沃森和克里克关于DNA双螺旋结构的论文副本,以及其他五个文件被编入了DNA片段。739KB的数据成为当时最大的DNA存储文件。 2016年,微软和华盛顿大学利用DNA存储技术完成了约200MB数据的存储,成为DNA信息存储技术的飞跃。 2017年7月,《自然》该期刊发表了哈佛医学院SethShipman和GeorgeChurch关于活体DNA储存的研究。他们把一部有130年历史的黑白电影《奔跑中的马》放在大肠杆菌存在的DNA上。大肠杆菌中虽然有“奇怪的DNA”,但它不仅能正常生存,还能正常遗传,每一次繁殖都是一份数据。此外,存储在基因组中的电影在每一代大肠杆菌中也完好无损。 但因为细胞复制、分裂、死亡,会有信息错误的风险。未来,数据将是安全的。大多数情况下,储存信息的DNA以DNA干粉的形式存在。活细胞储存研究转向合成DNA储存。. 同年,哥伦比亚大学和纽约基因组中心在期刊《科学》上发表了一种名为“DNAFountain”算法的高效DNA存储策略。该技术展示了对DNA存储潜力的最大利用,成功地将海量信息压缩到DNA的四个碱基中,每个DNA编码1.6位数据,比以往多存储60%的信息,逼近理论极限(1.8位).该方法能够在一克DNA中存储215PB的数据,相当于2.2亿部电影。 2018年,爱尔兰沃特福德理工学院(WIT)的研究人员开发出一种新颖的DNA存储方法,可以在1克大肠杆菌DNA中存储1ZB的数据。 2019年,Church的团队在《科学》期刊上发表了另一项实验结果。他们将Church的约53,400字的书《再生:合成生物学将如何改变未来的自然和自己》,以及11张图片和一个Java程序编码成不到十亿分之一克的DNA微芯片,并成功地使用DNA测序读取了文本。书。 这些科学研究的快速发展,也意味着DNA合成技术(数据写入)和DNA测序技术(数据读取)日趋成熟。但与此同时,DNA编码过程中还存在存储/读取速度和成本等问题,DNA存储距离商业化尚在路上。 DNA存储商业化的问题与进展 在实验室里,似乎DNA存储并不复杂,但在商业化上还存在一些问题。 首先存储和读取速度很慢。访问DNA存储设备速度慢且访问耗时。与存储在磁盘上的电磁信号不同,DNA合成依赖于一系列化学反应。将200MB的数据写入磁盘只需要不到1秒的时间,而合成DNA则需要将近3周的时间。 其次,DNA媒体不能被覆盖和重写。在DNA中,信息一旦存储,通常就无法修改。如果你想阅读这个文档,你需要把所有的信息排序,然后转码。 第三,数据存储的准确性有待提高。当前DNA测序过程中的重复读取导致误读的可能性很高。 第四,随机阅读障碍。目前的DNA合成技术不能一次产生更长的DNA分子,只能合成无数个短片段。这使得很难在许多小DNA片段的混合物中快速检索特定数据。 最后,也是最重要的一点,DNA存储非常昂贵。例如,目前DNA存储200MB的数据,成本为80万美元,而使用电子设备,成本不到1美元。 但如前所述,如果放在更长的时间尺度上,在数据存储空间的压力下,DNA大存储密度、高节能环保、超长稳定性等独特优势就会显现出来。只要随着存储和读取技术的发展,提高DNA编码和测序的效率,大大降低成本,DNA存储离商业应用就不远了。 那么,目前商业化的进展如何呢? 2015年,微软和华盛顿大学联合发表了一项利用定点读取信息的成果,即在一条长长的DNA链上加入一些追踪标记。这些标记类似于索引机制,可以选择合适的标记进行读取,而无需等待每次对完整的DNA长链进行测序。 2018年,阅读技术再获突破。微软开发了“纳米孔”读取技术,该技术允许DNA介质柱挤过一个小纳米孔,读取其中的每个DNA碱基。这项技术大大降低了读取设备的空间成本,可以读取一个巴掌大小的USB设备,但读取速度大约为每秒几KB,可以说还是相当慢的。 2019年3月,微软团队在《自然》期刊上发表了一项新进展,他们开发了世界上第一个自动DNA存储介质。与人工DNA合成和测序相比,实现DNA编码和解码自动化是未来商业化的出路。 此外,2016年成立的美国初创公司Catalog也在尝试解决DNA存储和读取时间成本的问题。 去年,Catalog在单个DNA分子上存储了总共16G的维基百科英文文本。他们使用DNA写入器设备以4Mbps的速度将这些数据记录在DNA中。这意味着一天可以记录125GB,大约相当于一部高端手机的存储量。这个速度已经是之前研究的存储速度的三倍。 目前,Catalog使用预制的合成DNA链,长度为20到30个碱基对,通过酶嵌套在一起,可以存储更多数据。这些作品的排列方式就像英语使用26个字母一样,理论上可以创造出无数的组合。据Catalog估计,未来1MB数据的DNA存储成本将低于0.001美分。 当然,如果这家创业公司未来真的能够大幅降低成本,确实有可能为DNA数据存储的商业化铺平道路。 2019年,《科学美国人》与世界经济论坛联合发布了年度全球十大新兴技术,DNA数据存储技术位列其中。 可以预见,未来磁存储和光存储仍将占据数据存储的主流。然而,即使没有地球末日的极端情况,但由于近年来数据的激增,人类也面临着数据存储空间不足的严峻问题。与此同时,数据存储需求的激增带来了硅片使用量的激增,以及随之而来的环境污染、水资源、能源消耗等问题。 DNA存储技术的实现,将在一定程度上缓解传统存储的容量问题,大大降低电子元器件和能源的消耗。 当然,在接入技术和成本控制方面,以DNA存储为代表的碳基存储方式还有很长的路要走,但随着商业化的推进,其规模化和普及速度也会加快。从数据存储的历史来看,存储介质的变化是一个不断变化和加速的过程,DNA存储也应该成为我国关注和研究的技术方向。
