现在,用 DNA 想象另一个故事:在宇宙长河中,“人类世纪”也寂灭了。另外一种智慧生物出现,TA 们去探究远古的“人类文明”。有什么会承载人类文明的记忆?气温异变,地球上的庞大数据中心徒留遗迹。
而冻土中有一份 DNA,它很轻,只有 1 公斤,看起来是一些被封装在胶囊里的白色粉末。读取后,里面却记载了地球上曾有的巨量信息。视频、文字、代码展现了人类历史进程中的无数发明和文艺作品。于是那个遥远文明的痕迹在宇宙间再次展开。
这是另一个科幻设定了。背后的技术正是目前被关注的一个前沿方向:DNA 存储信息。在大自然里,DNA 负责存储遗传信息。单个人体细胞的平均直径是 5 到 200 微米,这其中的 DNA 可以包含一个人全部的遗传信息:30 亿对碱基。
那为什么不能用碱基存储别的信息?这个科幻般的设想,正在走出实验室,被当作信息存储的未来方案。
01 基因组数据太多了,怎么办?
本来是生物学家想解决生物学发展的问题。
11 年前,一群生物信息学家在德国的一家酒店里讨论“数据存储问题”。Nick Goldman 也在其中,那是他在欧洲生物信息所(EBI)担任高级科学家的第二年。
大规模的基因组测序正在进行,随之产生的数据规模快速增长。存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。据估计:人类基因组需要高达 2-40EB 的存储容量。这可能超过一个世界级科技公司的云存储量——全世界苹果用户存储在Google云上的数据总量大约是 8 EB。这 8EB 数据,每月存储费需要 2.18 亿美元。(1EB= 102^3GB)
生物学家们陷入了沮丧。
Nick Goldman 拿着存储了莎士比亚所有十四行诗、一张照片和“我有一个梦想”演讲片段的 DNA| 来源:EBI
有人灵光乍现:是什么东西阻止了我们用 DNA 来储数据呢?
看起来是一句玩笑话,但是生物学家们意识到了这不仅仅是个玩笑,他们拿起手边的餐巾纸,用圆珠笔认真计算起可行性。
DNA 存储遗传信息的原理并不复杂,它由四种核苷酸 A、T、G、C 组成,彼此两两对应,组成双螺旋结构。核苷酸的序列,记录了遗传信息。
在数字世界,所有的信息本质上是 0 和 1 组成的数据串。想要 DNA 存储数字信息,简单理解,原就是将 0 和 1 的编码序列转换成核苷酸的序列。DNA 存储的优势在于密度大,大约在你眼前逗号这么大小,1 立方毫米的 DNA,就可以容纳 9TB(1TB=1024GB)的信息。
用 DNA 存储数据,也并不是完全新的想法,之前就有科学家尝试过。不过属于科学和艺术的先锋跨界实验。
1988 年,艺术家 Joe Davis 和哈佛大学的研究员,将一副名为“小维纳斯”(Micro Venus)的图案存储到 DNA 短链中。
存储进 DNA 的小维纳斯(microvenus)图片 来源:相关论文
这个图案编码简易,白色的地方标记为 0、黑色的线条部分标记为 1,文件大小只有 35bits,用了 28 个核苷酸长度的 DNA 链条来存储。
在那次酒店讨论的 2 年之后,2013 年,Goldman 团队发表了研究成果。这次,他们存储了 5 种不同格式的文件,一共有 0.75MB。为了确保信息读取不出错,科学家存储的时候,每份信息按照四倍冗余的量来存储。
五个文件分别是:
•154 首莎士比亚的 14 行诗(ASCII 编码格式)
• 提出 DNA 双螺旋结构的论文(PDF 版)
•一张照片(JPEG 格式)
•马丁· 路德金“我有一个梦想”演讲其中 26 秒片段(MP3 格式)
•一串霍夫曼密码
这些年,DNA 存储容量的上线不断被突破。2019 年,美国一家创业公司 Catalog 在 DNA 中存储了 16GB 的维基百科。这个公司表示自己正在建设世界上第一个基于 DNA 的大规模数字数据存储和计算平台。
02 编码和解码,要处理的事情很多
在一些生物学家看来,用 DNA 来存储是一件非常“顺滑”的事。“大自然的编码语言非常类似于我们在计算机领域使用的二进制语言。在硬盘上我们使用 0 和 1 来代表数据,而 DNA 中,我们拥有 4 种形式的核苷酸,A、C、T 和 G”。在瑞士联邦理工学院的生物学家 Robert Grass 说。
DNA 存储的关键之一是用四个核苷酸去映射 0 和 1 两个数字。方案可以很简单。比如:A 对应 00,C 对应 01,G 对应 10,T 对应 11。然后再按照所需要的核苷酸序列,像串珠子一样,把核苷酸们串成一串。(这就是 DNA 合成)需要读取信息的时候,再运用基因测序技术,把这一串核苷酸序列读取出来,再翻译成 0 和 1 的字符串。这个流程就是编码—DNA 合成—测序—解码。
这个听起来像是“把大象装进冰箱”的流程,操作起来需要考虑的问题还有很多。不然科学家就不必一直研究新的编码方案了。
在自然界存在的 DNA 中,A 和 T,C 与 G 两两配对,在一条 DNA 中,CG 与 AT 的存在比例基本均匀,为 50% 左右。如果 C 和 G 的含量过高,可能会让 DNA 链产生一些复杂的物理结构。这就会让 DNA 测序(解码)变得复杂。
DNA 存储的步骤| 来源:DNA Data Storage Alliance
而且在“串珠子”(也就是合成 DNA 链条)的过程中,错误率不可避免。目前大约每合成 100 个碱基就会出现一个错误。这是由目前的化学合成技术带来的瓶颈,每合成一个碱基,有 99.9% 以上的正确率。但是当碱基串变长,0.01% 的概率相乘,错误就难以避免。目前人工合成 DNA 的单链的长度一般不超过 100 个碱基,极限在 300 个碱基左右。而在自然界的 DNA 动辄有几千个碱基对。
也就是说,虽然 DNA 的存储能力很强,但它们不得不以很多条短链的方式存在。如果存储的信息量比较大,这些 DNA 短链就像一本散装的书。它可以存储很多信息,存在形式却是一张张标着页码的纸。当然,可以将一条条 DNA 短链拼接成长链。这就意味着增加了一道工序。在测序的过程中,又需要把长链打断成短链。这是因为目前技术还不能一次性读取长链。
在测序的过程中,也存在错误率。尽管目前的错误率已经低至 10^-3 数量级,比起商业硬盘的读写错误率,仍相差至少 9 个数量级。
正确率受到合成和测序这两项技术的影响,科学家想到设计编码方案来避免:在编码中增加纠错机制。这样,哪怕碱基合成和测序中出现了错误,依旧能够保证被存储进 DNA 的内容能够被正确读取出来。
03 走出实验室,还要考虑速度和成本
DNA 存储也正在尝试走出实验室。
2020 年 10 月,微软、西部数据和基因测序巨头 Illumina、DNA 合成初创公司 Twist Bioscience 等联合成立了 DNA 数据存储联盟。
这是世界上第一个该领域的学术和产业链联盟。这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。
微软研究院在 2015 年就成立 DNA 存储的项目,并聘请了华盛顿大学的计算机科学与工程学院的副教授 Karin Strauss 担任高级首席研究经理(Senior Principal Research Manager)。
2013 年,她和同事去英国 EBI 访问,了解到 Goldman 和同事们关于 DNA 存储的研究,就对这个方向产生了很大的兴趣。Strauss 说,“DNA 的密度、稳定性和成熟度让我们兴奋。”
在他们的研究中,想开发的是另一个功能:随机读取。常见的 DNA 测序技术中,必须要将所有的碱基串一次性读取完,才能够获得信息。要么不读取,要么全读。如果只想要数据中的某一个小片段,就会非常麻烦。
2016 年,他们发表了一项研究,可以在 DNA 已经存储的信息中搜索到指定的图像,定位后,用酶来复制所需的 DNA 片段,然后只需读取这一小段即可。
Karin Strauss(右)和两位研究合作者|来源:csenews
要让 DNA 存储离商用更进一步,还需要解决合成速度和成本。现在合成速度是每秒存储上千个字节(KB),成熟的云存储方案已经有每秒千兆字节(GB)以上。
这意味着,编写 DNA 的速度还需要提升 6 个数量级。如何让提升数据处理量?就像并行计算能够提升数据处理速度,科学家希望 DNA 在合成时也可以并行多条,同时处理。
2021 年,微软开发出首个纳米级 DNA 存储器,能够在每个平方厘米的区域上,同时合成 25X106(2650)条碱基序列。这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让 DNA 合成速度变成了每秒兆字节(MB)。
新的方法让 DNA 合成的阵列数量大大增加|来源:微软研究院
更大的吞吐量,也就意味着更低的成本。现在 DNA 存储的成本是每万亿字节(TB)8 亿美元。而磁带存储成本已经降到了每万亿字节 16 美元以下。这样比起来似乎毫无竞争力。但现实生活中的大型数据中心的维护成本极高,还要定期更新硬件;DNA 存储密度大、体积小、可以长时间不变质的优势就变成了降维打击。
所以量大、读取频率低的“冷数据”,被认为是 DNA 存储最近的应用场景。Twist Bioscience 最近在一份市场报告中强调,这种技术能够帮助科技企业在“大规模、低功耗”情况下更有效地部署。
另外一些乐观的科学家,更相信技术的进步。
自 2003 年人类基因组计划完成以来,测序成本降低了 200 万倍。2016 年时,面对每秒千字节的速度,Goldman 说,“(读写的速度提升)6 个数量级对基因组学来说没什么大不了的。你只需要再等一会儿。”
那这“一会儿”是多久呢?这个领域似乎到了临门一脚,仍在等待突破。
推荐文章
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8