首页->新闻动态

高中生把数据编入体内,1千克DNA可储存全球数据

  日期:2019-07-05  来源:基因谷



全球每年产生的数据需要4180亿个1TB硬盘才能放下,若是把如此庞大的数据放到DNA上,只需 1kg DNA就够了!最近一家公司将16G的维基百科存储在了一个DNA分子上让人惊叹,DNA存储已成为最受关注的新兴技术之一,“我,就是数据”时代即将来临。



“我,就是数据”时代悄然将至。


在科幻大片《超体》中,“女超人”Lucy凭借药物的作用,大脑不断被开发,获得了包括心灵感应、瞬间吸收知识等技能。当大脑开发到100%时,已然达到了“I am everywhere”的至高境界。


而目前我们正处于数据爆炸增长的时代,现存的硬盘、3D内存芯片等数据存储方式已然出现“负荷过重”的迹象。若是要存储全球的数据似乎是一件较为棘手的事情,更不要提做到像Lucy那般集“全宇宙数据于一身”了。


一种新的方式便应运而生——DNA数据存储。


其实,这种尝试早就已经开始了。


去年年底,法国一位16岁高中生Locatelli便将《古兰经》和《圣经》中的部分内容注入到了自己体内。把希伯来语和阿拉伯语的字符转换成DNA碱基的特定组合,然后用购买的病毒编辑到DNA链里,最后用注射器注入自己的大腿(详细内容见文末附录)。


除了这位高中生之外,上周,一家位于波士顿的初创公司Catalog宣布,他们将维基百科英文版一共16G的所有文本存储在了一个DNA分子上!


他们相信生物分子的寿命将比最新的计算机存储技术长得多。


16G的维基百科,只需一个DNA分子便可轻松存储


计算机存储技术已经从带磁铁的电线变成了硬盘,变成了3D存储芯片。但是下一代存储技术可能会使用与地球上的生命一样古老的方法:DNA。


初创企业Catalog近日宣布,维基百科英文版的所有文本都被塞进了我们身体使用的相同基因分子中。也就是说,他们将维基百科英文版一共16G的所有文本存储在了一个DNA分子上!


Catalog用它的第一台DNA书写器完成了这项壮举。


Catalog的DNA写入机可以以每秒4兆比特的速度写入数据,但该公司希望使其速度至少提高1000倍。


至于说这个DNA书写器有多大,呃,如果你先把家里的冰箱、烤箱扔掉,再打掉一部分橱柜,这台机器就可以很容易地安装在你的房子里啦(机器的大小与一辆现代SUV差不多)。尽管它不太可能很快就将手机的闪存芯片推到一边,但Catalog认为,它对一些需要存档数据的客户已经很有用了。


DNA链很小,很难管理,但是生物分子可以存储除了控制细胞如何变成豌豆植物或黑猩猩的基因以外的其他数据。Catalog使用了比人类DNA短但更多的预制合成DNA链,因此它可以存储更多的数据。


依靠DNA而不是最新的高科技小型化设备来存储可能听起来像是倒退了一步。但是DNA是紧密的,化学上是稳定的,而且因为它是地球生物学的基础,它可能不会像硬盘驱动器或CD那样过时,也不会像软盘驱动器那样消失。


谁在市场上购买这种存储?Catalog有一个合作伙伴要宣布, Arch Mission基金会正试图将人类知识储存在不只是在地球上,甚至在太阳系的其他地方——就像SpaceX发射到轨道上的Elon Musk的Tesla Roadster一样。除此之外,Catalog还未透露其他客户是谁,或者是否会为其DNA写入服务收费。


该公司在一份声明中说:“我们正在与政府机构、产生大量测试数据的主要国际科学项目、石油天然气、媒体和娱乐、金融和其他行业的主要公司进行讨论。”


总部位于波士顿的Catalog拥有自己的设备,可以在DNA中每秒记录4兆比特的数据。优化的速度应该是当前速度的三倍,让人们在一天内记录125千兆字节——大约相当于高端手机可以存储的容量。


传统的DNA测序产品已经在生物技术市场上销售,可以读取DNA数据。“我们认为这一全新的序列技术用例将有助于(大大)降低成本,”Catalog认为计算业务是一个潜在的巨大市场。


Catalog首席执行官Hyunjun Park和首席技术创新官Nathaniel Roquet于2016年创立了这家公司。当时,Park是麻省理工学院的博士后,Roquet是哈佛大学的研究生。


Catalog使用寻址系统,这意味着客户可以使用大型数据集。即使DNA以长序列存储数据,目录也可以使用分子探针读取存储在任何地方的信息。换句话说,它是一种像硬盘一样的随机存取存储器,而不是像半个世纪前大型计算机鼎盛时期的磁带盘那样的顺序存取。


尽管DNA数据可能会被宇宙射线破坏,但Catalog认为它是一种比其他方法更稳定的介质。毕竟,我们有几千年前灭绝动物的DNA。我们打个赌,你抽屉里的U盘在25年后还会用吗?


DNA存储数据的意义何在?


近日,《科学美国人》与世界经济论坛联合发布了2019年全球十大新兴技术,其中一项就是用DNA储存数据。那么,用DNA存储数据的意义何在呢?


据软件公司Domo称,2018年,谷歌每分钟进行388万次搜索,人们在YouTube上观看了433万个视频,发送了159362760封电子邮件,推特了47.3万次,在Instagram上发布了49000张照片。


到2020年,全球人均每秒将产生大约1.7兆字节的数据,假设世界人口为78亿,这相当于每年约418个zettabytes。这么多的数据如果放在容量为1TB的硬盘上,需要4180亿个硬盘才能放下!


如果是这样的话,目前的数据存储系统通撑不过一个世纪。此外,运行数据中心需要消耗大量的能量。简而言之,我们将面临一个严重的数据存储问题,随着时间的推移,这个问题将变得更加严重!


因此,硬盘存储的一种替代方案——基于DNA的数据存储才显得尤为重要。由核苷酸A,T,C和G的长链组成的DNA是生命的信息存储材料。数据可以按照这些字母的顺序存储,从而将DNA转变为一种新的信息技术形式。


它已经过常规排序(读取),合成(写入)并且可以轻松准确地复制。DNA也是非常稳定的,正如生活在50多万年前的化石马的完整基因组测序所证明的那样,存储它不需要太多能量。


但是,DNA的存储容量是让人惊讶的。DNA可以以远超过电子设备的密度精确存储大量数据。例如,根据哈佛大学George Church及其同事于2016年发表在“Nature Materials”杂志上的计算,简单的大肠杆菌的存储密度约为每立方厘米1019比特。


在这样的密度下,一个边长约一米的DNA立方体可以很好地满足全世界一年的数据储存需求,换个维度讲,1kg DNA就能储存全球数据。


DNA数据存储的前景不仅仅是理论上的。例如,2017年,哈佛大学的Church小组采用CRISPR DNA编辑技术,将人手的图像记录到大肠杆菌的基因组中,并以高于90%的准确率读出。华盛顿大学和微软研究院的研究人员已经开发出一个完全自动化的系统,用于编写、存储和读取DNA编码的数据。包括微软和Twist Bioscience在内的一些公司正在致力于推进DNA存储技术。


与此同时,DNA已经被研究人员用来以不同的方式管理数据,这些研究人员努力处理海量的数据。新一代测序技术的最新进展使得数十亿个DNA序列可以轻松同时读取。有了这种能力,研究人员可以使用DNA序列的条形码作为分子识别“标签”,以跟踪实验结果。DNA条形码正被用于大大加快化学工程、材料科学和纳米技术等领域的研究步伐。例如,在佐治亚理工学院,James E. Dahlman的实验室正在迅速确定更安全的基因疗法;其他人正在研究如何对抗耐药性和防止癌症转移。


使DNA数据存储变得通用的挑战之一是读取和写入DNA的成本和速度,如果要与电子存储竞争,则需要进一步降低这些成本和速度。即使DNA没有成为一种无所不在的存储材料,它几乎肯定会被用来以全新的方式生成信息,并长期保存某些类型的数据。


DNA能够存储数据,是否也可遗传?


前不久,新智元报道了一篇文章——顶级学术期刊《CELL》同日连续发表两篇重磅文章,研究人员在对线虫的研究中发现,记忆可以被遗传,甚至持续3-4代!


在2016年的SXSW大会上,南加州大学教授Theodore Berger宣布了一个轰动整个科技界的消息:


在对猴子、老鼠的实验中,通过人造海马体完成了短时记忆向长期储存记忆“几乎完美”的转换,这项技术可以完成对人脑记忆的备份,并复制到其他人的大脑中。

这就意味着记忆有可能“遗传”给后代。