Dna中数字信息的高容量存储的制作方法

文档序号:8207739阅读:713来源:国知局
Dna中数字信息的高容量存储的制作方法
【技术领域】
[0001] 本公开涉及存储DNA中数字信息的方法和设备。
【背景技术】
[0002] DNA具备保持巨额数量信息的能力,易于以紧凑结构长期保存 ' 利用DNA作为 数字信息的存储器的想法自1995年3已经存在。DNA存储的物理实现迄今为止仅存储了微 量的信息一一典型的是少数英文文本的单词4Λ发明人没有意识到编码在物理DNA中的大 规模存储和对任意规格数字信息的还原,而非磁性基底或光学基底上的数据存储。
[0003] 目前,DNA合成是集中应用于生物医药的专业技术。DNA合成的成本在过去的几十 年已经稳步缩减。相比于磁带上的数据存储每过3至5年会少见但定期地转移到新介质, 推断在什么时间段如本文所公开的DNA分子上的数据存储将会比其当前长期存档过程更 具成本效益是有趣的。当前DNA合成的"现成"技术相当于一美元约100字节的价格。市 场上可从Agilent科技(圣克拉拉,加利福尼亚州)购买的更时新的技术可能会大幅缩减 该成本。然而,仍然需要建立账户,用于磁带介质之间的定期数据转移。问题是,该数据传 递的成本,以及该成本是固定不变的还是随时间削减的。如果假定大量成本是固定不变的, 则存在一个时间范围,其间利用DNA分子进行数据存储比常规磁带介质上的数据存储更具 成本效益。在400年以后(至少80次介质转移),利用DNA分子的数据存储可能已经具有 成本效益。
[0004] 本公开中描述了一种比先前使用的程序存储更多信息的实用编码解码程序。发明 人已经对五个计算机文件进行编码--总共757051字节的(739kB)硬盘存储并具有约为 5. 2 X IO6比特的香农信息9--变为DNA码。发明人随后合成了该DNA,将该合成DNA从美 国经英国运输到德国,对DNA进行测序并以100%的精确度重构了五个计算机文件。
[0005] 该五个计算机文件包括一个英文语言文本(莎士比亚十四行诗的全部154句),一 个经典科技论文的PDF文件 1(1,一个JPEG色彩的照片和一个MP3格式的音频文件,包含26 秒的演讲(选自马丁路德金的演讲"我有一个梦想")。该数据存储代表了近800倍于已知 的先前基于DNA的存储的信息量,并涵盖了更丰富的数字格式。结果证明,DNA存储正逐渐 成为现实,并可以在未来提供有成本效益的数字信息存档方法,且用于慢速存取、多年代存 档任务可能已经具有成本效益。
[0006] 现有抟术
[0007] 在易于获取的情况下1A自1995年以来3,稳定存储信息的DNA高容量已经使得 DNA成为极具吸引力的信息存储目标。除信息密度之外,DNA分子作为信息载体具有已证实 的业绩记录,DNA分子的寿命已知,且事实上作为地球生命的基础,只要有基于DNA的智能 生命体存在 1A操作、存储和读取DNA分子的方法将依然是持续技术创新的主题。基于活性 载体DNA5、在活体(in vivo) DNA分子中)和合成DNA4>1(在离体(in vitro) DNA中)的数 据存储系统已经被提出。在活体内的数据存储系统具有若干缺陷。这些缺陷包括对数量、 染色体成分和在活性载体有机体中可操作而不影响DNA分子生存力的位置的限制。此种活 性载体有机体的示例包括但不限于细菌。生存力的下降包括容量的缩减和信息编码方案的 复杂度的增加。此外,胚系突变和体细胞突变将引发所保存信息的保真度和解码信息随时 间下降,并可能引发对活DNA存储条件细致监管的需求。
[0008] 相比之下,"分离的DNA"( S卩,离体DNA)更易于"写入",且对几万年前1H4的样本 的非活DNA实例进行的例行还原显示,在易于获取且少量维护的环境下(即,寒冷,干燥和 黑暗的环境) 15_17,良好制备的非活DNA样本应具有格外长的生命期限。
[0009] 在DNA中进行信息(也称数据)存储的先前工作典型地集中于在DNA中以编码形 式"写入"人类可读的消息,而后通过确定DNA的序列和解码该序列来"读取"该编码的人类 可读的消息。在DNA计算领域的工作产生了原则上容许大型联合associative (相联)存 储器的方案3'18_2°,但尚无将这项工作推进到实用DNA存储方案的尝试。图1示出了 14个 在先前研宄中(在y轴标注对数刻度)被成功编码和还原的信息数量。为14个先前实验 (空心圆)和本公开(实心圆)示出了点。以这种方式存储的最大数量的人类可读消息为 1280个英文语言文本字符 8,约相当于6500比特的香农信息9。
[0010] 印度科学与工业研宄委员会提交了一份序列号为US 2005/0053968(巴拉得瓦杰 等)的美国专利申请,教导了一种在DNA中存储信息的方法。美国968号申请的方法包括 使用编码方法,其利用4个DNA碱基表示拓展ASCII字符集中的每一个字符。于是产生了 合成的DNA分子,其包括数字信息、加密密钥,并在每个侧面与引物序列相接。最后,合成的 DNA被并入存储DNA。在DNA数量过大的情况下,信息可以被分裂成为若干片段。美国968 号专利公开的方法可以通过匹配某片段的头端引物和下一片段的尾端引物来重构分裂的 DNA片段。
[0011] 已知其它描述了在DNA中存储信息的技术的专利文献。例如,美国专利6, 312, 911 教导了一种密写方法,用于隐藏DNA中编码的消息。该方法包括运用基因组DNA样本隐藏 DNA编码消息,随后进一步将DNA样本隐藏为微点。该美国911号专利的申请特别地用于机 密信息的隐藏。这样的信息通常具有有限长度,因此文件不会讨论如何存储更长长度的信 息项。相同的发明人提交了国际专利申请,并作为第WO 03/025123号国际公布公开。

【发明内容】

[0012] 公开了一种用于存储信息项的方法。该方法包括编码在信息项中的字节。使用一 方案(schema)由DNA核苷酸来表示该编码字节,产生计算机模拟(in-silico)的DNA序 列。下一步,DNA序列被拆分成若干个重叠的DNA片段,且标引信息被添加到若干个DNA片 段上。最后,若干个DNA片段被合成并存储。
[0013] 对DNA片段添加标引信息意味着片段在表示信息项的DNA序列中的位置能够被 单一识别。没有必要依赖头端引物与尾端引物的匹配。这使得,即使片段之一不能正确 重现,也可以还原几乎整个信息项。如果不存在标引信息,则存在风险,也即,如果因"孤 儿" (orphan)片段而导致片段不能够相互匹配,可能不能够正确重现整个信息项,所述孤儿 片段是其在DNA序列中的位置不能清楚识别的片段。
[0014] 利用重叠的DNA片段意味着在信息项的存储中写入了一定程度的冗余。如果某一 DNA片段不能够被解码,则该编码字节仍然能够从相邻的DNA片段还原。因此冗余成为了系 统的组成部分。
[0015] 可以利用已知DNA合成技术制作DNA片段的若干个副本。这提供了额外程度的冗 余,以使得信息项能够被解码,即使DNA片段中的某些副本损坏并不能被解码。
[0016] 在发明的一个方面,用于解码的表示方案(representation schema)被设计为相 邻的DNA核苷酸各不相同。这样增加了合成、重现和测序(读取)DNA片段的可靠性。
[0017] 在本发明的进一步方面,向标引信息添加了奇偶校验(parity-check)。该奇偶校 验使得错误合成、重现或测序被识别出来。奇偶校验能够被拓展(expanded)并包括纠错信 息。
[0018] 合成DNA片段的交替片段是反向互补的。它们在DNA中提供了额外的冗余度,并 意味着如果任一 DNA片段损坏,会有更多可得信息。
【附图说明】
[0019] 图1为存储在DNA中并成功还原的信息数量的时间函数图;
[0020] 图2示出了本公开方法的示例;
[0021] 图3示出了存储随时间的成本效益的图示;
[0022] 图4示出了自反向互补模式的基序;
[0023] 图5不出了编码效率;
[0024] 图6不出了误码率;
[0025] 图7示出了方法的编码的流程图;
[0026] 图8示出了方法的解码的流程图;
【具体实施方式】
[0027] 迄今,实现实用DNA存储的主要挑战之一是根据指定(specified)设计创造
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1