通过应用参考基因组的分层结构使诧异数据最小的制作方法

文档序号:6533957阅读:184来源:国知局
通过应用参考基因组的分层结构使诧异数据最小的制作方法
【专利摘要】一种使诧异数据最小的方法、计算机程序产品、和计算机系统包含:在源头上,计算机读取和识别生物体的基因序列的特性;接收生物体的基因序列的至少两种所识别特性的等级的输入;根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构;将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以获取差异和创建诧异数据。
【专利说明】通过应用参考基因组的分层结构使诧异数据最小

【技术领域】
[0001]本发明涉及使与参考基因组比较时生成的诧异数据(surprisal data)最小,尤其涉及通过应用参考基因组的分层结构使诧异数据最小。

【背景技术】
[0002]例如,人类的DNA基因测序产生约30亿(3 X 19)个核苷酸碱基。当前人们传输,存储和分析所有30亿个核苷酸碱基,每个碱基对通常被表示成2个位。与测序相联系的数据的存储是巨大的,至少需要3千兆字节的计算机数据存储空间来存储整个基因组,这还只包括核苷酸测序数据,而不包括像注释那样的其它数据或信息。如果整个基因组包括像注释那样的其它信息,则该基因组可能需要相当于兆兆字节的存储体。巨大数量的数据、包含数据所需的巨量存储体、和直接传输数据所需的资源妨碍了数据在学院、实验室和研究机构之间的移动。例如,一些研究机构可能花费200万以上的美元来传输基因数据和发送大的基因数据,例如,包括有关基因序列或基因组的注释和细节的兆兆字节数据。极大的基因序列的转移可能要在网络数据处理系统上花费巨量时间。


【发明内容】

[0003]按照本发明的一个实施例,提供了一种使诧异数据最小的方法。该方法包含如下步骤:在源头(source)上,计算机读取和识别生物体的基因序列的特性;该计算机接收生物体的基因序列的至少两种所识别特性的等级的输入;该计算机根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构;该计算机将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则i)该计算机将至少一个匹配参考基因组存储在中心库中;ii)该计算机将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及iii)该计算机使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(i)-(iii)。
[0004]优选的是,本发明提供了这样的方法,其进一步包含该计算机向目的地发送压缩基因组,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
[0005]优选的是,本发明提供了这样的方法,其进一步包含接收生物体的压缩基因组,其包含如下步骤:计算机从源头接收压缩基因组,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示;该计算机从中心库中检索至少一个所指示匹配参考基因组;以及该计算机通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;得出生物体的整个基因组重复如下步骤:该计算机从中心库中检索至少一个所指示匹配参考基因组;以及该计算机通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组。
[0006]优选的是,本发明提供了这样的方法,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。
[0007]优选的是,本发明提供了这样的方法,其中该生物体是动物。
[0008]优选的是,本发明提供了这样的方法,其中该生物体是微生物。
[0009]优选的是,本发明提供了这样的方法,其中该生物体是植物。
[0010]优选的是,本发明提供了这样的方法,其中该生物体是菌类。
[0011]优选的是,本发明提供了这样的方法,其中该生物体是人类。
[0012]按照本发明的另一个实施例,提供了一种使诧异数据最小的计算机程序产品。该计算机程序产品包含:一个或多个计算机可读、有形存储设备;存储在该一个或多个存储设备的至少一个上,以便在源头上,读取和识别生物体的基因序列的特性的程序指令;存储在该一个或多个存储设备的至少一个上,以便接收生物体的基因序列的至少两种所识别特性的等级的输入的程序指令;存储在该一个或多个存储设备的至少一个上,以便根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构的程序指令;存储在该一个或多个存储设备的至少一个上,以便将分级的所识别特性的分层结构与参考基因组的中心库相比较的程序指令;以及存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则执行如下操作的程序指令:i)将至少一个匹配参考基因组存储在中心库中;ii)将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及iii)使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸;存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(i)-(iii)的程序指令。
[0013]优选的是,本发明提供了这样的计算机程序产品,其进一步包含存储在该一个或多个存储设备的至少一个上,以便向目的地发送压缩基因组的程序指令,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
[0014]优选的是,本发明提供了这样的计算机程序产品,其进一步包含接收生物体的压缩基因组,其包含:存储在该一个或多个存储设备的至少一个上,以便从源头接收压缩基因组的程序指令,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示;存储在该一个或多个存储设备的至少一个上,以便从中心库中检索至少一个所指示匹配参考基因组的程序指令;以及存储在该一个或多个存储设备的至少一个上,以便通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组的程序指令;存储在该一个或多个存储设备的至少一个上,以便重复执行如下步骤的程序指令的得出生物体的整个基因组程序指令:从中心库中检索至少一个所指示匹配参考基因组;以及通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组。
[0015]优选的是,本发明提供了这样的计算机程序产品,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。
[0016]优选的是,本发明提供了这样的计算机程序产品,其中该生物体是动物。
[0017]优选的是,本发明提供了这样的计算机程序产品,其中该生物体是微生物。
[0018]优选的是,本发明提供了这样的计算机程序产品,其中该生物体是植物。
[0019]优选的是,本发明提供了这样的计算机程序产品,其中该生物体是菌类。
[0020]优选的是,本发明提供了这样的计算机程序产品,其中该生物体是人类。
[0021]按照本发明的另一个实施例,提供了一种使诧异数据最小的计算机系统。该计算机系统包含:一个或多个处理器、一个或多个计算机可读存储器、和一个或多个计算机可读、有形存储设备;为了将生物体的基因序列的核苷酸与来自参考基因组的核苷酸相比较,存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便在源头上,读取和识别生物体的基因序列的特性的程序指令;存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便接收生物体的基因序列的至少两种所识别特性的等级的输入的程序指令;存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构的程序指令;存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便将分级的所识别特性的分层结构与参考基因组的中心库相比较的程序指令;以及存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则执行如下操作的程序指令:i)将至少一个匹配参考基因组存储在中心库中;ii)将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及iii)使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸;存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(i)-(iii)的程序指令。
[0022]优选的是,本发明提供了这样的系统,其进一步包含存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便向目的地发送压缩基因组的程序指令,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
[0023]优选的是,本发明提供了这样的系统,其进一步包含接收生物体的压缩基因组,其包含:存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便从源头接收压缩基因组的程序指令,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示;存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便从中心库中检索至少一个所指示匹配参考基因组的程序指令;以及存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组的程序指令;存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便重复执行如下步骤的程序指令的得出生物体的整个基因组程序指令:从中心库中检索至少一个所指示匹配参考基因组;以及通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组。
[0024]优选的是,本发明提供了这样的系统,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。

【专利附图】

【附图说明】
[0025]现在参考附图,只通过例子描述本发明的实施例,在附图中:
[0026]图1描绘了可以实现例示性实施例的可能数据处理环境的示范图;
[0027]图2-3示出了通过根据所识别特性将序列与参考基因组的分层结构相比较使诧异数据最小的方法的流程图;
[0028]图4示出了使用参考基因组和诧异数据重建生物体基因组序列的示意图;
[0029]图5示出了按照一个例示性实施例为了传输、存储和分析对基因数据作诧异数据减少的方法的示意性概况;以及
[0030]图6例示了可以实现例示性实施例的客户端计算机和服务器计算机的内部和外部组件。

【具体实施方式】
[0031]本发明的例示性实施例认识到,来自两个人的基因序列之间的差异是每1000个碱基对一个核苷酸差异或近似3百万个核苷酸差异的大约0.1 %。该差异可能是单核苷酸多态性(SNP)(生物物种的成员之间基因组中的单个核苷酸不同时发生的DNA序列变异),或该差异可能牵涉到几个核苷酸的序列。该例示性实施例认识到,大多数SNP是中性的,但有些,例如,3-5%是功能性的,通过等位基因影响物种之间的表型差异。更进一步,在人群中存在大约10到30百万个SNP,其中至少1%是功能性的。该例示性实施例还认识到,由于在来自两个人的基因序列之间存在少量差异,可以压缩掉或除去核苷酸的“共同”或“正常预期”的序列,得出“诧异数据” 一相对于共同序列“不太可能”或“令人诧异”的核苷酸的差异。通过除去共同序列出现的数据减少的尺度是103,使得数据项的数量,更重要的是,核苷酸之间的相互作用也降低了约13倍一也就是说,剩下的核苷酸的总数在13数量级上。该例示性实施例还认识到,通过在基因组内识别什么序列是“共同”的或提供“正常预期”值,以及获知什么数据是“令人诧异”的或相对于正常预期值提供了“出人意外值”,唯一以无损方式重建整个基因组所需的数据是诧异数据和用于获取诧异数据的参考基因组。本发明的例示性实施例还认识到,疾病的特定特性或疾病的潜在原因可以和已经归因于与特定参考基因组相联系的特定基因或核昔酸。
[0032]图1是提供的可以实现例示性实施例的可能数据处理环境的示范图。应该懂得,图1只是示范性的,而无意声明或暗示对可以实现不同实施例的环境的任何限制。可以对所描绘的环境作许多修改。
[0033]参照图1,网络数据处理系统51是可以实现例示性实施例的计算机的网络。网络数据处理系统51包含作为用于提供在网络数据处理系统51内连接在一起的各种设备和计算机之间的通信链路的媒体的网络50。网络50可以包括像电线、无线通信链路、或光纤缆线那样的连接方式。
[0034]在描绘的例子中,客户端计算机54、服务器计算机54、和中心库53与网络50连接。在其它示范性实施例中,网络数据处理系统51可以包括未示出的另外客户端计算机、存储设备、服务器计算机、和其它设备。客户端计算机52包括进一步例示在图6中的一组内部组件800a和一组外部组件900a。客户端计算机52可以是,例如,移动设备、蜂窝式电话、个人数字助理、笔记本电脑、膝上型电脑、平板电脑、台式计算机、测序器或任何其它类型的计算设备。
[0035]客户端计算机52可以包含接口 104。该接口可以是,例如,命令行接口、图形用户界面(GUI)、或万维网用户接口(WUI)。该接口可以用于,例如,观看来自中心库的未压缩序列或来自中心库的整个基因组。该接口还可以接受有关至少两种所识别特性的等级的输入、显示创建的所输入所识别特性的分层结构、和/或显示匹配参考基因组。
[0036]在描绘的例子中,服务器计算机54向客户端计算机52提供像引导文件、操作系统映像、和应用程序那样的信息。服务器计算机54可以在本地计算信息或从网络50上的其它计算机提取信息。服务器计算机54包括例示在图6中的一组内部组件800b和一组外部部件900b。
[0037]程序代码、参考基因组、和像序列与参考基因组比较程序67、基因组创建程序66、和/或特性分层程序68那样的程序可以存储在显示在图6中的一个或多个计算机可读有形存储设备830的至少一个上,在如图6所示的一个或多个计算机可读有形存储设备936的至少一个上,或在与网络50连接的中心库53上,或下载到数据处理系统或其它设备供人们使用。
[0038]例如,程序代码、参考基因组、和像序列与参考基因组比较程序67、特性分层程序68、和/或基因组创建程序66那样的程序可以存储在服务器计算机54上的一个或多个有形存储设备830的至少一个上,以及经过网络50下载到客户端计算机52以便用在客户端计算机52上。可替代地,服务器计算机54可以是万维网服务器,以及程序代码、参考基因组、和像序列与参考基因组比较程序67、特性分层程序68、和/或基因组创建程序66那样的程序可以存储在服务器计算机54上的一个或多个有形存储设备830的至少一个上,并在客户端计算机52上访问。参考基因组比较程序67、特性分层程序68、和/或基因组创建程序66可以通过接口 104在客户端计算机52上访问。在其它示范性实施例中,程序代码、参考基因组、和像序列与参考基因组比较程序67、特性分层程序68、和/或基因组创建程序66那样的程序可以存储在客户端计算机52上的一个或多个计算机可读有形存储设备830的至少一个上,或分布在两个或更多个服务器之间。
[0039]图2-3示出了通过根据所识别特性将序列与参考基因组的分层结构相比较使诧异数据最小的方法的流程图。
[0040]在第一步骤中,在源头上从中心库中读取和识别生物体的至少一个基因序列的特性(步骤202),例如,通过如图1所示的特性分层程序68在中心库53中。该特性可以是,但不限于,有关生物体的病史、生物体的人口统计、诊断的疾病、和其它这样的特性或识别指示的事实。生物体的未压缩基因序列可以是DNA序列、RNA序列、或核苷酸序列,以及可以代表生物体的序列或基因组。该生物体可以是菌类、微生物、人类、动物或植物。
[0041]从用户那里接收生物体的序列的至少两种所识别特性的等级的输入(步骤204),例如,通过接口 104。该等级提供所识别特定特性的相对值、权重或重要性。从至少两种所识别特性的所输入等级中,生成所识别特性的分层结构(步骤206),例如,通过特性分层程序68。
[0042]可以按顺序定义生成的所识别特性的分层结构,该顺序在分类在不同嵌套类别中的所识别特性,或每个项目优于特定的一组所识别特性的有序的一系列所识别特性之间。该分层结构可以是:简单线性分层结构、子类别的分支网络、和/或类别的嵌套分层结构。
[0043]例如,带有子类别的分支网络的分层结构可以具有糖尿病的主要类别和类型I [幼年型]和类型2[成人期发病]的次要类别。应该注意到,在第二类别下的两种类型是互斥的。
[0044]类别的嵌套分层结构的例子可以具有作为主要类别的糖尿病类型I [幼年型]和如下的次要类别:表现在肾上的糖尿病、表现在眼上的糖尿病、表现在神经系统上的糖尿病、和存在外周循环障碍的糖尿病。注意,患者可能拥有从零到所有的次要类别。次序类别可以具有另外包容的或互斥的类别。例如,表现在神经系统上的糖尿病可能拥有如下三级类别:肌肉萎缩、胃瘫、胃轻瘫、单神经病、神经性关节病、外周自主神经病变、多发性神经病。
[0045]然后将所识别特性的分层结构与参考基因组的中心库相比较(步骤208)。参考基因组是包括许多序列的数字核酸序列数据库。参考基因组的序列不代表任何一个特定个体的基因组,而是用作跨特定物种广泛比较的起点,因为控制生物结构的发展和维护以及进程的基因和基因调节区的基本集合在物种内基本上都相同。换句话说,参考基因组是物种的一组基因的代表性例子。如上所讨论,疾病的特定特性或疾病的潜在原因可以和已经归因于与特定参考基因组相联系的特定基因或核苷酸。
[0046]如果在中心库中的至少一个参考基因组与所识别特性的所生成分层结构之间不存在匹配(步骤210),那么,该方法返回到接收生物体的序列的至少两种所识别特性的等级的输入的步骤204。
[0047]用户可以通过接口,例如,接口 104设置认为什么是与分层结构的匹配。例如,用户可以设置只有当发现与分层或分层和邻居等匹配时才存在参考基因组与分层结构之间的匹配。可替代地,匹配可以基于概率阈值。
[0048]如果在中心库中的至少一个参考基因组与所识别特性的所生成分层结构之间存在匹配(步骤210),则将至少一个匹配参考基因组存储在中心库中(步骤212)。该中心库可以是中心库53或单独中心库。
[0049]然后将匹配参考基因组与生物体的序列相比较以获取诧异数据,并将诧异数据和使用的匹配参考基因组的指示存储在中心库中(步骤214),例如,使用序列与参考基因组比较程序67。诧异数据优选地包括参考基因组内差异的地点、不同的核酸碱基的数量、和实际变化的核酸碱基。使不同的碱基的数量包括在压缩的诧异数据中通过将实际碱基与参考基因组碱基相比较以确认碱基真正不同,提供了该方法的双重检验。
[0050]图4示出了将生物体序列与参考基因组序列相比较以获取代表生物体基因组的诧异数据的示意图。通过比较获得的诧异数据优选地由参考基因组中差异的地点、参考基因组内该地点上不同的碱基的数量、和该地点上与参考基因组中的碱基不同的实际碱基组成。例如,显示在图4中的通过将生物体序列与参考基因组比较获得的诧异数据由如下组成:参考基因组的地点485上的差异;相对于参考基因组的四个核酸碱基差异;以及该地点上存在于序列中的实际碱基,例如,CAAT (取代了 GTTA)。
[0051]如果来自中心库的另一个参考基因组与分层结构匹配以及要将生物体的序列与另一个参考基因组相比较(步骤216),则该方法返回到步骤214,将匹配参考基因组与生物体的序列相比较以获取诧异数据,并将诧异数据存储在中心库中。
[0052]如果来自中心库的另一个参考基因组不与所识别特性的分层结构匹配以及没有其它参考基因组要与该序列比较(步骤216),则将与生物体的序列比较的参考基因组的指示和诧异数据发送到目的地作为生物体的压缩基因(步骤218)。比较的参考基因组的指示还可以包括将参考基因组应用于来自生物体的序列的顺序。
[0053]例如,用户可能希望确定当与与2型糖尿病、冠状动脉疾病相联系,但不与慢性阻塞性肺病(COPD)相联系的参考基因组相比较时,生物体的至少一个序列是否得出诧异数据。用户因此可以对2型糖尿病的所识别特性指定0.6的等级或权重,对冠状动脉疾病的所识别特性指定0.3的等级或权重,以及对COPD指定0.1的等级或权重。可以认为与2型糖尿病相联系但不与COPD相联系的参考基因组是匹配的,将提供数量狭窄的、经过过滤的诧异数据。另一种匹配可以是与冠状动脉疾病相联系但不与CCffD相联系的参考基因组。在这个例子中,将至少一个生物体的序列与两个匹配参考基因组相比较将使可以压缩的核苷酸的“共同”或“正常预期”序列最大而使诧异数据最小,使得根据用户的输入提高了与两个匹配参考基因组相比较所得的诧异数据的相关性。
[0054]由目的地接收与生物体的序列比较的参考基因组的指示和诧异数据并将其存储在中心库中(步骤220)。然后从中心库中检索所指示参考基因组(步骤222),例如,使用基因组创建程序66。
[0055]从诧异数据和检测的参考基因组中,通过找出至少一个参考基因组内被指示成在诧异数据中存在差异的地点,并将参考基因组的碱基变更成诧异数据所指的碱基重建生物体的整个基因组(步骤224),例如,通过使用基因创建程序66。在图5的例子中,根据诧异数据,在地点485上存在差异,在参考基因组中找出这个地点,并将GTTA改变成如诧异数据所指的CAAT。
[0056]如果不止一个参考基因组用于生成诧异数据(步骤226),则该方法返回到检索所指示参考基因组的步骤222。
[0057]如果未使用不止一个参考基因组生成诧异数据(步骤226),则结束该方法。
[0058]诧异数据可以通过将诧异数据中来自生物体的基因序列的核苷酸与该地点上参考基因组中的核苷酸相比较来核实。如果诧异数据中的所有核苷酸都不同于参考基因组中的核苷酸,则该诧异数据得到核实。这种核实可以在步骤218之前进行。
[0059]可替代地,该核实可以在通过基因组创建程序66创建生物体的整个基因组期间与步骤224同时进行。如果诧异数据中的一些核苷酸与参考基因组中的核苷酸相同,则该诧异数据存在错误。
[0060]应当注意到,在图4和5中,为了清楚起见,只示出了生物体序列和参考基因组两者的一部分,所示的序列是随机选择的,不代表任何种类的真正DNA序列。
[0061]图6例示了可以实现例示性实施例的客户端计算机52和服务器计算机54的内部和外部组件。在图6中,客户端计算机52和服务器计算机54包括各自一组内部组件800a,800b和外部组件900a,900b。每组内部组件800a,800b包括在一条或多条总线826上的一个或多个处理器820、一个或多个计算机可读RAM 822和一个或多个计算机可读ROM 824、一个或多个操作系统828和一个或多个计算机可读有形存储设备830。一个或多个操作系统828、序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66存储在一个或多个计算机可读有形存储设备830上,供一个或多个处理器820经由一个或多个计算机可读RAM 822 (通常包括高速缓冲存储器)执行。在例示在图6中的实施例中,每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。可替代地,每个计算机可读有形存储设备830是像R0M824那样的半导体存储设备、EPR0M、闪速存储器或可以存储计算机程序和数字信息的任何其它计算机可读有形存储设备。
[0062]每组内部组件800a,800b还包括R/W驱动器或接口 832,以便读写像⑶_R0M、DVD、存储棒、磁带、硬盘、光盘或半导体存储设备那样的一个或多个便携式计算机可读有形存储设备936。序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66可以存储在一个或多个便携式计算机可读有形存储设备936,经由R/W驱动器或接口 832读取,并装载到硬盘驱动器830中。
[0063]每组内部组件800a,800b还包括像TCP/IP适配器卡那样的网络适配器或接口836。序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66可以经由网络(例如,互联网、局域网或其它广域网)和网络适配器或接口 836从外部计算机下载到客户端计算机52和服务器计算机54。将序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66从网络适配器或接口 836装载到硬盘驱动器830中。该网络可以包含铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
[0064]每组外部组件900a,900b包括计算机显示监视器920、键盘930、和计算机鼠标934。每组内部组件800a,800b还包括设备驱动器840,以便与计算机显示监视器920、键盘930、和计算机鼠标934交接。设备驱动器840、R/W驱动器或接口 832、和网络适配器或接口 836包含硬件和软件(存储在存储设备830和/或ROM 824中)。
[0065]序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66可以用包括低级、高级、面向对象或非面向对象语言的各种编程语言编写。可替代地,序列与参考基因组比较程序67、特性分层程序68、和基因组创建程序66的功能可以全部或部分通过计算机电路或其它硬件(未示出)来实现。
[0066]根据上文,公开了便诧异数据最小的计算机系统、方法和程序产品。但是,可以不偏离本发明的范围地作出许多修改和替换。因此,本发明通过例子而不是限制性地得到公开。
[0067]如本领域的普通技术人员所懂得,本发明的各个方面可以具体化成系统、方法和计算机程序产品。于是,本发明的各个方面可以采取本文可以统称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、驻留软件、微码等)或组合软件和硬件方面的实施例的形式。更进一步,本发明的各个方面可以采取具体化在一种或多种计算机可读介质中的计算机程序产品的形式,该计算机可读介质含有具体化在上面的计算机可读程序代码。
[0068]可以利用一种或多种计算机可读介质的任何组合。该计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是,例如,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或设备,或前者的任何适当组合。计算机可读存储介质的更具体例子(非穷举列表)包括如下:具有一条或多条导线的电连接体、便携式计算机软盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前者的任何适当组合。在本文件的背景下,计算机可读存储介质可以是可以包含或存储程序的任何有形介质,该程序可以供或结合指令执行系统、装置或设备使用。
[0069]计算机可读信号介质可以包括,例如,在基带中或者作为载波一部分、含有具体化在其中的计算机可读程序代码的传播数据信号。这样的传播数据信号可以采取多种形式的任何一种,包括,但不限于,电磁信号、光信号或它们的任何适当组合。计算机可读信号介质可以是非计算机可读存储介质、和可以传送,传播或传输程序的任何计算机可读介质,该程序可以供或结合指令执行系统、装置或设备使用。
[0070]具体化在计算机可读介质上的程序代码可以使用任何适当介质发送,包括,但不限于,无线、有线、光缆、RF等,或前者的任何适当组合。
[0071]进行本发明的各个方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写,该编程语目包括像Java、Smalltalk、C++等那样的面向对象编程语目、和像“C”编程语言或类似编程语言那样的传统过程式编程语言。程序代码可以完全在用户计算机上执行、部分在用户计算机上执行、作为一个独立软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形下,远程计算机可以通过任何类型的网络一包括局域网(LAN)或广域网(WAN) —连接到用户计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。
[0072]上面参考按照本发明实施例的方法、装置(系统)和计算机程序产品的例示性流程图和/或框图描述了本发明的各个方面。应当明白,例示性流程图和/或框图的每个方块以及例示性流程图和/或框图中的各个方块的组合都可以通过计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而形成一台机器,使得经由计算机或其它可编程数据处理装置的处理器执行的指令形成实现在流程图和/或框图的一个或多个方块中规定的功能/动作的部件。
[0073]这些计算机程序指令也可以存储在计算机可读介质中,该计算机可读介质可以指引计算机、其它可编程数据处理装置、或其它设备以特定方式起作用,使得存储在计算机可读介质中的指令形成包括实现在流程图和/或框图的一个或多个方块中规定的功能/动作的指令的制品。
[0074]也可以将计算机程序指令装载到计算机、其它可编程数据处理装置、或其它设备上,使一系列操作步骤在计算机、其它可编程数据处理装置、或其它设备上得到执行,形成计算机实现过程,以便在计算机或其它可编程装置上执行的指令提供实现在流程图和/或框图中的一个或多个方块中规定的功能/动作的过程。
[0075]图中的流程图和框图例示了按照本发明的各种实施例的系统、方法和计算机程序产品的可能实现的总体结构、功能和操作。在这一点上,流程图或框图中的每个方块可以代表代码的模块、片段或一部分,该代码的模块、片段或一部分包含一条或多条用于实现规定的逻辑功能的可执行指令。还应当注意到,在一些可替代实现中,标注在方块中的功能也可以以不同于标注在附图中的次序执行。例如,取决于所涉及的功能,两个相继示出的方块实际上可以基本同时地执行,或这些方块有时也可以按相反的次序执行。还要注意的是,框图和/或例示性流程图中的每个方块、以及框图和/或例示性流程图中的方块的组合可以用执行规定的功能或动作的专用基于硬件系统,或专用硬件与计算机指令的组合体来实现。
【权利要求】
1.一种使诧异数据最小的方法,该方法包含如下步骤: &)在源头上,计算机读取和识别生物体的基因序列的特性; 幻该计算机接收生物体的基因序列的至少两种所识别特性的等级的输入; 0)该计算机根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构; (1)该计算机将分级的所识别特性的分层结构与参考基因组的中心库相比较;以及 6)如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则 1)该计算机将至少一个匹配参考基因组存储在中心库中; II)该计算机将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及 III)该计算机使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸; 如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(6)⑴、(6) (11)^0 (6) (111)。
2.如权利要求1所述的方法,进一步包含该计算机向目的地发送压缩基因组,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
3.如权利要求2所述的方法,进一步包含,接收生物体的压缩基因组包含如下步骤: 计算机从源头接收压缩基因组,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示; 该计算机从中心库中检索至少一个所指示匹配参考基因组;以及 该计算机通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸,被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;得出生物体的整个基因组,重复如下步骤:该计算机从中心库中检索至少一个所指示匹配参考基因组;以及该计算机通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸,被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组。
4.如权利要求1所述的方法,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。
5.一种计算机程序产品,其包含一个或多个计算机可读、有形存储设备、和存储在该一个或多个计算机可读、有形存储设备上和当被一个或多个处理器执行时,实现如权利要求1所述的所有步骤的计算机可读程序指令。
6.一种计算机系统,其包含一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、和存储在该一个或多个计算机可读、有形存储设备上的程序指令,该程序指令供该一个或多个处理器经由该一个或多个存储器执行、和当被该一个或多个处理器执行时,实现如权利要求1所述的所有步骤。
7.一种使诧异数据最小的计算机程序产品,包含: 一个或多个计算机可读、有形存储设备; 存储在该一个或多个存储设备的至少一个上,以便在源头上,读取和识别生物体的基因序列的特性的程序指令; 存储在该一个或多个存储设备的至少一个上,以便接收生物体的基因序列的至少两种所识别特性的等级的输入的程序指令; 存储在该一个或多个存储设备的至少一个上,以便根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构的程序指令; 存储在该一个或多个存储设备的至少一个上,以便将分级的所识别特性的分层结构与参考基因组的中心库相比较的程序指令;以及 存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则执行如下操作的程序指令: I)将至少一个匹配参考基因组存储在中心库中; II)将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及 III)使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸; 存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(1)-(111)的程序指令。
8.如权利要求9所述的计算机程序产品,进一步包含存储在该一个或多个存储设备的至少一个上,以便向目的地发送压缩基因组的程序指令,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
9.如权利要求8所述的计算机程序产品,进一步包含接收生物体的压缩基因组,其包含: 存储在该一个或多个存储设备的至少一个上,以便从源头接收压缩基因组的程序指令,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示; 存储在该一个或多个存储设备的至少一个上,以便从中心库中检索至少一个所指示匹配参考基因组的程序指令;以及 存储在该一个或多个存储设备的至少一个上,以便通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸,被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;得出生物体的整个基因组的程序指令; 存储在该一个或多个存储设备的至少一个上,以便重复执行如下程序指令:从中心库中检索至少一个所指示匹配参考基因组;以及通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组的程序指令。
10.如权利要求9所述的计算机程序产品,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。
11.一种使诧异数据最小的计算机系统,包含: 一个或多个处理器、一个或多个计算机可读存储器、和一个或多个计算机可读有形存储设备; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以将生物体的基因序列的核苷酸与来自参考基因组的核苷酸相比较,以便在源头上,读取和识别生物体的基因序列的特性的程序指令; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便接收生物体的基因序列的至少两种所识别特性的等级的输入的程序指令; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便根据生物体的基因序列的至少两种所识别特性的等级生成分级的所识别特性的分层结构的程序指令; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便将分级的所识别特性的分层结构与参考基因组的中心库相比较的程序指令;以及 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便如果来自中心库的至少一个参考基因组与分级的所识别特性的分层结构匹配,则执行如下操作的程序指令: I)将至少一个匹配参考基因组存储在中心库中; II)将生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸相比较,以找出生物体的基因序列的核苷酸与来自至少一个匹配参考基因组的核苷酸不同的差异;以及 III)使用该差异创建诧异数据并将该诧异数据存储在中心库中,该诧异数据包含参考基因组内该差异的开始地点、和与参考基因组的核苷酸不同的来自生物体的基因序列的核苷酸; 存储在该一个或多个存储设备的至少一个上,以便如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则重复步骤(1)-(111)的程序指令。
12.如权利要求11所述的系统,进一步包含存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便向目的地发送压缩基因组的程序指令,该压缩基因组包含诧异数据和至少一个匹配参考基因组的指示,该压缩基因组省略了在生物体的基因序列和至少一个匹配参考基因组中相同的核苷酸的序列。
13.如权利要求12所述的系统,进一步包含接收生物体的压缩基因组,其包含: 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便从源头接收压缩基因组的程序指令,该压缩基因组包含诧异数据和用于压缩基因组的至少一个匹配参考基因组的指示; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便从中心库中检索至少一个所指示匹配参考基因组的程序指令;以及 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;得出生物体的整个基因组的程序指令; 存储在该一个或多个存储设备的至少一个上,供该一个或多个处理器的至少一个经由该一个或多个存储器的至少一个执行,以便重复执行如下程序指令:从中心库中检索至少一个所指示匹配参考基因组;以及通过让该诧异数据指定的至少一个匹配参考基因组中每个地点上的核苷酸被与该地点相联系的诧异数据中来自生物体的基因序列的核苷酸取代,根据该诧异数据变更至少一个匹配参考基因组;如果来自中心库的另一个参考基因组与分级的所识别特性的分层结构匹配,则得出生物体的整个基因组的程序指令。
14.如权利要求13所述的系统,其中该诧异数据进一步包含参考基因组内的地点上的差异的数量的计数。
【文档编号】G06F19/22GK104335213SQ201380026006
【公开日】2015年2月4日 申请日期:2013年5月15日 优先权日:2012年5月18日
【发明者】J.克雷默, R.弗里德兰德 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1