宏基因组序列的组装的制作方法

文档序号:6370404阅读:308来源:国知局
专利名称:宏基因组序列的组装的制作方法
技术领域
本发明大体涉及宏基因组领域,特别地,涉及构成宏基因组数据的序列的组装。
背景技术
通过对基因材料进行测序,对从环境样品中直接获取的基因材料的研究,被称为宏基因组学。宏基因组学提供了有关环境样品中存在的各种有机体的遗传多样性和生理机能的信息。在基因组研究中涉及的设备(例如研究实验室或诊室)一般使用高通量平台(例如下一代测序(N GS)平台),该平台每年能够生成数量庞大的宏基因组数据。可以进一步分析由此生成的宏基因组数据,例如,来确定宏基因组数据中存在的各种有机体,以及来鉴别它们包括的各种基因的功能作用。通常地,为了进一步的分析和将来的研究,可以将宏基因组数据储存起来。因此,每年都生成数量庞大的、数百千兆字节(TB)范围内的宏基因组数据,这些数据被储存于库中以用于将来的研究。为了分析这些宏基因组数据,通常将构成宏基因组数据的核苷酸序列(例如DNA或RNA序列)组装成称为重叠群(contigs)的较大序列。组装过程一般涉及到对核苷酸序列进行成对比较并进行以百万计的编号,因此需要巨大的计算资源和基础设施。进一步地,若试图组装核苷酸序列,该序列来源于属于不同分类群的大量有机体的基因组,则可能导致错误的嵌合序列的形成,这会对宏基因组数据的分析结果造成影响。

发明内容
本概要被提供来介绍与宏基因组序列的组装相关的概念,该概念在下面的详细说明中会进一步描述。本概要并不旨在鉴别要求保护的主题的本质特征,也不旨在用于确定或限制要求保护的主题的范围。在此描述了用于组装宏基因组序列的方法和系统。在一个实施例中,用于组装宏基因组序列的方法包括在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量。进一步地,基于多个序列向量,在三维空间中定义具有多个等尺寸的较小立方体(下文称为网格)的立方体。在一个实施例中,所述立方体被定义为其包括与多个宏基因组序列相对应的序列向量。进一步地,逐步遍历所述多个网格,以识别所述多个宏基因组序列并将其组装成一个或多个重叠群。在一个实施例中,将所述一个或多个重叠群如此组装:一个重叠群包括可能来源于同一基因组的宏基因组序列。


参考附图对详细说明进行了描述。在附图中,参考数字最左边的数字标示了首次出现该参考数字的附图。在附图中使用同样的数字来引用相似的特征和部件。图1(a)根据本发明的一个实施例,说明了一个宏基因组序列组装系统。图1(b)根据本发明的一个实施例,说明了由用于组装宏基因组序列的宏基因组序列组装系统生成的立方体。图1(C)根据本发明的一个实施例,说明了通过宏基因组序列组装系统在立方体上实施的逐步遍历的图形表示。图2根据本发明的一个实施例,说明了使用宏基因组序列组装系统获得的纯网格所覆盖的宏基因组序列的百分比,该百分比以条形来描述。图3根据本发明的一个实施例,说明了用于组装宏基因组序列的方法。图4根据本发明的一个实施例,说明了生成用于组装宏基因组序列的一组参考点的方法。
具体实施例方式在此描述了用于组装宏基因组序列的方法和系统。通常地,出于研究或医学目的,无论是从生物样品还是环境样品中直接提取的基因材料(即宏基因组),都会作为宏基因组数据被处理和储存起来。对所述基因材料进行测序,以生成多个核苷酸序列(例如DNA或RNA序列)。随后可以将所述核苷酸序列(也被称为宏基因组序列)组装成称为重叠群的基因组片段,这些片段与环境样品中存在的有机体的基因组相对应。可以对所述重叠群作进一步分析,例如,来评估环境样品中存在的有机体的遗传多样性和功能概况。已经有多种组装技术,被用于将从特定环境样品中存在的多种有机体得到的宏基因组序列组装成与其对应的重叠群。传统的组装技术包括将宏基因组序列与预定的基于寡核苷酸频率的模型进行对比,并将宏基因组序列标记至显示出最高相似度的模型。然后可以将标记至相似模型的宏基因组序列组装成重叠群。但是属于未知基因组的宏基因组序列可能不会对任何模型显示出显著的相似度,从而可能不会被组装成重叠群,因此会造成含义不明、降低 分析效率。另一种传统技术包括基于每个宏基因组序列的分类起源来组装宏基因组序列。可以将具有相似分类起源的宏基因组序列组装起来形成重叠群。但是使用上述方法可能不能有效地组装宏基因组序列,例如,当宏基因组序列属于尚未被分类学分类的有机体时。因此可能不能将属于这些未知有机体的宏基因组序列组装成重叠群,会使宏基因组数据的结果和分析模棱两可。另一种传统技术包括基于宏基因组序列的寡核苷酸使用模式来组装宏基因组序列。根据这种技术,首先可以使用聚类技术(例如K-means)将具有相似寡核苷酸使用模式的宏基因组序列分成聚类。随后,可以将属于单一聚类的宏基因组序列组装成重叠群。为了这个目的,将每一个宏基因组序列转换成一个η维向量,使得每个η维度都与宏基因组序列中特定的寡核苷酸频率以及给定的长度相对应。进一步地,可以基于其对应的η维向量之间的相对偏差,将宏基因组序列分成聚类。但是基于较长的寡核苷酸的频率的宏基因组序列聚类可能会导致错误的聚类,例如,在宏基因组序列的长度少于1000bps的情况下。进一步地,属于这些含糊的聚类的宏基因组序列的组装可能会导致不正确的重叠群。再者,因为计算频率和n维向量之间的距离都需要时间,基于这些频率组装宏基因组序列可能需要更多的时间和计算资源。本发明描述了使用优化的数据划分方法,将宏基因组序列组装成重叠群的方法和系统。虽然这里关于宏基因组数据的说明相当详细,所述宏基因组数据具有与构成宏基因组数据的不同基因组的片段相对应的宏基因组序列,应该理解的是,本领域技术人员应该理解,尽管有些许变化,可以将用于组装的方法和系统实施于具有来自相同基因组的基因组片段的基因组数据。根据本发明的一个实施例,具有多个宏基因组序列的宏基因组数据被接收来组装成多个重叠群。应该理解的是,通过与环境样品中存在的一个独特有机体相关的每个基因组,每个重叠群构成与一个独特基因组相对应的宏基因组序列。进一步地,为了获得与环境样品中存在的有机体相对应的较长重叠群或完整基因组,可以使用上面描述的方法的连续迭代,对由此生成的重叠群进行处理。首先基于每个宏基因组序列的所有可能的四核苷酸的频率,将从宏基因组数据获取的每个宏基因组序列转换成一个256维向量(下文称为中间向量)。在将由此获得的多个中间向量转换成三维空间中的多个序列向量,使得每个宏基因组序列都被表示为三维空间中的一个序列向量。在一个实施例中,例如使用基于多个参考基因组获得的一组参考点,将宏基因组序列表示为序列向量。进一步地,基于序列向量,可以在三维空间中定义一个立方体,使得所述立方体内含有与所有宏基因组序列相对应的序列向量。进一步地,可以将所述立方体分成多个等尺寸的较小立方体(下文称为网格),使得每个网格含有位于由立方体中特定的网格所定义的坐标之内的序列向量,并反过来包括宏基因组序列。进一步地,可以使用逐步遍历(progressive traversal)的方法,对每个网格进行分析,来识别所有可能属于特定基因组的宏基因组序列并对其进行分组。在一个实施例中,网格被如此遍历:在每一个遍历步骤中,获得一个网格及其邻近网格(统称为网格聚类)中的宏基因组序列。可以进一步将由此获得的宏基因组序列组装成重叠群,使得具有相似分类起源的宏基因组序列组合形成单一的重叠群。进一步地,在遍历一个特定的网格时没有被组装的宏基因组序列(例如由于缺少与相似分类起源的重叠宏基因组序列),可以考虑在遍历下一个网格时组装。例如,在遍历网格“000”时没有组装的宏基因组序列,可以考虑连同遍历下一个网格(即网格“100”)时获得的宏基因组序列一起组装。遍历所有网格之后,可以获得未组装序列和已组装序列的指数并将其连同重叠群一起储存以用于将来的参考和/或分析。因此,本发明提供一种高效、简单的方法,所述方法使用优化的数据划分方法,将宏基因组序列组装成重叠群。·将宏基因组序列划分为序列向量和多个网格,有效减少了分析和组装宏基因组序列所需的计算时间。进一步地,使用逐步遍历的方法以及一次组装一个聚类的网格的宏基因组序列,有助于优化高效组装宏基因组序列所需的资源。虽然这里的说明是关于宏基因组数据,本领域的技术人员应该理解,尽管有些许变化,还可以将所述系统和方法实施于其他数据(例如基因组数据)。结合下面的附图对本发明的这些优点及其他优点进行更详细的说明。虽然能够在任意数量的计算系统、环境和/或配置中实施所述组装宏基因组序列的系统和方法的各个方面,实施例是在下述示例性系统的范围内描述的。图1(a)根据本发明的一个实施例,说明了一个宏基因组序列组装系统100。可以在包括但不限于台式电脑、多处理器系统、笔记本电脑、网络计算机、云服务器、小型机、大型机以及类似的系统中实施宏基因组序列组装系统100。在一个实施例中,宏基因组序列组装系统100 (下文称为系统100)包括接口 102、一个或多个处理器104以及与处理器104相连的存储器106。
接口 102可以包括多种软件和硬件接口,例如用于外围设备的接口,比如键盘、鼠标、外部存储器和打印机。进一步地,接口 102还使系统100能够与其他设备(例如网页服务器和外部数据库)通信。接口 102能够帮助在种类广泛的网络和协议类型中的多种通信,这些网络和协议类型包括有线网络,例如局域网(LAN)、电缆等,以及无线网络,例如无线局域网(WLAN)、蜂窝网络或卫星网络。为此,接口 102可以包括一个或多个用于将若干计算系统相互连接或与另外的服务器计算机连接的一个或多个端口。处理器104可以是单个处理单元或若干个单元,它们都包括多个计算单元。处理器104可以实施为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑设计电路和/或基于操作指令控制信号的任何设备。除其他功能外,处理器104可以被配置来取出和执行存储在存储器106中的计算机可读指令和数据。存储器106可以包括本领域所知的任何计算机可读介质,这些介质包括如易失性存储器(比如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(比如只读存储器(ROM)、可擦除可编程只读存储器、闪存、硬盘、光盘和磁带)。存储器106还包括模块108和数据110。除其他之外,模块108包括执行特定任务或实施特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。模块108进一步包括网格生成模块112、序列组装模块114和其他模块116。其他模块116可以包括在系统100上补充应用的程序,例如操作系统中的程序。在另一方面,数据110除作为其他用途外还作为储存库来存储数据,所述数据由一个或多个模块108处理、接收和生成。数据110包括网格数据118、已组装数据120和其他数据122。其他数据122包括作为模块108中的一个或多个模块的执行结果而生成的数据。在一个实施例中,系统100与宏基因组数据储存库(未在附图中表不)相联系。应该理解的是,宏基因组数据储存库可以在系统100外部或内部。宏基因组数据储存库包括多个宏基因组数据文件,这些文件具有由宏基因组数据生成平台(例如基于NGS的平台)生成的宏基因组数据。应该理解的是,宏基因组数据包括与环境样品中存在的多个有机体的基因组相对应的多个宏基因组序列。虽然这里提供的与具有宏基因组序列的宏基因组数据相关的系统100和方法的说明相当详细,应该理解的是,本领域技术人员应该理解,尽管有些许变化,还可以将用于组装的方法和系统实施于具有基因组片段的基因组数据。根据本发明的一个实施例,具有多个宏基因组序列的宏基因组数据被系统100接收,以组装成多个重叠群。重叠群应该理解为与一个独特的基因组相对应的一组宏基因组序列,与环境中存在的独特有机体相关的每一个基因组都与所述宏基因组数据相对应。在一个实施例中,网格生成模块112接收并存储具有网格数据118中的宏基因组序列的宏基因组数据。进一步地,网格生成模块112在三维空间中表示每个宏基因组序列,以获得多个序列向量。在一个实施例中,网格生成模块112首先确定每个宏基因组序列的所有可能的四核苷酸的频率。基于此确定的结果,网格生成模块112将所述宏基因组序列表示为256维向量。因此,对于每一个宏基因组序列,网格生成模块112都得到一个256维向量(下文称为中间向量)。进一步地,网格生成模块112可以将每个中间向量转换成三维序列向量。在一个实施例中,网格生成模 块112通过计算对应的中间向量和一组参考点之间的距离来获得序列向量。在一个实施例中,网格生成模块112使用从参考数据库(例如所有目前已测序的基因组的数据库)中获得的多个参考基因组来得到该组参考点。进一步地,网格生成模块112获得所述多个参考基因组,使得每个参考基因组对应于一个不同的生物属种。例如,网格生成模块112可以从已知的基因组数据库(例如国家生物技术信息中心(NCBI)数据库)取得对应于237个完全测序的微生物基因组的参考基因组。网格生成模块112随后将多个参考基因组中的每一个都分成多个无重叠的参考片段。举例来说,在前述例子中,网格生成模块112将237个参考基因组划分成多个(假设是1000个)碱基对的无重叠的参考片段。进一步地,网格生成模块112对每个参考片段进行分析,以计算相应的具有所有可能四核苷酸频率的256维片段向量。随后使用任意已知的聚类方法,通过网格生成模块112将由此获得的片段向量分成片段聚类。举例来说,网格生成模块112可以使用K均值聚类方法将片段向量进行聚类,以获得片段聚类。在一个实施例中,网格生成模块112使用K均值聚类方法获得k个片段聚类,其中k的值可以使用等式I给出的公式来确定。其中η等于从参考基因组获得的参考片段的数目。k =卜/2(I)
关于上面讨论的例子,网格生成模块112可以使用从237个参考基因组获得的参考片段,来获得总数为631个的片段聚类。进一步地,对于每一个片段聚类,网格生成模块112确定一个与每个片段聚类的质心相对应的聚类向量。基于此确定的结果,网格生成模块112随后确定三个最不相关的聚类向量。在一个实施例中,网格生成模块112获得与聚类向量相对应的单元向量之间的成对点积(pairwise dot product),并确定具有其中的最小成对点积的一组三个聚类向量作 为一组参考点。网格生成模块112因此确定作为参考点的三个聚类向量,并将该组参考点储存在网格数据118。应该理解的是,由此生成的该组参考点代表已知生物领域中观察到的核苷酸使用模式,因此保证了宏基因组序列在三维空间中得到正确的表示。进一步地,网格生成模块112可以通过比如计算相应的中间向量和该组参考点之间的距离,使用参考点来确定与宏基因组序列相对应的序列向量。应该理解的是,序列向量有助于确定三维空间中宏基因组序列的笛卡尔坐标。进一步地,如图1(b)所示,网格生成模块112基于序列向量,在三维空间中定义立方体124。立方体124被生成为使得其包括有所有考虑中的宏基因组序列。为此,网格生成模块112首先基于序列向量,确定每个宏基因组序列的三维坐标(即X、y和z坐标)。进一步地,网格生成模块112对三维空间中的每个X、y和z方向,确定一个最远坐标和一个最近坐标。每个方向上的最远坐标可以定义为宏基因组序列的二维坐标中相应方向上的最大值,即位于距三维空间中的原点最大距离的坐标。每个方向上的最近坐标可以定义为宏基因组序列的三维坐标中的最小值,即位于距原点最小距离的坐标。网格生成模块112随后可以对立方体124作如下定义:立方体124在x、y和z方向中每一个的长度都等于相应方向上最远坐标与最近坐标之间的差值。基于每个方向上的最远坐标与最近坐标来定义立方体124的边界,保证了与所有宏基因组序列相对应的序列向量都包含在立方体124之内。立方体124因此可以被网格生成模块112储存在网格数据118之中。进一步地,如图1(b)所示,网格生成模块112可以将立方体124划分成多个网格,使得每个网格包括位于由立方体124中特定网格定义的坐标之内的序列向量,并且反过来包括宏基因组序列。在一个实施例中,网格可以是等尺寸的。由此获得的与网格相关的数据可以被网格生成模块112储存在网格数据118之中。
基于由此获得的网格,序列组装模块114可以对立方体124进行分析,以将宏基因组序列组装成重叠群。在一个实施例中,序列组装模块114可以使用逐步遍历的方法来将宏基因组序列组装成重叠群。使用逐步遍历的方法使得序列组装模块114如此遍历网格:在每一个遍历步骤中,获得考虑中的网格及其邻近网格(统称为网格聚类)中存在的宏基因组序列。首先,如图1(c)所示,序列组装模块114鉴别一个网格(假设是网格“ABC”),以分析和遍历由网格“ABC”及其在三维空间中所有三个方向上紧密邻近的网格所形成的网格聚类。在一个实施例中,如图1(c)所示,序列组装模块114可以遍历网格“ABC”以及网格 “ABC” 的 7 个紧密邻近网格,即网格(A+l) BC、A (B+1) C、AB (C+l)、(A+l) (B+1) C、A (B+1)(C+1)、(A+1)B(C+1)、(A+1) (B+1) (C+1)。基于所述遍历,序列组装模块114获得宏基因组序列的选择性子集,即包括在网格聚类之内的宏基因组序列,以组装成一个或多个重叠群。在一个实施例中,序列组装模块114可以使用任何已知的序列组装方法(例如CAP3、SSAKE, SHARCGS, VCAKE, Newbler, Celera Assembler、AbySS, AllPaths, Velvet、Euler和SOAPdenovo)来组装宏基因组序列的选择性子集。进一步地,序列组装模块114将选择性的宏基因组序列组装成一个或多个重叠群,使得源自同一基因组的宏基因组序列有较高的可能性会合并形成单一重叠群。因此,由于上述网格分区方法有助于将相似来源的宏基因组序列聚类起来,上述网格分区方法可以使源自同一基因组的宏基因组序列有较高的可能性会合并形成单一重叠群。由此获得的重叠群包括可能源自同一基因组的宏基因组序列,从而宏基因组序列得到高效的组装。此外,在一个特定的遍历步骤中,因为比如缺少源自同一基因组的重叠宏基因组序列而没有被序列组装模块114组装的宏基因组序列,可以考虑在遍历下一个网格时组装。举例来说,序列组装模块114可以考虑将遍历网格“100”时没有组装的宏基因组序列连同遍历下一个网格(即网格“200”)时获得的选择性宏基因组序列一起组装。序列组装模块1 14因此可以遍历所有网格并获得多个重叠群。序列组装模块114由此获得的多个重叠群被储存在已组装数据120之中。在一个实施例中,序列组装模块114首先遍历X方向,然后遍历Y方向,最后遍历沿Z轴的方向。进一步地,序列组装模块114可以将遍历所有网格后接收到的重叠群组成更长的重叠群或整个基因组。由此获得的重叠群可以被储存在已组装数据120中。进一步地,在遍历网格之后仍然未被组装的宏基因组序列也可以被储存在已组装数据120中。此外,序列组装模块114可以生成未组装宏基因组序列和已组装宏基因组序列的指数,并将其连同重叠群一起储存在已组装数据120之中以用于将来的参考和/或分析。验证和结论
出于验证的目的,从宏基因组样品分析保真(Fidelity of Analysis of MetagenomicSamples (FAMeS))数据库中的模拟宏基因组的在线储存库下载了三组独特的模拟宏基因组数据,并使用根据本发明实施例的系统100进行组装。进而将三个独特的宏基因组数据组(B卩simHC, simMC和simLC)的组装结果与传统技术(例如CAP3)进行比较。simHC数据组被定义为所有构成的基因组都被均等表示(represent)。simMC数据组被定义为其中前半基因组有较高表示,而剩余的一半基因组的表示较低。simLC数据组被定义为其中与其他基因组相比,某些基因组被过度表示。进一步地,为了两个不同的验证而进行实验。第一个验证是为了确定宏基因组序列组装系统的解析力(resolving power),以获得含有分类学上相似的宏基因组序列的网格,这有助于将其组装成重叠群。首先将三组独特的宏基因组输入系统100,并基于三个独特的组来定义立方体(例如立方体124)。进一步将立方体分成多个网格,并对其分析以确定每个网格所覆盖的宏基因组序列的分类所属。基于上述确定的结果,在分类学上的动物门水平上确定每个网格的纯度。为此,将具有至少70%属于单个动物门的宏基因组序列的所有网格定义为“纯门水平(phylum-level-pure)”网格。在附图2中,条形图200描述了使用系统100将立方体划分为网格后获得的结果。图200描述了使用系统100,每个数据组所得到的纯网格所覆盖的宏基因组序列的百分比。在图200中,在横轴上表示用于验证的三个数据组,而在纵轴204上表示三个数据组所得到的纯网格所覆盖的宏基因组序列的百分比。在一个实施例中,SimLC数据组所得到的网格纯度水平用条形206表示,SimMC数据组用条形208表示,simHC数据组用条形210表示。如图200所示,三个数据组的纯网格所覆盖的宏基因组序列百分比都大于60%。进一步地,SimLC和SimMC数据组的百分比都大于70%。纯网格所覆盖的宏基因组序列的百分比如此之高,因此说明了系统100能有效对用于组装的宏基因组数据进行预分区。另外,为了确定用于组装宏基因组序列的网格组装方法的适应性,进行了第二个验证。为此,首先对三个数据组进行处理,以获得多个网格,然后使用CAP3组装技术将其组装成重叠群。将由此获得的结果与仅使用CAP3组装技术获得的重叠群进行比较。如表I所总结的,基于三个参数,即重叠群的平均长度、重叠群的纯度和分配至重叠群的宏基因组序列数目,进一步分析了使用系统100和传统技术组装宏基因组序列后获得的结果。表I
权利要求
1.一种组装宏基因组序列的方法,包括: 在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量; 基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,其中所述立方体包含所述多个宏基因组序列;并且 逐步遍历所述多个网格,以将多个宏基因组序列组装成一个或多个重叠群,其中,一个重叠群包括源自同一基因组的宏基因组序列。
2.根据权利要求1的方法,其中所述“遍历”进一步包括: 对多个网格中的每一个,从多个宏基因组序列中获取一个或多个宏基因组序列,其中所述一个或多个宏基因组序列位于由所述立方体中的网格及所述网格的紧密邻近网格所定义的坐标之内;并且 对多个网格中的每一个,将相应的一个或多个宏基因组序列组装成一个或多个重叠群。
3.根据权利要求1所述的方法,其中所述“定义”进一步包括: 对多个宏基因组序列的每一个,基于多个序列向量确定三维坐标; 对三维空间中的每一个轴,确定所述三维坐标中的最远坐标和最近坐标;并且 基于在对应的轴上最远坐标和最近坐标的差值,计算立方体在每个轴上的长度。
4.根据权利要求1所述的方法,其中所述“表示”包括: 对多个宏基因组序列的每一个,确定可能的四核苷酸的频率; 基于上述确定的结果,获得与多个宏基因组序列的每一个相对应的中间向量;并且 对多个宏基因组序列中的每一个,基于一组参考点将中间向量转换成序列向量。
5.根据权利要求4所述的方法,其中所述“转换”包括计算中间向量和所述一组参考点之间的距离。
6.根据权利要求4所述的方法,其中所述方法进一步包括: 对多个参考片段的每一个,计算片段向量; 对片段向量进行聚类,以获得一个或多个片段聚类; 对每一个片段聚类,评价与片段聚类的质心相对应的聚类向量;并且 从聚类向量中识别出三个最不相关的聚类向量作为所述一组参考点。
7.一种宏基因组序列组装系统(100),包括: 处理器(104);和 与处理器(104)相连的存储器(106),所述存储器(106)包括: 网格生成模块(112),其被配置成: 基于多个序列向量,在三维空间中定义立方体(124),其中立方体(124)包括与多个序列向量相对应的多个宏基因组序列;并且将立方体(124)分成多个网格;以及序列组装模块(114),其被配置成:逐步遍历多个网格,以将多个宏基因组序列组装成一个或多个重叠群。
8.根据权利要求7所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成: 接收具有多个宏基因组序列的宏基因组数据;并且在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量。
9.根据权利要求7或8所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成: 对多个宏基因组序列中的每一个,确定可能的四核苷酸的频率; 基于上述确定的结果,获取与多个宏基因组序列中的每一个相对应的中间向量;并且 对多个宏基因组序列中的每一个,基于一组参考点将中间向量转换成序列向量。
10.根据权利要求9所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成: 对多个参考片段的每一个,计算片段向量; 对片段向量进行聚类,以获得一个或多个片段聚类; 对每一个片段聚类,评价与片段聚类的质心相对应的聚类向量,以获得多个聚类向量;并且 从聚类向量中识别出三个最不相关的聚类向量作为所述一组参考点。
11.根据权利要求8所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成: 对多个宏基因组序列的每一个,基于多个序列向量确定三维坐标; 对三维空间中的每一个轴,确定 所述三维坐标中的最远坐标和最近坐标;并且 基于在对应的轴上最远坐标和最近坐标的差值,计算立方体(124)在每个轴上的长度。
12.根据权利要求7所述的宏基因组序列组装系统(100),其中序列组装模块(114)被进一步配置成: 对多个网格中的每一个,从多个宏基因组序列中获取一个或多个宏基因组序列,其中所述一个或多个宏基因组序列位于由所述立方体(124)中的网格及所述网格的紧密邻近网格所定义的坐标之内;并且 对多个网格中的每一个,将相应的一个或多个宏基因组序列组装成一个或多个重叠群。
13.根据权利要求12所述的宏基因组序列组装系统(100),其中序列组装模块(114)被进一步配置成: 对多个网格中的每一个,从与所述网格相对应的一个或多个宏基因组序列中确定未组装的宏基因组序列;并且 将未组装的宏基因组序列与对应于下一个网格的一个或多个宏基因组序列进行聚类。
14.一种计算机可读介质,所述介质上包含有执行下述方法的计算机程序,所述方法包括: 在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量; 基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,其中所述立方体包含所述多个宏基因组序列;并且 遍历所述多个网格,以将多个宏基因组序列组装成一个或多个重叠群。
全文摘要
本发明描述了用于组装宏基因组序列的系统和方法。在一个实施例中,在三维空间中表示多个宏基因组序列,以获得多个序列向量。基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,使得所述立方体包含所述多个宏基因组序列。进一步地,基于遍历所述多个网格,将多个宏基因组序列组装成一个或多个重叠群。在一个实施例中,组装一个或多个重叠群,使得一个重叠群包括可能源自同一基因组的宏基因组序列。
文档编号G06F19/20GK103246829SQ20121017077
公开日2013年8月14日 申请日期2012年5月29日 优先权日2012年2月10日
发明者沙米拉·谢克哈·马休, 塔里尼·山卡·果时, 瓦伦·梅拉 申请人:塔塔咨询服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1