一种基因组测序数据序列组装方法

文档序号:8431045阅读:679来源:国知局
一种基因组测序数据序列组装方法
【技术领域】
[0001]本发明涉及基因技术,尤其涉及一种基因组测序数据序列组装方法。
技术背景
[0002]随着测序技术的不断进步,已经有大量的微生物基因组被完成并提交到数据库。具有工业用途的微生物,其工业用菌株大多是对已有菌株进行不断筛选和改造得到的。
[0003]为了获取一株工业用菌株的基因组全图,目前常用的分析方案有De novo(从头测序)。De novo是指在没有任何背景信息的基础上使用测序和常规分子生物学实验手段对目的物种基因组进行测序,组装,框架搭建和空白(Gap)填补的技术流程。这一方案在面对较为复杂或者较大的基因组时,会耗费大量时间和成本,但其获得的结果是最为可靠的,可以获得一个物种的质粒、质体、特异性序列和突变结果,进而能够获取一个物种的全部功能序列并分析得到其生理生化能力,重构其生活史。
[0004]目前De novo最常用的是“overlap-layout-consensus”方案,通过序列比对的方法对所有测序所得的读序(又称为read,是指测序出的一条序列)的边缘序列进行侦测,寻找可能存在的重叠区域。而后,根据这些读序的重叠关系对这些读序进行合并,构成重叠群从而完成组装。
[0005]图1所不为现有技术De novo中“overlap-layout-consensus”算法的不意图。如图1所示,假设在基因组上存在两个高度相似序列REPl和REP2。Readl和Read2分别位于REPl两侧,并且其重叠区域坐落于REPl中,两者重叠区域长度为LI ;Read3和Read4位于REP2两侧,并且其重叠区域位于REP2内,这两者重叠长度为L2,并且L2>L1。
[0006]如果组装程序使用贪婪算法,假设在遍历序列过程中首先遍历到Readl,由于其具有最好重叠关系的序列为Read4,因此,Readl_>Read4这个连接结果被带入到最终结果中,导致组装结果发生错误。因此,只有Read3或者Read4的遍历顺序大于Readl、Read2时,才能得到正确的结果。
[0007]如果组装程序使用图论理论,虽然能够识别出贪婪算法可能导致的错误,但也是有局限性的。假设在读序重叠侦测(overlap)步骤中设定一个参数L,如果两个序列的重叠长度大于L才认为两个序列具有重叠关系,假设L1〈L〈L2 ;那么在读序重叠侦测过程中,由于参数选择的原因,Readl->Read2这个关系就不会被识别到,导致在读序摆放(layout)过程中,如果Readl或者Read2首先被遍历到,由于其只有一种连接方式(Readl_>Read4,Read2->Read3)被识别到,该部分会被认为是可信的,进而被带入到最终结果中导致组装错误。

【发明内容】

[0008]有鉴于此,本发明实施例提供一种新的基因组测序数据序列组装方法,可以简便而准确地实现基因组测序数据序列的准确还原。
[0009]为了达到上述目的,本发明实施例提供的一种基因组测序数据序列组装方法,包括:
[0010]根据序列片段之间的重叠关系,构建重叠关系图G以及反向互补图G’ ;
[0011]任取重叠关系图G中的未被检查过的节点nx,以任意方向D遍历G和G’ ;
[0012]判断任意方向D中是否存在一节点ny与节点nx有连接关系;如果存在,则继续判断在方向D中的节点ny与节点nx是否为双向唯一关系;
[0013]当所述节点ny与节点nx为双向唯一关系时,将所述节点ny与nx的关系判定为可信连接关系;否则,将所述节点ny与nx的所有关系判定为不确认连接关系。
[0014]其中,进一步包括:
[0015]将已经检查过的关系从G和G’中删除;并转向任取重叠关系图G中的未被检查过的节点的步骤,直至重叠关系图G中每一个节点均被检查过。
[0016]其中,所述判断节点ny与节点nx是否为双向唯一关系包括:
[0017]当且仅当在G中,找到一节点ny为该节点nx下游的唯一路径;并且在G’中,节点nx是节点ny的下游唯一路径时,认定所述节点ny与节点nx为双向唯一关系。
[0018]其中,任意方向D为从所述节点nx出发的出度方向或指向所述节点nx的入度方向。
[0019]其中,进一步包括:
[0020]将所述可信连接关系、节点nx和节点ny放入可靠序列片段重叠群中;和、或
[0021]将所述不确认连接关系放入到可疑序列片段关系集合中。
[0022]其中,其特征在于,进一步包括:
[0023]将所有不确认连接关系与参考序列进行比对,判断所述参考序列中是否存在与所述不确认连接关系相同的连接关系;如果存在,则将所述出现在参考序列中的不确认连接关系重新判定为可信连接关系。
[0024]其中,判断所述参考序列中是否存在与所述不确认连接关系相同的连接关系包括:
[0025]根据已有的参考序列,建构参考序列的重置关系图R和反向互补图R’ ;
[0026]判断任意一出发节点M的多个不确认连接关系中,是否有一个在R或者R’中存在。
[0027]其中,若在所述参考序列中存在涉及同一节点的多种摆放可能时,将比对得分最高的摆放方式用于构建R和R’。
[0028]其中,所述根据已有的参考序列,建构参考序列的重置关系图R和反向互补图R’包括:
[0029]使用参考序列与测序得到的读序进行比对,将读序按照比对的位置进行排序,得到一个参考序列重置关系图R和反向互补图R’。
[0030]其中,采取容忍大片段重排和缺失的比对程序将参考序列与测序得到的读序进行比对。
[0031]其中,在将参考序列与测序得到的读序进行比对之前,进一步包括:
[0032]对测序的所有读序进行聚类分析,并将聚类化简后的结果与参考序列进行比对。
[0033]其中,进一步包括:
[0034]根据可信连接关系对序列进行组装,得到组装结果序列,供用户参考。
[0035]其中,所述得到的组装结果序列为唯一的结果序列或一系列的多个结果序列。
[0036]其中,如果结果是一系列多个结果序列时,所有无法选定的不确定连接关系也会作为结果的一部分,反馈给用户。
[0037]在用户提供重叠关系图的情况下,利用本发明实施例提供的技术方案,可对重叠关系图进行检查,并自动生成初步组装结果,该结果可以修正现有技术中贪婪算法或图论算法的错误。
【附图说明】
[0038]图1是现有技术中De novo中“overlap-layout-consensus”算法的不意图。
[0039]图2是本发明实施例中基因组测序数据序列组装方法的流程示意图。
[0040]图3是本发明另一实施例中基因组测序数据序列组装方法的流程示意图。
[0041]图4是本发明一实施例提供的参考序列重叠关系图构建示意图。
[0042]图5是本发明实施例中参考序列定量化利用方法的示例示意图。
[0043]图6是本发明实施例中基因组测序数据序列组装方法的示例示意图。
【具体实施方式】
[0044]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0045]图2是本发明实施例中基因组测序数据序列组装方法的流程示意图。如图2所示,该方法包括:
[0046]步骤201:根据测序得到的读序之间的重叠关系,构建重叠关系图以及反向互补图。重叠关系图及其反向互补图中的所有的对应节点彼此之间都是反向互补等效的关系。由于我们通常只知道两个序列是否具有重叠关系,但不确定组装结果中序列组的最终摆放顺序,因此,我们需要同时构建两个图,重叠关系图G以及其反互补序列图G’。只要两个序列片段之间有重叠关系,即可在重叠关系图中给予标记。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1