一种基因组测序数据序列组装方法_2

文档序号:8431045阅读:来源:国知局
[0047]步骤202:判断重叠关系图G中是否每一个节点均被检查过;如果是,则结束整个流程;否则转向步骤203。
[0048]步骤203:任取重叠关系图G中的未被检查过的节Anx,以方向D遍历G和G’。其中方向D可以是出度方向(从该节点出发)或入度方向(指向该节点)。
[0049]步骤204:判断任意方向D中是否存在某一节点ny与节点nx有连接关系;如果存在,则进入步骤205 ;否则转入步骤206。
[0050]步骤205:如果节点ny与节点nx为双向唯一关系,则进入步骤208 ;否则进入步骤209。
[0051]这里,当且仅当在G中,找到一节点ny为该节点~在D方向下游的唯一路径;并且在G’中,节点nx是节点ny在D方向下游唯一路径时,认定节点ny与节点nx为双向唯一关系O
[0052]步骤206:判断在方向D’中是否存在某一节点nz与节点nx有连接关系;如果存在,则进入步骤207。这里,由于nx必然会与一个节点相连,所以如果执行到步骤206,则此处的判断结果一定为存在节点nz有连接关系。
[0053]步骤207:如果节点nz与节点nx为双向唯一关系,则进入步骤208 ;否则进入步骤209。
[0054]步骤208:将该ny与nx的关系,和/或该nz与nx的关系确认为可信连接关系,并将该可信连接关系nx->ny,和/或nz->ny放入可靠序列片段重叠群中;并转入步骤210。
[0055]步骤209:将该ny与nx的关系,和/或该nz与nx的关系确认为不确认连接关系,将该不确认连接关系nx->ny,和/或nz->ny放入到可疑序列片段关系集合中;并转入步骤
210。
[0056]步骤210:将已经检查过的关系,包括关系nx->ny、关系ny->nx,和/或关系ηχ->ηζ、关系ηζ->ηχ分别从G和G’中删除,同时将该节点ηχ设置为“已检查”。
[0057]这样,通过双向检察方法对重叠关系图进行修剪,获得可靠序列片段重叠群以及可疑序列片段关系集合。
[0058]在本发明一实施例中,以上步骤204和步骤205与步骤206和步骤207可以平行执行,这样进一步提高运算效率。
[0059]在本发明一实施例中,还提供了一种方法,进一步将可疑序列片段关系集合中的不确认连接关系确认为可信连接关系。即将所有可疑序列片段关系集合中的不确认连接与参考序列进行比对,如果某一个不确认连接关系可以在参考序列中找到,则认为该不确认连接关系为可信连接关系。假设涉及同一节点的多个不确认关系在参考序列中都可以找到(即一个读序可以被比对到参考序列的多个位置上),则使用对比得分最高的结果作为其唯一的比对位置。这里由于常常会采用一定的衡量算法来衡量两个读序的相近或相远程序,这样一个衡量算法常常可以数字化地评估对比得分。
[0060]此时,如图3所示,本发明实施例提供的参考序列定量化利用方法包括:
[0061]步骤301:根据已有的参考序列以及初始测序得到的读序,建构参考序列的重叠关系图R和反向互补图R’。这里参考序列可以是已经为现有技术公开的序列,这些序列的组装关系已经确定,在具有参考序列情况下,使用参考序列与测序得到的读序进行比对,将读序按照比对的位置进行排序,进而得到一个参考序列重叠关系图R和反向互补图R’。
[0062]在本发明一实施例中,在将初始测序得到的读序与参考序列进行比对时,可以使用blat等可以容忍大片段重排和缺失的比对程序进行比对。另外由于测序数据太大,并且其长度并不均一,因此,在进行比对之前要对测序的所有读序进行聚类分析,使用95%的相似度进行序列聚类,只选取每个类中最长的一个或者几个序列用于后续分析,并将聚类化简后的结果与参考序列进行比对,而后对比对后的结果的方向和其比对位置进行排序。
[0063]图4为本发明一实施例提供的参考序列重叠关系图构建示意图。如图4a所示,假设读序1、2、3、4为初始测序得到的,由于读序2和3完全被读序I所包含,在建构参考序列重叠关系图R前先通过聚类分析,将读序1、2和3聚成一类,把读序I选取出来,读序2和3舍弃。将聚类化简后的结果(读序I和读序4)与参考序列比对,如图4b所示,而后将读序I和读序4在参考序列上的比对位置进行排序。发现读序I和读序4是相邻的,因此将1->4的关系作为参考序列重叠关系图的一部分。
[0064]步骤302:在可疑序列片段关系集合中,如果任意一出发节点M的多个不确定关系(M->X或M->Y)中的某一个连接关系(M->X)在R或者R’中存在,则将该连接关系存入可靠序列片段重叠群中,其余涉及M的连接关系在可疑序列片段关系集合中被清除。
[0065]步骤303:根据可靠序列片段重叠群中的可信连接关系进行组装,得到组装结果序列。在本发明一实施例中,得到的组装结果序列有可能是唯一的结果序列,也有可能是一系列的多个结果序列。
[0066]如果结果是一系列多个结果序列时,所有无法选定的不确定连接关系也会作为结果的一部分,反馈给用户。
[0067]图5是本发明实施例中利用参考序列组装的示例示意图。如图5所示,根据一个已有的参考序列(图5第一列)构成的一个参考重叠图(图5的第二列),将该参考重叠图与可疑序列片段关系组合中的关系(图5的第三列)进行对比,将可疑序列片段关系组合中在参考重叠图中出现的关系判定为可信连接关系,将其他关系删除(图5中的第四列中的关系B、C、E为可信连接关系,关系D和F删除),最后得到无误的结果(图5中的第五列)。
[0068]在用户提供重叠关系图或者提供原始数据的情况下,利用本发明实施例提供的技术方案,可对重叠关系图进行构建和检查,并自动生成初步组装结果,该结果可以修正现有技术中贪婪算法或图形算法的错误。
[0069]下面以一个具体事例为例来说明以上的基因组测序数据序列组装方法。如图6a为一段序列组的重叠关系图G以及其反互补序列图G’的示例。图中每一个结点代表一个读序,记为n, In1, η2, η3,…nn} e G。图中每一条边记为e, {e^ e2, e3,...ej e G。以节点5为例,每一条入度方向(指向节点5)代表节点5代表的读序能够和节点4所代表的读序重叠,每一条出度方向(从节点5出发)代表节点5代表的读序能够和节点7代表的读序进行连接。
[0070]以任何一个节点如节点4为起始节点,以任意方向如节点4的出度方向根据图G和G’进行检查,在G中节点4的出度方向上有两个关系:与节点5的关系和与节点6的关系。因此可以确定该节点延长关系并不唯一,将其关系记录到可疑序列片段关系集合中。由于通过图G已经可以确定节点4的出度方向上并不具有唯一的可信连接关系,因此,不需要再检查G’。该过程如图6b所示。
[0071]再对节点4的入度方向进行检查,在图G中发现节点3是节点4入度方向的唯一节点,而后,在G’中检查节点3,发现节点4是节点3上游的唯一节点。因此确定其在G和G’中节点4和节点3均为彼此的唯一延长节点。因此,认为该3->4关系是可信的,放入到可靠序列片段重叠群中。该过程如图6c所示。
[0072]将已经检查过的nx节点相关的关系从G和G’中删除。如图6d所示,从图G和G’中删除以节点4为中心的边。
[0073]在未被检查过的节点中再任选一个节点,如节点1,在G中检查节点I的出度方向,发现节点3为其最优解,在图G’中检查节点3,发现节点3在出度方向上并不唯一,因此将1->3,2->3放入到可疑序列片段关系集合中。该过程如图6e所示。
[0074]将已经检查过的关系从G和G’中删除。如图6f所示,从图G和G’中删除以节点
1、节点2和节点3为中心的边。
[0075]在剩余的节点中再任取一个节点,如节点5,发现在G和G’中,其与节点7为唯一关系,因此,将5->7放入到可
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1