一种基因组测序数据序列组装方法_3

文档序号:8431045阅读:来源:国知局
靠序列片段重叠群中。该过程如图6g所示。
[0076]将已经检查过的关系从G和G’中删除。如图6h所示,从图G和G’中删除以节点
5、节点7为中心的边。
[0077]重复之前的过程,发现节点6和节点8关系为双向唯一,因此,将6_>8放入到可靠序列片段重叠群中。该过程如图6i所示。
[0078]将已经检查过的关系从G和G’中删除。如图6j所示,从图G和G’中删除以节点
6、节点8为中心的边。
[0079]对所有的节点进行检查之后,发现图中已经没有任何的边,整个双边检查过程结束。
[0080]假设存在一个参考序列r,并且我们发现在该参考序列r中,有一段序列为2_>3以及3->4。根据对这一段序列的分析,我们可以选择将原可疑关系2->3判定为可信连接关系,同时删除关系1_>3,如图6k所示。
[0081]本发明实施例提供的一种基因组测序数据序列组装方法,利用双向最优算法构建序列重叠图,很好地解决了 De novo的错拼问题。结合参考序列、使用重测序相关方法对Denovo重叠图进行简化,使得组装结果和实际序列最相近。该方法对参考序列进行了充分的挖掘,并对De novo方法的局限性和复杂性进行了弥补和化简。根据优化后的重叠图,本发明实施例的方法还可以自动地对已有的序列片段重叠群进行错误检查和错误拆分,防止错拼发生。
[0082]另外,此方法还有助于细胞内质粒序列的组装。在微生物中,大部分质粒都是环状序列存在,在重叠关系图中的表现形式是Ii1On2On3……Ii1,即在重叠关系图中存在一个欧拉回路。因此,在构建结果序列过程中,该方法能够自动筛选出较长的在参考序列上比对不到的序列作为质粒寻找的种子,使用弗勒里算法,寻找能够通过这些种子节点的欧拉回路作为可能存在的质粒候选;而后通过组装结果的长度(不超过1MB),对质粒序列进行筛选。
[0083]因此,对无法进行优化的重叠图,本发明实施例的方法还能够进行质粒拆分和质粒猜测,最大可能地将可能存在的质粒序列进行筛选、分离、并进行自动化成环,方便进一步的分析。
[0084]对大肠杆菌K12MG1655菌株的基因组、大肠杆菌某苏氨酸产生菌株、Me1thermusRuber DSMl299>Pedobacter heparinus DSM2366、黄色短杆Z15进行测序,并利用本专利发明的基因组测序数据组装方法进行测试,测试结果将从以下几个方面进行评价:
[0085]组装得到的基因组的完整性,得到的组装结果是否能还原所有的基因组区域,是否能够完成一个微生物基因组;
[0086]组装得到的基因组的整体可靠性,组装结果与参考序列相比是否具有结构性差异,是否有区域被遗漏或者错误带入;
[0087]组装需要使用测序数据的获取成本,以及完成同一个样本基因组测序数据组装所需要的数据量下限。
[0088]根据测试结果显示,利用本发明实施例提供的方法,得到的初步组装结果与真实情况相比,几乎不存在结构性错误,其结果明显优于已经公布的其他工具。在具有较为近缘的参考序列的情况下,本发明实施例提供的方法只需要其他方法所需约2/3的数据量,就可以得到相同或者更优的分析结果。
[0089]这里,本领域技术人员可以理解,上文中出现的可疑、不可信、不确认可以为同一意思;同样,可信、可靠、确认也可以为同一意思;同时,序列关系组合、序列集合等根据上下文理解也可以等同,本发明对这些用词并不给予严格区分。
[0090]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基因组测序数据序列组装方法,其特征在于,包括: 根据序列片段之间的重置关系,构建重置关系图G以及反向互补图G’ ; 任取重叠关系图G中的未被检查过的节点nx,以任意方向D遍历G和G’ ; 判断任意方向D中是否存在一节点ny与节点nx有连接关系;如果存在,则继续判断在方向D中的节点ny与节点nx是否为双向唯一关系; 当所述节点ny与节点nx为双向唯一关系时,将所述节点ny与nx的关系判定为可信连接关系;否则,将所述节点ny与nx的所有关系判定为不确认连接关系。
2.如权利要求1所述的方法,其特征在于,进一步包括: 将已经检查过的关系从G和G’中删除;并转向任取重叠关系图G中的未被检查过的节点的步骤,直至重叠关系图G中每一个节点均被检查过。
3.如权利要求1所述的方法,其特征在于,所述判断节点ny与节点nx是否为双向唯一关系包括: 当且仅当在G中,找到一节点ny为该节点nx下游的唯一路径;并且在G’中,节点nx是节点ny的下游唯一路径时,认定所述节点ny与节点nx为双向唯一关系。
4.如权利要求1所述的方法,其特征在于,任意方向D为从所述节点nx出发的出度方向或指向所述节点nx的入度方向。
5.如权利要求1所述的方法,其特征在于,进一步包括: 将所述可信连接关系、节点nx和节点ny放入可靠序列连接关系集合;和、或将所述不确认连接关系放入到可疑序列片段关系集合中。
6.如权利要求1至5任一所述的方法,其特征在于,进一步包括: 将所有不确认连接关系与参考序列进行比对,判断所述参考序列中是否存在与所述不确认连接关系相同的连接关系;如果存在,则将所述出现在参考序列中的不确认连接关系重新判定为可信连接关系。
7.如权利要求6所述的方法,其特征在于,判断所述参考序列中是否存在与所述不确认连接关系相同的连接关系包括: 根据已有的参考序列,建构参考序列的重置关系图R和反向互补图R’ ; 判断任意一出发节点M的多个不确认连接关系中,是否有一个在R或者R’中存在。
8.如权利要求6所述的方法,其特征在于,若在所述参考序列中存在涉及同一节点的多种摆放可能时,将比对得分最高的摆放方式用于构建R和R’。
9.如权利要求6所述的方法,其特征在于,所述根据已有的参考序列,建构参考序列的重置关系图R和反向互补图R’包括: 使用参考序列与测序得到的读序进行比对,将读序按照比对的位置进行排序,得到一个参考序列重置关系图R和反向互补图R’。
10.如权利要求9所述的方法,其特征在于,采取容忍大片段重排和缺失的比对程序将参考序列与测序得到的读序进行比对。
11.如权利要求9所述的方法,其特征在于,在将参考序列与测序得到的读序进行比对之前,进一步包括: 对测序的所有读序进行聚类分析,并将聚类化简后的结果与参考序列进行比对。
12.如权利要求1至6任一所述的方法,其特征在于,进一步包括: 根据可信连接关系对序列进行组装,得到组装结果序列,供用户参考。
13.如权利要求12所述的方法,其特征在于,所述得到的组装结果序列为唯一的结果序列或一系列的多个结果序列。
【专利摘要】本发明实施例提供了一种基因组测序数据序列组装方法,可以简便而准确地实现基因组测序数据序列的组装。该方法包括:根据序列片段之间的重叠关系,构建重叠关系图G以及反向互补图G’;任取重叠关系图G中的未被检查过的节点nx,以任意方向D遍历G和G’;判断任意方向D中是否存在一节点ny与节点nx有连接关系;如果存在,则继续判断在方向D中的节点ny与节点nx是否为双向唯一关系;当所述节点ny与节点nx为双向唯一关系时,将所述节点ny与nx的关系判定为可信连接关系;否则,将所述节点ny与nx的所有关系判定为不确认连接关系。
【IPC分类】G06F19-18
【公开号】CN104751015
【申请号】CN201410177319
【发明人】孙际宾, 李澎鹏, 郑平, 马延和
【申请人】中国科学院天津工业生物技术研究所
【公开日】2015年7月1日
【申请日】2014年4月29日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1