一种基于图的泛基因组数据组织方法及其系统

文档序号:31058889发布日期:2022-08-09 19:13阅读:来源:国知局

技术特征:
1.一种基于图的泛基因组数据组织方法,包括:获取一组泛基因组序列数据;对所述泛基因组序列数据进行构图,得到泛基因组的着色图;标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的csupb数据模型、以及csupb数据模型的数据信息;基于所述csupb数据模型的数据信息确定所述csupb数据模型之间的包含关系,根据所述包含关系构建csupb结构树模型。2.根据权利要求1所述的基于图的泛基因组数据组织方法,其特征在于,所述着色图单个结点访问状态的特征包括未访问状态,半访问状态,可访问状态和已访问状态;可选的,所述未访问状态为无任何一个入点被访问;半访问状态为至少有一个入点已访问且至少有一个入点未被访问;可访问状态为所有入点已被访问,其自身处于随身可以被访问的状态;已访问状态为该节点所有入点已被访问且自身也已被访问;可选的,所述遍历着色图采用类后序遍历方法;可选的,所述csupb数据模型为:在着色图g=(v,e,c)中,v(g),v(e)和v(c)分别是图g的点集、边集和颜色集。对任意一个颜色集g1=(v1,e1,c1)是图g的一个子图,满足对任意一个结点u
i
∈v1,对两个不同的点s和t,称为<s,t,c1>一个coloredsuperbubble;s称为的源结点,t为汇结点;可选的,所述csupb数据模型的数据信息包括但不限于以下信息:源点、汇点、csupb数据模型的颜色和csupb数据模型的次序。3.根据权利要求2所述的基于图的泛基因组数据组织方法,其特征在于,所述包含关系是基于所述csupb数据模型的颜色和csupb数据模型的次序确定;可选的,csupb1,csupb2和csupb3是任意的csupb数据模型,令g1=(v1,e1,c1),g2=(v2,e2,c2)和g1=(v3,e3,c3),分别是csupb1,csupb2和csupb3包含结点所诱导的子图,如同时满足衡量标准,csupb1为csupb2的子csupb,且csupb2是csupb1的父csupb。4.根据权利要求1-3任一项所述的基于图的泛基因组数据组织方法,其特征在于,所述数据组织方法还包括:基于所述csupb结构树模型构建泛基因组坐标系;可选的,所述泛基因组坐标系采用三元组的方式表示所述着色图上单个位点的位置特征;可选的,所述三元组的子特征包括:数值信息,拓扑信息和颜色信息。5.根据权利要求4所述的基于图的泛基因组数据组织方法,其特征在于,所述泛基因组坐标系采用六元组的方式表示所述着色图上单条序列的位置特征;可选的,所述六元组的子特征包括:路径起始点的偏移值,路径起始结点所在的最小的csupb,路径终止点的偏移值,路径终止结点所在的最小的csupb,同时包含路径起始结点和终止结点的最小csupb,路径的颜色;可选的,所述六元组的子特征记作:startpos,startbub,endpos,endbub,pathbub,pathcolor。6.根据权利要求5所述的基于图的泛基因组数据组织方法,其特征在于,基于所述着色图上单条序列的位置特征确定至少两个单条序列之间的相互关系;
可选的,所述两个单条序列的位置特征分别为:path1:(startpos1,startbub1,endpos1,endbub1,pathbub1,pathcolor1)和path2:(startpos2,startbub2,endpos2,endbub2,pathbub2,pathcolor2),(startpos1,endpos1)和(startpos2,endpos2)无交,输出path1和path2相离;(startpos1,endpos1)和(startpos2,endpos2)相互包含,且pathcolor1和pathcolor2存在包含关系,但颜色包含关系和区间包含关系相反,输出path1和path2包含;非上述情况,输出path1和path2相交。7.根据权利要求1所述的基于图的泛基因组数据组织方法,其特征在于,获取所述泛基因组序列数据后,进行预处理,所述预处理采用包括碱基替换、添加序列片段的方法;可选的,所述碱基替换的方法是为应对所述泛基因组序列数据存在简并碱基序列时,将该碱基替换成该位点其他系列出现频率最高的碱基;可选的,所述添加序列片段是在所述泛基因组序列数据的头部和尾部分别添加相同序列片段;可选的,基于所述预处理后,所述泛基因组的着色图为有向、无环、无简并碱基,且有唯一的起点和终点的图。8.一种基于图的泛基因组数据组织方法的分析设备,所述设备包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用程序指令,当程序指令被执行时,用于执行权利要求1-7任意一项所述的基于图的泛基因组数据组织方法。9.一种基于图的泛基因组数据组织方法的分析系统,包括:第一处理单元,用于获取一组泛基因组序列数据,对所述泛基因组序列数据进行构图,得到泛基因组的着色图;第二处理单元,用于标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的csupb数据模型、以及csupb数据模型的数据信息;第三处理单元,基于所述csupb数据模型的数据信息确定所述csupb数据模型之间的包含关系,根据所述包含关系构建csupb结构树模型;第四处理单元,基于所述csupb结构树模型构建泛基因组坐标系。10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的权利要求1-7任意一项所述的基于图的泛基因组数据组织方法。

技术总结
本发明公开了一种基于图的泛基因组数据组织方法、系统、设备和计算机可读存储介质,方法其包括:获取一组泛基因组序列数据;对所述泛基因组序列数据进行构图,得到泛基因组的着色图;标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息;基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系,根据所述包含关系构建cSupB结构树模型。本发明克服了目前在针对大量基因组数据时,数据组织方式混乱,对序列的可读性、有效性和完整性都较差的问题。的问题。的问题。


技术研发人员:郭金旦 陈禹保 刘江宁 秦川
受保护的技术使用者:中国医学科学院医学实验动物研究所
技术研发日:2022.04.19
技术公布日:2022/8/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1