分层简化大规模图数据的运算方法

文档序号:6370689阅读:191来源:国知局
专利名称:分层简化大规模图数据的运算方法
技术领域
本发明涉及一种分层简化大规模图数据的运算方法。
背景技术
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。在金融、生物信息、社会学、交通管理以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们通常先根据图的特性 将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。随着人类基因组计划和许多物种全基因组测序的完成,生命科学研究的重点已经逐渐从基因组学转移到了蛋白质组学。蛋白质是构成一切细胞和组织结构必不可少的成分,它是生理功能的执行者,是生命活动最重要的物质基础。然而,不同的蛋白质对生命活动的重要性是有差异的。以此为依据,可以将蛋白质分为关键蛋白质(essentialproteins)和非关键蛋白质(non — essential proteins)两类。关键蛋白质为通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存的蛋白质。简而言之,关键蛋白质是生物体生存和繁殖所必需的蛋白质。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要的研究工作。在生物学上,关键蛋白质的识别主要是依靠生物实验的方法,例如RNA干扰、单基因敲除、条件性基因剔除等。通过这些实验技术得到的结论虽然是明确和有效的,但是代价高、效率低,并且适用的物种范围有限。针对蛋白质互相作用网络进行非关键蛋白质分子的筛选,保留关键蛋白质分子,已经成为急需解决的问题。相关参考文献
[I]《图论导引》,美国Gray chartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第I版,ISBN 9787115161536 ;
[2]《图论算法理论、实现及应用》,中国王桂平,王衍,任嘉辰主编,北京大学出版社,2011 年 I 月第 I 版,ISBN 978-7-301-17578-1/TP 1122 ;
[3]《离散数学》,中国左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年
9月第一版,ISBN :7805130698, 9787805130699
发明内容
本发明的目的是一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种新的适用于大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前蛋白质互相作用网络的图数据,提出一种适于对蛋白质相互作用网络的分层简化大规模图数据的运算方法,解决了传统方法中成本昂贵和耗时的问题。本发明的原理是蛋白质相互作用网络的大规模图的缩略图由一些关键点以及连接这些点的边构成,从而能够体现原始图的拓扑结构。通过将母图中一些不重要的点和边去除,保留原始图中一些重要的关节点和关键边,得到的必定是具备代表性的缩略图。通过度序列确定起始点的时间复杂度最大为O(NlogN),通过遍历的计算复杂度为0(M+N),两者相加远小于根据介数进行简化的方法的时间复杂度为O(MN)。其中,M为边的数目,N为节点的数目。因此,该方法的计算速度较快。上述点为蛋白质分子,边为蛋白质之间的相互作用,度表示一蛋白质与邻接点的蛋白质之间的相互作用程度。相关词汇解释 二元组的定义
图G是一个二元组(V,E),其中V称为顶点集(也称为点的集合),E称为边集(也称为边的集合)。它们亦可写成V(G)和E(G)。
阶(Order):图G中顶集V的大小称作图G的阶。
度(068代6)是一个顶点的度是指与该顶点相关联的总边数。参考文献[5]《图论导引》中第27页有有关度的定义,即与某个点相关联的边的总数称为该点的度。遍历的含义所谓遍历(Traversal),是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。访问结点所做的操作依赖于具体的应用问题。遍历在二叉树上最重要的运算之一,是二叉树上进行其它运算之基础。当然遍历的概念也适合于多元素集合的情况,如数组。(来源于百度百科)
图的遍历方法有深度优先遍历(搜索)法和宽度(广度)优先遍历(搜索)法。图的深度优先遍历的递归定义
假设给定图G的初态是所有顶点均未曾访问过。在G中任选一顶点V为初始出发点(源点),则深度优先遍历可定义如下首先访问出发点V,并将其标记为已访问过;然后依次从V出发搜索V的每个邻接点W。若W未曾访问过,则以W为新的出发点继续进行深度优先遍历,直至图中所有和源点V有路径相通的顶点(亦称为从源点可达的顶点)均已被访问为止。若此时图中仍有未访问的顶点,则另选一个尚未访问的顶点作为新的源点重复上述过程,直至图中所有顶点均已被访问为止。图的深度优先遍历类似于树的前序遍历。采用的搜索方法的特点是尽可能先对纵深方向进行搜索。这种搜索方法称为深度优先搜索(Depth-First Search)。相应地,用此方法遍历图就很自然地称之为图的深度优先遍历。图的宽度(广度)优先遍历是树的按层次遍历的推广,它的基本思想是首先访问初始点Vm,并将其标记为已访问过,接着访问Vm的所有未被访问过的邻接点Vml, Vm2,…,Vmt,并均标记已访问过,然后再按照Vml,Vffl 2,…,Vfflt的次序,访问每一个顶点的所有未被访问过的邻接点,并均标记为已访问过,依次类推,直到图中所有和初始点Vi有路径相通的顶点都被访问过为止。参考文献[2]《图论算法理论、实现及应用》中第25页有宽度优先遍历的定义。在参考文献[3]《离散数学》的第273、275页上有自回路的定义和平行边的定义;平行边也称为多重边。根据前述原理,实现本发明的技术方案是一种大规模图数据简化方法,包含以下步骤
一种分层简化大规模图数据的运算方法,包含以下步骤
①对原始图Gtl进行去除自回路和平行边的预处理,得到第一级简化子图G1=(V1, E1),其中V1为一级点的集合,E1为一级边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1的母图Gw ;i为初值等于I的整数;
②对所述母图Gw进行遍历,并选择其中具有最优度的点作为遍历的起点Si+1,设所述下一级简化子图Gi+1= (V i+1,E i+1),其中V i+1为下一级点的集合,E i+1为下一级边的集合;
③将所述起点si+1作为新加入点加入到所述下一级点的集合V i+1中;
④把所述新加入点及其直接邻接点加入到一集合VTi+1中;
⑤遍历所述集合VTi+1中的各直接邻接点的所有邻接点;若有一邻接点不在所述集合VTi+1中,则将与该邻接点对应的所述直接邻接点加入到所述集合V i+1中,并连接所述步骤
④中的新加入点与所述对应的直接邻接点,以生成一边,将所述边加入到所述下一级边的集合E i+1中;
⑥从所述步骤⑤中得到的所述集合Vi+1中的下一个加入点,重复所述步骤④、⑤,直至所述母图Gm遍历结束,以得到所述下一级点的集合V i+1和下一级边的集合E i+1,构成所述下一级简化子图Gi+1= (Vi+1,Ei+1);
⑦设获得的所述下一级简化子图Gi+1为再下一级简化子图的母图Gckw),重复所述步骤
②至⑥直至得到最优简化子图G。所述最优简化子图G,即图数据规模满足用户需要的简化子图。即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图的点数的6%-30%。进一步,得到所述步骤②中最优度的点的方法,包括如下步骤
先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。对于所述步骤②中,确定所述起点S i+1的具体方法是按照度的数量对经第①步处理后的图数据(即所述第一级简化子图G1为第一母图)进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点S i+1,i为大于等于零的整数,若为第二级简化子图,所述起始点为S2。所述步骤③中,从所述起点S2进行宽度优先遍历(搜索)生成第二级简化子图G2=(V2jE2)的方法是根据第②步得到的所述起点S2,先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2i和S2u加入到所述集合VT2中,其中x=l, 2,3,…;y=l, 2,3,…。对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该 直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Nx,Nxy和Nxyk (x=l,2, 3,…;y=l,2,3,…;k=l,2,3,…)加入到所述集合VT2中。对新加入所述二级点的集合V2的点重复上述步骤③操作,直至所述集合VT2等于一级点的集合%。第③步中,遍历结束的条件是=VT2=V115第④步中,简化停止的条件是得到最优简化子图G,即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图点数的6%-30%。若无法满足则根据上述步骤继续进行简化;遍历结束条件为遍历结束条件为VTw=Vi。采用上述方法的本发明能带来以下有益效果
(I)度最多的点一般都是图中的关键点,从度最多的点开始作宽度优先遍历,去除关节点以外的非关键点,得到的子图具备较强的代表性。(2)由于本方法通过选择度最多的点以及宽度优先搜索实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法的计算速度较快。(3)由于采用本方法简化后的子图仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化,从而使本方法能应用于大规模图数据的简化。(4)由于本方法简化结束的标准是母图中的所有点都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。(5)由于本方法可以分层次简化大规模图数据,因此可广泛应用于采用客户端/服务器结构,以及浏览器/服务器结构的大规模数据分析中,即将大规模图数据存放在远程服务器端,在客户端显示简化后的子图,用户根据自己的需求选择数据进行分析。一种适于对蛋白质相互作用网络的图数据的分层简化方法,包含以下步骤 步骤一、对所述蛋白质相互作用网络的原始图Gtl’进行去除自回路和平行边的预处理,
得到第一级简化子图G/ = (V/j/),其中V/为一级点的集合,E/为一级边的集合,所述点为蛋白质分子,所述边为蛋白质之间的相互作用;并设第n级简化子图Gn’为下一级简化子图Gn+1 ’的母图Gta’ ;n为初值等于I的整数;
步骤二、对所述母图Gta’进行遍历,并选择其中具有最优度的点作为遍历的起点S n+1’,设所述下一级简化子图Gn+1 ’ =为下一级点的集合,E n+1 ’为下一级
边的集合,其中所述度为一蛋白质与邻接点的蛋白质之间的相互作用程度,所述最优度的点为一蛋白质与其他蛋白质相互作用最多的蛋白质;
步骤三、将所述起点Sn+1 ’作为新加入点加入到所述下一级点的集合V n+1 ’中;
步骤四、把所述新加入点及其直接邻接点加入到一集合VT n+1 ’中;
步骤五、遍历所述集合VT n+1 ’中的各直接邻接点的所有邻接点;若有一邻接点不在所述集合VTn+1 ’中,则将与该邻接点对应的所述直接邻接点加入到所述集合V n+1 ’中,并连接所述步骤四中的新加入点与所述对应的直接邻接点,以生成一边,将所述边加入到所述下 一级边的集合En+1 ’中;
步骤六、从所述步骤五中得到的所述集合V n+1 ’中的下一个新加入点,重复所述步骤四、五,直至所述母图Gta’遍历结束,以得到所述下一级点的集合Vn+1’和下一级边的集合En+1’,构成所述下一级简化子图G i+1’ = (V n+1’,E n+1’);
步骤七、设获得的所述下一级简化子图G n+1 ’为再下一级简化子图的母图6_+1)’,重复所述步骤二至六,直至得到最优简化子图G’,即获得关键蛋白质的简化子图。
关键蛋白质分子的识别度达到6%_30%,即去掉非关键蛋白质分子,保留关键蛋白质分子为所述蛋白质互相作用网络中总蛋白分子的6%-30%。本发明实现了对蛋白质互相作用网络进行非关键蛋白质分子的筛选,保留了关键蛋白质分子,实现了关键蛋白质的识别,适用的物种范围较广,且成本低、效率较高。进一步,获得所述步骤二中最优度的点的方法,包括如下步骤
先选择度最多的点作为所述最优度的点,即与邻接点的蛋白质分子相互作用最为密切的蛋白质分子;若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点作为所述最优度的点。进一步,所述步骤六中的所述遍历结束是所述集合VT i+1 ’中的点与该级母图中的点的集合V/相等。采用上述方法的本发明能带来以下有益效果
(I)度最多的蛋白质一般都是图中的关键蛋白质,从度最多的点开始作遍历,去除关节点以外的非关键点,得到的简化子图具备较强的代表性。(2)由于本方法通过选择度最多的蛋白质分子通过遍历实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法的计算速度较快。(3)由于采用本方法简化后的子图仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化,从而使本方法能应用于蛋白质互相作用网络的大规模图数据的简化。(4)由于本方法简化结束的标准是母图中的所有点都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。(5)本方法经过层层简化后还能准确保留原始图中介数较高的点,即能保留所述蛋白质互相作用网络中关键蛋白分子及其相互作用关系,识别关键蛋白质分子的准确性高,得到的简化子图对生物技术、疾病防治提供技术支持。(6)本方法经过2-3次简化后的得到的简化子图完全达到关键蛋白分子的识别度不超过40%的技术要求,使保留的关键蛋白分子数量以及其互相作用网络,为疾病诊断、药物设计等从生物信息学的角度提供有价值的理论和方法。


为了使本发明的内容更容易被清楚的理解,下面根据的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图I为本发明方法图数据简化方法流程图; 图2为本发明方法的实施例2的母图及简化后的子图。
具体实施例方式下面结合附图及实施例对本发明进行详细说明
实施例I
见图1,首先,去除图中的自回路和多重边得到第一级简化子图h。以所述第一级简化子图G1为第一级母图,按照度的数量对所述第一级母图数据进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点Si+1,i为大于等于零的整数,若为第二级简化子图,所述起始点为S2。从所述起点S2进行遍历(搜索)生成第二级简化子图G2= (V2, E2)的方法是其中所述遍历(搜索)的方式就是对各点进行逐一遍历,所以能搜索到每个点;即得出若所遍历到的点的直接邻接点的邻接点不在所述二级点的集合V2中,则将所述直接邻接点加入到所述二级点的集合V2中,并连接该点与所述直接邻接点,即生成边,则将所述边加入到所述第二级简化子图G2的二级边的集合E2中,以构成所述第二级简化子图G2= (V2, E2X具体的做法
根据第②步得到的所述起点S2,
先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2x和S2xy加入到所述集合VT2中,其中x=l,2,3,…;y=l,2,3,…。对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Ni, Nij和Nxyk (x=l, 2,3,…,n ;y=l, 2,3,…,n ;k=l, 2,3,…,n)加入到所述集合VT2 中。对新加入二级点的集合V2的点重复上述操作,直至所述集合VT2等于所述一级点的集合V1;根据上述步骤得到的所述二级点的集合V2及所述二级点的集合V2生成的相应边的集合E2 ;获得第二级简化子图G2= (V2, E2)。如果所述第二级简化子图G2的规模符合用户的需求,则停止简化;否则以所述第二级简化子图G2为母图进行再次简化得到第三级简化子图G3,以此类推,得到最优简化子图G即简化子图的规模符合要求,即保留具有介数的点或经过多次简化后最终保留的点数为原始图点数的6%-30%。实施例2
在实施例一的基础上,对图2进行简化;在本例中,原始图中有16个顶点和19条边(见附图2);
①度最多的点d被选择为起点作宽度优先遍历(搜索),将d及d的所有直接邻居加入到该级遍历点的集合VT2中,并将d加入到二级(也为下一级)点的集合V2中,则VT2=(a, b, c, d, k, I), V2=(d);
②考虑所述下一级点的集合V2中的点,如果它的直接邻接点中有邻接点不在所述集合VT2中,则将所述直接邻接点加入所述二级点的集合V2中,其中a的邻居都在所述集合VT2中,贝1J不加入;而(b, C,k, I)加入所述二级点的集合V2,分别连接d与(b, C,k, I)生成4条边,将所述下一级点的集合V2中新加入点的(b,c,k,I)的邻居加入所述集合VT2,则所述集合 VT2 中的点为(a, b, c, d, k, I, m, n, e, q);
③考虑所述二级点的集合V2中除起点外的点(b,C,k, I)(或者说是新加入的点),如果它们的直接邻接点中有邻接点不在所述集合VT2中,则将它们加入到所述二级点的集合V2中,如(c, k)的直接邻接点(n, e)有邻接点不在所述集合VT2中,将(n, e)加入所述二级点的集合V2,连接c和n, k和e生成边。将(n, e)的直接邻接点加入所述集合VT2,则所述集合 VT2 中的点为(a, b, c, d, k, I, m, n, e, q, f, p);
④考虑所述二级点的集合V2中新加入的点(n,e),e的直接邻接点f有邻接点不在所述集合VT2中,而n的直接邻接点p的邻接点在所述集合VT2中,故将f加入所述二级点的集合V2,连接e和f生成边,将f的直接邻接点加入所述集合VT2中,则VT2Ka,b, c, d, k, I,m, n, e, q, f, p, i, g, h);
⑤考虑所述二级点的集合V2中新加入的点f,它的直接邻接点g的邻接点h在所述集合VT2中,它的直接邻接点h的邻接点g也在所述集合VT2中,故不考虑,而它的直接邻接点i有邻接点j不在所述集合VT2中,故加入j,连接f和j生成边,将j的邻居加入到所述集合 VT2 中,此时 VT2= (a, b, c, d, k, I, m, n, e, q, f, p, i, g, h, j),与所述一级点的集合 V1 相等。即所述一级点的集合V1中的所有点都被遍历过,循环结束。上述搜索每个点的方法采用宽度优先遍历的方法。图2中,实线表示所述生成的边,即由所述二级点的集合%所对应生成的所述边的集合E2;虚线的圆即为简化掉的顶点,实线圆为简化后保留的点的集合V2。简化后子图有9个顶点8条边,点的简化率为43. 7%,边的简化率为57. 9%。以上述简化子图为母图经过第二次简化,得到该级点的集合为(e、f、d、k、c),点的简化率为31. 25%。第三次简化后得到该级点的集合为(e、k、d),点的简化率为18. 75%。表I子图的代表性分析
权利要求
1.一种分层简化大规模图数据的运算方法,其特征在于包含以下步骤 ①对原始图Gtl进行去除自回路和平行边的预处理,得到第一级简化子图匕=(V1,E1),其中V1为一级点的集合,E1为一级边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1的母图Gw ;i为初值等于I的整数; ②对所述母图Gw进行遍历,并选择其中具有最优度的点作为遍历的起点Si+1,设所述下一级简化子图Gi+1= (V i+1,E i+1),其中V i+1为下一级点的集合,E i+1为下一级边的集合; ③将所述起点si+1作为新加入点加入到所述下一级点的集合V i+1中; ④把所述新加入点及其直接邻接点加入到一集合VTi+1中; ⑤遍历所述集合VTi+1中的各直接邻接点的所有邻接点;若有一邻接点不在所述集合VTi+1中,则将与该邻接点对应的所述直接邻接点加入到所述集合V i+1中,并连接所述步骤④中的新加入点与所述对应的直接邻接点,以生成一边,将所述边加入到所述下一级边的集合E i+1中; ⑥从所述步骤⑤中得到的所述集合Vi+1中的下一个加入点,重复所述步骤④、⑤,直至所述母图Gm遍历结束,以得到所述下一级点的集合V i+1和下一级边的集合E i+1,构成所述下一级简化子图Gi+1= (Vi+1,Ei+1); ⑦设获得的所述下一级简化子图Gi+1为再下一级简化子图的母图Gckw),重复所述步骤②至⑥直至得到最优简化子图G。
2.根据权利要求I所述的运算方法,其特征在于获得所述步骤②中最优度的点的方法,包括如下步骤 先选择度最多的点作为所述最优度的点; 若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点作为所述最优度的点。
3.根据权利要求I或2的所述运算方法,其特征在于所述步骤⑥中的所述遍历结束是所述集合VT i+1中的点与该级母图中的点的集合Vi相等。
4.一种适于对蛋白质相互作用网络的图数据的分层简化方法,其特征在于包含以下步骤 步骤一、对所述蛋白质相互作用网络的原始图Gtl’进行去除自回路和平行边的预处理,得到第一级简化子图G/ = (V/j/),其中V/为一级点的集合,E/为一级边的集合,所述点为蛋白质分子,所述边为蛋白质之间的相互作用;并设第n级简化子图Gn’为下一级简化子图Gn+1 ’的母图Gta’ ;n为初值等于I的整数; 步骤二、对所述母图Gta’进行遍历,并选择其中具有最优度的点作为遍历的起点S n+1’,设所述下一级简化子图Gn+1 ’ =为下一级点的集合,E n+1 ’为下一级边的集合,其中所述度为一蛋白质与邻接点的蛋白质之间的相互作用程度,所述最优度的点为一蛋白质与其他蛋白质相互作用最多的蛋白质; 步骤三、将所述起点Sn+1 ’作为新加入点加入到所述下一级点的集合V n+1 ’中; 步骤四、把所述新加入点及其直接邻接点加入到一集合VT n+1 ’中; 步骤五、遍历所述集合VT n+1 ’中的各直接邻接点的所有邻接点;若有一邻接点不在所述集合VTn+1 ’中,则将与该邻接点对应的所述直接邻接点加入到所述集合V n+1 ’中,并连接所述步骤四中的新加入点与所述对应的直接邻接点,以生成一边,将所述边加入到所述下一级边的集合En+1 ’中; 步骤六、从所述步骤五中得到的所述集合V n+1 ’中的下一个新加入点,重复所述步骤四、五,直至所述母图Gta’遍历结束,以得到所述下一级点的集合Vn+1’和下一级边的集合En+1’,构成所述下一级简化子图G i+1’ = (V n+1’,E n+1’); 步骤七、设获得的所述下一级简化子图G n+1 ’为再下一级简化子图的母图6_+1)’,重复所述步骤二至六,直至得到最优简化子图G’,即获得关键蛋白质的简化子图。
5.根据权利要求4所述的适于对蛋白质相互作用网络的图数据的分层简化方法,其特征在于获得所述步骤二中最优度的点的方法,包括如下步骤 先选择度最多的点作为所述最优度的点; 若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点作为所述最优度的点。
6.根据权利要求4或5的适于对蛋白质相互作用网络的图数据的分层简化方法,其特征在于所述步骤六中的所述遍历结束是所述集合VT n+1 ’中的点与该级母图中的点的集合Vn’相等。
全文摘要
本发明涉及分层简化大规模图数据的运算方法,该方法首先对图G0进行预处理,得到第一级简化子图G1,以上一级子图为母图得到下一级子图,以此类推得到最优化子图G;并且把该运算方法运用到蛋白质相互作用网络,针对蛋白质互相作用网络进行非关键蛋白质分子的筛选,保留关键蛋白质分子;本发明方法选用的起点为度最多的蛋白质一般都是图中的关键蛋白质,从度最多的点开始作遍历,去除关节点以外的非关键点,得到的简化子图具备较强的代表性;由于采用本方法简化后的子图仍然可以作为进一步简化的母图;本方法识别关键蛋白质分子的准确性高,得到的简化子图对生物技术提供技术支持。
文档编号G06F19/18GK102750460SQ201210176708
公开日2012年10月24日 申请日期2012年5月31日 优先权日2012年5月31日
发明者张永春, 张燕红, 彭颖, 徐磊, 毛国勇 申请人:常州工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1