互联网超链接网络图数据的简化方法

文档序号:6370742阅读:181来源:国知局
专利名称:互联网超链接网络图数据的简化方法
技术领域
本发明涉及一种互联网超链接网络图数据的简化方法。
背景技术
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。在金融、生物信息、社会学、交通管理、互联网的超链接网络以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们 通常先根据图的特性将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。互联网的超链接网络中,近十几年来,随着互联网的普及和Web2 ()技术的推动,网页数量增长迅猛,据CNNIC统计,2010年中国网页规模达到600亿,年增长率78. 6%,而基于互联网的社交网络也后来居上,如全球最大的社交网络Facebook,已有约7亿用户,国内如QQ空间、人人网等,发展也异常迅猛。真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,动辄有数十亿个顶点和上万亿条边。面对这样大规模的图数据,对海量数据处理技术提出了巨大挑战。以搜索引擎中常用的PageRank计算为例,一个网页的PageRank得分根据网页之间相互的超链接关系计算而得到。将网页用图顶点表示,网页之间的链接关系用有向边表示,按邻接表形式存储100亿个图顶点和600亿条边,假设每个顶点及出度边的存储空间占100字节,那么整个图的存储空间将超过1TB。如此大规模的图,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统集中式图数据管理的承受能力。针对大规模图数据的高效管理,对大规模图数据进行简化,已经成为急需解决的问题。相关参考文献
[1]《图论导引》,美国Graychartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第I版,ISBN 9787115161536 ;
[2]《图论算法理论、实现及应用》,中国王桂平,王衍,任嘉辰主编,北京大学出版社,2011 年 I 月第 I 版,ISBN 978-7-301-17578-1/TP 1122 ;
[3]《离散数学》,中国左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年9 月第一版,ISBN :7805130698, 9787805130699
发明内容

本发明的目的是一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种基于宽度优先遍历的大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前海量的互联网的超链接网络的图数据,提出一种新的基于宽度优先遍历的互联网的超链接网络的图数据的简化方法,通过该简化后的骨干节点和链接的网络,以解决互联网数据高效管理的问题。本发明的原理是互联网的超链接网络的大规模图数据由一些关键点以及连接这些点的边构成,从而能够体现原始图的拓扑结构。通过将母图中一些不重要的点和边去除,保留原始图中一些重要的关节点和关键边,得到的必定是具备代表性的缩略图。通过度序列确定起始点的时间复杂度最大为O(NlogN),宽度优先遍历的计算复杂度为0(M+N),两者相加远小于根据介数进行简化的方法的时间复杂度为O(MN)。其中,M为边的数目,N为节点的数目。因此,该方法的计算速度较快。相关词汇解释 二元组的定义
图G是一个二元组(V,E),其中V称为顶点集(也称为点的集合),E称为边集(也称为边的集合)。它们亦可写成V(G)和E(G)。
阶(Order):图G中顶集V的大小称作图G的阶。介数反映了相应的节点或者边在整个网络中的作用和影响力,是一个重要的全局几何量,具有很强的现实意义。
度(Degree)是一个顶点的度是指与该顶点相关联的总边数。参考文献[I]《图论导弓丨》中第27页有有关度的定义,即与某个点相关联的边的总数称为该点的度。遍历的含义所谓遍历(Traversal),是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。访问结点所做的操作依赖于具体的应用问题。遍历在二叉树上最重要的运算之一,是二叉树上进行其它运算之基础。当然遍历的概念也适合于多元素集合的情况,如数组。图的遍历方法有深度优先遍历和宽度(广度)优先遍历。图的宽度(广度)优先遍历是树的按层次遍历的推广,它的基本思想是首先访问初始点Vm,并将其标记为已访问过,接着访问Vm的所有未被访问过的邻接点Vml, Vm2,…,Vmt,并均标记已访问过,然后再按照Vml,Vffl2,…,Vfflt的次序,访问每一个顶点的所有未被访问过的邻接点,并均标记为已访问过,依次类推,直到图中所有和初始点Vi有路径相通的顶点都被访问过为止。参考文献[2]《图论算法理论、实现及应用》中第25页有宽度优先遍历的定义。在参考文献[3]《离散数学》的第273、275页上有自回路的定义和平行边的定义;平行边也称为多重边。根据前述原理,实现本发明的技术方案是一种基于宽度优先遍历的大规模图数据简化方法,包含以下步骤
①对原始图Gtl进行去除自回路和平行边(多重边)的预处理,得到第一级简化子图G1=(V1, E1),其中V1为一级点的集合,E1为一级边的集合;所述一级点的集合V1为所述第一级简化子图G1的点的集合,所述一级边的集合E1为所述第一级简化子图G1的边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1母图Gw ;i为初值等于I大于等于I的整数;
②选择所述母图中具有最优度的点作为下一级简化子图Gi+1的起点Si+1;
③从所述起点Si+1开始对所述母图进行宽度优先遍历获得所述下一级简化子图Gi+1=(Vi+1,Ei+1),其中Vi+1为下一级点的集合,Ei+1为下一级边的集合;所述获得所述下一级简化子图Gi+1= (Vi+1,Ei+1)的方法包括以下步骤
a :把所述起点S i+1及其直接邻接点加入到该级已遍历点的集合VTi+1中,并把所述起点si+1加入到所述下一级点的集合vi+1中;
b :若所述已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合Vi+1的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新的加入点及其直接邻接点加入到所述集合VTi+1中;
c :对于所述新的加入点,重复所述步骤b,直至遍历结束,以构成所述下一级简化子图Gi+1= (Vi+1, Ei+1);
④设所述下一级简化子图Gi+1为再下一级简化子图的母图Gckw),重复所述步骤②、③直至得到最优简化子图G。即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图点数的15%-45%
符合图数据分析环境的需求,即简化子图能够被图数据分析软件一次性载入。进一步,获得所述步骤②中最优度的点的方法,包括如下步骤
先选择度最多的点作为所述最优度的点。若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。对于所述步骤②中,确定所述起点S i+1的具体方法是按照度的数量对经第①步处理后的图数据(即所述第一级简化子图G1为第一母图)进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点Si+1,i为大于等于I等于I的整数,若为第二级简化子图,所述起始点为S2。所述步骤③中,从所述起点S2进行宽度优先遍历(搜索)生成第二级简化子图G2=(V2jE2)的方法是根据第②步得到的所述起点S2,先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2i和S2u加入到所述集合VT2中,其中x=l, 2,3,…;y=l, 2,3,…。对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Nx,Nxy和Nxyk (x=l,2, 3,…;y=l,2,3,…;k=l,2,3,…)加入到所述集合VT2中。对新加入所述二级点的集合V2的点重复上述步骤③操作,直至所述集合VT2等于一级点的集合%。 第③步中,遍历结束的条件是=VT2=V115第④步中,简化停止的条件是得到最优简化子图G,即简化子图的规模符合用户的要求或经过多次简化后最终保留的点数为原始图的点数的15%-45%。若无法满足则根据上述步骤继续进行简化;遍历结束条件为VTw=Vi,也是所述宽度优先遍历结束。采用上述方法的本发明能带来以下有益效果
(I)度最多的点一般都是图中的关键点,从度最多的点开始作宽度优先遍历,去除关节点以外的非关键点,得到的子图具备较强的代表性。(2)由于本方法通过选择度最多的点以及宽度优先遍历实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法的计算速度较快。(3)由于采用本方法简化后的子图仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化,从而使本方法能应用于大规模图数据的简化。(4)由于本方法简化结束的标准是母图中的所有点都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。(5)由于本方法可以分层次简化大规模图数据,因此可广泛应用于采用客户端/服务器结构,以及浏览器/服务器结构的大规模数据分析中,即将大规模图数据存放在远程服务器端,在客户端显示简化后的子图,用户根据自己的需求选择数据进行分析。一种互联网超链接网络图数据的简化方法,包含以下步骤
步骤一、对所述超链接网络的图数据Gtl’进行去除自回路和平行边的预处理,得到第一级简化子图G/ = (V1^E/),其中VI’为一级点的集合,E/为一级边的集合;并设第n级简化子图Gn’为下一级简化子图Gn+1 ’的母图G01/ ;n为大于等于I的整数;
所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中网页间的链接关系;
步骤二、选择所述母图G01/中具有最优度的点作为下一级简化子图G n+1 ’的起点Sn+1’;其中度表示某个网页的链接关系,即为一网页与其他网页的链接总数,最优度的点为与其他网页超链接最多的网页;
步骤三、从所述起点S n+1 ’开始对所述母图进行宽度优先遍历,获得所述下一级简化子图Gn+1 ’ = (Vn+1’,En+1’),其中Vn+1 ’为下一级点的集合,En+1 ’为下一级边的集合;所述获得所述下一级简化子图Gn+1 ’ = (Vn+1,,En+1 ’ )的方法包括以下步骤
A :把所述起点Sn+1 ’及其直接邻接点加入到该级已遍历点的集合VTn+1 ’中,并把所述起点sn+1 ’加入到所述下一级点的集合vn+1 ’中;
B :若已加入集合VTn+1 ’中的各直接邻接点的邻接点不在所述集合VT n+1 ’中,则将该直接邻接点作为所述集合V n+1 ’的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合E n+1 ’中,并将所述新的加入点及其直接邻接点加入到所述集合VTn+1 ’中;
C :对于所述新的加入点,重复所述步骤B,直至遍历结束,以构成所述下一级简化子图Gn+1,= (Vn+1,,En+1,);
步骤四、设所述下一级简化子图Gn+1 ’为再下一级简化子图的母图6_+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络,即最优超链接网络就是保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构;便于实现网络图数据的高效管理,便于对网络数据的存储、更新、查找等处理。进一步,获得所述步骤二中最优度的点的方法,包括如下步骤 先选择度最多的点作为所述最优度的点;
若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。其中最优度的点为与其他网页连接最为关键的网页;
所述最优简化子图G’,即简化子图的规模符合图数据分析环境的需求,即简化子图能够被图数据分析软件一次性载入。简化子图的规模符合要求,保留介数较高的点或经过多次简化后最终保留的点数为原始图的点数的15%-45%。最优超链接网络就是保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构。采用上述方法的本发明能带来以下有益效果
(I)度最多的点一般都是图中的关键网页,从度最多的网页开始作宽度优先遍历,去除关节点以外的非关键链接,得到的简化超链接网络具备较强的代表性。(2)由于本方法通过选择超链接最多的网页以及宽度优先遍历实现简化,其时间远小于目前根据介数进行简化的时间,因此本方法简化的速度较快。(3)由于采用本方法简化后的超链接网络仍然可以作为进一步简化的母图,因此,本方法能够实现分层次简化。(4)由于本方法简化结束的标准是母图中的所有点(网页)都在子图中或者是子图中某些点的直接邻接点,如果不符合这个标准,则会继续选择尚未搜索过的点进行遍历,因此,本方法能够应用于非连通图。(5)由于本方法可以分层次简化大规模图数据,因此可广泛应用于采用客户端/服务器结构,以及浏览器/服务器结构的大规模数据分析中,即将大规模图数据存放在远程服务器端,在客户端显示简化后的子图,用户可以很方便的根据自己的需求选择数据进行分析。(6)最终获得最优超链接网络,即保留网络中的骨干节点和链接的网络,能体现网络的拓扑结构。
(7)适用于大规模图的数据管理,通过保留的骨干节点和链接,建立高效的索引机制。(8)层层简化后,保留原始图中骨干节点和连接,能够揭示超链接网络的成长机理,有助于分析超链接网络的特征。


为了使本发明的内容更容易被清楚的理解,下面根据的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图I为本发明方法图数据简化方法流程 图2为本发明方法的实施例2的母图及简化后的子图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明
实施例I
见图1,首先,去除图中的自回路和平行边(多重边)得到第一级简化子图h。以所述第一级简化子图G1为第一级母图,按照度的数量对所述第一级母图数据进行排序,选择度最多的点作为起始点,如果度最多的点不止一个,则选择其直接邻接点的度总和较小的点作为起始点,如直接邻接点的度总和仍然相同,则比较直接邻接点的邻接点的度总和,并以此类推,得到下一级简化子图的起始点Si+1,i为大于等于I的整数,若为第二级简化子图,所述起始点为S2。从所述起点S i+1进行宽度优先遍历(搜索)生成下一级简化子图G i+1= (Vi+1,E i+1)的方法是其中所述宽度优先遍历(搜索)的搜索方式就是对母图的各点进行逐一遍历,所以能搜索到每个点,即得出以下步骤
a :把所述起点Si+1及其直接邻接点加入到该级遍历点的集合VTi+1中,并把所述起点si+1加入到所述下一级点的集合vi+1中;
b :若已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合V i+1的新的加入点,并连接所述已加入点与所述直接邻接点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新加入点及其直接邻接点加入到所述集合VTi+1中;
c :对于新的加入点,重复所述步骤b,以构成所述下一级简化子图G i+1= (Vi+1, Ei+1)。具体的做法
若生成第二级简化子图G2,则其起点为S2,先将所述起点S2加入到所述第二级简化子图G2的二级点的集合V2中,把所述起点S2及其直接邻接点加入到该级遍历点的集合VT2中,若所述起点S2在第一级简化子图G1中的所有直接邻接点,如果某个直接邻接点S2x的邻接点S2xy不在所述集合VT2中,则将该直接邻接点S2x加入至所述二级点的集合V2中,连接所述起点S2与该直接邻接点S2x生成边;将S2, S2x和S2xy加入到所述集合VT2中,其中x=l, 2,3,…;y=l, 2,3,…。对所述二级点的集合V2中加入的新的点Nx,先将所述新的点Nx的所有直接邻接点加入到所述集合VT2中,如果某个直接邻接点Nxy的邻接点Nxyk不在所述集合VT2中,则将该直接邻接点Nxy加入至所述二级点的集合V2中,连接所述新的点Nx与该直接邻接点Nxy生成边;并将Ni, Nij和Nxyk (x=l, 2,3,…,n ;y=l, 2,3,…,n ;k=l, 2,3,…,n)加入到所述集合VT2 中。对新加入二级点的集合V2的点重复上述操作,直至所述集合VT2等于所述一级点的集合V1;根据上述步骤得到的所述二级点的集合V2及所述二级点的集合V2生成的相应边的集合E2 ;获得第二级简化子图G2= (V2, E2)。如果所述第二级简化子图G2的规模符合用户的需求,则停止简化;否则以所述第二级简化子图G2为母图进行再次简化得到第三级简化子图G3,以此类推,得到最优简化子图G即简化子图的规模符合要求,即保留具有原始图中介数较多的点或经过多次简化后最终得到的子图能够被够被图数据分析软件一次性载入;保留的点数为原始图的点数的15%-45%。

实施例2
在实施例一的基础上,对图2进行简化;在本例中,原始图中有16个顶点和19条边(见附图2);
①度最多的点d被选择为起点作宽度优先遍历(搜索),将d及d的所有直接邻居加入到该级遍历点的集合VT2中,并将d加入到二级(也为下一级)点的集合V2中,则VT2=(a, b, c, d, k, I), V2=(d);
②考虑所述下一级点的集合V2中的点,如果它的直接邻接点中有邻接点不在所述集合VT2中,则将所述直接邻接点加入所述二级点的集合V2中,其中a的邻居都在所述集合VT2中,贝1J不加入;而(b, C,k, I)加入所述二级点的集合V2,分别连接d与(b, C,k, I)生成4条边,将所述下一级点的集合V2中新加入点的(b,c,k,I)的邻居加入所述集合VT2,则所述集合 VT2 中的点为(a, b, c, d, k, I, m, n, e, q);
③考虑所述二级点的集合V2中除起点外的点(b,C,k, I)(或者说是新加入的点),如果它们的直接邻接点中有邻接点不在所述集合VT2中,则将它们加入到所述二级点的集合V2中,如(c, k)的直接邻接点(n, e)有邻接点不在所述集合VT2中,将(n, e)加入所述二级点的集合V2,连接c和n, k和e生成边。将(n, e)的直接邻接点加入所述集合VT2,则所述集合 VT2 中的点为(a, b, c, d, k, I, m, n, e, q, f, p);
④考虑所述二级点的集合V2中新加入的点(n,e),e的直接邻接点f有邻接点不在所述集合VT2中,而n的直接邻接点p的邻接点在所述集合VT2中,故将f加入所述二级点的集合V2,连接e和f生成边,将f的直接邻接点加入所述集合VT2中,则VT2Ka,b, c, d, k, I,m, n, e, q, f, p, i, g, h);
⑤考虑所述二级点的集合V2中新加入的点f,它的直接邻接点g的邻接点h在所述集合VT2中,它的直接邻接点h的邻接点g也在所述集合VT2中,故不考虑,而它的直接邻接点i有邻接点j不在所述集合VT2中,故加入j,连接f和j生成边,将j的邻居加入到所述集合 VT2 中,此时 VT2= (a, b, c, d, k, I, m, n, e, q, f, p, i, g, h, j),与所述一级点的集合 V1 相等。即所述一级点的集合V1中的所有点都被遍历过,循环结束。上述搜索每个点的方法采用宽度优先遍历的方法。图2中,实线表示所述生成的边,即由所述二级点的集合%所对应生成的所述边的集合E2;虚线的圆即为简化掉的顶点,实线圆为简化后保留的点的集合V2。简化后子图有9个顶点8条边,点的简化率为43. 7%,边的简化率为57. 9%。
表I子图的代表性分析
权利要求
1.一种互联网超链接网络图数据的简化方法,包含以下步骤 步骤一、对所述超链接网络的图数据Gtl’进行去除自回路和平行边的预处理,得到第一级简化子图G/= (V/j/XV/为一级点的集合,E/为一级边的集合,所述点为所述互联网的超链接网络中的网页,所述边为所述互联网的超链接网络中网页间的链接关系;并设第n级简化子图Gn’为下一级简化子图Gn+1 ’的母图G01/ ;n为初值等于I的整数; 步骤二、选择所述母图G01/中具有最优度的点作为下一级简化子图G n+1 ’的起点S n+1’,其中度为一网页与其他网页的链接总数,所述最优度的点为超链接总数最多的网页; 步骤三、从所述起点S n+1 ’开始对所述母图进行宽度优先遍历,获得所述下一级简化子图Gn+1 ’ = (¥11+1’,£11+1’),其中¥11+1’为下一级点的集合,E n+1 ’为下一级边的集合; 步骤四、设所述下一级简化子图G n+1 ’为再下一级简化子图的母图6_+1)’,重复所述步骤二、三直至得到最优简化子图G’,即获得最优超链接网络。
2.根据权利要求I所述的互联网超链接网络图数据的简化方法,其特征在于获得所述步骤二中最优度的点的方法,包括如下步骤 先选择度最多的点作为所述最优度的点; 若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。
3.根据权利要求I所述的互联网超链接网络图数据的简化方法,其特征在于所述的获得所述下一级简化子图G n+1’ = (Vn+1’,En+1’)的方法包括以下步骤 A :把所述起点Sn+1’及其直接邻接点加入到该级已遍历点的集合VT n+1’中,并把所述起点Sn+1 ’加入到所述下一级点的集合V n+1 ’中; B :若已加入集合VTn+1 ’中的各直接邻接点的邻接点不在所述集合VTn+1’中,则将该直接邻接点作为所述集合V n+1 ’的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合E n+1’中,并将所述新的加入点及其直接邻接点加入到所述集合VTn+1 ’中; C :对于所述新的加入点,重复所述步骤B,直至遍历结束,以构成所述下一级简化子图Gn+1,= (Vn+1,,En+1,)。
4.一种基于宽度优先遍历的大规模图数据的简化方法,包含以下步骤 ①对原始图Gtl进行去除自回路和平行边的预处理,得到第一级简化子图匕=(V1,E1),其中V1为一级点的集合,E1为一级边的集合;并设第i级简化子图Gi为下一级简化子图Gi+1的母图Gw ;i为初值等于I的整数; ②选择所述母图Gw中具有最优度的点作为下一级简化子图Gi+1的起点Si+1; ③从所述起点Si+1开始对所述母图进行宽度优先遍历获得所述下一级简化子图Gi+1=(Vi+1,Ei+1),其中Vi+1为下一级点的集合,E i+1为下一级边的集合;所述获得所述下一级简化子图Gi+1= (Vi+1,Ei+1)的方法包括以下步骤 a :把所述起点Si+1及其直接邻接点加入到该级已遍历点的集合VTi+1中,并把所述起点si+1加入到所述下一级点的集合vi+1中; b :若已加入集合VTi+1中的各直接邻接点的邻接点不在所述集合VTi+1中,则将该直接邻接点作为所述集合Vi+1的新的加入点,并连接所述已加入点与所述新的加入点生成边,并将所述边加入到所述下一级边的集合Ei+1中,并将所述新的加入点及其直接邻接点加入到所述集合VTi+1中; c :对于所述新的加入点,重复所述步骤b,直至遍历结束,以构成所述下一级简化子图Gi+1= (Vi+1, Ei+1); ④设所述下一级简化子图Gi+1为再下一级简化子图的母图Gckw),重复所述步骤②、③直至得到最优简化子图G。
5.根据权利要求4所述的大规模图数据的简化方法,其特征在于获得所述步骤②中最优度的点的方法,包括如下步骤 先选择度最多的点作为所述最优度的点; 若含有度最多的点有多个,则依次比较各点的各级邻接点的度的总和,取所述总和最小的点为所述最优度的点。
全文摘要
本发明涉及一种互联网超链接网络图数据的简化方法,该方法首先对所述超链接网络的图数据G0’,得到第一级简化子图G1’。再根据图的度序列确定第二级简化子图G2’的起点S2’,从S2’开始对G1’作宽度优先遍历,从G1’中选择点加入到G2’中,在G2’中选择点连接生成边,得到第二级简化子图G2’。再以从G1得到G2’的方法从G2’得到G3’,并以此类推得到最优简化子图G’。本发明方法得到的简化子图能够去除母图中的非关键点,有效地保留母图的拓扑结构,从而使子图相对于母图具备较好的代表性,且简化效率高。由于根据度序列确定起点及宽度优先遍历的计算量较小,因而本方法的执行速度快,而且可以对图进行分层次简化。
文档编号G06F17/20GK102750263SQ201210177910
公开日2012年10月24日 申请日期2012年5月31日 优先权日2012年5月31日
发明者廉春原, 张永春, 张燕红, 毛国勇, 高敏 申请人:常州工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1