基于剪枝的图漫游并行计算方法和应用与流程

文档序号:17849553发布日期:2019-06-11 22:05阅读:来源:国知局

技术特征:

1.一种基于剪枝的图漫游并行计算的网页重要性排序方法,将网页和网页之间的链接关系表示为图G,用图中顶点vi分别代表不同页面,用顶点vi指向vj的箭头表示页面i中有指向页面j的超链接;对图中顶点进行分类,针对图中的边界点进行剪枝操作,通过剪除边界点来优化计算过程,包括预处理阶段、剪枝计算阶段、收尾补充计算阶段;具体包括如下步骤:

1)在预处理阶段,识别图的拓扑特征,对图进行预处理操作;具体步骤如下:

11)读入图数据,根据图中顶点的拓扑特征进行搜索,得到边界点和非边界点;边界点分为a类、b类、c类和d类;具体为:

a类:入边数量为0的顶点;

b类:入边、出边数量均为1的顶点,且该顶点的父节点u1符合条件b1或b2:

b1:u1的入边数量为0,出边数量为1;

b2:u1为b类顶点;

c类:出边数量为0的顶点;

d类:入边、出边数量均为1的顶点,且该顶点的子节点u2符合条件d1或d2:

d1:u2的出边数量为0,入边数量为1;

d2:u2为d类顶点;

12)对a类和b类边界点进行初始化,即根据选用的计算方法进行计算,得到相应边界点的计算结果;

13)对于a类和b类边界点,当它们的子节点为非边界点时,将步骤12)的计算结果传递给它们的子节点;

14)将a类和b类边界点与它们的子节点之间的边从图结构中删去;

2)在计算阶段,对预处理后的图进行剪枝迭代计算;

21)依次访问图中的顶点,如果该顶点为 边界点,则跳过该顶点;否则对该顶点利用步骤12)所述计算方法重新进行计算,得到新的计算结果,作为该顶点的计算结果;

22)顶点全部访问结束后,根据步骤12)所述计算方法所设定的收敛条件,当当前图中所有顶点达到收敛条件时,结束剪枝计算;否则,重复21~22进行剪枝迭代计算;

3)在收尾阶段,进行补充计算;

对c类和d类边界点,根据步骤12)所述计算方法进行计算,得到计算结果,作为相应边界点的结果;

4)根据所有顶点的计算结果进行排序,得到网页的重要性排序结果。

2.如权利要求1所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,步骤12)所述计算方法为PageRank算法或单源最短路径算法。

3.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述单源最短路径算法为Dijkstra算法、Bellman-Ford算法或SPFA算法。

4.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述PageRank方法具体为:

设页面x的PageRank值为P(x),页面x包含的超链接数量为N(x),页面x所指向的所有页面的集合为B(x),通过式1计算得到任意页面i的PageRank值:

P(i)=C1∑j∈B(i)P(j)/N(j)+C2 (式1)

式1中,i为任意页面;P(i)为页面i的PageRank值;C1、C2为常数;B(i)为页面i所指向的所有页面的集合;j为集合B(i)中任意页面;P(j)为页面j的PageRank值;N(j)为页面j包含的超链接数量。

5.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述PageRank方法的迭代收敛条件为图中所有页面的PageRank值不再发生改变,表示为式2:

∑i∈V(G)|Pnew(i)-Pold(i)|<ε (式2)

式2中,V(G)为图G中所有页面的集合,i为V(G)中任意页面,Pnwe(i)为当前一轮迭代结束后页面i的PageRank值,Pold(i)为上一轮迭代结束后页面i的PageRank值,ε为数学意义上的极小值。

6.如权利要求5所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,ε取值为0.0000001。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1