基于剪枝的图漫游并行计算方法和应用与流程

文档序号：17849553发布日期：2019-06-11 22:05阅读：来源：国知局

技术特征：

1.一种基于剪枝的图漫游并行计算的网页重要性排序方法，将网页和网页之间的链接关系表示为图G，用图中顶点vi分别代表不同页面，用顶点vi指向vj的箭头表示页面i中有指向页面j的超链接；对图中顶点进行分类，针对图中的边界点进行剪枝操作，通过剪除边界点来优化计算过程，包括预处理阶段、剪枝计算阶段、收尾补充计算阶段；具体包括如下步骤：

1)在预处理阶段，识别图的拓扑特征，对图进行预处理操作；具体步骤如下：

11)读入图数据，根据图中顶点的拓扑特征进行搜索，得到边界点和非边界点；边界点分为a类、b类、c类和d类；具体为：

a类：入边数量为0的顶点；

b类：入边、出边数量均为1的顶点，且该顶点的父节点u1符合条件b1或b2：

b1：u1的入边数量为0，出边数量为1；

b2：u1为b类顶点；

c类：出边数量为0的顶点；

d类：入边、出边数量均为1的顶点，且该顶点的子节点u2符合条件d1或d2：

d1：u2的出边数量为0，入边数量为1；

d2：u2为d类顶点；

12)对a类和b类边界点进行初始化，即根据选用的计算方法进行计算，得到相应边界点的计算结果；

13)对于a类和b类边界点，当它们的子节点为非边界点时，将步骤12)的计算结果传递给它们的子节点；

14)将a类和b类边界点与它们的子节点之间的边从图结构中删去；

2)在计算阶段，对预处理后的图进行剪枝迭代计算；

21)依次访问图中的顶点，如果该顶点为边界点，则跳过该顶点；否则对该顶点利用步骤12)所述计算方法重新进行计算，得到新的计算结果，作为该顶点的计算结果；

22)顶点全部访问结束后，根据步骤12)所述计算方法所设定的收敛条件，当当前图中所有顶点达到收敛条件时，结束剪枝计算；否则，重复21～22进行剪枝迭代计算；

3)在收尾阶段，进行补充计算；

对c类和d类边界点，根据步骤12)所述计算方法进行计算，得到计算结果，作为相应边界点的结果；

4)根据所有顶点的计算结果进行排序，得到网页的重要性排序结果。

2.如权利要求1所述基于剪枝的图漫游并行计算的网页重要性排序方法，其特征是，步骤12)所述计算方法为PageRank算法或单源最短路径算法。

3.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法，其特征是，所述单源最短路径算法为Dijkstra算法、Bellman-Ford算法或SPFA算法。

4.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法，其特征是，所述PageRank方法具体为：

设页面x的PageRank值为P(x)，页面x包含的超链接数量为N(x)，页面x所指向的所有页面的集合为B(x)，通过式1计算得到任意页面i的PageRank值：

P(i)＝C1∑j∈B(i)P(j)/N(j)+C2 (式1)

式1中，i为任意页面；P(i)为页面i的PageRank值；C1、C2为常数；B(i)为页面i所指向的所有页面的集合；j为集合B(i)中任意页面；P(j)为页面j的PageRank值；N(j)为页面j包含的超链接数量。

5.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法，其特征是，所述PageRank方法的迭代收敛条件为图中所有页面的PageRank值不再发生改变，表示为式2：

∑i∈V(G)|Pnew(i)-Pold(i)|<ε (式2)

式2中，V(G)为图G中所有页面的集合，i为V(G)中任意页面，Pnwe(i)为当前一轮迭代结束后页面i的PageRank值，Pold(i)为上一轮迭代结束后页面i的PageRank值，ε为数学意义上的极小值。

6.如权利要求5所述基于剪枝的图漫游并行计算的网页重要性排序方法，其特征是，ε取值为0.0000001。

完整全部详细技术资料下载

当前第2页1 2 3