1.一种基于剪枝的图漫游并行计算的网页重要性排序方法,将网页和网页之间的链接关系表示为图G,用图中顶点vi分别代表不同页面,用顶点vi指向vj的箭头表示页面i中有指向页面j的超链接;对图中顶点进行分类,针对图中的边界点进行剪枝操作,通过剪除边界点来优化计算过程,包括预处理阶段、剪枝计算阶段、收尾补充计算阶段;具体包括如下步骤:
1)在预处理阶段,识别图的拓扑特征,对图进行预处理操作;具体步骤如下:
11)读入图数据,根据图中顶点的拓扑特征进行搜索,得到边界点和非边界点;边界点分为a类、b类、c类和d类;具体为:
a类:入边数量为0的顶点;
b类:入边、出边数量均为1的顶点,且该顶点的父节点u1符合条件b1或b2:
b1:u1的入边数量为0,出边数量为1;
b2:u1为b类顶点;
c类:出边数量为0的顶点;
d类:入边、出边数量均为1的顶点,且该顶点的子节点u2符合条件d1或d2:
d1:u2的出边数量为0,入边数量为1;
d2:u2为d类顶点;
12)对a类和b类边界点进行初始化,即根据选用的计算方法进行计算,得到相应边界点的计算结果;
13)对于a类和b类边界点,当它们的子节点为非边界点时,将步骤12)的计算结果传递给它们的子节点;
14)将a类和b类边界点与它们的子节点之间的边从图结构中删去;
2)在计算阶段,对预处理后的图进行剪枝迭代计算;
21)依次访问图中的顶点,如果该顶点为 边界点,则跳过该顶点;否则对该顶点利用步骤12)所述计算方法重新进行计算,得到新的计算结果,作为该顶点的计算结果;
22)顶点全部访问结束后,根据步骤12)所述计算方法所设定的收敛条件,当当前图中所有顶点达到收敛条件时,结束剪枝计算;否则,重复21~22进行剪枝迭代计算;
3)在收尾阶段,进行补充计算;
对c类和d类边界点,根据步骤12)所述计算方法进行计算,得到计算结果,作为相应边界点的结果;
4)根据所有顶点的计算结果进行排序,得到网页的重要性排序结果。
2.如权利要求1所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,步骤12)所述计算方法为PageRank算法或单源最短路径算法。
3.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述单源最短路径算法为Dijkstra算法、Bellman-Ford算法或SPFA算法。
4.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述PageRank方法具体为:
设页面x的PageRank值为P(x),页面x包含的超链接数量为N(x),页面x所指向的所有页面的集合为B(x),通过式1计算得到任意页面i的PageRank值:
P(i)=C1∑j∈B(i)P(j)/N(j)+C2 (式1)
式1中,i为任意页面;P(i)为页面i的PageRank值;C1、C2为常数;B(i)为页面i所指向的所有页面的集合;j为集合B(i)中任意页面;P(j)为页面j的PageRank值;N(j)为页面j包含的超链接数量。
5.如权利要求2所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,所述PageRank方法的迭代收敛条件为图中所有页面的PageRank值不再发生改变,表示为式2:
∑i∈V(G)|Pnew(i)-Pold(i)|<ε (式2)
式2中,V(G)为图G中所有页面的集合,i为V(G)中任意页面,Pnwe(i)为当前一轮迭代结束后页面i的PageRank值,Pold(i)为上一轮迭代结束后页面i的PageRank值,ε为数学意义上的极小值。
6.如权利要求5所述基于剪枝的图漫游并行计算的网页重要性排序方法,其特征是,ε取值为0.0000001。