网页重要性的确定方法

文档序号:35983018发布日期:2023-11-10 02:56阅读:45来源:国知局
网页重要性的确定方法

本发明涉及计算机,特别是关于一种网页重要性的确定方法。


背景技术:

1、随着信息时代万维网上信息的急速增长、百度、谷歌等搜索引擎厂商运营规模的迅猛发展,以及信息检索技术在社会发展中的广泛渗透和普遍应用,如何高效地计算万维网上一个指定网页的重要性,已成为各搜索引擎厂商、高校、研究院等多类型机构重点关注的问题之一。对于网页重要性得分的计算,现有以百度、谷歌等为代表的搜索引擎普遍使用佩奇排名这一网页重要性衡量指标来量化万维网上各网页的重要性,其计算目标可具体化为计算万维网上一个指定网页的佩奇排名分值。

2、但是,由于当今万维网上存储信息的规模巨大,现有计算万维网上一个指定网页佩奇排名分值的方法运行效率不高,难以支持超大规模的万维网数据。

3、公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。


技术实现思路

1、本发明的目的在于提供一种网页重要性的确定方法,其能够在优于现有工作所需时间消耗的前提下,更准确地完成一个指定网页佩奇排名的计算,进而可以更高效地完成对该网页重要性的衡量。

2、为实现上述目的,本发明提供了一种网页重要性的确定方法,包括:将网页以及网页之间的关系转化为图结构,其中,图结构g中包括n个与所述网页对应的节点k以及多条与所述网页间的关系对应的边,目标网页对应为图结构中的目标节点t;

3、获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计其中,所述节点k为图结构中的任一节点;

4、将节点k更新为图结构中n个节点的另一节点;

5、重复获取图结构中的节点k收到的来自目标节点t、并最终留在节点k的概率量的估计的步骤,直至得到图结构中所有节点k收到的来自目标节点t、并最终留在节点k的概率量的估计;

6、根据图结构中所有所述节点k收到的来自目标节点t、并最终留在节点k的概率量的估计,得到目标节点t的佩奇排名分值的估计

7、根据所述目标节点t的佩奇排名分值的估计确定与所述目标节点t对应的目标网页的重要性。

8、在一优选的实施方式中,所述根据图结构中所有所述节点k在所述概率量传播过程中收到的来自目标节点t、并最终留在节点k的概率量的估计,得到目标节点t的佩奇排名分值的估计包括:

9、根据公式一计算所述公式一为:

10、

11、其中,dt为图结构上目标节点t的邻居数,dk为图结构上节点k的邻居数。

12、在一优选的实施方式中,所述获取在所述概率量传播过程完成后收到的来自目标节点t、并最终留在节点k的概率量的估计之前,还包括

13、步骤s101,获取在时刻i-1接收到传播概率的全部节点,其中,i为[1,l]范围内的整数且i的初始值为1,l为概率量传播的最远步长;

14、步骤s102,选择在时刻i-1接收到传播概率的全部节点中的一个作为时刻i的采样节点u;

15、步骤s103,获取时刻i的采样节点u以及所述时刻i的采样节点u在时刻i-1接收到的来自时刻i-1的采样节点的传播概率;

16、步骤s104,根据预设条件以及时刻i的采样节点u在时刻i-1接收到的来自时刻i-1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率;

17、步骤s105,根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新;

18、步骤s106,选择在时刻i-1接收到传播概率的全部节点中的另一个节点作为时刻i的采样节点;重复步骤s103-步骤s105,直至在时刻i-1接收到传播概率的每个节点都被选择作为时刻i的采样节点过,将当前时刻i更新为i+1;

19、步骤s107,重复步骤s101-步骤s106的步骤,直至当前时刻i更新为l后停止。

20、在一优选的实施方式中,预设条件包括第一预设条件,所述根据预设条件以及时刻i的采样节点u在时刻i-1接收到的来自时刻i-1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率,包括:

21、若时刻i的采样节点u满足第一预设条件,则将时刻i的采样节点u的所有邻居节点v作为时刻i+1的采样节点,其中第一预设条件为:(1-α)·其中θ是根据实际应用场景指定的估计误差参数,取值范围为θ∈(0,1);

22、时刻i的采样节点传递到时刻i+1的采样节点的概率通过公式二计算,所述公式二为:

23、

24、其中,为时刻i的采样节点u在时刻i-1接收到的来自时刻i-1的采样节点的传播概率,du为图结构上采样节点u的邻居数。

25、在一优选的实施方式中,预设条件包括第一预设条件以及第二预设条件,所述根据预设条件以及时刻i的采样节点u在时刻i-1接收到的来自时刻i-1的采样节点的传播概率,将时刻i的采样节点u的所有邻居节点v或所有邻居节点v中的一部分节点w作为时刻i+1的采样节点,并计算时刻i的采样节点u传递到时刻i+1的采样节点的传播概率,还包括:

26、若时刻i的采样节点u不满足第一预设条件但满足第二预设条件,则从时刻i的采样节点u的所有邻居节点v中采样出邻居节点w作为时刻i+1的采样节点,所述第二预设条件为:

27、时刻i的采样节点u传递到时刻i+1的采样节点的概率通过公式三计算,所述公式三为:

28、

29、在一优选的实施方式中,所述根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新包括:

30、按照公式四对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计进行更新,所述公式四为:

31、

32、在概率量传播过程开始前的初始值为0;在概率量传播过程开始前的初始值为α。

33、在一优选的实施方式中,所述根据时刻i的采样节点u传递到时刻i+1的采样节点的概率对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量进行更新包括:

34、按照公式五对时刻i+1的采样节点在概率量传播过程中收到的来自时刻i的采样节点、并最终留在时刻i+1的采样节点的概率量的估计πt(w)进行更新,所述公式五为:

35、

36、在概率量传播过程开始前的初始值为0;在概率量传播过程开始前的初始值为α。

37、在一优选的实施方式中,所述从节点u的所有邻居节点v中采样出邻居节点w包括:

38、建立存储有当前时刻的采样节点u所有邻居节点v的邻居集合n(u);

39、选取在邻居集合n(u)中的一个节点作为待采样的节点;

40、重复选取在列表中的一个节点作为待采样的节点的步骤,直至满足预设条件;

41、选取的所有待采样的节点作为采样的邻居节点w。

42、在一优选的实施方式中,所述选取在邻居集合n(u)中的一个节点作为待采样的节点,包括:

43、根据公式六确定时刻i的采样节点u的待采样的邻居节点在节点u的邻居集合n(u)中的位置其中,

44、公式六为:

45、

46、其中,rg为服从几何分布的随机数;

47、根据时刻i的采样节点u的待采样的节点在节点u的邻居集合n(u)中的位置选取待采样的节点;

48、其中,在采样开始前所述预设条件为

49、在一优选的实施方式中,所述服从几何分布的随机数通过以下步骤产生:

50、产生一个介于(0,1)范围内的均匀随机数rand,按照公式七计算得到一个服从几何分布的随机数rg:

51、

52、其中,为时刻i的采样节点向时刻i+1的采样节点传递概率量θ的概率,

53、与现有技术相比,通过本实施例提供的一种网页重要性的确定方法,可以在优于现有工作所需时间消耗的前提下,更准确地完成一个指定网页佩奇排名的计算,进而可以更高效地完成对该网页重要性的衡量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1