一种网页重要性评价方法及系统的制作方法

文档序号:6573934阅读:147来源:国知局
专利名称:一种网页重要性评价方法及系统的制作方法
技术领域
本发明涉及搜索引擎领域,更具体地说,涉及一种网页重要性评价方法及系统。
背景技术
随着计算机和计算机网络的日益普及,互联网已经深入到人们工作、学习和生活的各个领域,成为人们发布和获取信息的重要途径,而搜索引擎则成为人们从互联网上获取信息的重要工具。
在搜索引擎中,在其它相关性因素相近时,通常将重要性、权威性高的网页尽量排在搜索结果的前面,方便用户尽快找到有价值的网页信息。网页的一般重要性是指对网页重要性的评价,该参数是搜索引擎对搜索结果进行排序的重要依据。因此网页的一般重要性评价是影响搜索质量的重要因素。
一种著名的网页一般重要性评价方法是页面等级(PageRank)算法,该算法基于互联网上网页之间的天然链接关系计算网页的一般重要性。在PageRank算法中,将网页P到网页C的链接被看作是节点P对页面C的支持投票,并根据投票数来判断页面的重要性,且“重要性”高的页面所投的票的评价会更高。PageRank算法计算公式为r(C)=d*ΣP∈B(C)r(P)OP+1-dN---(1)]]>其中节点P是节点C的父节点,r(C)是节点C的等级(Rank)值,B(C)是节点C的反向链接集合,P是属于B(C)中一个节点,r(P)是节点P的一般重要性值,如果,OP是节点P的出度,N是链接地图中节点个数,d被称为衰减因子。从公式(1)可看出,要计算子节点C的一般重要性值,需要已知父节点的一般重要性值,但是互联网上多数节点既作父节点也作子节点,计算节点P的一般重要性值,还需要已知节点P的父节点的一般重要性值,因此可知PageRank计算是一个不断迭代的计算过程,即第n+1次迭代计算r(C)(可记作rn+1(C))时,使用的是第n次迭代计算得到的r(P)(可记作rn(P))。由于衰减因子d的存在,真实互联网生成的链接地图进行PageRank计算的过程是收敛的,即迭代一定次数后每个节点的Rank值rn+1(C)=rn(C)。
由PageRank的迭代公式可以看出,节点P根据其出度OP,将其Rank值非常平均地贡献给它的“所有”正向链接,每个子节点C,都得到 然而,并不是所有链接对应的网页对用户来说都是有意义的,一个节点的正向链接中所有子节点之间应当是不平等的。例如很多网页中带有指向广告页面的链接,按照PageRank算法,将致使广告网页的一般重要性值较高,但是广告网页对一般用来说价值不高,用户很少主动去点击。

发明内容
本发明要解决的技术问题在于,针对上述网页等级算法在计算网页一般重要性时所有子节点都相同地使用父节点的一般重要性值,从而造成部分无意义的子节点一般重要性过高的问题,提供一种网页重要性评价方法及系统。
本发明解决上述技术问题的技术方案是,提供一种网页重要性评价方法,包括以下步骤(a)生成链接地图,所述链接地图包括多个与网页对应的节点且每一网页对应一个链接;(b)获取并记录终端对所述链接地图中节点的点击操作;(c)根据链接地图和节点被点击的记录,迭代计算链接地图中各节点的一般重要性值。
在本发明所述的一种网页重要性评价方法中,所述步骤(b)中,进一步包括(b1)收集终端对每一链接的点击操作;(b2)统计并记录所有终端对链接的点击操作记录。
在本发明所述的一种网页重要性评价方法中,所述步骤(a)中进一步包括删除所述操作记录中的无效点击记录。
在本发明所述的一种网页重要性评价方法中,所述步骤(c)中计算一般重要性的公式为r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是节点C的一般重要性值,B(C)是节点C的反向链接集合,P是属于B(C)中一个节点,r′(P)是节点P的一般重要性值,s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例,d为衰减因子,N是链接地图中节点总数。
在本发明所述的一种网页重要性评价方法中,所述步骤(c)中进一步包括(c1)计算子节点Ci占父节点P等级的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,OP是网页P的正向链接总数,b为比例系数,且0<b≤1;(c2)将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在本发明所述的一种网页重要性评价方法中,所述步骤(c)中进一步包括在满足迭代终止条件时停止迭代计算,所述迭代终止条件包括迭代预定次数和/或残差小于预定值。
本发明还提供一种网页重要性评价系统,包括用于生成网页链接地图的网页下载单元,所述链接地图包括多个与网页对应的节点且每一网页对应一个链接,还包括点击记录单元,用于获取并记录终端对链接的点击操作;等级计算单元,用于根据链接地图以及链接被点击的记录,迭代计算链接地图中各节点的一般重要性值。
在本发明所述的一种网页重要性评价系统中,所述点击记录单元进一步包括位于终端的点击收集子单元和位于服务器的点击统计子单元,其中所述点击收集子单元,用于收集所在终端对每一链接的点击操作;所述点击统计子单元,用于统计并记录所有来自点击收集子单元的链接点击操作记录。
在本发明所述的一种网页重要性评价系统中,所述点击记录单元进一步包括点击过滤子单元,用于删除操作记录中的无效点击操作记录。
在本发明所述的一种网页重要性评价系统中,所述等级计算单元计算网页一般重要性的公式为r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是节点C的一般重要性值,B(C)是节点C的反向链接集合,P是属于B(C)中一个节点,r′(P)是节点P的一般重要性值,s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例,d为衰减因子,N是链接地图中节点总数。
在本发明所述的一种网页重要性评价系统中,所述等级计算单元包括比重计算子单元和归一处理子单元,其中所述比重计算子单元,用于计算子节点Ci占父节点P等级的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,OP是网页P的正向链接总数,b为比例系数,且0<b≤1;所述归一处理子单元,用于将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在本发明所述的一种网页重要性评价系统中,所述等级计算单元进一步包括迭代终止子单元,用于使等级计算单元在满足迭代终止条件时停止迭代计算,所述迭代终止条件包括迭代预定次数和/或残差小于预定值。
本发明一种网页重要性评价方法及系统,针对父节点的正向链接中各子节点之间的不平等性,通过统计终端浏览网页时点击网页中正向链接的概率,将父节点的一般重要性值分配到各子节点的一般重要性值中,从而使网页的一般重要性值更趋合理。


下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明一种网页重要性评价系统第一实施例的结构示意图;图2是图1中点击记录单元的详细结构示意图;图3是本发明一种网页重要性评价系统第二实施例的结构示意图;图4是本发明一种网页重要性评价方法实施例的流程图。
具体实施例方式
针对父节点的正向链接中各子节点之间的不平等性,本发明提出一种新的网页重要性评价系统及方法。本发明通过统计终端浏览网页时点击网页中正向链接的概率,将父节点的一般重要性值分配到各子节点的一般重要性值中,从而更准确地评价网页地一般重要性。
如图1所示,是本发明一种网页重要性评价系统第一实施例的结构示意图。在本实施例中,网页重要性评价系统包括点击记录单元11、网页下载单元12以及等级计算单元13。
网页下载单元12用于下载互联网中的网页并根据下载的网页之间的链接关系生成链接地图。上述链接地图中包括多个节点,且节点与网页一一对应,节点之间的有向边代表网页之间的链接关系。在上述链接地图中,若网页P中包含网页C对应的链接,则网页P为网页C的父节点,而网页C则为网页P的子节点;网页P的反向链接是指链接地图中所有存在指向网页P的链接的网页;网页P的入度是指网页P的反向链接中网页个数;网页P的正向链接是指链接地图中网页P中所有链接指向的其他网页的集合;网页P的出度是指网页P的正向链接中网页个数。在具体实现时,该网页下载单元12可以是现有的爬虫系统等。
点击记录单元11用于获取并记录终端对链接的点击操作,其中每一链接被点击时一个对应的网页将被打开。在具体实现时,该点击记录单元11可进一步包括位于终端的点击收集子单元111和位于服务器的点击统计子单元112,如图2所示。
其中点击收集子单元111用于收集所在终端对网页中的每一链接的点击操作,可以是嵌入浏览器中的插件。点击统计子单元112用于统计并记录所有来自点击收集子单元111的链接点击操作记录,即统计所有终端对链接的点击操作。当通过终端浏览网页(父网页)时点击了一个链接进入并浏览另一个网页(子网页),点击记录单元11将该点击操作记录下来并发送给点击统计子单元112。发送的时间可以是实时的,也可以是点击操作积累到一定数量后批量发送。
当然,对链接点击操作的收集并不限于上述方式,也可以是例如不通过终端而通过其他方式收集的方式,例如直接在网络服务器收集等。
此外,为了避免侵犯用户的隐私,上述点击记录单元11可在收集点击操作记录前,使用对话框或窗口进行收集的提示,然后在用户自愿的前提下收集操作记录。还可通过奖励措施,提高用户提供操作信息的积极性。
等级计算单元13用于根据链接地图以及链接被点击的记录,迭代计算链接地图中各节点的一般重要性值。上述等级计算单元13计算网页一般重要性的公式例如可以是r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)即节点C的一般重要性值;B(C)是节点C的反向链接集合;P是属于B(C)中一个节点,即C的父节点;r′(P)是节点P的一般重要性值;s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例;N是链接地图中节点总数;d为衰减因子。
尽管上述公式是收敛的,但是由于数据规模比较庞大,真正完全收敛耗时很高,因此可以通过迭代终止子单元,使等级计算单元13在满足迭代终止条件时停止迭代计算,上述迭代终止条件例如迭代固定的次数(n达到某一个值);或者残差小于某一个预设值(残差的计算公式为Δr′=ΣC∈A|r′n+1(C)-r′n(C)|,]]>其中A是链接地图中所有节点的集合);或者是上述两种终止条件综合使用,其中一条满足即停止迭代。
在具体实现时,等级计算单元13可通过比重计算子单元和归一处理子单元计算子节点C从父节点P处获得的一般重要性值,其中比重计算子单元用于计算子节点Ci占父节点P一般重要性值的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,OP是网页P的正向链接总数;b为比例系数,且0<b≤1。
上述的b为预先设定比例系数,其取值范围为0<b≤1。通过调整b,可以调整网页Ci从网页P处获得一般重要性值中,由天然链接关系决定部分和点击链接概率的比例。上式中,天然链接关系所占的比例为(1-b),点击链接概率情况所占的比例为b。若b=1,则网页Ci从网页P处获得的一般重要性值全部由点击链接概率情况确定;若b=0则网页Ci从网页P处获得的一般重要性值全部由天然链接关系决定,这与现有的网页等级(PageRank)算法完全相同。
归一处理子单元用于将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在上述系统中,点击记录单元11可进一步包括点击过滤子单元,用于删除操作记录中的虚假点击操作。在点击收集子单元111发送点击操作记录到点击统计子单元112时,发送的内容可包括终端ID,父网页的URL和子网页的URL。其中上述终端ID可以是由系统分配的唯一终端ID(例如在终端安装系统客户端时分配);此外,终端ID也可以是终端本地的IP地址。多个终端的点击收集子单元111将各自的点击操作记录发送到点击统计子单元112,点击过滤子单元对点击统计子单元112接收的上述点击操作记录进行过滤,以避免通过虚假点击提高某些网页的一般重要性。
在具体实现时,点击过滤子单元将以下点击操作作为虚假点击操作某一个网页中的某一个链接在某一时间段内被频繁点击;指向某一个子网页的链接被频繁点击,这些链接可能在不同的父网页上;位于网页黑名单中的网页被点击的操作;位于用户黑名单中的终端的点击操作。
如图3所示,是本发明一种网页重要性评价系统第二实施例的结构示意图。与第一实施例类似,本实施例的网页重要性评价系统包括点击记录单元31、网页下载单元32以及等级计算单元33,此外在本实施例中还包括链接地图索引单元34。
网页下载单元32在下载网页生成链接地图时,将每一网页对应的URL转换为一个文档标识(Doc ID),并将链接地图以文档标识形式存储到链接地图索引单元34。在链接地图索引单元34中,节点为Doc ID,并通过父节点或子节点集合表示链接关系。在链接地图索引单元34中,每一节点(假设该节点为Ci)的属性除了节点的Doc ID外,还包括KP,Ci,即终端在浏览父节点网页P时,通过点击网页P上的链接到达网页Ci的次数。点击记录单元31同样将点击操作涉及的URL转换为Doc ID,并将点击的次数作为节点属性存储到链接地图索引单元34。等级计算单元33根据链接地图索引单元34中的链接地图及点击操作记录计算网页的一般重要性。
上述将URL转换为Doc ID可通过多种方法,例如对URL字符串计算MD5得到一个64位或128位整数,这个数值可以做DOC ID,也可以在一个URL第一次出现时顺序分配一个DOC ID,顺序分配时,DOC ID从0开始计数。
当网页下载单元32在重新下载解析一个之前已下载过的网页P时,发现网页P的正向链接集合发生变化(特别是当网页P是动态网页时,这种情况经常发生),此时需要更新链接地图索引单元34中P对应的子节点集合、OP属性以及KP和KP,Ci值。若删除一个已有正向链接Cj,则从子节点集合中将Cj及其KP,Cj记录删除,取KP=KP-KP,Cj;]]>若增加一个新正向链接,记作Cj,则使KP和其他子节点的KP,Ci保持不变,取KP,Cj=0]]>或者使KP,Cj=0]]>并将KP和其他子节点的KP,Ci都置为0,所有子节点的点击概率都重新统计;若网页下载单元32发现原有的一个父节点P代表的网页已不存在,则链接地图索引单元32删除该父节点的所有属性,包括OP、KP、子节点集合和KP,Ci。
如图4所示,是本发明一种网页重要性评价方法实施例的流程图,其具体包括以下步骤步骤S41生成链接地图,其中链接地图可通过网页爬虫系统或类似系统生成,该链接地图中包括多个节点,且节点与网页一一对应,节点之间的有向边代表网页之间的链接关系。
步骤S42获取并记录终端对所述链接地图中节点的点击操作。其中每一链接被点击时一个对应的网页将被打开。
在具体实现时,该步骤可进一步包括收集终端对网页中的每一链接的点击操作;统计并记录所有来自终端的点击操作记录。当通过终端浏览网页(父网页)时点击了一个链接进入并浏览另一个网页(子网页),终端将该点击操作记录下来并发送给一个服务器,由服务器统计点击操作记录。发送的时间可以是实时的,也可以在点击操作积累到一定数量后批量发送。
在该步骤中,为避免通过虚假点击提高某些网页的一般重要性,增加删除操作记录中的虚假点击操作的步骤。在具体实现时,可将以下点击操作作为虚假点击操作某一个网页中的某一个链接在某一时间段内被频繁点击;指向某一个子网页的链接被频繁点击,这些链接可能在不同的父网页上;位于网页黑名单中的网页被点击的操作;位于用户黑名单中的终端的点击操作。
步骤S43根据链接地图和节点被点击的记录,迭代计算链接地图中各节点的一般重要性值。
在该步骤中计算一般重要性的公式为r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)即节点C的一般重要性值;B(C)是节点C的反向链接集合;P是属于B(C)中一个节点,即C的父节点;r′(P)是节点P的一般重要性值;s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例;N是链接地图中节点总数;d为衰减因子。
在使用上述公式计算网页的一般重要性时,可首先计算子节点Ci占父节点P一般重要性值的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,b为比例系数,且0<b≤1,OP是网页P的正向链接总数;然后将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>在使用上述公式计算网页一般重要性时,为了减小计算的数据规模,可设定迭代终止条件,在满足迭代终止条件时停止迭代计算,迭代终止条件包括迭代预定次数和/或残差小于预定值。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种网页重要性评价方法,其特征在于,包括以下步骤(a)生成链接地图,所述链接地图包括多个与网页对应的节点且每一网页对应一个链接;(b)获取并记录终端对所述链接地图中节点的点击操作;(c)根据链接地图和节点被点击的记录,迭代计算链接地图中各节点的一般重要性值。
2.根据权利要求1所述的一种网页重要性评价方法,其特征在于,所述步骤(b)中,进一步包括(b1)收集终端对每一链接的点击操作;(b2)统计并记录所有终端对链接的点击操作记录。
3.根据权利要求1或2所述的一种网页重要性评价方法,其特征在于,所述步骤(b)中进一步包括删除所述操作记录中的无效点击记录。
4.根据权利要求1或2所述的一种网页重要性评价方法,其特征在于,所述步骤(c)中计算一般重要性的公式为r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是节点C的一般重要性值,B(C)是节点C的反向链接集合,P是属于B(C)中一个节点,r′(P)是节点P的一般重要性值,s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例,d为衰减因子,N是链接地图中节点总数。
5.根据权利要求4所述的一种网页重要性评价方法,其特征在于,所述步骤(c)中进一步包括(c1)计算子节点Ci占父节点P等级的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,Kp为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,OP是网页P的正向链接总数,b为比例系数,且0<b≤1;(c2)将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>
6.根据权利要求4所述的一种网页重要性评价方法,其特征在于,所述步骤(c)中进一步包括在满足迭代终止条件时停止迭代计算,所述迭代终止条件包括迭代预定次数和/或残差小于预定值。
7.一种网页重要性评价系统,包括用于生成网页链接地图的网页下载单元,所述链接地图包括多个与网页对应的节点且每一网页对应一个链接,其特征在于,还包括点击记录单元,用于获取并记录终端对链接的点击操作;等级计算单元,用于根据链接地图以及链接被点击的记录,迭代计算链接地图中各节点的一般重要性值。
8.根据权利要求7所述的一种网页重要性评价系统,其特征在于,所述点击记录单元进一步包括位于终端的点击收集子单元和位于服务器的点击统计子单元,其中所述点击收集子单元,用于收集所在终端对每一链接的点击操作;所述点击统计子单元,用于统计并记录所有来自点击收集子单元的链接点击操作记录。
9.根据权利要求7或8所述的一种网页重要性评价系统,其特征在于,所述点击记录单元进一步包括点击过滤子单元,用于删除操作记录中的无效点击操作记录。
10.根据权利要求7或8所述的一种网页重要性评价系统,其特征在于,所述等级计算单元计算网页一般重要性的公式为r′(C)=d*ΣP∈B(C)[r′(P)*s′(P,C)]+1-dN,]]>其中r′(C)是节点C的一般重要性值,B(C)是节点C的反向链接集合,P是属于B(C)中一个节点,r′(P)是节点P的一般重要性值,s′(P,C)是子节点C从父节点P处获得的一般重要性值的比例,d为衰减因子,N是链接地图中节点总数。
11.根据权利要求10所述的一种网页重要性评价系统,其特征在于,所述等级计算单元包括比重计算子单元和归一处理子单元,其中所述比重计算子单元,用于计算子节点Ci占父节点P等级的比重s(P,Ci)=b*KP,CiKP+(1-b)*1OP,]]>其中,KP为节点P中所有正向链接被点击的次数,KP,Ci是子节点Ci通过网页P被点击的次数,OP是网页P的正向链接总数,b为比例系数,且0<b≤1;所述归一处理子单元,用于将网页P的一般重要性值完整地分配到其正向链接s′(P,Ci)=s(P,Ci)s(P,C1)+s(P,C2)+Λ+s(P,COP).]]>
12.根据权利要求10所述的一种网页重要性评价系统,其特征在于,所述等级计算单元进一步包括迭代终止子单元,用于使等级计算单元在满足迭代终止条件时停止迭代计算,所述迭代终止条件包括迭代预定次数和/或残差小于预定值。
全文摘要
本发明公开了一种网页重要性评价方法,包括以下步骤(a)生成链接地图,所述链接地图包括多个与网页对应的节点且每一网页对应一个链接;(b)获取并记录终端对所述链接地图中节点的点击操作;(c)根据链接地图和节点被点击的记录,迭代计算链接地图中各节点的一般重要性值。本发明还公开了一种网页重要性评价系统。本发明通过统计终端浏览网页时点击网页中正向链接的概率,将父节点的一般重要性值分配到各子节点的一般重要性值中,从而使网页的一般重要性值更趋合理。
文档编号G06F17/30GK101079062SQ20071007517
公开日2007年11月28日 申请日期2007年6月22日 优先权日2007年6月22日
发明者刘云峰, 杨海松 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1