基于超链接的主题预测算法的制作方法

文档序号:12464941阅读:214来源:国知局

本发明涉及一种搜素引擎算法,尤其涉及一种基于超链接的主题预测算法。



背景技术:

搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素:一方面是用户发出的查询与网页内容的内容相似性得分,即网页和查询的相关性,第三章已经就内容相似性计算做了介绍;另一方面就是通过链接分析方法计算获得的得分,即网页的重要性,用户访问网页的过程就是通过点击页面超链接,因此用户的访问方式和超链接包含的主题内容是进行链接分析的关键数据。

随机游走模型和子集传播模型,并分析了传统链接分析算法的主要思想和相互关系。其次,重点分析了经典链接分析算法PageRank的计算方法,发现其在进行特殊链接结构计算时,会出现“链接陷阱”问题,从而导致计算的PageRank值误差很大;在对链接分析基础算法HITS进行分析时,发现其计算的内容向量和链接向量是存在的,但不一定是唯一的,也无法保证其大于零,因此会出现“主题漂移”和排序结果质量差等问题。



技术实现要素:

本发明的目的就在于为了解决上述问题而提供一种基于超链接的主题预测算法。

本发明通过以下技术方案来实现上述目的:

本发明首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:

矩阵H:网页之间链接图对应的链接矩阵;

yn:网页n(n∈S)的内容权值(Authority)

Zn:网页n(n∈S)的链接权值(Hub);

y=(y1,...,yN)T:内容权值向量;

z=(z1,...,zN)T:链接权值向量;

An:所有指向网页n的集合;

Bn:所有被网页n指向的网页集合;

具体算法步骤:

(1)初始化内容权值向量y,使初始化链接权值向量z,使

(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;

(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;

(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得

按照以上四个步骤进行循环迭代,直到收敛结束;

为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:

初始化为:

根据算法步骤(2)、(3)和(4),可以计算:

yk=φkψkHTHyk-1,k=2,3,.... (5)

zk=ψkφkHHTzk-1,k=1,2,.... (6)

收敛后,得到内容向量和链接向量分别为:

在式(7)中,内容向量y'是矩阵HTH的一个特征向量,链接向量z'是矩阵HHT的一个特征向量,因此为了确定内容向量和链接向量的存在和唯一性,下文对式中HTH和HHT进行分析。因为内容向量对应矩阵HTH,链接向量对应HHT,所以下文将HTH称作内容矩阵,将HHT称作链接矩阵。

本发明的有益效果在于:

本发明是一种基于超链接的主题预测算法,与现有技术相比,本发明提出了超链接主题预测算法,主要思想是在网络爬虫爬取网页之前取出页面的超链接进行主题相关度判断,当相关度大于预设的阈值时才进行爬取。最后,通过实验比较表明,本文提出的超链接预测算法提高了爬虫的工作效率和检索系统的精准度。

具体实施方式

下面对本发明作进一步说明:

本发明首先假设有网页集合S={1,2,…,N},在此基础上做如下定义:

矩阵H:网页之间链接图对应的链接矩阵;

yn:网页n(n∈S)的内容权值(Authority)

Zn:网页n(n∈S)的链接权值(Hub);

y=(y1,...,yN)T:内容权值向量;

z=(z1,...,zN)T:链接权值向量;

An:所有指向网页n的集合;

Bn:所有被网页n指向的网页集合;

具体算法步骤:

(1)初始化内容权值向量y,使初始化链接权值向量z,使

(2)进行第k步迭代的时候,网页n的内容权值yn由所有指向它的网页集An的Hub值组成,即其矩阵表达式为y=HTz;

(3)在步骤(2)中得到新的内容权值向量y后,网页n的Hub值Zn由它所引用的网页Bn的内容权值组成,即其矩阵表达式为z=Hy;

(4)对步骤(2)和(3)中计算的向量y和z进行单位化,使得

按照以上四个步骤进行循环迭代,直到收敛结束;

为了更深层次的分析HITS算法,将第k步迭代得到的内容向量和链接向量分别记作yk和zk,其中:

初始化为:

根据算法步骤(2)、(3)和(4),可以计算:

yk=φkψkHTHyk-1,k=2,3,.... (5)

zk=ψkφkHHTzk-1,k=1,2,.... (6)

收敛后,得到内容向量和链接向量分别为:

在式(7)中,内容向量y'是矩阵HTH的一个特征向量,链接向量z'是矩阵HHT的一个特征向量,因此为了确定内容向量和链接向量的存在和唯一性,下文对式中HTH和HHT进行分析。因为内容向量对应矩阵HTH,链接向量对应HHT,所以下文将HTH称作内容矩阵,将HHT称作链接矩阵。

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1