基于快速相似度的PageRank方法

文档序号:6426214阅读:330来源:国知局
专利名称:基于快速相似度的PageRank方法
技术领域
本发明是基于快速相似度的I^geRank方法,属于Web结构挖掘和信息检索领域。相关知识包括计算机技术、数据库技术、统计学、编码理论等。
背景技术
I^ageRank算法是由S. Brin, L. Page等在1998年提出的,是一种以网络中的链接关系为研究对象的网页分级算法,其作用是将最重要的网页优先显示给用户,以尽可能的满足用户的搜索需求。Google搜索引擎采用的就是将复杂文本匹配算法和I^ageRank算法相结合的技术。通过I^geRank算法在Google中的成功应用,足以证明,该算法运用到搜索引擎中是非常有效的。I^ageRank算法可以迭代计算出每个网页的I^ageRank值,PageRank值的高低代表了网页在网络中权威性,值越高则权威性最高,在搜索结果中网页出现的位置就越靠前。
汉明距离相似度算法[1]是由张焕炯、王国胜和钟义信在2001年提出的,它借助编码理论中汉明距离的概念,通过求文本与查询式之间的汉明距离来表征文本的相似度,是一种快速有效的相似度计算方法。
目前许多学者在改善I^ageRank算法主题漂移现象的过程中,绝大部分是将向量空间相似度算法和I^geRank算法相结合。然而,向量空间模型算法具有大量的乘法运算,会进一步加剧算法的复杂性,降低可应用性。本发明将计算迅速的汉明距离相似文本算法与 PageRank结合,从搜索的查全率和查准率两方面改进。 参考文献张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,19 :21-22.L. Page,S. Brin,etc.The PageRank Citation Ranking :Bringing Order to the Web.http://www-diglib. Stanford, edu/diglib/pub/, 1998.韩洪光.搜索引擎分析-基于I^ageRank算法的研究与改进[D].北京交通大学, 2008.袁瑞红.基于语义相似度的Web结构挖掘算法研究及实现[D].南京理工大学, 2009.徐家树,刑立新,覃征.超链接文本相关度的I^ageRank算法[J].哈尔滨工业大学学报,2009,41 (1) :223-225.袁津生,赵传刚等.搜索引擎与信息检索教程[M].中国水利水电出版社,2008.段淮川,胡平.基于主题特征和时间因子的改进I^ageRank算法[J].计算机工程与设计,2010,4 (31) :866-868.王钟斐,王彪.基于锚文本相似度的I^ageRank改进算法[J].计算机工程.2010, 24(36) :258-260.

发明内容
本发明的目的是通过改进I^ageRank算法,使得在进行信息搜索的过程中提高搜索的查准率和查全率。将汉明距离相似度算法和I^geRank算法相结合以改善原有I^geRank算法主题漂移的现象。为提高搜索的查全率,可以增加搜索的范围即增加搜索检索词的同义词,在计算相似度时需要改进汉明距离相似度计算,以达到提高查全率的同时保证查准率。 本发明为实现上述目的,采用的技术方法如下
1)增加同义词检索当用户输入检索词或检索语句后,首先可将检索词进行分词、去停用词等处理,其次根据得到的各个词,查找它们同义词,然后在网络中匹配包含检索词和它们同义词的网页。
2)增加相似度计算将汉明距离相似度计算引入I^geRank算法,由于增加了同义词检索的过程,需要在汉明距离相似度计算的过程中增加同义词匹配,而且需要严格区分检索词和检索词的同义词,使其具有不同的参数。
3)按照快速相似度I^ageRank值的倒序显示包含检索词和它们同义词的网页。 具体包括如下步骤
步骤10从网络中获取各个网页的链接关系。
步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;
步骤30根据索引库中的内容,计算各网页的I^geRank值,计算公式为 PR(u) = d Yj PR(v)/N(v) +(I-d)
veB(u)
式中参数u是一个网页,B (u)是指向网页u的网页集合,N (ν)是指网页ν向外的链接数,d是衰减因子,通常取0. 85;
步骤40根据输入的检索词,计算网页标题与检索词的相似度
Sim(U ,Q) = l_txk yk / η
k=l
式中参数Xk,yk分别表示网页U的标题对应的码字和查寻式Q对应的码字中第k位的分量,它们的值为0或1 ;0表示在某位置上U不存在与检索词或检索词的同义词,1则表示存在;11为码子的长度,Θ为模2加(异或)运算;
步骤50根据上述的计算可以得到快速相似度I^ageRank的计算公式 r e l(U, Q) = PR(U) · Sim(p, 0.(1-
2n
式中参数rel (U,Q)是快速相似度PageRank值;PR(U)是网页U的PageRank值; Sim(U, Q)是网页标题和检索词的相似度值;s是标记U中存在同义词的个数;η为网页标题码字的长度。
本发明提供的技术方案的有益效果是
基于快速相似度的I^ageRank算法利用经典的I^ageRank算法和快速有效的汉明距离相似度算法,在增加检索词的同义词搜索的过程中,改进汉明距离相似度算法,使其能够计算包含同义词的网页的相似度,在计算相似度的过程中使得检索词和检索词的同义词具有不同的参数,保证搜索查全率提高的同时提高搜索的查准率。


图1查询流程图。 图2具体方法流程图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细阐述。
基于快速相似度的I^geRank算法,包括
1)提高搜索的查准率利用汉明距离相似度方法计算网页标题与检索词之间的相似度值,作为搜索结果网页的排序的标准之一,即将汉明距离相似度算法与I^geRank算法结合,以改善I^geRank算法主题漂移现象。
2)提高搜索的查全率包含检索词的同义词的网页可能是与搜索主题相关的网页,可在搜索过程中增加检索词同义词的搜索,为此需改进汉明距离相似度算法,增加同义词匹配,计算时区分检索词和它的同义词,提高查全率保证查准率。
如图1、2所示,展示了实现快速相似度I^ageRank算法的流程如下 步骤10对用户输入的查询词或查询语句进行分词、去停用词,使其成为一个个独立的词语。
步骤劝根据上一步得到的词语,到建立的同义词词库中查询,获取各个词的同义词词组。
步骤30依托上一步中得到的同义词词组和查询词,创建查询对象。
步骤40获取包含查询词或查询词的同义词词组的网页,需要经过三个步骤的计算过

首先,使用公式:
权利要求
1. 一种基于快速相似度的I^ageRank方法,其特征在于具体构建方法如下 步骤10从网络中获取各个网页的链接关系;步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;步骤30根据索引库中的内容,计算各网页的I^geRank值,计算公式为
全文摘要
本发明公开一种基于快速相似度的PageRank方法。该方法将PageRank算法和改进的汉明距离相似度算法相结合,提出一种新的网页排序方法。PageRank算法是一种单纯研究网页链接的算法,容易出现主题漂移的问题。针对这一问题本算法提出了两点改进①结合汉明距离相似度算法,计算检索词和网页文本的相似度,提高搜索的查准率。②为提高搜索的查全率,需改进汉明距离相似度算法,增加搜索检索词的同义词,扩大搜索的范围。根据上述两点,得到快速相似度PageRank算法的计算公式,从查全率和查准率两方面满足搜索的要求。
文档编号G06F17/30GK102253971SQ201110158710
公开日2011年11月23日 申请日期2011年6月14日 优先权日2011年6月14日
发明者乔文文, 毕硕本, 汪大, 马燕 申请人:南京信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1