基于网页质量的静态索引剪枝方法

文档序号:6350617阅读:268来源:国知局
专利名称:基于网页质量的静态索引剪枝方法
技术领域
本发明涉及互联网搜索引擎技术领域,特别涉及一种基于网页质量的静态索引剪枝方法。
背景技术
索引剪枝,是指合理的从这个倒排索引结构中去掉一些内容(信息),在牺牲较少检索效果的前提下,缩小其存储规模,加快检索速度。现有对网页的剪枝方法主要包括以下两禾中1、基于倒排链的剪枝(Term-centric Pruning, TCP)方法[1]。对于每个索引词对应的倒排链,其首先对每个倒排项P (t),按照某种方法(例如TFX IDF,TF指词项频率Term Frequency, IDF指反转网页频率Inverted Document Frequency,下同)打分,然后按得至Ij 的分数对P (t)进行排序,最后保留若干分数较高的倒排项。2、基于网页的剪枝(Document-centric Pruning, DCP)方法β]。对于每个网页中的词D(t)按一定的打分方式(例如TFX IDF)打分,然后按分类对D (t)进行排序,最后为每个网页保留一定比例或一定数量的D(t)。上述的方法都假设索引词之间是独立的,所以其对一些查询(例如短语查询)不能很好的处理。一种已有的改进方法是利用P(t)计算网页中各个句子的重要度[3],然后按重要度对句子进行排序,最后保留重要度较高的句子。这种方法有一定程度上解决了索引词之间的依赖关系,但其及存在其它两方面的问题。1、没有考虑网页自身的重要度对保留信息量的影响。上述方法通过是对网页保留固定比例的信息。直观上越重要的网页需要保留越重要的信息,而垃圾网页的内容可以直接从索引中去除。所以保留固定比例的信息这个比例的固定可能对重要的网页偏少,对于垃圾网页则偏多。2、没有考虑网页结构对剪枝的影响,例如网页的锚文本,标题和对应的查询日志所包含的信息往往都比较重要。利用网页的结构,可以更加准确地计算中网页中哪些词或片段是重要的,以前的方法只考虑了网页文本之间的相似度。这两方面问题导致了剪枝完的索引中网页的整体质量差,不利于检索。
背景技术
中引用的参考文献如下[1]Carmel, D.,Cohen,D.,Fagin, R.,Farchi, E.,Herscovici, M.,Maarek, Y. S., & Soffer, A. (2001). Static index pruning for information retrieval systems. Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 43-50). New York,NY,USA :ACM.[2]Biittcher,S.,& Clarke,C. L. A. (2006). A document-centric approach to static index pruning in text retrieval systems. Proceedings of the 15th ACM international conference on Information and knowledge management(pp. 182-189). New York, NY, USA :ACM.
[3] de Moura, E. S. , dos Santos, C. F. , Fernandes, D. R. , Silva, Α. S. , Calado, P., & Nascimento, Μ. Α. (2005).Improving Web search efficiency via a locality based static pruning method. Wffff (p. 235). New York, New York, USA :ACM Press.

发明内容
(一)要解决的技术问题本发明要解决的技术问题是如何提升剪枝完的索引中网页的整体质量以及查询的处理速度。(二)技术方案为解决上述技术问题,本发明提供了一种基于网页质量的静态索引剪枝方法,包括以下步骤Sl 计算待剪枝网页的重要度,所述重要度包括网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;S2 根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。其中,所述网页权威性采用I^ageRank函数实现,PageRank函数如下
权利要求
1.一种基于网页质量的静态索引剪枝方法,其特征在于,包括以下步骤51计算待剪枝网页的重要度,所述重要度包括网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;52根据所述重要度计算所述待剪枝网页的信息保留比例;53抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标; S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。
2.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述网页权威性采用I^ageRank函数实现,PageRank函数如下ΡΚ{ρ)=Ιζλ+λ. γ Pr(P)^P卢风Pi)其中,Pi表示第i个待剪枝网页Jn(Pi)是所有链向待剪枝网Hpi的网页的集合;Pj是 In(Pi)中的一篇网页;Out (Pj)是网页Pj链出网页的集合;C是网页集合中网页的总数;λ 是随机游走因子。
3.如权利要示1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述网页内容有用性采用KL距离函数来实现,KL距离函数如下KUXd, D) = KUXP, Q) = ^ Pit) · logP(t)其中τ是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型。
4.如权利要示1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述用户关注度采用以下函数实现s(d)= (C°+Cd) (D0+Dd)其中,Ctl是网页在搜索结果中平均被点击的次数,Cd是待剪枝网页d在搜索结果中被点击的次数,Dtl是网页在搜索结果中平均被展示的次数,Dd是待剪枝网页d在搜索结果中的展示次数。
5.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,步骤S2中计算所述待剪枝网页的信息保留比例采用Sigmoid函数Z(V) 1 + e~(y-m)/ s其中,V对应待剪枝网页的一个重要度;Z(V)的值为重要度为V的内容的保留比例,m 是函数Z(V)中心点相对于原点的水平坐标的偏离值;k用于控制保留最大的比例;s用于控制函数的平滑性,若函数结果大于1,则将其置为1。
6.如权利要求5所述的基于网页质量的静态索引剪枝方法,其特征在于,所述步骤S2 中计算多个不同类型的重要度的保留比例Z(V),并按如下公式计算待剪枝网页的信息保留其中,V是重要度指标的集合,民是重要度ν对应的权重,其符合如下公式ΣκvgV
7.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述步骤S3 中抽取待剪枝网页中的重要片段,计算待剪枝网页文本片段的重要度的步骤为对每篇网页与整个网页集合分别建立一元语言模型P与Q ;利用以下KL距离函数计算网页与网页集合的相似度KLD(d, D) = KLD(P, 0) = 1 P{t) · log^j其中,T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型;计算待剪枝网页中每个词t对KL值的贡献度,公式如下”攀g(認)式中各符号含义同KL距离函数的计算公式,利用每个词t对KL值的贡献度以及待剪枝网页的结构信息计算出每个片段的重要度,所述结构信息包含以下域标题、锚文本、查询串、描述域、关键词域及正文,片段重要度的计算公式如下ImpO) = ~~I尸I其中,P是一个文本片段』是文本片段的域的权重,t是片段中包含的词,IPI是片段Ρ 的长度。
全文摘要
本发明公开了一种基于网页质量的静态索引剪枝方法,涉及互联网搜索引擎技术领域,包括S1计算待剪枝网页的重要度,所述重要度包括网页权威性、网页内容的有用性或用户关注度;S2根据所述重要度计算所述待剪枝网页的信息保留比例;S3抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。本发明大大减少了倒排索引文件的大小,提升了网页检索的速度。
文档编号G06F17/30GK102521313SQ20111039394
公开日2012年6月27日 申请日期2011年12月1日 优先权日2011年12月1日
发明者单栋栋, 张旭东, 李晓明, 闫宏飞 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1