一种网页的垂直搜索方法

文档序号:6602093阅读:138来源:国知局
专利名称:一种网页的垂直搜索方法
技术领域
本发明涉及垂直搜索领域,特别涉及一种网页的垂直搜索方法。
背景技术
随着经济技术的发展,网络已成为人们日常生活中必不可缺的,人们通常 在网络中搜索自己所需的网页,为了提高搜索结果的质量,现有技术中提出了基于 HITS (Hyperlink-Induced Topic Search,超链接诱导主题搜索)的检索方法,该方法通过 对网络中链接的分析,利用页面的被引用次数及其链接数目来决定不同网页的价值。这种 信息检索的方法可以获得比较好的查全率,但没有考虑页面的内容,仅仅是考虑了页面的 链接信息,因此往往会出现主题偏移。为了解决上述问题,现有技术中又提出了基于垂直搜索的HITS的检索方法。其 中,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中 的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式 返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引 擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的 信息和相关服务,其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息 无序化,垂直搜索引擎则显得更加专注、具体和深入。微软研究院一名技术专家曾经说过 “75%的内容使用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度地提 高搜索的“查全率”和“查准率”。垂直搜索引擎通过对行业领域内的信息模型和用户模型 结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。基于垂直搜索的HITS 的检索方法添加了一个新的权重信息,这个信息就是页面相似性,也就是通过VSM(Vector Space Model,向量空间模型)计算页面与特定主题的相似程度来作为权重,由于垂直搜索 的是某一个特定领域的信息,因此添加一个这样的权重后,必然使与此领域相关的页面的 排名提前,从而搜索出更符合需求的页面,经过试验验证,通过该方法,可以大幅度的提高 搜索页面的准确性。发明人在实现本发明的过程中,发现上述现有技术至少存在以下缺点和不足基于垂直搜索的HITS的检索方法是通过关键字匹配的方式来获取初始页面,该 搜索结果是一个优化的结果,而不是随机的结果,这使搜索到的页面的准确性不是很高,不 能满足实际应用中的需要。

发明内容
为了提高搜索页面的准确性、提高搜索精度,本发明实施例提供了一种网页的垂 直搜索方法,所述技术方案如下—种网页的垂直搜索方法,所述方法包括以下步骤1 获取 root 集和 base 集;2 初始化所述base集的入链权重和出链权重;
3 获取所述base集中所有页面链接的入链网页权重和出链网页权重;4 获取所述base集中页面的主题相似性和页面的站点权重;5 根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重 获取所述base集中所有页面的入链权重和出链权重。步骤1-5中所述base集具体为从所述root集中的网页出发,由所述网页的出度网页及入度网页组成的文档集
口 o步骤4-5中所述站点权重,包括第一站点权重和第二站点权重;所述第一站点权重具体为wsvil = l+w^di-l),其中,Wl为常量,Nlvi为vi页面在前k个页面中属于本站点 的页面数目,且vi G root ;所述第二站点权重具体为wsvi2 = wsvi+w2*N2vi,其中,w2为常量,N2vi为vi页面在后k个页面中属于本站点的 页面数目,且Vi G root ;所述Wl的取值大于所述w2的取值。
步骤2和步骤5中所述入链权重具体为ai= !^观^^巧 體”,其中^⑴为vi链源页面集合,P/n为入链网页
j^B(i)J权重,wvj为主题相似性,wsvJ为站点权重;步骤2和步骤5中所述出链权重具体为hi = l/^Wxw ’其中,F⑴为vi链宿页面集合,P/Ut为出链网页权重,
_/GF ⑴J
WVJ为主题相似性,wsvJ为站点权重。本发明实施例提供的技术方案的有益效果是本发明实施例提供的方法通过在垂直搜索的HITS方法的基础上添加了站点权重 这一参数,使得网页的权重提高,可以获取到更符合实际需要的网页,并通过将root集扩 展为base集,增加了权重计算中的网页数量,提高了搜索网页的准确性和精度,满足了实 际应用中的需要。


图1是本发明实施例提供的网页的垂直搜索方法的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。为了提高搜索页面的准确性、提高搜索精度,本发明实施例提供了一种网页的垂 直搜索方法,参见图1,该方法内容如下101 获取 root 集禾口 base 集;其中,root集是指对于某一个主题通过搜索引擎所查找到的初始文档集合,通过 搜索引擎获取关于某一个主题的页面,取前k个页面作为root集,通过root集中的页面,获取每个页面的正向链接页面或反向链接页面,将正向链接页面或反向链接页面的数量控 制在m个之内,正向链接页面可以通过分析网页得到,反向链接页面可以通过搜索引擎的 反向查询功能查到。例如当k为30、m为50,这时获取到3000个页面(即30* (50+50))。 以百度为例,百度通过domain 网页进行查询,如domain :www. baidu. com,就可以获得所有 指向baidu的站点数目为6530,000。base集是指从root集中的网页出发,由这些网页的出度网页及入度网页所组成 的文档集合,为了对网站权重进行更精确的计算,减少误差,本发明实施例使得有更多的页 面参与到网站权重的计算中。获取和每一个页面链接的页面,该获取到的页面作为第二页 面,将第二页面也参与到网站权重计算中。例如root集中有30个页面,则获取到了 30个 第二页面,即,base集中有60个页面(即,30个页面+30个第二页面)。还是以百度为例, 可以通过domain :www. baidu. com获取指向www. baidu. com的前n个页面,通过分析www. baidu. com这个页面中的链接信息也提取前n个链接,这样就可以得到www. baidu. com这个 页面的所有链入和链出的页面集合了,即2n个页面。其中,其他的root集中的页面也是采 用同样的扩展方式,在此不再赘述。102 初始化base集的入链权重和出链权重;其中,入链权重表示一个权威网页被其他网页所引用的数量,即该权威网页的入 度值;出链权重表示一个Web页面指向其他网页的数量,即该Web页面的出度值。具体地, 本发明实施例将入链权重和出链权重初始化为1。103 获取base集中所有页面链接的入链网页权重和出链网页权重;具体地,获取页面链接的入链网页权重和出链网页权重的公式参见公式1和公式 2,其中,P/n为网页vi的入链信息确定的网页权重、Pi°ut为网页vi的出链信息确定的网页 权重、P/n和Pi°ut的初始值为l、N/n* N/Ut分别为网页vj的入链数目和出链数目、B⑴和 F(i)分别为vi链源页面集合和链宿页面集合。<formula>formula see original document page 5</formula>
通过上述公式可以获取到所有链接页面的入链网页权重和出链网页权重,为了减 少计算的复杂度,缩短计算的时间,本发明实施例优选地当前k个页面中的每一个页面的 入链权重和出链权重都收敛时,停止计算。具体实现时,根据实际应用情况还可以计算到 root集中的所有页面都收敛为止,本发明实施例对此不做限制。104 获取base集中页面的主题相似性和页面的站点权重;1、获取某一行业的特征向量R(Wl,w2,... ,wn);通过VSM来获取某一行业的特征向量R(Wl,w2,. . .,wn),n的取值和实际应用中的 行业类型有关,具体实现时,本发明实施例对此不做限制。2、获取某一网页vi的特征向量C(wil,wi2,. . .,win);具体地,通过米用 TF-IDF (Term Frequency-Inverse DocumentFrequency,词 频-反问档频率)方法来获取某一网页vi的特征向量C,具体实现时,也可以采用其他的方 法来获取特征向量C,本发明实施例对此不做限制。
3、获取页面的主题相似性和页面的站点权重;具体地,通过公式3来获取页面的主题相似性,用公式4代表页面的主题相似性。
<formula>formula see original document page 6</formula>wvi = Sim(R, Q (4)这样就可以计算出每一个网页的主题相似性,用wvi = Sim(R, 代表vi页面的 主题相似性。统计root集中的前k个页面的各个网站的数目,通过公式5来获取root集中的 前k个页面的第一站点权重wsvil,初始化所有页面的站点权重为1,即wsvil为1,Wl的取值 和实际应用中的root集中的页面数量有关,具体实现时,本发明实施例对此不做限制,本 发明实施例中以取0. 1为例对其进行说明,Nlvi代表vi页面在前k个页面中属于本站点 的页面数目,且vi G root。wsvil = l+w1*(Nlvi-l) (5)统计root集中的后k个页面的各个网站的数目,通过公式6来获取root集中的 后k个页面的第二站点权重wsvi2,初始化所有页面的站点权重为1,即wsvi2为l,w2的取值 和实际应用中的root集中的页面数量有关,具体实现时,本发明实施例对此不做限制,本 发明实施例中以取0. 05为例对其进行说明,N2vi代表vi页面在后k个页面中属于本站 点的页面数目,且vi G root。wsvi2 = wsvi2+w2*N2vi (6)这样通过公式5和公式6就获取到了 root集中的2k个页面的站点权重信息,其 中,Wi和w2的取值应满足的取值大于w2的取值(Wl > w2)。105 根据入链网页权重、出链网页权重、主题相似性和站点权重获取base集中所 有页面的入链权重和出链权重。具体为,B(i)和F(i)分别为vi链源页面集合和链宿页面集合,通过公式7和公 式8获取到ai和h”直到前k个收敛;并对ai和比进行归一化处理,获取到所有页面的入 链权重和出链权重。其中,P/n为入链网页权重,Pj°ut为出链网页权重,wvJ为主题相似性, wsvJ为站点权重。Z^^v^^x^v;(7)”= Za] ^v; x Pj"' x ^v;( 8 )为了表示方便,可以将ai表示为pa = (al, a2,......an),比表示为ph = (hi,
h2,......hn),具体实现时,也可采用其他的表现形式,本发明实施例对此不做限制。综上所述,本发明实施例提供了一种网页的垂直搜索方法,该方法通过在垂直搜 索的HITS方法的基础上添加了站点权重这一参数,使得网页的权重提高,可以获取到更符 合实际需要的网页,并通过将root集扩展为base集,增加了权重计算中的网页数量,提高 了搜索网页的准确性和精度,满足了实际应用中的需要。本发明实施例以3个简单的试验来验证本发明实施例提供的方法的有效性。
1、百度搜索“天津二手房”,通过查看结果可以获知,在前20个页面中soufim. com 整个站点共有3个结果,其中,前10个页面1个,后10个页面2个,尽管前几个结果不是 soufim. com对应的页面,但通过本发明实施例提供的方法,就可以将二手房信息网站所对 应页面的权重提高,进而会让这些页面比采用以往的方法得到的排名更靠前,提高搜索结 果的准确性,使其完全符合搜索意图。2、通过百度搜索“汽车报价”,其中前17个页面中有3个来自pcauto.com. cn(太 平洋汽车网)网站,通过查看结果可以获知,前几个页面中并没有pcauto. com. cn所对应的 页面,但该网站确实是一个较好的搜索结果,因此通过本发明实施例提供的方法,就可以对 权重进行调整,使得太平洋汽车网对应的网页权重的排名上升,使其满足了实际应用中的 需要,因此提高了搜索精度。3、通过百度搜索“笔记本电脑报价”,其中前20个页面中共有2个来自zol.com. cn(中关村网站),在实际应用中得知该网站是一个绝对具有影响力的电脑网站,而其只排 在第7位,通过采用本发明实施例提供的方法,可以对权重进行调整,经过调整后,其最后 的页面排名会比传统的基于垂直搜索的HITS方法的排名靠前,提高了搜索的准确性,满足 了实际应用中的需要。通过上述3个实验验证,可以看出本发明实施例提供的方法的可行性,可以获取 到更符合实际需要的网页,提高了搜索的准确性和精度,满足了实际应用中的需要。本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例 序号仅仅为了描述,不代表实施例的优劣。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种网页的垂直搜索方法,其特征在于,所述方法包括以下步骤1获取root集和base集;2初始化所述base集的入链权重和出链权重;3获取所述base集中所有页面链接的入链网页权重和出链网页权重;4获取所述base集中页面的主题相似性和页面的站点权重;5根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。
2.根据权利要求1所述的方法,其特征在于,步骤1-5中所述base集具体为 从所述root集中的网页出发,由所述网页的出度网页及入度网页组成的文档集合。
3.根据权利要求1所述的方法,其特征在于,步骤4-5中所述站点权重,包括第一站 点权重和第二站点权重;所述第一站点权重具体为<formula>formula see original document page 2</formula>其中,W1为常量,Nlvi为vi页面在前k个页面中属于本站点的页 面数目,且vi e root ;所述第二站点权重具体为<formula>formula see original document page 2</formula>其中,w2为常量,N2vi为vi页面在后k个页面中属于本站点的页面 数目,且Vi e root ;所述W1的取值大于所述的取值。
4.根据权利要求1所述的方法,其特征在于,步骤2和步骤5中所述入链权重具体为<formula>formula see original document page 2</formula>其中,B⑴为vi链源页面集合,Ρ/η为入链网页权重,Wvj为 主题相似性,WSvj为站点权重;步骤2和步骤5中所述出链权重具体为<formula>formula see original document page 2</formula>其中,F⑴为Vi链宿页面集合,P/Ut为出链网页权重,Wvj为 主题相似性,WSvj为站点权重。
全文摘要
本发明公开了一种网页的垂直搜索方法,涉及垂直搜索领域,所述方法包括获取root集和base集;初始化所述base集的入链权重和出链权重;获取所述base集中所有页面链接的入链网页权重和出链网页权重;获取所述base集中页面的主题相似性和页面的站点权重;根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得可以获取到更符合实际需要的网页,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
文档编号G06F17/30GK101807213SQ20101016886
公开日2010年8月18日 申请日期2010年5月11日 优先权日2010年5月11日
发明者孙越恒, 门瑞 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1