一种基于搜索引擎的网络搜索方法

文档序号:6562682阅读:337来源:国知局
专利名称:一种基于搜索引擎的网络搜索方法
技术领域
本发明涉及计算机科学/互联网技术领域,尤其涉及到互联网的网络搜索方法。
背景技术
随着互联网技术的发展,人们对网络的依赖程度越来越大了,据统计,每个月有超过100亿的搜索关键词提交给网络搜索引擎。这些搜索大多数是由一些关键词组成的,简短、模糊并且不太准确。实际上,当用户提交一个很短并且不准确的查询时,搜索引擎面临的一个很大的困难是要分析出用户的实际需求。现有的众多的搜索方法论文以及各种搜索方法专利,这些方法主要是将用户的搜索关键字提交到兴趣模型,利用兴趣模型的处理结果进行再次搜索,返回最终的搜索结果。 或者是根据搜索结果的相似性评价及搜索结果内容,对搜索结果进行优化排序。这些方法只是考虑了用户的最初的搜索关键字,建立了各种分析模型,而忽略了用户本身的行为,因而搜索结果可能没有太大的说服力。

发明内容
本发明所要解决的技术问题是提供一种基于搜索引擎的网络搜索方法,快速的帮助用户精确定位到感兴趣的内容。为解决上述技术问题,本发明的技术构思如下—、针对用户提交的初始查询词,集中关注搜索引擎返回的结果。当用户初步浏览了各个结果的标题和摘要后,点击了某一个或几个链接后,那这几个被用户点击的页面中必定会有一些词是可以描述用户的信息需求的。如果可以找出用户感兴趣的这些词来扩展用户的搜索词,必然会大大提高搜索的效率。当用户点击搜索结果中的某个链接时,预示着该结果中的某一个或几个词语与该用户的信息需求是相关的。找出这些词,就可以更加清晰的了解用户的信息需求。假如搜索结果是sada是由词语W1W2... Wn组成的。这时就可以用空间向量模型来表示出sa。这里的关键问题是如何衡量各个词语的权重。一种简单的方法是使用词语在该结果和整个搜索的结果集中出现的频率来计算词语的权重。同时也应该考虑各个词语和原始查询词的相关性。此方法的基本思想是考察原始查询词和搜索结果前列的候选词的共现频率,以此来衡量该候选词的权重。假设⑴原始查询词是Q,(2) Q中的关键词为qiq2q3. . . qm,(3)查询结果排在前列的文档集是C,C = Is1, &,. . .,sn}。用c0_deg ree(t, Qi)来表示词t和Qi在文档C中的共同出现的次数。本文使用下面的公式来计算t和Qi的共现次数
Σ lo^m,力 +1) χ ^ogitfiqi, 5) + 1)co_dQgree(t,qi) = ^-公式一
ηtf(t, s)和tf (q,s)分别代表词t和词Qi在搜索结果s中出现的频率。将这种量度作为词w和关键词Cli在集合C中的共现概率。这个算法将词语在文档中出现的次数和两词的共现次数联系起来了。得到词t和关键词化的共现概率C0_deg ree(t,qi)后,还要计算词t和所有的Qi在靠前的结果集中的共现率。设想t和不同的查询词的共现率是独立的,很自然的一种假设是把这些单个的共现率相乘。
权利要求
1. 一种基于搜索引擎的网络搜索方法,其特征在于,包括以下步骤 步骤1、所述搜索引擎根据用户键入的初始查询词进行搜索,展示所述搜索结果; 步骤2、记录所述初始查询词以及用户对所述搜索结果的点击日志; 步骤3、利用公式二计算出所述点击日志的网页中每个词语与所述查询词之间的相关度,并按相关度进行排序,挑选相关度高的前η个词语扩展所述初始查询词为扩展查询词; 所述η为人为设定的自然数;g(t,Q) = Π (CO _dQgree(t,q) + \ydf^公式二 q^Q其中,Q表示查询词,q表示查询词Q中的关键词,t表示任意词,C0_deg ree(t,qi)表示词t和Qi在查询结果排在前列的文档集C中的共同出现的次数;测+ 1.步骤4、将所述扩展查询词提交到所述搜索引擎进行二次搜索,并展示新的搜索结果。
2.根据权利要求1所述的基于搜索引擎的网络搜索方法,其特征在于,在所述步骤4之后,包括以下步骤步骤5、将所述初始查询词和扩展查询词分别提交到问答社区进行搜索,步骤6、利用公式五计算所述问答社区中的答案和搜索引擎的搜索结果的KL距离,Sim{Q,D) KL(Q 丨…)=Σ ((尸…\Q)~P(^ I D)) log公式五werP(w I D)KL距离小的问答对被认为是反映用户搜索意图的问答对;步骤7、取搜索结果中KL距离值小的前m个搜索结果展示给用户,供用户选择,所述m 为人为设定的自然数。
3.根据权利要求2所述的基于搜索引擎的网络搜索方法,其特征在于,在所述公式五中,P(W|Q) = APml(w|Q) + (1-A)P(w|C)0
4.根据权利要求2或3之一所述的基于搜索引擎的网络搜索方法,其特征在于,在所述步骤7之后,还包括以下步骤步骤8、采用如下公式七,, . . ^ R(i) χ pos(i)AverageFr ecision(q) = X公式七tt R(Tq)Xi其中,%为搜索结果的总数,R(i)为前i个结果中与查询词q相关的结果的个数, pos (i)是一个二元函数,它指示第i个结果与查询词是否相关;分别计算针对原始关键词%的问答社区查询结果的平均精确度aP(l以及针对扩展关键词Cl1的问答社区查询结果的平均精确度apQ,比较apQ和aPl值大小,如果apQ和aPl的相似比例在设定范围内,则认为查询结果准确。
全文摘要
本发明涉及基于搜索引擎的网络搜索方法,用于为搜索客户端提供精确搜索,该精确搜索可以根据搜索客户端用户对搜索结果的点击日志筛选出可以反映用户搜索意图的关键词,并将这些搜索词在各种专业的问答社区进行问题匹配,以此来明确用户的真正搜索意图,恢复用户的精确搜索语句,并以此语句重新提交搜索,将用户真正感兴趣的、对用户有用的结果以高优先级返回给用户,从而大大减少用户的搜索时间,提高用户的搜索效率。
文档编号G06F17/30GK102254039SQ20111022964
公开日2011年11月23日 申请日期2011年8月11日 优先权日2011年8月11日
发明者温杰, 王君泽, 胡广, 魏超, 黄本雄 申请人:武汉安问科技发展有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1