一种在搜索引擎中应用搜索者反馈信息的方法

文档序号:6555284阅读:303来源:国知局
专利名称:一种在搜索引擎中应用搜索者反馈信息的方法
技术领域
本发明属于在互联网上搜索信息的方法,具体地说,是一种对搜索者的反馈信息进行统计,并根据统计结果调整搜索引擎结果排序的方法。
背景技术
目前,各种各样的搜索网站在互联网上层出不穷,互联网终端可以通过浏览器等上网进行信息的搜索,智能手机、PDA等智能移动终端(本发明统称手机)也可以通过无线网络与互联网连接搜索信息。在搜索过程中,搜索引擎是必不可少的工具。
目前搜索引擎的实现原理,一般可以看作四步;1、从互联网上抓取网页。
利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。
2、建立索引数据库。
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3、在索引数据库中搜索。
当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
4、对搜索结果进行处理排序。
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的原理,在网络应用程序中也有很多的应用,如手机通过GPRS连接互联网,查询网络服务器上的信息。
从以上步骤可以看出对搜索结果进行排序,是依靠计算机程序自动进行的,搜索引擎索引数据库建好后,在进行下一次重新索引之前,对于某一关键词,搜索结果的排序将一直保持不变。但实际上,搜索者才是排序是否准确的评判者。现有搜索引擎缺乏搜索者对于搜索结果的反馈机制。
从单个搜索者来看,单个搜索者对搜索结果的反馈信息具有一定的随意性和随机性,但从统计学的角度,当样本量(即参加反馈的搜索者人数)足够大时,搜索者的反馈意见总体上符合某一统计学模型,因而,使用此统计学模型进行分析,能获得总体上客观的反馈,根据此反馈信息,搜索引擎调整关键词的相关度,再对搜索结果进行排序,具有一定的实用价值。
本发明所述的搜索引擎,为包括网络应用中进行信息搜索的广义的搜索引擎。所述的关键词,为信息项的某种属性或属性的组合。所述的相关度,为关键词与信息项的关联程度的一种量化表示值,用于关键词的排序。

发明内容
本发明的目的是克服现有技术存在的搜索结果排序不能体现搜索者的反馈信息的技术问题。
为实现上述目的,本发明提出一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于1)、记录搜索者的反馈信息。
2)、对反馈信息进行统计处理。
3)、使用统计处理的结果调整相关度数值。
具体来说,包括,一反馈信息处理单元,所述反馈信息处理单元,用于存放搜索者的反馈信息,所述的反馈信息,一般包括搜索者ID、关键词ID、关键词所在文档ID、搜索者的评分。所述的搜索者的评分,是搜索者对某项搜索结果的主动评分或非主动评分,有连续值和离散值两种。所述反馈信息处理单元,还用于存放搜索者反馈信息的统计值,一般包括关键词ID、关键词所在文档ID、统计所得评分、此关键词-文档的原始相关度数值,其中,可由原始相关度数值和统计所得评分得到新的相关度数值。
所述的主动评分包括但不限于对搜索结果项直接评分、选择评分,由搜索者主动交互完成。
所述的非主动评分包括但不限于对搜索者逗留时间长短折合成评分、对搜索结果项做收录操作与否折合成评分,可通过智能代理实现自动评分。
所述的一种统计搜索者反馈信息的搜索引擎,还包括在记录搜索者的反馈信息前,先根据最初的相关度数值的值域及分布情况,设计一个合理的评分体系。搜索者使用某关键词搜索,服务器返回搜索结果,搜索者在查看搜索结果项的过程中,为该项评分,评分结果由反馈信息处理单元保存。一般地,相同的搜索者在一个统计期内,对同一搜索项只能有一个评分,同一搜索者对同一搜索项的多次评分,由反馈信息处理单元根据情况抛弃处理或覆盖原来的值。
所述的统计处理,其特征是包括a.采样的步骤,包括判断样本量是否够大,b.进行数据清洗的步骤,c.使用统计算法进行数据处理的步骤,d.计算统计学评分的步骤。
在样本量足够大时,才进行统计处理。样本的采样范围可以采取已知的多种措施的一种,包括但不限于使用所有的样本、使用最新的样本。对样本进行统计计算后,反馈信息处理单元要保存关键词的统计评分,并对样本进行处理。
修正搜索引擎对应关键词项的相关度数值得到新的相关度数值,此步骤在反馈信息处理单元计算出统计评分后或在下一次排序前。
下一次的搜索结果将按照新的相关度数值进行排序。
本发明通过记录搜索者对搜索结果的反馈信息,使用统计学方法,对反馈信息进行统计处理,得到关键词的统计评分,使用此统计评分计算得到新的相关度数值,从而调整搜索结果的排序。使用此发明,新的相关度数值在一定程度上可以反映搜索者的客观的评价,从而提高搜索结果排序的准确性。


图1是本发明的典型的流程示意图,显示搜索者在一次搜索后进行评分的情况,此示意图不用于限定本发明。
1)搜索者提交关键词进行搜索。可以在互联网终端或手机中进行。
2)搜索引擎返回搜索结果。搜索引擎在网络服务器上,搜索结果返回给互联网终端或手机之前已经按照相关度数值进行了排序处理。
3)搜索者阅读搜索结果项。
4)对项进行评分。根据阅读的情况,搜索者可以选择对该项进行评分,如果放弃评分,则转到第10)步。
5)评分提交到反馈信息处理单元。反馈信息处理单元根据提交的关键词-文档评分,增加一个样本,如果是重复的评分,则抛弃处理或覆盖上一次的评分。
6)样本量大小合适?判断样本量大小是否达到统计模型所需的样本大小。若未达到所需样本大小,则不进行统计计算,转到第10)步。
7)使用统计学方法计算评分。按照统计模型的算法计算,一般计算统计平均分。
8)统计评分储存在反馈信息处理单元。反馈信息处理单元保存此关键词-文档及其统计评分。
9)反馈信息处理单元进行调整以重新启动下一个评分过程。根据所选择的采样方式的不同进行操作,一般是删除先前的评分样本,或者标记样本为已经使用过。此步骤还包括重新计算搜索引擎对应关键词-文档项的相关度数值得到新的相关度数值。
10)继续阅读搜索项?一轮评分过程结束。对于同一次搜索,搜索者可以阅读多个搜索项,进行多次评分。若搜索者选择继续阅读,则可以继续评分,否则结束此次搜索实践过程。
具体实施例方式
下面通过具体的实施例对本发明作进一步详细的描述。
实施例1、本发明实施例通过应用一种在搜索引擎中应用搜索者反馈信息的方法,实现在网络信息系统中使用手机搜索菜单项。
本网络信息系统为手机通过无线网、互联网以访问网络服务器上的信息。网络服务器上的信息以分区、分组目录的类似菜单的方式组织,手机上相应地以菜单的形式显示,通过点选菜单项获取子菜单或获取信息进行显示,菜单使用列表的显示方式,子菜单覆盖父菜单,子菜单返回后,父菜单又覆盖子菜单。每一菜单项有一ID属性、一关键词属性,一菜单名属性,一积分值属性。积分值是反映关键词与菜单项内容的相关程度的值,积分值是一实数。
从手机中键入要搜索的关键词,提交到服务器,服务器把搜索结果按积分值、菜单名排序后返回到手机,手机显示一组原始菜单,其中可以包含不同一级的菜单项。
手机将监视此组菜单项的选择情况,当搜索者从子菜单返回原始菜单,或阅读信息项后返回原始菜单时,系统询问是否进行菜单项评分,本实施例的评分体系为设置五个等级分-10,-5,0,5,10,相应地,手机上可以显示关键词与内容为“完全不相关”,“不相关”,“无明显相关”,“相关”,“完全相关”。此时搜索者可对该菜单项进行评分。
评分被保存到反馈信息处理单元中。当有关此关键词一信息项的评分样本数达到100时(假设统计学上计算得到,当去除干扰数据后,样本数达到100时,样本总体符合t分布)反馈信息处理单元进行处理。反馈信息处理单元对此关键词一信息项的评分样本使用t分布的模型进行统计学计算,得出其数学平均值,把此数学平均值储存在反馈信息处理单元中,并把原始评分储存在反馈信息处理单元中,并更新该菜单项的积分值为此数学平均值与原始评分之和。
这样下一个搜索者使用相同的关键词进行搜索菜单项时,搜索结果将按照新的积分值排序后返回。
本发明的上述实施例只用于说明的目的,并非用以限定本发明,本领域的技术人员可以在本发明的范围内做出各种等同的修改,如上述实施例是手机搜索的例子,也可以从互联网终端进行搜索,还可以在互联网搜索引擎中使用此技术;又如手机菜单可以是分段显示的,手机从服务器一段一段地获取菜单进行显示以减少内存占用;又如网络服务器可以是服务器群。其工作原理类似,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。
权利要求
1.一种在搜索引擎中应用搜索者反馈信息的方法,其特征是1)、记录搜索者的反馈信息。2)、对反馈信息进行统计处理。3)、使用统计处理的结果调整相关度数值。
2.如权利要求1所述的一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于所述的统计处理,其特征是包括1).采样的步骤,包括判断样本量是否够大,2).进行数据清洗的步骤,3).使用统计算法进行数据处理的步骤,4).计算统计学评分的步骤。
3.如权利要求1所述的一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于所述的反馈信息包括,搜索者对搜索结果的主动评价和/或非主动评价。
4.如权利要求1所述的一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于还包括根据最初的相关度数值的值域和分布情况,设计一个合理的评分体系。
5.如权利要求1所述的一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于相同的搜索者在一个统计阶段,对同一搜索项只能有一个评分。
6.如权利要求1所述的一种在搜索引擎中应用搜索者反馈信息的方法,其特征在于统计的采样方式,包括但不限于使用所有的样本、使用最新的样本。
全文摘要
本发明通过记录搜索者对搜索结果的反馈信息,使用统计学方法,对反馈信息进行统计处理,得到关键词的统计评分,使用此统计评分计算得到新的相关度数值,从而影响搜索结果的排序。使用此发明,新的相关度数值在一定程度上可以反映搜索者的客观的评价,从而提高搜索结果排序的准确性。
文档编号G06F17/30GK1818908SQ20061002472
公开日2006年8月16日 申请日期2006年3月16日 优先权日2006年3月16日
发明者董崇军 申请人:董崇军
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1