搜索引擎的性能评价方法

文档序号:6552779阅读:770来源:国知局
专利名称:搜索引擎的性能评价方法
技术领域
本发明涉及通信技术领域,特别涉及一种搜索引擎的性能评价方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息显示给用户,是为用户提供检索服务的系统。目前,大多数搜索引擎所提供的服务方式仍是通过关键词查询来实现的,即用户利用搜索引擎网站,提交跟自身需求相关的查询(通常为几个字、词),然后搜索引擎利用所抓取的互联网上的信息反馈给用户查询到的相关结果列表,每页网页一般有十个正常的返回结果,是一系列按照查询相关程度的大小排序的网络页面,相关程度高的资源排放在靠前的位置。公允正确、全面客观的搜索引擎性能评价具有很强的引导作用,能够进一步提高检索服务的质量等,因此搜索引擎的性能评价一直受到广泛关注。由于搜索引擎系统很大程度上属于网络信息检索系统的范围,因此目前基本应用传统的信息检索评价方法来评测搜索引擎的性能。在信息检索评价方法中,评测用查询集合以及对应这些查询的标准答案集合是不可或缺的两个因素。而现有的评测方法中,这两者的确定都需要耗费大量的人力劳动,而且手工标注带来的标注人员的主观影响很难避免。针对上述问题,近来提出从用户角度出发,以用户满意度来评价搜索引擎性能的思想, 但是仍未提出合理的自动评价流程。

发明内容
本发明的目的旨在至少解决上述技术缺陷之一。为达到上述目的,本发明提出一种搜索引擎的性能评价方法,包括以下步骤:A: 对用户日志进行预处理,并从所述预处理后的用户日志中获取待评价的查询集合;B 针对所述查询集合,在所述用户日志中提取相应的查询分类特征;C 根据所述查询分类特征, 将所述查询集合分类成导航类查询集合和信息事务类查询集合;D 获取所述分类后的查询集合的用户行为特征;以及E 根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意度确定。在本发明的一个实施例中,所述步骤A进一步包括进行用户日志编码转换以将服务器记录的编码格式转换成国家标准汉字编码格式;对所述转换后的用户日志进行整理以去除预定内容项之外的信息,其中所述预定内容项包括用户ID、用户提交的当前查询、 用户点击的结果、用户行为内容、用户行为事件;过滤所述用户提交的当前查询中的噪声信息;以及根据用户查询频率,从所述预处理后的用户日志中自动筛选出所述查询集合。在本发明的一个实施例中,所述查询分类特征包括前N次点击满足用户需求率、 用户点击集中度、链接信息和查询对应的URL代表。, 其中
权利要求
1.一种搜索引擎的性能评价方法,其特征在于,包括以下步骤A 对用户日志进行预处理,并从所述预处理后的用户日志中获取待评价的查询集合; B 针对所述查询集合,在所述用户日志中提取相应的查询分类特征; C 根据所述查询分类特征,将所述查询集合分类成导航类查询集合和信息事务类查询集合;D 获取所述分类后的查询集合的用户行为特征;以及E 根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意判定。
2.根据权利要求1所述的搜索引擎的性能评价方法,其特征在于,所述步骤A进一步包括 进行用户日志编码转换以将服务器记录的编码格式转换成国家标准汉字编码格式; 对所述转换后的用户日志进行整理以去除预定内容项之外的信息,其中所述预定内容项包括用户ID、用户提交的当前查询、用户点击的结果、用户行为内容、用户行为事件; 过滤所述用户提交的当前查询中的噪声信息;以及根据用户查询频率,从所述预处理后的用户日志中自动筛选出所述查询集合。
3.根据权利要求1所述的搜索引擎的性能评价方法,其特征在于,所述查询分类特征包括前N次点击满足用户需求率; 用户点击集中度; 链接信息;和查询对应的URL代表。
4.根据权利要求3所述的搜索引擎的性能评价方法,其特征在于,其中, 所述前N次点击满足用户需求率通过以下的公式获得,前N次点击满足用户需求率=;查询Q的,S·用尸数所述用户点击集中度通过以下的公式获得,m A占土隹由洚_用户点击最集中的查询结果被点击的次数用尸,.』木干/又=查询Q用户的总点击数,所述链接信息通过以下的公式获得,链接俨f =以Q作为链接文本数量最多的一个网页对应条目数 =以Q作为链接文本出现的总条目数‘其中,Q为某个查询。
5.根据权利要求3所述的搜索引擎的性能评价方法,其特征在于,所述查询对应的URL 代表为比例占10%以上的URL。
6.根据权利要求1至5中任一项所述的搜索引擎的性能评价方法,其特征在于,所述步骤C进一步包括Cl 判断所述查询对应的URL代表是否只为一个且为网站类型,如果所述查询对应的 URL代表只为一个且为网站类型,则判断所述查询为导航类查询,否则继续步骤C2 ;C2 判断所述链接信息是否不大于第一链接信息值,如果所述链接信息不大于所述第一链接信息值,则继续步骤C3,如果所述链接信息大于所述第一链接信息值,则继续步骤 C5 ;C3:判断所述用户点击集中度是否不大于第一集中度值,如果所述用户点击集中度不大于所述第一集中度值,则判断所述查询为信息事务类查询,如果所述用户点击集中度大于所述第一集中度值,则继续步骤C4 ;C4 判断所述链接信息是否不大于第二链接信息值,如果所述链接信息不大于所述第二链接信息值,则判断所述查询为信息事务类查询,如果所述链接信息大于所述第二链接信息值,则判断所述查询为导航类查询;C5:判断所述用户点击集中度是否大于第二集中度值,如果所述用户点击集中度大于所述第二集中度值,则判断所述查询为导航类查询,如果所述用户点击集中度不大于所述第二集中度值,则继续步骤C6 ;C6 判断所述前N次点击满足用户需求率是否大于预定需求率值,如果所述前N次点击满足用户需求率不大于所述预定需求率值,则判断所述查询为信息事务类查询,如果所述前N次点击满足用户需求率大于所述预定需求率值,则继续步骤C7 ;以及C7 判断所述链接信息是否大于第三链接信息值,如果所述链接信息大于所述第三链接信息值,则判断所述查询为导航类查询,如果所述链接信息不大于所述第三链接信息值, 则判断所述查询为信息事务类查询。
7.根据权利要求1所述的搜索引擎的性能评价方法,其特征在于,所述用户行为特征包括平均第一次点击信息; 点击查询推荐的比例; 平均最后一次点击信息; 平均点击次数; 平均日志条数;和点击重新搜索的比例。
8.根据权利要求7所述的搜索引擎的性能评价方法,其特征在于,其中, 所述平均第一次点击信息通过以下的公式获得,
9.根据权利要求7或8所述的搜索引擎的性能评价方法,其特征在于,如果所述查询为导航类查询,则所述步骤E进一步包括Ell 判断所述平均第一次点击位置是否大于预定的第一点击位置值,如果所述平均第一次点击位置大于所述预定的点击位置值,则继续步骤E12,如果平均第一次点击位置不大于所述预定的点击位置值,则继续步骤E13 ;E12 判断所述平均点击次数是否大于预定的点击次数值,如果所述平均点击次数大于所述预定的次数值,则判断为用户不满意,如果所述平均点击次数不大于所述预定的次数值,则判断为用户满意;E13 判断所述点击查询推荐的比例是否大于第一比例值,如果所述点击查询推荐的比例大于所述第一比例值,则判断为用户不满意,如果所述点击查询推荐的比例不大于所述第一比例值,则判断为用户满意。
10.根据权利要求7或8所述的搜索引擎的性能评价方法,其特征在于,如果所述查询为信息事务类查询,则所述步骤E进一步包括E21 判断所述点击查询推荐的比例是否大于第二比例值,如果所述点击查询推荐的比例大于所述第二比例值,则继续步骤E22,如果所述点击查询推荐的比例不大于所述第二比例值,则继续步骤E23 ;E22 判断所述平均最后一次点击位置是否大于预定的第二点击位置值,如果所述平均最后一次点击位置大于所述预定的第二点击位置值,则判断为用户不满意,如果所述平均最后一次点击位置不大于所述预定的第二点击位置值,则判断为用户满意;E23 判断所述平均日志条数是否大于预定的条数值,如果所述平均日志条数不大于所述预定的条数值,则判断为用户满意,如果所述平均日志条数大于所述预定的条数值,则继续步骤E24 ;E24:判断所述点击重新搜索的比例是否大于预定的重新搜索比例值,如果所述点击重新搜索的比例大于所述预定的重新搜索比例值,则判断为用户不满意,如果所述点击重新搜索的比例不大于所述预定的重新搜索比例值,则判断为用户满意。
全文摘要
本发明提出一种搜索引擎的性能评价方法,包括以下步骤对用户日志进行预处理,并从所述用户日志中获取待评价的查询集合;针对所述查询集合,在所述用户日志中提取相应的查询分类特征;根据所述查询分类特征,将所述查询集合分类成导航类查询集合和信息事务类查询集合;获取所述分类后的查询集合的用户行为特征;以及根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意判定。本发明的搜索引擎的性能评价方法的模型结构和参数简单,算法复杂度低,数据全面客观,评价真实可靠。
文档编号G06F17/30GK102156746SQ201110098378
公开日2011年8月17日 申请日期2011年4月19日 优先权日2011年4月19日
发明者刘奕群, 张敏, 张阔, 朱彤, 茹立云, 金奕江, 马少平 申请人:北京搜狗科技发展有限公司, 清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1