基于可拒绝策略的元搜索结果排序算法

文档序号:6622573阅读:227来源:国知局
基于可拒绝策略的元搜索结果排序算法
【专利摘要】本发明公开了一种基于可拒绝策略的元搜索结果排序算法,用户注册后登录,系统调取用户相关偏好信息;针对用户输入检索请求,按照用户所选择的成员搜索引擎进行分发。对检索结果计算相关度并依照改进的Borda方法进行排序后呈现给用户;根据用户对所返回结果的点击情况调整成员搜索引擎权重大小,直至拒绝调用某个成员搜索引擎,对用户偏好模型进行优化。本发明提供的基于可拒绝策略的元搜索结果排序算法,适用于互联网中的元搜索引擎,具有准确度高和覆盖率广的优点。
【专利说明】基于可拒绝策略的元搜索结果排序算法

【技术领域】
[0001] 本发明涉及一种基于可拒绝策略的元搜索结果排序算法,属于搜索引擎方法技术 领域。

【背景技术】
[0002] 互联网的迅速发展使得网络资源急剧增加,用户如何能够有效地获取所需信息成 为一个非常值得研究的课题。搜索引擎(Search Engine)是指根据一定的策略、运用特定 的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将 用户检索相关的信息展示给用户的系统。搜索引擎的出现大大提高了人们对互联网信息检 索的能力和效率。据中国互联网络信息中心(CNNIC) 2014年1月《第33次中国互联网络发 展状况统计报告》的数据,中国网民搜索引擎用户规模达4. 90亿,使用率为79. 3%,成为互 联网的基础应用之一,是网民获取信息的重要工具。
[0003] 搜索引擎给人们带来便利的同时也存在着较大的问题。传统搜索引擎网络资源覆 盖率较低,检索返回结果的相关度不高,而且不同搜索引擎针对同一个查询所返回结果的 重叠率也很低。用户要想获得全面、准确的搜索结果,往往需要使用多个搜索引擎。
[0004] 为进一步提高用户检索满意度,减少用户检索次数,提高检索覆盖率和准确率,元 搜索引擎(Meta-Search Engine)应运而生。元搜索引擎提供统一检索界面,将用户的检索 请求提交给多个成员搜索引擎(或源搜索引擎),并将它们的检索结果汇集在一起呈现给 用户。
[0005] 现有的元搜索引擎对于成员搜索引擎按照相等的权重进行调用,并对所返回的检 索结果或按照先后原则直接合并排序,或按照位置进行排序,或利用相关分值进行融合排 序,没有考虑到用户的实际需求、兴趣爱好以及对排序结果的浏览查看情况,等等。


【发明内容】

[0006] 目的:为了克服现有技术中存在的不足,本发明提供一种基于可拒绝策略的元搜 索结果排序算法。
[0007] 技术方案:为解决上述技术问题,本发明采用的技术方案为:
[0008] -种基于可拒绝策略的元搜索结果排序算法,包括如下步骤:
[0009] 步骤一:用户通过用户注册登录模块进行注册并初次登录,输入查询串q ;
[0010] 步骤二:元搜索引擎根据用户输入的查询串q,提取关键词,通过分发模块将关键 词按照成员搜索引擎的格式分发给所调用的成员搜索引擎,收集每个成员搜索引擎返回的 搜索结果;
[0011] 步骤三:通过排序模块接收每个成员搜索引擎返回的搜索结果,对搜索结果计算 相关度,然后依照改进的Borda函数,并结合成员搜索引擎权重进行排序,将排序后的结果 返回给用户;
[0012] 步骤四:通过搜索引擎权重调整模块对用户权重模型进行更新;根据用户点击等 反馈信息来调整成员搜索引擎权重分配,直至拒绝调用某些成员搜索引擎。
[0013] 所述用户注册登录模块包括登记用户的基本信息;所述基本信息包括地域、行业、 教育程度、兴趣爱好等,可初步了解用户的偏好信息;所述初次登录用户默认设置选择全 部的成员搜索引擎,各成员搜索引擎权重相同。
[0014] 所述排序模块包括对返回的搜索结果的预处理,所述预处理包括如下步骤:
[0015] 步骤一:提取返回的搜索结果重要组成部分,包括网址、标题、摘要、出处、位置,并 根据网址、标题、摘要、出处、位置对返回的搜索结果进行排序;
[0016] 步骤二:计算查询串与搜索结果之间的相关度,主要计算查询串与标题、摘要之间 的相关度;所述标题的重要程度高于摘要,计算相关度时标题和摘要所占权重不一样;所 述摘要的长度大于标题的长度时,文档越长,所包含信息越多,同样关键词也可能多次出 现;所述关键词第二次出现不如第一次出现的信息量大,如果某个关键词在搜索结果中反 复出现,则会降低该关键词的可信度,在计算相关度时需要对其进行惩罚;
[0017] 假设元搜索引擎调用的成员搜索引擎个数为m,用Si(i = 1,2,...,m)表示,成员 搜索引擎的初始权重R = l/m(i = 1,2,. . .,m),构成权重向量W = {wp w2,. . .,wm};对于 输入的查询串q进行分词,用% (j = 1,2, . . .,t)表示;成员搜索引擎Si检索返回的结果 个数为SiNumberQ = 1,2,…,m),成员搜索引擎Si的第k个结果用= 1,2,…,m, k =1,2,. . .,SiNumber)表示,每个riik由网址、标题、摘要、相关分值和所属成员搜索引擎五 部分组成;分别用数组 SiJJrl [k]、s^Titlelik]、Si_Text[k]、s^Simlik]、Si_SE[k]表示,其 中 k = 1,2, · · ·,SiNumber, i = 1,2, · · ·,m,Si_SE [k] = 2(1_? ;去重操作时,要去掉重复的 记录,但必须把返回该记录的成员搜索引擎标记出来,这里进行加法处理,为了保证能区分 不同成员搜索引擎,故对成员搜索引擎的取值进行处理,设置为2 (i'所述i为成员搜索引 擎的编号,用于保证最终结果分解的唯一性;
[0018] 所述查询串q与搜索结果riik相关度计算步骤如下:
[0019] 步骤一:计算查询串q中每个关键词%与搜索结果riik标题之间的相关度,采用 如下计算公式:
[0020]

【权利要求】
1. 一种基于可拒绝策略的元搜索结果排序算法,其特征在于,包括如下步骤: 步骤一:用户通过用户注册登录模块进行注册并初次登录,输入查询串q; 步骤二:元搜索引擎根据用户输入的查询串q,提取关键词,通过分发模块将关键词按 照成员搜索引擎的格式分发给所调用的成员搜索引擎,收集每个成员搜索引擎返回的搜索 结果; 步骤三:通过排序模块接收每个成员搜索引擎返回的搜索结果,对搜索结果计算相关 度,然后依照改进的Borda函数,并结合成员搜索引擎权重进行排序,将排序后的结果返回 给用户; 步骤四:通过搜索引擎权重调整模块对用户权重模型进行更新;根据用户点击等反馈 信息来调整成员搜索引擎权重分配,直至拒绝调用某些成员搜索引擎。
2. 根据权利要求1所述的基于可拒绝策略的元搜索结果排序算法,其特征在于:所述 用户注册登录模块包括登记用户的基本信息;所述基本信息包括地域、行业、教育程度、兴 趣爱好,可初步了解用户的偏好信息;所述初次登录用户默认设置选择全部的成员搜索引 擎,各成员搜索引擎权重相同。
3. 根据权利要求1所述的基于可拒绝策略的元搜索结果排序算法,其特征在于:所述 排序模块包括对返回的搜索结果的预处理,所述预处理包括如下步骤: 步骤一:提取返回的搜索结果重要组成部分,包括网址、标题、摘要、出处、位置,并根据 网址、标题、摘要、出处、位置对返回的搜索结果进行排序; 步骤二:计算查询串与搜索结果之间的相关度,主要计算查询串与标题、摘要之间的 相关度;所述标题的重要程度高于摘要,计算相关度时标题和摘要所占权重不一样;所述 摘要的长度大于标题的长度时,文档越长,所包含信息越多,同样关键词也可能多次出现; 所述关键词第二次出现不如第一次出现的信息量大,如果某个关键词在搜索结果中反复出 现,则会降低该关键词的可信度,在计算相关度时需要对其进行惩罚; 假设元搜索引擎调用的成员搜索引擎个数为m,用Si(i=l,2,...,m)表示,成员搜索 引擎的初始权重Wi =l/m(i= 1,2,. . .,m),构成权重向量W= (W1,w2,. ..,wj;对于输入 的查询串q进行分词,用%(j= 1,2, ...,t)表示;成员搜索引擎Si检索返回的结果个数 为SiNumber(i= 1,2,…,m),成员搜索引擎Si的第k个结果用= 1,2,…,m,k= 1,2, ...,SiNumber)表示,每个由网址、标题、摘要、相关分值和所属成员搜索引擎五部 分组成;分别用数组SiJJrl[k]、SiJitleM、SiJext[k]、s^Simlik]、Si_SE[k]表示,其中 k= 1,2, ? ? ?,SiNumber,i= 1,2, ? ? ?,m,Si_SE[k] = 2(1_1};去重操作时,要去掉重复的记 录,但必须把返回该记录的成员搜索引擎标记出来,这里进行加法处理,为了保证能区分不 同成员搜索引擎,故对成员搜索引擎的取值进行处理,设置为2^,所述i为成员搜索引擎 的编号,用于保证最终结果分解的唯一性; 所述查询串q与搜索结果相关度计算步骤如下: 步骤一:计算查询串q中每个关键词%与搜索结果ru标题之间的相关度,采用如下 计算公式:
乘以Si的权重Wi和rj的相关度,即成员搜索引擎Si对结果rj的最终Borda评分为
步骤二:依次改变i(i= 1,2,...,m)的值,SiQ= 1,2,...,m)对所有结果的评分可 组成总评分矩阵
m 最后统计结果集合中L的最终相关分值然后对f(rp从大到小进行 排序,将排序结果返回给用户;当进行步骤一、步骤二操作时,定义数组totalUrl[x]、totalTitle[x]、totalText[x]、totalSim[x]、totalSE[x],X= 1,2,…,n;将SiJJrl[k]、 Si-Titlelik]、Si_Text[k]、Si-Sim[k]、Si_SE[k](i= 1,2,…,m,k= 1,2,…,SiNumber)的 值分别赋给定义的数组,这样就将所有的搜索结果赋给了这五个数组; 当建立评分矩阵时,按照网址进行比较,即对totalUrl[i]进行比较,如果网址相同, 即totalUrl[i] =totalUrl[j],贝U认为是同一条记录;则将相关分值的和作为前一个结 果的相关分值,totalSim[i] =totalSim[i]+totalSim[j],并将对应成员搜索引擎的值累 力口,即totalSE[i] =totalSE[i]+totalSE[j],然后将totalUrl[j]及相关信息清除; 当排序时,如果有两个或多个记录的最终相关分值一致,则参照成员搜索引擎的权重, 权重小的排在前面; 最终返回给用户的结果中包含网址、标题、摘要、相关度和成员搜索引擎等信息。
4.根据权利要求1所述的基于可拒绝策略的元搜索结果排序算法,其特征在于:所述 搜索引擎权重调整模块包括通过用户的隐式反馈信息来调整成员搜索引擎的决策权重; 假设元搜索引擎有m个成员搜索引擎Sl,s2, ...,Sm组成,返回n个结果,对结果集合R =Ii^r2,. ? .,rn}进行总体评价;令XijQ= 1,2,. ..,n;j= 1,2,. . .,m)表示搜索引擎j 对于第i个结果的评价值,得到全部搜索引擎的初始评价矩阵:
元搜索引擎的整体效用函数要参考所调用成员搜索引擎的效用函数,即元搜索引擎 的效用函数应该是成员搜索引擎效用函数的函数ue(y) =f[Ul(y),u2(y),...,Uni(y)];最简 单的元搜索引擎集结函数采用的是求平均值的方法:
,其中xM表示元搜索引 擎对方案i的评价值;记W= 是元搜索引擎的初始权重,其中wf表示第j个 成员搜索引擎的初始权重,该
计算每个方案的元搜索引擎平均估计 值彳得到元搜索引擎平均估计向量f=fx丨,4...,?1),将元搜索引擎的平均估计向量作为 方案的真实值,用成员搜索引擎的评价值与元搜索引擎平均估计的一致程度重新修正初始 权重:
其中,⑨是搜索引擎平均估计向量与搜索引擎评价矩阵元素乘积的累加和,是一个确 定的值。对于最佳方案,若某个成员搜索引擎的评分值高,则该成员搜索引擎的权重就会 加大,修正权W1反映了成员搜索引擎对相对最优方案判断的正确性,修正后的权重向量 为= 权重的变化又带来元搜索引擎平均估计的变化
根据群体新的平均估计,再一次验证成员搜索引擎对相对最优方案判断的正确性,重 新修正权重向量:
按照算法Xt =Xwt'Wf 不断修正权重向量和元搜索引擎平均估计,直到收 敛为止;成员搜索引擎的最终权重向量Wt =Wt'或Xt =Xw ; 计算方法:记Xt是X的转置矩阵,根据转置矩阵的性质,上式变为JT=XTfJTV# ?W=I7I,I/#,令B=X1X,得到W=AiW/¢/ ,其中Wt > 0,B= (I^j)nxm是nXm阶矩阵,
多次调整后,某个成员搜索引擎的权重变为零,则说明元搜索引擎不再信任该成员搜 索引擎,即使用户选择了该成员搜索引擎,系统也会即拒绝调用该成员搜索引擎。
【文档编号】G06F17/30GK104268142SQ201410382660
【公开日】2015年1月7日 申请日期:2014年8月5日 优先权日:2014年8月5日
【发明者】韩立新, 刘合兵, 曹林, 郭海凤 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1