一种查询处理方法、装置及设备的制造方法_3

文档序号:9432734阅读:来源:国知局
[0093]上述情况I)和2)选择辅链进行检索,形成检索结果后,还包括评估检索结果的质量。因此,可以根据检索高质量链返回的检索结果的质量结果来决定是否需要再查询原链来补充检索结果。
[0094]需说明的是,如果检索完点击链,也可以根据检索结果的质量结果来决定是否需要再查询原链来补充检索结果。
[0095]检索返回的检索结果的质量可以根据检索的文档的召回率和/或精确率确定,或者根据检索的文档的分值计算结果确定。文档的精确率是指检索结果中相关文档占检索结果中所有文档的比例,文档的召回率,是指检索结果中相关文档占整个文档集合中所有相关文档的比例。所说的不满足检索需求,是指检索结果的结果质量没有达到设定指标要求,例如,如果检索的文档的召回率和/或精确率都小于阈值时,或者检索的文档的分值计算结果小于阈值时,确定为不满足检索需求,需要进一步选择检索原链进行补充。这里说的阈值,根据经验取值,本发明不加以限定。
[0096]举例而言,一般长尾查询词,会属于上述情况3)的情形。长尾查询词的点击量一般小于设定点击阈值,检索高质量链的返回结果一般也不会特别理想。所谓长尾查询词,一般是指网站上非目标关键词但也可以带来搜索流量的关键词。长尾查询词的特征是比较长,往往是2-3个单词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。也就是说,一般对于长尾查询词,一般需要检索原链。
[0097]情况3)中,此时,rank_sizel 为几十万,rank_size2、rank_size3 可以为 O。由此可见,该情况下,rank_sizel等于rank_size,即等于原来rank_size为几十万的检索数量。
[0098]需要说明的是,上述rank_sizel、rank_size2、rank_size3取值为多少合适,可以根据搜索业务需求和查询词的不同而不同,本发明不加以限定。总体来说,rank_sizel+rank_size2+rank_size3< = rank_size,即本发明的上述处理方式,可以减少粗排阶段的文档的检索数量,也即减少算分个数,因此可以减少搜索引擎的检索响应时间,提高搜索引擎的性能。
[0099]步骤203、将检索结果输出作为粗排阶段的查询结果供精排阶段使用。
[0100]通过步骤201和步骤202,可以通过对文档数量更少的辅链的检索,快速得到粗排阶段的文档检索结果,供下一轮精排阶段使用。
[0101]通过精排阶段的处理后,在最终取精排算分最高的设定值(η)个文档作为最终返回给用户的查询结果。
[0102]需要说明的是,对于上述实施例的技术方案,本发明还可以进一步进行查询优化。
[0103]因为一个查询词query往往由多个单词term组成,如果所有单词都选择辅链的话,有可能回出现召回率不够即达不到阈值的情形,影响检索效果。如果是查询词中高频率出现的单词也选择辅链的话,也可能出现rank_sizel+rank_size2+rank_size3与rank_size差异不大的情况,那么检索所花费的时间也相差不大,即搜索的性能收益不大。因此,本发明方案根据上述分析,根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
[0104]具体的,确定挑选查询词中低频率出现的单词才选择辅链,其他单词正常选择原链,也就是说,对于低频率出现的单词,即出现频率小于设定频率阈值的单词,不需要在rank_size为几十万的文档的检索数量中检索,只需在文档数量小的辅链中检索就可以实现检索目的,这样检索效果不会有损失,且搜索性能收益很大。其中,设定频率阈值根据经验取值,本发明不加以限定。
[0105]需说明的是,具体挑选哪些单词选择辅链,还可以进一步根据不同搜索业务的需求做相应的效果和性能试验后确定是否满足要求,并不局限于上述提出的只选择低频率出现的单词。
[0106]综上所述,本发明先从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,再根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。由于辅链的文档数量比原链的文档数量要小,因此选取辅链时就可以减少检索文档数量,从而缩短检索时间;进一步的,还可以根据查询词中的单词的出现频率对流程进行优化,即只对于查询词中低频率出现的单词,才选取辅链,其他单词还是选择原链,这样检索效果不会有损失,且性能收益也大。通过上述处理,经测试证明,本发明可以将搜索引擎的查询响应速度提升达20%以上。
[0107]上述详细介绍了本发明的查询处理方法,相应的,本发明还提供一种查询处理装置。
[0108]图4是本发明的一种查询处理装置的示意性方框图。
[0109]如图4所示,查询处理装置包括:辅链模块41、查询模块42。
[0110]辅链模块41,用于从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链。
[0111]查询模块42,用于根据当前查询业务类别及当前查询词选择所述辅链模块41建立的与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。
[0112]其中,辅链是指将文档数量较多的的倒排链通过设定方式筛选出较小的文档子集而建立的倒排链。筛选辅链的条件越严格,筛选出的文档与单词(term)越相关即相关性越大,该辅链的文档数量也越少。
[0113]其中,所述辅链模块41包括:生成子模块411、存储子模块412。
[0114]生成子模块411,用于根据第η链生成第η+1链,其中,所述第η+1链对应的文档数小于第η链对应的文档数,η为自然数,其中η等于I时为原链,η大于I时为辅链。
[0115]存储子模块412,用于存储所述生成子模块411生成的链。
[0116]其中,所述生成子模块411可以包括:第一生成子模块4111、第二生成子模块4112ο
[0117]第一生成子模块4111,用于根据与查询词对应的原链生成文档数减少的第一辅链。
[0118]第二生成子模块4112,用于根据所述第一生成子模块4111生成的第一辅链生成文档数减少的第二辅链。
[0119]具体的,例如可以将原链中文档质量大于某一设定质量阈值的文档单独建立了一条辅链称为高质量链,又将高质量链中有点击的文档单独建立了一条辅链称为点击链。三条链中文档的相对顺序保持不变,其中,点击链是高质量链的子集,高质量链是原链的子集。其中各链对应的文档的数量关系为:点击链〈高质量链〈原链,即点击链的文档数量小于高质量链的文档数量,高质量链的文档数量小于原链的文档数量。需说明的是,建立辅链的层数,可以根据需要进行设置,本发明不加以限定。
[0120]其中,所述查询模块42可以包括:第一查询子模块421或第二查询子模块422。
[0121]第一查询子模块421,用于根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果。
[0122]第二查询子模块422,用于根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果O
[0123]所述查询模块42还可以包括:评估子模块423。
[0124]评估子模块423,用于评估所述第一查找子模块421或所述第二查询子模块422的检索结果的质量。
[0125]所述查询模块42还可以包括:第三查询子模块424。
[0126]第三查询子模块424,用于当所述评估子模块423评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。
[0127]其中,所述装置还可以包括:频率特征模块43。
[0128]频率特征模块43,用于记录所述查询词中的单词的出现频率。
[0129]所述查询模块42根据当前查询业务类别及当前查询词包括多个单词,将所述频率特征模块43记录的当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。
[0130]因为一个查询词往往由多个单词组成,如果所有单词都选择辅链的话,有可能回出现召回率不够即达不到阈值的情形,影响检索效果。如果是查询词中高频率出现的单词也选择辅链的话,也可能出现需检索的文档数量与原需检索的文档数量差异不大的情况,因此,本发明可以选择出现频率小于设定频率阈值的单词才在文档数量小的辅链中检索,其他单词在原链检索,这样检索效果不会有损失,且搜索性能收益很大。
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1