一种优化搜索结果的方法和装置的制作方法

文档序号:6354328阅读:242来源:国知局
专利名称:一种优化搜索结果的方法和装置的制作方法
一种优化搜索结果的方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种优化搜索结果的方法和装置。
背景技术
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求越来越高,搜索引擎成为人们获取 网络信息的重要工具。当用户输入搜索词(query)后,搜索引擎通常会将包含该搜索词的页面作为搜索结果返回给用户。现有技术中,搜索引擎返回的搜索结果的排序通常是基于与当前输入的query之间的相关性,然而,用户在通过搜索引擎获取信息时,往往相邻两次输入的query是存在相关性的,且该相关性是能够体现出用户的当前需求的。例如,当用户在输入“姚明资料”的query获得搜索结果后,再次进行搜索时输入“姚明介绍”的query,这就说明用户第一次输入“姚明资料”的query所对应的搜索结果未能充分满足用户需求,那么在针对“姚明介绍”的query返回搜索结果时,需要充分考虑这一情况,为用户优先提供更可能满足用户需求的搜索结果。但现有的搜索方式显然没有考虑相邻两次输入的query之间的相关性,搜索质量较差。

发明内容有鉴于此,本发明实施例提供了一种优化搜索结果的方法和装置,以便于提高搜
索质量。具体技术方案如下一种优化搜索结果的方法,该方法包括A、将用户输入的当前搜索词query与相邻的上一 query进行上下文比对,确定所述当前query与所述上一 query的语义关系,其中所述语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系;B、根据确定的语义关系,对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略。在所述步骤A之前还包括判断用户输入的当前query与相邻的上一 query是否携带相同的cookie ID,如果是,继续执行所述步骤A ;否则,结束当前优化搜索结果的流程。 在所述步骤A之前还包括判断用户输入的当前query与相邻的上一 query之间的输入时间间隔是否在预设的有效时间间隔之内,如果是,继续执行所述步骤A ;否则,结束当前优化搜索结果的流程。其中,所述步骤A具体包括All、对所述当前query和所述上一 query分别做分词处理;A12、过滤掉分词处理后得到的词语中的非关键词,得到所述当前query的关键词以及上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词;
A3、将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。或者,所述步骤A具体包括A21、对所述当前query进行分词处理;A22、过滤掉分词处理后得到的词语中的非关键词,得到并记录所述当前query的关键词,获取已记录的所述上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词;A3、将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当 前query与所述上一 query的语义关系。其中,所述步骤A3具体包括将所述当前query的关键词和所述上一 query的关键词进行比对,如果所述当前query的关键词与所述上一 query的关键词完全相同,则确定所述当前query与所述上一query是相同关系;或者,将所述当前query的关键词与所述上一 query的关键词中不相同的关键词进行比较,如果确定是同义词,则确定所述当前query和所述上一 query是同义关系;或者,将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query有剩余关键词而所述上一 query没有剩余关键词,则确定所述当前query与所述上一 query为扩展关系;或者,将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query没有剩余关键词而所述上一 query有剩余关键词,则确定所述当前query与所述上一 query为省略关系;或者,如果确定所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系和省略关系中的任一种,则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析,如果主题相关度满足相关关系要求,则确定所述当前query与所述上一 query为相关关系;或者,如果确定所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种,则确定所述当如query和所述上一 query为无关关系。具体地,确定所述当前query的关键词与所述上一 query的关键词中不相同的关键词是否为同义词采用查找预设的同义词辞典的方式。其中,所述采用PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析具体包括查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一 query的关键词的主题概率分布;利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布,并利用所述上一 query的关键词的主题概率分布拟合出所述上一 query的主题概率分布;确定所述当前query和所述上一 query的主题概率分布重合度,如果重合度达到预设的重合度阈值,则确定所述当前query和所述上一 query为相关关系。
根据实施例中的描述,如果步骤A中确定所述当前query与所述上一 query的语义关系为相同关系或同义关系,则步骤B中采用的调整策略包括
调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者,调整策略12 :在所述当前query的搜索结果中将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面删除。如果步骤A中确定所述当前query与所述上一 query的语义关系为扩展关系,贝丨J步骤B中采用的调整策略包括提高所述当前query剩余的关键词在所述当前query的搜索结果中的排序权重。如果步骤A中确定所述当前query与所述上一 query的语义关系为省略关系,贝丨J步骤B中采用的调整策略包括调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者,调整策略22 :将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中删除。其中,所述调整策略11可以具体包括将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面排在所述当前query的搜索结果中的最后;或者,将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面排在所述当前query的搜索结果中设定排序位置之后;或者,将用户在所述上一 query的搜索结果中点击的页面的排序位置,或者,用户在所述上一 query的搜索结果中点击的页面及其之前的所有页面,或者,浏览过但未点击的页面的排序位置,在所述当前query的搜索结果中向后移动设定排次。如果步骤A中确定所述当前query与所述上一 query的语义关系为省略关系,贝丨J该方法还包括判断用户是否对所述上一 query的搜索结果满意,如果是,则在步骤B中采用所述调整策略22 ;否则,在所述步骤B中采用所述调整策略11。其中,所述判断用户是否对所述上一 query的搜索结果满意可以具体包括判断用户在所述上一 query的搜索结果中点击页面的次数是否在预设的次数范围内,如果是,则确定用户对所述上一 query的搜索结果满意;或者,判断用户浏览所述上一 query的搜索结果中的页面时长是否超过预设的满意时长,如果是,确定用户对所述上一 query的搜索结果满意。如果步骤A中确定所述当前query与所述上一 query的语义关系为相关关系,贝丨J步骤B中采用的调整策略包括确定所述当前query的关键词和所述上一 query的关键词中满足预设高概率要求且发生重合的主题,提高确定的主题在所述当前query的搜索结果中的排序权值。本发明实施例中还提供了一种优化搜索结果的装置,该装置包括上下文比对单元、结果调整单元和搜索词记录单元;所述上下文比对单元, 用于根据所述搜索词记录单元的记录,将用户输入的当前搜索词query与相邻的上一 query进行上下文比对,确定所述当前query与所述上一 query的语义关系;其中所述语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系;所述结果调整单元,用于根据所述上下文比对单元确定的语义关系,对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略;所述搜索词记录单元,用于记录用户输入的query。该装置还包括第一判断单元,用于判断用户输入的当前query与相邻的上一 query是否携带相同的cookie ID,如果是,触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作;否则,禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作。该装置还包括第二判断单元,用于判断用户输入的当前query与相邻的上一 query之间的输入时间间隔是否在预设的有效时间间隔之内,如果是,触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作;否则,禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作。其中,所述上下文比对单元具体包括第一分词子单元、第一过滤子单元和比对处理子单元;所述第一分词子单元,用于对所述当前query和所述上一 query分别做分词处理;所述第一过滤子单元,用于过滤掉所述分词处理后得到的词语中的非关键词,得到所述当前query的关键词以及上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词;所述比对处理子单元,用于将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。或者,所述上下文比对单元具体包括第二分词子单元、第二过滤子单元、结果记录子单元和比对处理子单元;所述第二分词子单元,用于对所述当前query进行分词处理;所述第二过滤子单元,用于过滤掉所述第二分词子单元分词处理后得到的词语中的非关键词,得到所述当前query的关键词并记录在所述结果记录子单元中;所述非关键词至少包括以下中的一种标点和虚词;所述结果记录子单元,用于记录各query的关键词;所述比对处理子单元,用于将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。所述比对处理子单元具体包括相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块或者无关关系确定模块中的一种或任意组合;所述相同关系确定模块,用于将所述当前query的关键词和所述上一 query的关键词进行比对,如果所述当前query的关键词与所述上一 query的关键词完全相同,则确定所述当前query与所述上一 query是相同关系;所述同义关系确定模块,用于将所述当前query的关键词和所述上一 query的关键词中不相同的关键词进行比较,如果确定是同义词,则确定所述当前query和所述上一 query是同义关系;所述扩展关系确定模块,用于将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query有剩余关键词而所述上一 query没有剩余关键词,则确定所述当前query与所述上一 query为扩展关系;所述省略关系确定模块,用于将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query没有剩余关键词而所述上一 query有剩余关键词,则确定所述当前query与所述上一 query为省略关系;所述相关关系确定模块,用于如果所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系和省略关系中的任一种,则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析,如果主题相关度满足相关关系要求,则确定所述当前query与所述上一 query为相关关系;所述无关关系确定模块,用于如果所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种,则确定所述当如query和所述上一 query为无关关系。具体地,所述同义关系确定模块采用查找预设的同义词辞典的方式,确定所述当前query的关键词与所述上一 query的关键词中不相同的关键词是否为同义词。其中,所述相关关系确定|吴块具体包括概率查询子模块,用于查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一 query的关键词的主题概率分布;概率拟合子模块,用于利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布,并利用所述上一 query的关键词的主题概率分布拟合出所述上一 query的主题概率分布;重合度确定子模块,用于根据所述当前query的主题概率分布和所述上一 query的主题概率分布,确定所述当前query和所述上一 query的主题概率分布重合度;关系确定子模块,用于判断所述重合度确定子模块确定的重合度是否达到预设的重合度阈值,如果是,则确定所述当前query和所述上一 query为相关关系。根据实施例中的描述,如果所述相同关系确定模块确定所述当前query与所述上一 query的语义关系为相同关系,或者,确定所述当前query与所述上一 query的语义关系为同义关系,则所述结果调整单元采用的调整策略包括调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者,调整策略12 :在所述当前query的搜索结果中将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面删除。如果所述扩展关系确定模块确定所述当前query与所述上一 query的语义关系为扩展关系,则所述结果调整单元采用的调整策略包括提高所述当前query剩余的关键词在 所述当前query的搜索结果中的排序权重。如果所述省略关系确定模块确定所述当前query与所述上一 query的语义关系为省略关系,则所述结果调整单元采用的调整策略包括调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者,调整策略22 :将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中删除。更进一步地,所述比对处理子单元还包括满意度判断模块,用于在所述省略关系确定模块确定所述当前query与所述上一 query的语义关系为省略关系时,判断用户是否对所述上一 query的搜索结果满意,如果是,通知所述结果调整单元采用所述调整策略22 ;否则,通知所述结果调整单元采用所述调整策略11。其中,所述满意度判断模块判断用户在所述上一 query的搜索结果中点击页面的次数是否在预设的次数范围内,如果是,则确定用户对所述上一 query的搜索结果满意;或者,判断用户浏览所述上一 query的搜索结果中的页面时长是否超过预设的满意时长,如果是,确定用户对所述上一 query的搜索结果满意。如果所述相关关系确定模块确定所述当前query与所述上一 query的语义关系为相关关系,则所述结果调整单元采用的调整策略包括确定所述当前query的关键词和所述上一 query的关键词中满足预设高概率要求且发生重合的主题,提高确定的主题在所述当前query的搜索结果中的排序权值。由以上技术方案可以看出,本发明通过将用户输入的当前query与相邻的上一query进行上下文比对后,确定当前query与上一 query的语义关系是相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系中的一种;充分考虑了两query的语义关系所体现出的用户对当前query的搜索需求,对当前query的搜索结果执行与确定的语义关系相对应的调整策略,从而提高搜索质量。

图I为本发明实施例提供的主要方法流程图;图2为本发明实施例提供的一个详细方法流程图;图3a为本发明实施例提供的一种装置结构示意图;图3b为本发明实施例提供的另一种装置结构示意图4为本发明实施例提供的一个比对处理子单元的结构图;以及,图5为本发明实施例提供的相关关系确定模块的结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。本发明提供的方法可以如图I所示,主要包括以下步骤步骤101 :将用户输入的当前query与相邻的上一 query进行上下文比对,确定当前query与上一 query的语义关系,其中,语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系。在本发明中,会对用户输入的query进行记录,在用户输入当前query时,可以利用已记录的上一 query进行上下文比对。同时,记录当前query,供用户输入下一 query时作为该下一 query的上一 query进行上下文比对。一种较优的实施状况,搜索引擎的服务器端在对相邻query进行上下文比对时,可以首先判断当前query和相邻的上一 query携带的cookie ID是否相同,如果相同,则将当前query与相邻的上一 query进行上下文比对,如果不同,贝U不执行该上下文比对的操作,不对当前query的搜索结果进行调整。也就是说,仅将具有同一 cookie ID的相邻query进行上下文比对,通常用户使用同一浏览器输入的query会具有相同的cookie ID,这种情况下才有对相邻query进行上下文比对的需要;而对于网吧等用户经常变动的场景,在更换用户时,通常会对之前的cookie进行清除,这样浏览器接收到的query携带的cookie ID就发生变化,这种情况下对不同用户输入的相邻query就没有进行上下文比对的需要。更进一步地,在对相邻query进行上下文比对之前可以对相邻query的输入时间间隔进行限制,即判断当前query与相邻的上一 query的输入时间间隔是否在预设的有效间隔之内时,如果是,对相邻query进行上下文比对,否则,不进行上下文比对,对当前query的搜索结果不进行调整。例如,可以设置有效间隔为40分钟,如果当前query和上一query的输入时间间隔超过40分钟,则不会对这两个query进行上下文比对。步骤102 :根据确定的语义关系,对当前query的搜索结果执行与确定的语义关系相对应的调整策略。下面对图I所示方法流程进行详细的描述。在步骤101中,将当前query与上一 query进行上下文比对时,首先对当前query和上一 query分别做分词处理,过滤掉分词处理后得到的词语中的非关键词,得到当前query的关键词以及上一 query的关键词。非关键词可以包括标点、虚词等。除此之外,也可以对每次得到的query的关键词进行记录,这样仅需要对当前query进行分词处理,过 滤掉分词处理后得到的词语中的非关键词,得到并记录当前query的关键词,另外,获取已记录的上一 query的关键词。接下来,将当前query的关键词与上一 query的关键词进行比对,确定当前query与上一 query的语义关系,可以具体包括以下几种情况第一种情况如果当前query的关键词与上一 query的关键词完全相同,则确定当前query与上一 query是相同关系。
第二种情况将当前query的关键词与上一 query的关键词中不相同的关键词进行比较,如果比较结果是同义词,则确定当前query与上一 query是同义关系。其中,可以通过查找同义词辞典的方式,比较当前query的关键词与上一 query的关键词中不相同的关键词,确定该不同的关键词在同义词辞典中是否为同义词。对于第一种情况和第二种情况,通常是上一 query的搜索没有充分满足用户的需求,用户再次检索或者通过变换一种说法的方式再次检索,因此,在返回当前query的搜索结果时,采用的调整策略可以为降低用户在上一 query的搜索结果中点击过的页面,或者点击过的页面及其之前的所有页面在当前query的搜 索结果中的排序,或者在当前query的搜索结果中删除用户在上一 query的搜索结果中点击过的页面,或者删除点击过的页面及其之前的所有页面。更优地,采用的调整策略还可以为降低用户在上一 query的搜索结果中浏览过但未点击的页面在当前query的搜索结果中的排序或者将其删除页面及其之前所有的页面删除。其中,浏览器呈现给用户的搜索结果中的页面都可以认为是用户浏览过的页面,例如浏览器可以将搜索引擎服务器端返回的搜索结果分页显示给用户,凡是呈现给用户的分页上的所有页面都可以认为是用户浏览过的页面,当用户浏览了多个分页但未点击页面时,说明用户已浏览的页面均不满足需求,则当用户再次输入具有同义关系的query时,对这部分页面可以降低排序或将其删除。降低排序的方式可以包括但不限于以下方式中的任一种方式I :将用户在上一 query的搜索结果中点击过的页面,或者,点击过的页面及其之前的所有页面,或者,浏览过但未点击的页面,排在当前query的搜索结果中的最后。方式2 :将用户在上一 query的搜索结果中点击过的页面,或者,点击过的页面及其之前的所有页面,或者,浏览过但未点击的页面,排在当前query的搜索结果中设定排序位置之后。方式3 :将用户在上一 query的搜索结果中点击过的页面的排序位置,或者,点击过的页面及其之前的所有页面的排序位置,或者,浏览过但未点击的页面的排序位置向后移动设定排次。针对第二种情况举一个例子,假设用户输入的上一 query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明资料”和“姚明介绍”,其中不相同的关键词“资料”和“介绍”通过查找同义词辞典确定为同义词,说明上一 query和当前query为同义关系。在针对当前query返回的搜索结果采用的调整策略可以为将用户在上一 query的搜索结果中点击的页面及其之前的所有页面均放在当前query的搜索结果中的最后。第三种情况将当前query的关键词与上一 query的关键词中相同的关键词排除后,如果当前query有剩余关键词而上一 query没有剩余关键词,则确定当前query与上一query为扩展关系。这种情况通常是用户在细化自己的需求表达,说明当前query中扩展的关键词(当前query剩余的关键词)体现了用户的重要需求,在返回搜索结果时应被重视,即应该提高包括扩展的关键词的页面在当前query的搜索结果中的排序。此时采用的调整策略可以为提高当前query剩余的关键词在当前query的搜索结果中的排序权重。提高的方式可以为将当前query剩余的关键词的排序权重提高到一个预设的排序权重值,或者,提高一个预设的幅度值。针对第三种情况举一个例子假设用户输入的上一 query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明”和“姚明图片”,在排除相同的关键词后,上一 query没有剩余关键词,当前query剩余关键词“图片”,说明当前query和上一 query是扩展关系,用户重点需求体现在“图片”上。在返回的当前query的搜索结果中通过提高“图片”的排序权重将包含“图片”的页面排序提前。第四种情况将当前query的关键词与上一 query的关键词中相同的关键词排除后,如果当前query没有剩余关键词而上一 query有剩余关键词,则确定当前query与上一query为省略关系。
这种情况下,实际上用户是对自己的需求进行泛化,有可能上一 query的搜索结果已经满足需求,用户还想了解其他情况,也有可能上一 query的搜索结果没有满足需求,用户想通过泛化的方式获取同主题下的相对泛化的信息。此时采用的策略可以为将用户在上一 query的搜索结果中点击的页面,或者点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在当前query的搜索结果中删除;或者,降低用户在上一 query的搜索结果中点击的页面,或者点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在当前query的搜索结果中的排序。具体地,如果确定用户对上一 query的搜索结果满意,则无需在当前query的搜索结果中再次向用户显示点击过的页面,或者点击过的页面及其之前所有的页面,或者浏览过但未点击的页面,即可以将用户在上一 query的搜索结果中点击的页面,或者点击的页面及其之前的所有页面,或者浏览过但未点击的页面在当前query的搜索结果中删除。如果确定用户对上一 query的搜索结果不满意,贝U可以将用户在上一 query的搜索结果中点击的页面,或者点击的页面及其之前的所有页面,或者浏览过但未点击的页面在当前query的搜索结果中降序,这样有助于用户对现有信息进行整合。降序的方式可以包括但不限于以下几种方式中的任一种方式I :将包含上一 query剩余的关键词的页面排在当前query的搜索结果中的最后。方式2 :将包含上一 query剩余的关键词的页面排在当前query的搜索结果中设定排序位置之后。方式3 :将包含上一 query剩余的关键词的页面的排序位置向后移动设定排次。其中,判断用户对上一 query的搜索结果是否满意,可以采用以下判断方式中的一种或任意组合判断方式I :判断用户在上一 query的搜索结果中点击页面的次数是否在预设的次数范围内,如果是,确定用户对上一 query的搜索结果满意;否则确定用户对上一 query的搜索结果不满意。例如,如果用户在上一 query的搜索结果中点击页面的次数在3次到10次之间,说明用户对上一 query的搜索结果满意。判断方式2 :判断用户浏览上一 query的搜索结果中的页面时长是否超过预设的满意时长,如果是,确定用户对上一 query的搜索结果满意;否则确定用户对上一 query的搜索结果不满意。针对第四种情况举一个例子假设用户输入的上一 query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明图片”和“姚明”,在排除相同的关键词后,上一 query剩余有关键词“图片”,当前query没有剩余关键词,说明当前query和上一query是省略关系,可以将包含“图片”的页面在当前query的搜索结果中进行降序。第五种情况如果不属于以上四种情况,则采用概率潜在语义分析(PLSA)技术对当前query的关键词和上一 query的关键词进行主题相关度分析,如果相关度满足相关关系要求,则确定当前query与上一 query属于相关关系。采用PLSA技 术对当前query的关键词和上一 query的关键词进行主题相关度分析的过程可以具体包括查询PLSA辞典确定当前query的各关键词的主题概率分布以及上一 query的各关键词的主题概率分布;利用当前query的各关键词的主题概率分布拟合出当前query的主题概率分布,并利用上一 query的各关键词的主题概率分布拟合出上一query的主题概率分布;确定当前query和上一 query的主题概率分布重合度,如果重合度达到预设的重合度阈值,则确定当前query和上一 query属于相关关系。在确定当前query和上一 query的主题概率分布重合度时,可以确定当前query的关键词的满足预设高概率要求的主题与上一 query的关键词的满足预设高概率要求的主题发生重合的个数是否满足预设个数阈值,如果是,则认为重合度达到预设的重合度阈值。其中,上述高概率要求是指分布概率达到预设的分布概率阈值。—种优选的实例,预设个数阈值为I,即当前query的关键词的主题和上一 query的关键词的主题中分布概率达到预设的分布概率阈值的主题只要存在重合,则认为当前query和上一 query是相关关系。这种情况下,当前query和上一 query的相关主题可能更能满足用户的需求,采用的策略可以为提高当前query的关键词和上一 query的关键词中满足预设高概率要求且发生重合的主题在当前query的搜索结果中的排序权值。针对第五种情况举一个例子假设用户输入的上一 query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明”和“火箭”。对上一 query的关键词“姚明”查询PLSA辞典确定主题概率分布如表I所示表I
权利要求
1.一种优化搜索结果的方法,其特征在于,该方法包括 A、将用户输入的当前搜索词query与相邻的上一query进行上下文比对,确定所述当前query与所述上一 query的语义关系,其中所述语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系; B、根据确定的语义关系,对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略。
2.根据权利要求I所述的方法,其特征在于,在所述步骤A之前还包括 判断用户输入的当前query与相邻的上一 query是否携带相同的cookie ID,如果是,继续执行所述步骤A ;否则,结束当前优化搜索结果的流程。
3.根据权利要求I所述的方法,其特征在于,在所述步骤A之前还包括 判断用户输入的当前query与相邻的上一 query之间的输入时间间隔是否在预设的有效时间间隔之内,如果是,继续执行所述步骤A ;否则,结束当前优化搜索结果的流程。
4.根据权利要求I所述的方法,其特征在于,所述步骤A具体包括 Al I、对所述当前query和所述上一 query分别做分词处理; A12、过滤掉分词处理后得到的词语中的非关键词,得到所述当前query的关键词以及上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词; A3、将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。
5.根据权利要求I所述的方法,其特征在于,所述步骤A具体包括 A21、对所述当前query进行分词处理; A22、过滤掉分词处理后得到的词语中的非关键词,得到并记录所述当前query的关键词,获取已记录的所述上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词; A3、将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。
6.根据权利要求4或5所述的方法,其特征在于,所述步骤A3具体包括 将所述当前query的关键词和所述上一 query的关键词进行比对,如果所述当前query的关键词与所述上一 query的关键词完全相同,则确定所述当前query与所述上一 query是相同关系;或者, 将所述当前query的关键词与所述上一 query的关键词中不相同的关键词进行比较,如果确定是同义词,则确定所述当前query和所述上一 query是同义关系;或者, 将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query有剩余关键词而所述上一 query没有剩余关键词,则确定所述当前query与所述上一 query为扩展关系;或者, 将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query没有剩余关键词而所述上一 query有剩余关键词,则确定所述当前query与所述上一 query为省略关系;或者, 如果确定所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系和省略关系中的任一种,则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析,如果主题相关度满足相关关系要求,则确定所述当前query与所述上一 query为相关关系;或者, 如果确定所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种,则确定所述当如query和所述上一 query为无关关系。
7.根据权利要求6所述的方法,其特征在于,确定所述当前query的关键词与所述上一query的关键词中不相同的关键词是否为同义词采用查找预设的同义词辞典的方式。
8.根据权利要求6所述的方法,其特征在于,所述采用PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析具体包括 查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一 query的关键词的主题概率分布; 利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布,并利用所述上一 query的关键词的主题概率分布拟合出所述上一 query的主题概率分布; 确定所述当前query和所述上一 query的主题概率分布重合度,如果重合度达到预设的重合度阈值,则确定所述当前query和所述上一 query为相关关系。
9.根据权利要求I所述的方法,其特征在于,如果步骤A中确定所述当前query与所述上一 query的语义关系为相同关系或同义关系,则步骤B中采用的调整策略包括 调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者, 调整策略12 :在所述当前query的搜索结果中将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面删除。
10.根据权利要求6所述的方法,其特征在于,如果步骤A中确定所述当前query与所述上一 query的语义关系为扩展关系,则步骤B中采用的调整策略包括 提高所述当前query剩余的关键词在所述当前query的搜索结果中的排序权重。
11.根据权利要求I所述的方法,其特征在于,如果步骤A中确定所述当前query与所述上一 query的语义关系为省略关系,则步骤B中采用的调整策略包括 调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者, 调整策略22 :将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中删除。
12.根据权利要求9或11所述的方法,其特征在于,所述调整策略11具体包括 将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面排在所述当前query的搜索结果中的最后;或者, 将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面排在所述当前query的搜索结果中设定排序位置之后;或者, 将用户在所述上一 query的搜索结果中点击的页面的排序位置,或者,用户在所述上一 query的搜索结果中点击的页面及其之前的所有页面,或者,浏览过但未点击的页面的排序位置,在所述当前query的搜索结果中向后移动设定排次。
13.根据权利要求11所述的方法,其特征在于,如果步骤A中确定所述当前query与所述上一 query的语义关系为省略关系,则该方法还包括 判断用户是否对所述上一 query的搜索结果满意,如果是,则在步骤B中采用所述调整策略22 ;否则,在所述步骤B中采用所述调整策略11。
14.根据权利要求13所述的方法,其特征在于,所述判断用户是否对所述上一query的搜索结果满意可以具体包括 判断用户在所述上一 query的搜索结果中点击页面的次数是否在预设的次数范围内,如果是,则确定用户对所述上一 query的搜索结果满意;或者, 判断用户浏览所述上一 query的搜索结果中的页面时长是否超过预设的满意时长,如果是,确定用户对所述上一 query的搜索结果满意。
15.根据权利要求6所述的方法,其特征在于,如果步骤A中确定所述当前query与所述上一 query的语义关系为相关关系,则步骤B中采用的调整策略包括 确定所述当前query的关键词和所述上一 query的关键词中满足预设高概率要求且发生重合的主题,提高确定的主题在所述当前query的搜索结果中的排序权值。
16.一种优化搜索结果的装置,其特征在于,该装置包括上下文比对单元、结果调整单元和搜索词记录单元; 所述上下文比对单元,用于根据所述搜索词记录单元的记录,将用户输入的当前搜索词query与相邻的上一 query进行上下文比对,确定所述当前query与所述上一 query的语义关系;其中所述语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系; 所述结果调整单元,用于根据所述上下文比对单元确定的语义关系,对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略; 所述搜索词记录单元,用于记录用户输入的query。
17.根据权利要求16所述的装置,其特征在于,该装置还包括 第一判断单元,用于判断用户输入的当前query与相邻的上一 query是否携带相同的cookie ID,如果是,触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作;否则,禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作。
18.根据权利要求16所述的装置,其特征在于,该装置还包括 第二判断单元,用于判断用户输入的当前query与相邻的上一 query之间的输入时间间隔是否在预设的有效时间间隔之内,如果是,触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作;否则,禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一 query进行上下文比对的操作。
19.根据权利要求16所述的装置,其特征在于,所述上下文比对单元具体包括第一分词子单元、第一过滤子单元和比对处理子单元; 所述第一分词子单元,用于对所述当前query和所述上一 query分别做分词处理; 所述第一过滤子单元,用于过滤掉所述分词处理后得到的词语中的非关键词,得到所述当前query的关键词以及上一 query的关键词;所述非关键词至少包括以下中的一种标点和虚词; 所述比对处理子单元,用于将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。
20.根据权利要求16所述的装置,其特征在于,所述上下文比对单元具体包括第二分词子单元、第二过滤子单元、结果记录子单元和比对处理子单元; 所述第二分词子单元,用于对所述当前query进行分词处理; 所述第二过滤子单元,用于过滤掉所述第二分词子单元分词处理后得到的词语中的非关键词,得到所述当前query的关键词并记录在所述结果记录子单元中;所述非关键词至少包括以下中的一种标点和虚词; 所述结果记录子单元,用于记录各query的关键词; 所述比对处理子单元,用于将所述当前query的关键词和所述上一 query的关键词进行比对,确定所述当前query与所述上一 query的语义关系。
21.根据权利要求19或20所述的装置,其特征在于,所述比对处理子单元具体包括相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块或者无关关系确定模块中的一种或任意组合; 所述相同关系确定模块,用于将所述当前query的关键词和所述上一 query的关键词进行比对,如果所述当前query的关键词与所述上一 query的关键词完全相同,则确定所述当前query与所述上一 query是相同关系; 所述同义关系确定模块,用于将所述当前query的关键词和所述上一 query的关键词中不相同的关键词进行比较,如果确定是同义词,则确定所述当前query和所述上一 query是同义关系; 所述扩展关系确定模块,用于将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query有剩余关键词而所述上一 query没有剩余关键词,则确定所述当前query与所述上一 query为扩展关系; 所述省略关系确定模块,用于将所述当前query的关键词与所述上一 query的关键词中相同的关键词排除后,如果所述当前query没有剩余关键词而所述上一 query有剩余关键词,则确定所述当前query与所述上一 query为省略关系; 所述相关关系确定模块,用于如果所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系和省略关系中的任一种,则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一 query的关键词进行主题相关度分析,如果主题相关度满足相关关系要求,则确定所述当前query与所述上一 query为相关关系; 所述无关关系确定模块,用于如果所述当前query与所述上一 query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种,则确定所述当前query和所述上一query为无关关系。
22.根据权利要求21所述的装置,其特征在于,所述同义关系确定模块采用查找预设的同义词辞典的方式,确定所述当前query的关键词与所述上一 query的关键词中不相同的关键词是否为同义词。
23.根据权利要求21所述的装置,其特征在于,所述相关关系确定模块具体包括概率查询子模块,用于查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一 query的关键词的主题概率分布; 概率拟合子模块,用于利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布,并利用所述上一 query的关键词的主题概率分布拟合出所述上一query的主题概率分布; 重合度确定子模块,用于根据所述当前query的主题概率分布和所述上一 query的主题概率分布,确定所述当前query和所述上一 query的主题概率分布重合度; 关系确定子模块,用于判断所述重合度确定子模块确定的重合度是否达到预设的重合度阈值,如果是,则确定所述当前query和所述上一 query为相关关系。
24.根据权利要求21所述的装置,其特征在于,如果所述相同关系确定模块确定所述当前query与所述上一 query的语义关系为相同关系,或者,确定所述当前query与所述上一 query的语义关系为同义关系,则所述结果调整单元采用的调整策略包括 调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者, 调整策略12 :在所述当前query的搜索结果中将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面删除。
25.根据权利要求21所述的装置,其特征在于,如果所述扩展关系确定模块确定所述当前query与所述上一 query的语义关系为扩展关系,则所述结果调整单元采用的调整策略包括 提高所述当前query剩余的关键词在所述当前query的搜索结果中的排序权重。
26.根据权利要求21所述的装置,其特征在于,如果所述省略关系确定模块确定所述当前query与所述上一 query的语义关系为省略关系,则所述结果调整单元采用的调整策略包括 调整策略11 :降低用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中的排序;或者, 调整策略22 :将用户在所述上一 query的搜索结果中点击的页面,或者,点击的页面及其之前的所有页面,或者,浏览过但未点击的页面在所述当前query的搜索结果中删除。
27.根据权利要求26所述的装置,其特征在于,所述比对处理子单元还包括满意度判断模块,用于在所述省略关系确定模块确定所述当前query与所述上一 query的语义关系为省略关系时,判断用户是否对所述上一 query的搜索结果满意,如果是,通知所述结果调整单元采用所述调整策略22 ;否则,通知所述结果调整单元采用所述调整策略11。
28.根据权利要求27所述的装置,其特征在于,所述满意度判断模块判断用户在所述上一 query的搜索结果中点击页面的次数是否在预设的次数范围内,如果是,则确定用户对所述上一 query的搜索结果满意;或者,判断用户浏览所述上一 query的搜索结果中的页面时长是否超过预设的满意时长,如果是,确定用户对所述上一 query的搜索结果满意。
29.根据权利要求21所述的装置,其特征在于,如果所述相关关系确定模块确定所述当前query与所述上一 query的语义关系为相关关系,则所述结果调整单元采用的调整策略包括 确定所述当前query的关键词和所述上一 query的关键词中满足预设高概率要求且发生重合的主题,提高确定的主题在所述当前query的搜索结果中的排序 权值。
全文摘要
本发明提供了一种优化搜索结果的方法和装置,其中方法包括将用户输入的当前搜索词query与相邻的上一query进行上下文比对,确定所述当前query与所述上一query的语义关系,其中所述语义关系包括以下所列的任一种相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系;根据确定的语义关系,对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略。通过本发明能够提高搜索质量,更充分地满足用户的搜索需求。
文档编号G06F17/30GK102637171SQ20111003572
公开日2012年8月15日 申请日期2011年2月10日 优先权日2011年2月10日
发明者殷庆轩 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1