用于挖掘意图的方法和设备的制作方法

文档序号:6499133阅读:188来源:国知局
用于挖掘意图的方法和设备的制作方法
【专利摘要】本发明公开了用于挖掘意图的方法和设备。一种用于挖掘意图的方法,包括:获取查询和要被获得的意图的数量n,其中n为自然数;针对所输入的查询挖掘一组候选意图;从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
【专利说明】用于挖掘意图的方法和设备
【技术领域】
[0001]本发明涉及信息搜索的方法和设备。特别地,本发明涉及用于挖掘意图的方法和设备。并且更特别地,本发明涉及用于针对由用户所提出的查询进行意图挖掘的方法和设备。
【背景技术】
[0002]随着计算机和信息技术的不断发展,现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多,所以导致对信息的组织和访问成为问题。
[0003]为了改进用户在信息搜索过程中的体验,用于帮助用户访问其所寻找的信息的方法和系统不断被研发。例如,在 Wei Song, etc.HITSCIR System in NTCIR-9 SubtopicMining Task, Proceedings ofNTCIR—9 Workshop Meeting,December6_9,2011,Tokyo,Japan中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下,希望能够输出η个(例如,η=10)重要的并且多样化的最佳意图结果。表1示出了一种不例。
【权利要求】
1.一种用于挖掘意图的方法,包括: 获取查询和要被获得的意图的数量n,其中η为自然数; 针对所输入的查询挖掘一组候选意图; 从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及 基于合计的非重叠率选择η个意图,所述合计的非重叠率是针对η个候选意图、基于η个候选意图中的各候选意图不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量计算的。
2.如权利要求1所述的方法,其中基于合计的非重叠率选择η个意图包括: 针对前η个候选意图计算合计的非重叠率; 产生具有η个候选意图的备选候选意图列表; 针对所述备选候选意图列表中的η个候选意图计算合计的非重叠率; 如果所述备选候选意图列表中的η个候选意图的合计的非重叠率与所述前η个候选意图的合计的非重叠率之间的差大于第一阈值,则使用所述备选候选意图列表更新所述前η个候选意图,其中所述第一阈值大于O ;以及将前η个候选意图作为 意图输出。
3.如权利要求1所述的方法,其中基于合计的非重叠率选择η个意图包括: 计算前η个候选意图的第一总分,其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前η个候选意图所计算的合计的非重叠率计算的; 产生具有η个候选意图的备选候选意图列表; 计算所述备选候选意图列表中的η个候选意图的第二总分,其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的η个候选意图计算的合计的非重叠率计算的; 如果所述第二总分与所述第一总分之差大于第二阈值,则使用所述备选候选意图列表更新所述前η个候选意图,其中所述第二阈值大于O ;以及将前η个候选意图作为意图输出。
4.如权利要求1所述的方法,其中基于合计的非重叠率选择η个意图包括: 基于所计算的合计的非重叠率使用贪婪算法选择η个意图。
5.如权利要求1所述的方法,其中基于合计的非重叠率选择η个意图包括: 基于以下总分使用贪婪算法选择η个意图,所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。
6.如权利要求1-5中任一项所述的方法,其中针对η个候选意图的合计的非重叠率通过以下步骤来计算: 对于每个候选意图,计算不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量;以及 对于η个候选意图,将非重叠搜索结果的数量求和。
7.如权利要求6所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算: 基于所述和对于n个候选意图的非重叠搜索结果的数量求平均值。
8.如权利要求7所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算: 基于所述平均值对于n个候选意图的的非重叠搜索结果的数量计算标准差。
9.如权利要求6所述的方法,其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括: 基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及 基于所计算的重要性计算非重叠搜索结果的加权后的数量。
10.如权利要求6所述的方法,其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括: 计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量;以及 计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率,其中a大于或等于O。
11.如权利要求10所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的: 基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及 通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。
12.如权利要求10所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的: 基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及 基于所计算的重要性计算重叠搜索结果的加权后的数量。
13.如权利要求6所述的方法,其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算: 对于每个候选意图,计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量; 对于n个候选意图,将重叠搜索结果的数量求和;以及 计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率,其中a大于或等于O。
14.如权利要求13所述的方法,其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量通过以下步骤来计算: 基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及 通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。
15.如权利要求1所述的方法,其中判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种:(1)判断这两个搜索结果的URL是否相同;和 (2)判断这两个搜索结果的相似度是否大于第三阈值,其中所述相似度包括文本相似度或基于用户行为的相似度。
16.如权利要求1所述的方法,其中针对所输入的查询挖掘一组候选意图进一步包括: 预获取步骤,基于所获取的查询来获取第一组候选意图; 构建步骤,为所述查询构建至少一个临时意图模式; 获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图; 其中,所述临时意图模式包括所述查询和上下文字符。
17.如权利要求16所述的方法,其中针对所输入的查询挖掘一组候选意图进一步包括: 根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序,其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。
18.根据权利要求17所述的方法,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
19.如权利要求16-18中任一项所述的方法,在针对所输入的查询挖掘得到一组候选意图后,所述方法进一步包括: 在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。
20.如权利要求19所述的方法,所述方法进一步包括: 利用所述至少一个排他合集使所挖掘出的候选意图多样化; 其中,所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。
21.如权利要求1-5中任一项所述的方法,在针对所输入的查询挖掘得到一组候选意图后,所述方法进一步包括: 在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。
22.如权利要求21所述的方法,所述方法进一步包括: 利用所述至少一个排他合集使所挖掘出的候选意图多样化; 其中,所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。
23.一种用于挖掘意图的设备,包括: 查询和意图数量获取单元,获取查询和要被获得的意图的数量n,其中η为自然数; 候选意图挖掘单元,针对所输入的查询挖掘一组候选意图; 搜索结果获取单元,从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果;以及 意图选择单元,基于合计的非重叠率选择η个意图,所述意图选择单元包括合计的非重叠率计算单元,用于针对η个候选意图、基于η个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算所述合计的非重叠率。
24.如权利要求23所述的设备,其中所述意图选择单元进一步包括: 备选候选意图列表产生单元,产生具有η个候选意图的备选候选意图列表,所述合计的非重叠率计算单元针对前η个候选意图计算合计的非重叠率,以及针对所述备选候选意图列表中的η个候选意图计算合计的非重叠率; 更新单元,如果所述备选候选意图列表中的η个候选意图的合计的非重叠率与所述前η个候选意图的合计的非重叠率之间的差大于第一阈值,则使用所述备选候选意图列表更新所述前η个候选意图,其中所述第一阈值大于O ;以及意图输出单元,将前η个候选意图作为意图输出。
25.如权利要求23所述的设备,其中所述意图选择单元进一步包括: 第一总分计算单元,计算前η个候选意图的第一总分,其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前η个候选意图所计算的合计的非重叠率计算的; 备选候选意图列表产生单元,产生具有η个候选意图的备选候选意图列表; 第二总分计算单元,计算所述备选候选意图列表中的η个候选意图的第二总分,其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的η个候选意图计算的合计的非重叠率计算的; 更新单元,如果所述第二总分与所述第一总分之差大于第二阈值,则使用所述备选候选意图列表更新所述前η个候选意图,其中所述第二阈值大于O ;以及意图输出单元,将前η个候选意图作为意图输出。
26.如权利要求23所述的设备,其中所述意图选择单元包括: 使用贪婪算法的第一选择单元,基于所计算的合计的非重叠率使用贪婪算法选择η个意图。
27.如权利要求23所述的设备,其中所述意图选择单元包括: 使用贪婪算法的第二选择单元,基于以下总分使用贪婪算法选择η个意图,所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。
28.如权利要求23-27中任一项所述的设备,其中所述合计的非重叠率计算单元进一步包括: 数量确定单元,对于每个候选意图,计算不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量;以及 求和单元,对于η个候选意图,将非重叠搜索结果的数量求和。
29.如权利要求28所述的设备,其中所述合计的非重叠率计算单元进一步包括: 平均值计算单元,基于所述和对于η个候选意图的非重叠搜索结果的数量求平均值。
30.如权利要求29所述的设备,其中所述合计的非重叠率计算单元进一步包括:: 标准差计算单元,基于所述平均值对于η个候选意图的非重叠搜索结果的数量计算标准差。
31.如权利要求28所述的设备,其中所述数量确定单元进一步包括: 重要性确定单元,基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及 加权单元,基于所计算的重要性计算非重叠搜索结果的加权后的数量。
32.如权利要求28所述的设备,其中所述数量确定单元进一步包括: 重叠搜索结果的数量确定单元,计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量;以及 比率确定单元,计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率,其中a大于或等于O。
33.如权利要求32所述的设备,其中所述重叠搜索结果的数量确定单元进一步包括: 权重确定单元,基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及 加权单元,通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。
34.如权利要求32所述的设备,其中所述重叠搜索结果的数量确定单元进一步包括: 重要性确定单元,基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性;以及 加权单元,基于所计算的重要性计算重叠搜索结果的加权后的数量。
35.如权利要求28所述的设备,其中所述合计的非重叠率计算单元进一步包括: 重叠搜索结果数量计算单元,对于每个候选意图,计算与任意其它n-Ι个候选意图重叠的重叠搜索结果的数量; 求和单元,对于η个候选意图,将重叠搜索结果的数量求和;以及比率计算单元,计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率,其中a大于或等于O。
36.如权利要求35所述的设备,其中所述重叠搜索结果数量计算单元进一步包括: 权重确定单元,基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及 加权单元,通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。
37.如权利要求23所述的设备,还包括重叠判断单元,判断任意两个搜索结果是否重叠,包括以下两种单元中的至少一种: (1)URL判断单元,判断这两个搜索结果的URL是否相同;和 (2)相似度判断单元,判断这两个搜索结果的相似度是否大于第三阈值,其中所述相似度包括文本相似度或基于用户行为的相似度。
38.如权利要求23所述的设备,其中所述候选意图挖掘单元进一步包括: 预获取单元,基于所获取的查询来获取第一组候选意图; 构建单元,为所述查询构建至少一个临时意图模式; 获取单元,基于所述至少一个临时意图模式来获取第二组候选意图;以及 组合单元,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图; 其中,所述临时意图模式包括所述查询和上下文字符。
39.如权利要求38所述的设备,其中所述组合单元进一步包括: 根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序的单元,其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。
40.根据权利要求39所述的设备,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
41.如权利要求38-40中任一项所述的设备,其中所述设备进一步包括: 在所挖掘出的候选意图之中构建至少一个排他合集的单元,其中每个排他合集包括至少两个相互排他的候选意图。
42.如权利要求41所述的设备,所述设备进一步包括: 利用所述至少一个排他合集使所挖掘出的候选意图多样化的单元。
43.如权利要求23-27中任一项所述的设备,其中,所述设备进一步包括: 在所挖掘出的候选意图之中构建至少一个排他合集的单元,其中每个排他合集包括至少两个相互排他的候选意图。
44.如权利要求43所述的设备,所述设备进一步包括: 利用所述至少一个排他合集使所挖掘出的候选意图多样化的单元。
【文档编号】G06F17/30GK103942198SQ201310018519
【公开日】2014年7月23日 申请日期:2013年1月18日 优先权日:2013年1月18日
【发明者】胡钦谙, 黄耀海, 那森, 夏云庆 申请人:佳能株式会社, 清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1