用于挖掘意图的方法和设备的制作方法

文档序号:6499303阅读:97来源:国知局
用于挖掘意图的方法和设备的制作方法
【专利摘要】本发明提供了用于挖掘意图的方法和设备。该方法包括以下步骤:获取用户的查询;挖掘与所述查询有关的候选意图;以及在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。利用本发明,可以提高意图召回率。
【专利说明】用于挖掘意图的方法和设备
【技术领域】
[0001]本发明涉及数据搜索。特别地,本发明涉及一种用于挖掘意图的方法和设备。更特别地,本发明涉及针对用户提交的搜索查询来挖掘用户意图的方法和设备。
【背景技术】
[0002]目前,互联网正在快速发展,在互联网中常常产生大量的信息(诸如官方公布的科技信息、个人产生的日记或者博客等),并且互联网用户在大量的互联网信息中搜索所希望的信息这一方式已经越来越普遍。为了在海量的互联网数据中找到所希望的信息,信息检索系统(诸如搜索引擎)变得越来越重要。
[0003]然而,大多数的依赖现有技术的信息检索系统不足以准确地返回用户希望的搜索结果,这是因为不同用户可能通过使用相同的简短且含糊的查询作为输入来体现不同的意图。
[0004]为了帮助用户快速且准确地找到他们所感兴趣的内容,目前已经提出了基于各种自然语言处理和信息检索的对返回结果进行组织的方法。
[0005]图2示出了一种典型的用户界面,在该用户界面中显示出了输入的查询、一些被挖掘得到的意图以及对于所选择的意图的搜索结果。利用意图索引来较好地组织搜索结果,这使得用户能够快速且准确地找到他所想要的内容。
[0006]一种典型的意图搜索系统可以被如下设计(例如,参见Santos等人的论文(以下称为论文I)):
[0007]输入——(简短且含糊的)查询;
[0008]输出——(重要并且多样化的)η个最佳意图(例如,η = 10)。
[0009]图3示出了一个意图搜索系统的示例。
[0010]在这种搜索系统中,期望的是挖掘出重要且多样化的意图,并且输出用户最可能感兴趣的意图。
[0011]Xue等人的论文(以下称为论文2)提出了一种挖掘意图的方法,其为在NTCIR-9平台下的最佳系统。NTCIR (Nil Test Collection for IR Systems)是一个为所有研究人员提供共同的测试数据从而方便评价各种方法的性能的平台,其具体内容可以参见如下网站:http: //research, ni1.ac.jp/ntcir/ out I ine/prop-en.html。图 4 不出了 论文 2 中提出的方法的流程。该方法利用全球资源(例如,搜索引擎、维基百科、查询日志等)来挖掘候选意图,通过诸如意图频率、共同出现频率、点击量数据(cI ick-though data)和编辑距离之类的特征来将候选意图排序,并且最终输出意图列表。
[0012]然而,上述方法的意图召回率(Intent recall, I_rec)较低。
[0013]下面的表I示出了上述方法的真实状态数据(ground truth)的实验结果。
【权利要求】
1.一种用于挖掘意图的方法,包括以下步骤: A)获取用户的查询; B)挖掘与所述查询有关的候选意图;以及 C)在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。
2.根据权利要求1所述的方法,其中,所述步骤C)包括以下步骤: Cll)根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类,以便得到至少一个候选合集,其中每个候选合集包括至少两个具有相同语义类型的候选意图;以及C12)根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。
3.根据权利要求2所述的方法,其中,所述语义类型的排他度是针对语义类型手动地预先设定的。
4.根据权利要求2所述的方法,其中,所述语义类型的排他度是基于具有所述语义类型的候选意图来自动地预先计算的。
5.根据权利要求2所述的方法,其中,所述语义类型包括概念类型、命名实体类型、本体类型和用户定义的类型中的至少一种。
6.根据权利要求1所述的方法,其中,所述步骤C)包括以下步骤: C21)将所挖掘出的至少两个候选意图划分成多个候选合集,其中每个候选合集包括至少两个候选意图; C22)为每个候选合集中的任意两个候选意图构建意图排他性向量,每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数; C23)通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度;以及 C24 )根据每个候选合集的排他度来识别排他合集。
7.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤: C2211)分析与用户的查询有关的日志数据; C2212)构建与查询、有关用户ID和有关用户点击的意图相关联的数据集;以及C2213)基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。
8.根据权利要求7所述的方法,其中,在所述数据集中,所有用户ID的针对所述查询的点击频率不小于2 ;以及 其中所述数据集包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或 URL。
9.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤: C2221)获得包含所述查询和所挖掘出的候选意图的用户生成文档; C2222)创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集;以及 C2223)基于所述数据集,根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。
10.根据权利要求6所述的方法,其中,所述步骤C22)包括以下步骤:C2231)获得来自用户查询结果的包括单选按钮或下拉列表的Π元素的文本值;以及 C2232)基于所述文本值来构建意图排他性向量,其中关系分数是手动地预先设定的。
11.根据权利要求1-10中的任一项所述的方法,还包括以下步骤: D )利用所述至少一个排他合集使所挖掘出的候选意图多样化。
12.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: Dll)仅保留排他合集中的一个候选意图;以及 D12)将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除。
13.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D21)仅保留排他合集中的一个候选意图;以及 D22)将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的次序向后移动。
14.根据权利要求12或13所述的方法,其中,所保留的候选意图是指出用户的偏好的最可能的候选意图。
15.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D31)保留代表排他合集的上位词来代替相应的排他合集;以及 D32 )将排他合集中的所有候选意图从所挖掘出的候选意图中去除。
16.根据权利要求11所述的方法,其中,所述步骤D)包括以下步骤: D41)保留代表排他合集的合并的候选意图来代替相应的排他合集;以及 D42 )将排他合集中的所有候选意图从所挖掘出的候选意图中去除。
17.根据权利要求1所述的方法,其中,所述步骤B)包括以下步骤: Bll)基于所述查询来获取第一组候选意图; B12)为所述查询构建至少一个临时意图模式; B13)基于所述至少一个临时意图模式来获取第二组候选意图;以及 B14)将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图; 其中所述临时意图模式包括所述查询和上下文字符。
18.根据权利要求17所述的方法,其中,所述步骤B14)包括以下步骤: B141)根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序, 其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。
19.根据权利要求17所述的方法,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
20.根据权利要求11所述的方法,还包括以下步骤: E)获取要被获得的意图的数量n,其中η为自然数; F)从至少一个数据搜索资源获取与所述查询以及多样化后的候选意图相关的一组搜索结果;以及 G)基于合计的非重叠率选择η个意图,所述合计的非重叠率是针对η个候选意图、基于η个候选意图中的各候选意图不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量计算的。
21.根据权利要求1、17至19中的任意一个所述的方法,还包括以下步骤: E)获取要被获得的意图的数量n,其中η为自然数; F)从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果;以及 G)基于合计的非重叠率选择η个意图,所述合计的非重叠率是针对η个候选意图、基于η个候选意图中的各候选意图不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量计算的。
22.一种用于挖掘意图的设备,包括: 单元Α),被配置为获取用户的查询; 单元B),被配置为挖掘与所述查询有关的候选意图;以及 单元C),被配置为在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。
23.根据权利要求22所述的设备,其中,所述单元C)包括: 单元C11),被配置为根据 候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类,以便得到至少一个候选合集,其中每个候选合集包括至少两个具有相同语义类型的候选意图;以及 单元C12),被配置为根据每个候选合集中的候选意图的语义类型的排他度来识别排他口 O
24.根据权利要求23所述的设备,其中,所述语义类型的排他度是针对语义类型手动地预先设定的。
25.根据权利要求23所述的设备,其中,所述语义类型的排他度是基于具有所述语义类型的候选意图来自动地预先计算的。
26.根据权利要求23所述的设备,其中,所述语义类型包括概念类型、命名实体类型、本体类型和用户定义的类型中的至少一种。
27.根据权利要求22所述的设备,其中,所述单元C)包括: 单元C21),被配置为将所挖掘出的至少两个候选意图划分成多个候选合集,其中每个候选合集包括至少两个候选意图; 单元C22),被配置为为每个候选合集中的任意两个候选意图构建意图排他性向量,每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数; 单元C23),被配置为通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度;以及 单元C24),被配置为根据每个候选合集的排他度来识别排他合集。
28.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2211 ),被配置为分析与用户的查询有关的日志数据; 单元C2212),被配置为构建与查询、有关用户ID和有关用户点击的意图相关联的数据集;以及 单元C2213),被配置为基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。
29.根据权利要求28所述的设备,其中,在所述数据集中,所有用户ID的针对所述查询的点击频率不小于2 ;以及 其中所述数据集包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或 URL。
30.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2221),被配置为获得包含所述查询和所挖掘出的候选意图的用户生成文档;单元C2222),被配置为创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集;以及 单元C2223),被配置为基于所述数据集,根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。
31.根据权利要求27所述的设备,其中,所述单元C22)包括: 单元C2231),被配置为获得来自用户查询结果的包括单选按钮或下拉列表的Π元素的文本值;以及 单元C2232),被配置为基于所述文本值来构建意图排他性向量,其中关系分数是手动地预先设定的。
32.根据权利要求22- 31中的任一项所述的设备,还包括: 单元D),被配置为利用所述至少一个排他合集使所挖掘出的候选意图多样化。
33.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D11),被配置为仅保留排他合集中的一个候选意图;以及 单元D12),被配置为将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除。
34.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D21),被配置为仅保留排他合集中的一个候选意图;以及 单元D22),被配置为将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的次序向后移动。
35.根据权利要求33或34所述的设备,其中,所保留的候选意图是指出用户的偏好的最可能的候选意图。
36.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D31),被配置为保留代表排他合集的上位词来代替相应的排他合集;以及 单元D32),被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。
37.根据权利要求32所述的设备,其中,所述单元D)包括: 单元D41),被配置为保留代表排他合集的合并的候选意图来代替相应的排他合集;以及 单元D42),被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。
38.根据权利要求22所述的设备,其中,所述单元B)包括: 单元B11),被配置为基于所述查询来获取第一组候选意图; 单元B12),被配置用于为所述查询构建至少一个临时意图模式; 单元B13),被配置为基于所述至少一个临时意图模式来获取第二组候选意图;以及单元B14),被配置为将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图; 其中所述临时意图模式包括所述查询和上下文字符。
39.根据权利要求38所述的设备,其中,所述单元B14)包括: 单元B141),被配置为根据各候选意图所对应的临时意图模式的参数,来将各候选意图进行排序, 其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。
40.根据权利要求38所述的设备,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
41.根据权利要求32所述的设备,还包括: 单元E),被配置为获取要被获得的意图的数量n,其中η为自然数; 单元F),被配置为从至少一个数据搜索资源获取与所述查询以及多样化后的候选意图相关的一组搜索结果;以及 单元G),被配置为基于合计的非重叠率选择η个意图,所述合计的非重叠率是针对η个候选意图、基于η个候 选意图中的各候选意图不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量计算的。
42.根据权利要求22、38至40中的任意一个所述的设备,还包括: 单元Ε),被配置为获取要被获得的意图的数量η,其中η为自然数; 单元F),被配置为从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果;以及 单元G),被配置为基于合计的非重叠率选择η个意图,所述合计的非重叠率是针对η个候选意图、基于η个候选意图中的各候选意图不与任意其它n-Ι个候选意图重叠的非重叠搜索结果的数量计算的。
【文档编号】G06F17/30GK103942232SQ201310026233
【公开日】2014年7月23日 申请日期:2013年1月18日 优先权日:2013年1月18日
【发明者】黄耀海, 那森, 胡钦谙, 夏云庆 申请人:佳能株式会社, 清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1