在对话交互系统中推断搜索输入中的用户意图的方法和系统的制作方法

文档序号:8548084阅读:231来源:国知局
在对话交互系统中推断搜索输入中的用户意图的方法和系统的制作方法
【专利说明】在对话交互系统中推断搜索输入中的用户意图的方法和系统
[0001]对相关申请的交叉引用
[0002]本申请要求以下专利申请的权益,其内容通过引用被结合于此:
[0003]于2013 年 5 月 I 日提交的标题为 “Method of and System for Inferring UserIntent in Search Input in a Conversat1nal Interact1n System,,的美国专利申请N0.13/874,523 ;
[0004]于2012 年 11 月 2 日提交的标题为“Method of and System for Inferring UserIntent in Search Input in a Conversat1nal Interact1n System,,的美国专利申请N0.13/667,400 ;
[0005]于2012 年 11 月 2 日提交的标题为“Method of and System for UsingConversat1n State Informat1n in a Conversat1nal Interact1n System,,的美国专利申请 N0.13/667,388 ;
[0006]于2012年 10 月 11 日提交的标题为“Method of and System for Content SearchBased on Conceptual Language Clustering” 的美国临时专利申请 N0.61/712,721 ;及
[0007]于2012 年 7 月 20 日提交的标题为“A Conversat1nal Interact1n System forLarge Corpus Informat1n Retrieval” 的美国临时专利申请 N0.61/673,867。
技术领域
[0008]本发明一般地涉及对话交互技术,并且更具体地,涉及基于解决输入歧义和/或推断对话会话中已发生变化来推断用户意图。
【背景技术】
[0009]对话系统有望成为跨一系列设备导航大型信息库的优选模式,其中设备包括:智能电话、平板电脑、TV/STB、多模态设备,诸如像“Goggles”(谷歌的太阳镜)的可穿戴计算设备、类似Xbox/Kinect的混合手势识别/语音识别系统、汽车信息系统以及一般的家庭娱乐系统。处于舞台中心、作为主要交互模式的基于触摸界面的时代也许慢慢地进入尾声,其中在许多日常生活的用例中,用户宁愿说出自己的意图,并且系统理解和按该意图执行。这同时被显著的硬件、软件和算法的进步所激发,这些进步使得与几年前相比,文本到语音有效得多。
[0010]尽管正朝着纯对话接口做出进展,但是现有的简单请求响应方式的对话系统只够在小型信息库中解决面向特定任务的或者特定信息检索的问题-这些系统不能在大型语料信息库上很好的执行。
[0011]其核心本质上是请求响应系统的当前系统试图提供诸如响应用户问题的对话方式的界面,如下:
[0012]用户:我的支票账户余额是多少?
[0013]系统:它是$2,459.34。
[0014]用户:存款呢?
[0015]系统:它是$6,209.012。
[0016]用户:货币市场如何?
[0017]系统:它是$14,599.33。
[0018]这些本质上是提供对话连续性概念的面向目标的或面向任务的请求响应系统,尽管每个请求响应对都彼此独立并且所维护的唯一上下文是简单的上下文,即,用户的银行账户。当前对话系统的其它例子是那些使用户走过一系列良好定义的并通常预先确定的决策树路径以完成用户意图(诸如预定晚餐、预定机票等)的系统。
[0019]申请人已发现,理解用户的意图(即使在其中用户意图可以跨单纯的信息检索到观看演出或预订演出/电影票的诸如数字娱乐的领域内)结合理解表达意图的用户话语的语义以提供匹配用户意图的清楚和简洁的响应是当前系统在对话空间中未能解决的难题。除具有明确意图表达的简单句子之外,通常难以提取表达意图的句子的意图和语义,即使在单个请求/响应交换式的交互中。不具有良好定义步骤的面向任务的意图增加了这种复杂性(诸如遍历预定的判定树)。同样有问题的是需要一系列用户请求和系统响应来使任务完成的那些交互(例如,像预定晚餐)。还有,丰富的信息库会尤其具有挑战性,因为对实体的用户意图表达可以采用许多有效且自然的形式,并且同一词汇标记(单词)会与许多不同的用户意图相关地出现。
[0020]当语料库很大时,在不用对话来澄清词汇冲突和多种语义解释的情况下,这些冲突或歧义增加了满足用户意图的复杂性。有时,甚至不可能理解用户的意图,或者表达意图的句子的语义-类似于在现实生活中人之间的对话中所发生的。系统问最少量的问题(从在对话中理解另一个人的角度看)来理解用户意图的能力,正如人将会做的那样(一般来说其中参与方都知道所讨论的领域),将决定系统到人类对话的接近程度。
[0021]超出简单的多步骤旅行/晚餐预订(例如,对话中的步骤是明确定义的请求/响应序列,在每一步中没有太多的歧义解决方案)的进行对话或交流的系统同样面临为了有效率而不得不维护对话状态的复杂性。例如,这些系统将需要推断对意图和实体的隐含引用(例如,对人、物体或任何名词的引用)以及在用户的句子中限定意图的属性(例如,“给我显示Tom Hanks最近的电影而不是老电影”;“给我显示更多的动作片和更少的暴力片”)。还有,申请人已发现,不仅跟踪由用户做出的对之前输入中的实体、属性等的引用,而且跟踪系统对用户的多模式响应的实体、属性等的引用是有益的。
[0022]还有,申请人已发现,在用户/系统交流期间维护代词到宾语/主语的关联增强了用户的体验。例如,在诸如“在近期的Daniel Craig电影的原声曲目中的Led Zeppelin歌曲…谁演奏的它? ”的复杂用户输入中将代词“它”关联到其宾语/主语“Led Zeppelin歌曲”的语音分析器(或自然语言处理器)通过不需要用户始终使用特定的语法来帮助用户。但是,这种简单的代词到宾语/主语的关联在处理以下交流时是无效的:
[0023]Ql:谁在新星球大战中扮演Ob1-wan Kenobi ?
[0024]A:Ewan McGregor。
[0025]Q2:他与 Scarlet Johansson 的电影有哪些?
[0026]这里,在第二个问题中的“他”指响应中的人,而不是来自用户输入中的人。更复杂的例子如下:
[0027]Ql:谁在 Kramer vs.Kramer 中扮演主角?
[0028]Al:Meryl Streep 和 Dustin Hoffman。
[0029]Q2:他的更多电影有哪些?
[0030]A2:这里是一些Dustin Hoffman的电影…[Dustin Hoffman电影的列表]。
[0031]Q3:她的更多电影有哪些?
[0032]这里,在Q2中的“他的”和在Q3中的“她的”指回到响应Al。在这些情况下,在理解用户意图时,单独的自然语言处理器是无效的。在以下描述的几个实施例中,语言处理器与对话状态引擎以及特定于领域的信息一起工作,其中特定于领域的信息指示实体的男性和女性属性,这能够帮助解决这些对之前对话交流的代词指代。
[0033]进行用户对话的系统面临的另一个挑战是对用户意图变化的确定,即使是在同一领域内。例如,用户可能以寻找例如娱乐领域中的问题的答案开始。在进行探索更多关于那个问题的对话的同时,决定寻求完全不同的意图路径。当前系统期望用户提供发起新对话的明确提示。如果用户未能提供那个重要提示,则系统响应仍将限制在用户已经下降到的探索路径的狭小范围,并且将用户的输入限制到那个狭小的上下文,这通常导致就算不是荒谬的也是不想要的响应。当用户选择在对话中间切换领域时,弄错上下文的结果甚至更加刺眼(以至于该系统看起来滑稽无能)。例如,当用户探索娱乐空间中的内容时,可能说:“我饿了”。如果系统没有意识到这是切换到新的领域(餐馆/饮食领域),则它会认为“我饿了”是在娱乐空间中提出的问题而进行响应,并且提供在那个领域的响应,在这个例子中,这将是滑稽的错误响应。
[0034]另一方面,人类通过语句最基本的属性自然地认识到这种大幅的领域切换,并相应地做出响应(例如,“我们要订比萨吗? ”)。即使在到新领域的过渡不是那么明显的偏远场景中,人类参与者会犹豫,但是很快就从第一说话者的反馈中恢复(“哦,不,我的意思是我饿了 -我想吃东西! ”)。对话中人类认为理所当然的这些细微但重要的对话元素是人与人对话的丰富性和与自动化系统对话的丰富性的区别所在。
[0035]总而言之,本文所公开技术的实施例试图紧密地匹配用户的意图,并且像人类交互一样与用户进行对话。某些实施例展示了以下非穷尽特征列表中的任何一个或多个特征:a)解决意图和/或意图描述中的歧义,并且每当适用时利用用户的偏好(一些实现使用基于特定于领域的垂直信息的计算元素和逻辑);b)在与用户的整个交流中维护描述意图的活动意图和/或实体/属性的状态,以便隐含地推断用户间接地对对话中早先提到的意图/实体/属性所做的引用;c)每当适用时,修改对用户的响应,以匹配用户的偏好;d)隐含地确定在领域内和跨领域开始新话题的对话边界,并相应地修改响应;e)假设未能理解用户的意图(例如,或者因为意图无法找到或者意图的最佳猜测的信心指数低于阈值),则进行最少的对话来理解用户的意图(以类似于人类在对话中为了理解意图所做的方式)。在本发明的一些实施例中,对意图的理解可以利用设备(例如,像平板设备)的显示能力来图形地显示用户可以交互以提供关于用户意图的线索的直观演示。

【发明内容】

[0036]在本发明的一个方面中,公开了一种用于在对话交互系统中推断搜索输入中的用户意图的方法和系统。
[0037]在本发明的另一个方面中,基于解决搜索输入的歧义部分来推断搜索输入中的用户意图的方法包括提供对一组内容项的访问。每个内容项都与描述相应内容项的元数据相关联。该方法还包括提供用户偏好签名。用户偏好签名描述用户对(i)特定的内容项和(ii)与内容项相关联的元数据中至少一个的偏好。该方法还包括从用户接收搜索输入。用户意图使该搜索输入用来识别至少一个期望的内容项。该方法还包括确定搜索输入的一部分包含歧义标识符。用户意图使该歧义标识符用来至少部分地识别至少一个期望的内容项。该方法还包括基于搜索输入的部分与由用户偏好签名描述的用户偏好匹配来推断歧义标识符的含义并且基于搜索输入和所推断的歧义标识符的含义与和内容项相关联的元数据进行比较而从一组内容项中选择内容项。
[0038]在本发明还有的方面中,歧义标识符可以是代词、语法虚词(syntacticexpletive)、娱乐题材和/或名称的至少一部分。
[0039]在本发明还有的另一个方面中,与内容项相关联的元数据包括与内容项相关联的实体之间的关系的映射。
[0040]在本发明还有的方面中,用户偏好签名是基于用户提供的明确的偏好和/或基于对用户在一段时间内所做的内容项选择的分析。可选地,用户偏好签名描述用户对与内容项相关联的元数据的偏好,该元数据包括该用户偏好的实体。
[0041]在本发明的另一个方面中,基于解决搜索输入的歧义部分来推断搜索输入中的用户意图的方法包括提供对一组内容项的访问。每个内容项都与描述相应内容项的元数据相关联。该方法还包括从用户接收搜索输入。用户意图使该搜索输入来识别至少一个期望的内容项。该方法还包括确定搜索输入的一部分是否包含歧义标识符。用户意图使该歧义标识符来至少部分地识别至少一个期望的内容项。在其中搜索输入的一部分包含歧义标识符的情况下,该方法包括:基于搜索输入的部分与由用户偏好签名描述的用户偏好匹配来推断歧义标识符的含义、基于搜索输入和所推断的歧义标识符含义与和内容项相关联的元数据比较,从一组内容项中选择内容项,以及在其中搜索输入不包含歧义标识符的情况下,基于搜索输入与和内容项相关联的元数据的比较来从一组内容项中选择内容项。
[0042]以上列出的任何方面都可以与以上列出的任何其它方面和/或与本文所公开的技术结合。
【附图说明】
[0043]为了对本发明的各种实施例有更完整的理解,现在结合附图参考以下描述,附图中:
[0044]图1为解释的目的说明了结合于此的用户界面方法。
[0045]图2为解释的目的说明了结合于此的用户界面方法。
[0046]图3为解释的目的说明了结合于此的用户界面方法。
[0047]图4为解释的目的说明了结合于此的用户界面方法。
[0048]图5为解释的目的说明了结合于此的用户界面方法。
[0049]图6说明了表示实体及实体间关系的图的例子。
[0050]图7说明了表示实体及实体间关系的图的例子。
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1