在对话交互中消除用户意图歧义的制作方法_2

文档序号:8449208阅读:来源:国知局
的某些领域时,它将看起来滑稽愚蠢。
[0021]歧义也可以从用户意图输入中的错误中产生,其中输入可以是语音或文本输入。为了本公开内容中所描述的方法的目的,这些错误被认为是词汇错误(尽管在一些情况下词汇错误可能实际上导致语义差异)。在本公开内容中描述的歧义的解决方案利用特定于领域的结构化知识、用户偏好签名(如果可以得到的话)、用户的位置(如果可以得到的话)和时间。但是,显然,如在以上例子中看到的,不是所有的歧义都是可解决的。
[0022]总而言之,用户输入/意图中的歧义会导致合格的响应(除了“空响应”情况之外),这些合格的响应可能松散地彼此关联,就像词汇歧义的例子那样(例如Beethoven电影可以与关于音乐家或关于名为Beethoven的狗的电影相匹配)。在另一种极端情况下,用户输入/意图中的歧义会导致可紧密地彼此关联的合格响应,在某种程度上,该多个响应更像是“选项”一一所有响应紧密关联并且具有高度的匹配用户意图的概率(例如对“给我显示附近的星巴克”的响应)。此外,当用户意图宽泛时,合格的响应潜在地非常大,因此有必要向用户提供消除歧义的响应。本发明中描述的对话系统的实施例基于歧义的本质(词汇或语义歧义)以及合格响应彼此的关联程度,通过利用特定于领域的结构化知识、时间、用户的位置(如果可以得到的话)和用户偏好签名(如果可以得到的话)在对话中响应用户。确保消除用户意图歧义的对话交流致力于接近人类对话流畅性的理想目标,在人类对话中歧义消除被无缝地织入交流的真实结构中,并且不由于因其机器产生来源的人造物造成的突兀而中断这种无缝流动。本公开内容中描述的对话系统的实施例还解决了 “空响应歧义”的情况,使得用户不会带着未实现的意图被留在死胡同。

【发明内容】

[0023]提供了在用于信息检索的对话交互中消除用户意图歧义的方法。该方法包括提供对内容项集合的访问。每个内容项都与描述相应内容项的元数据相关联。该方法还包括提供对示出内容项之间的语义关系和链接的结构化知识的访问,并且提供用户偏好签名,用户偏好签名描述用户对(i)特定内容项和(ii)与内容项相关联的元数据中至少一个的偏好。该方法还包括接收来自用户的第一输入。用户想要第一输入来识别至少一个期望的内容项。该方法还包括确定第一输入的歧义指数。该方法包括:在其中歧义指数超过第一阈值的条件下,基于第一输入以及结构化知识、用户偏好签名、用户的位置和第一输入的时间中的至少一个来确定查询输入,并且基于将该查询输入与和内容项子集相关联的元数据进行比较来从内容项集合中选择该内容项子集。该方法还包括,在其中歧义指数不超过第一阈值的条件下,基于将第一输入与和内容项子集相关联的元数据进行比较来从内容项集合中选择该内容项子集。
[0024]在另一个实施例中,该方法还包括将该内容项子集呈现给用户。
[0025]在还有的另一个实施例中,歧义指数是基于第一输入的多种可能的解释而确定的。
[0026]在不同的实施例中,该方法还包括:在其中歧义指数超过第一阈值的条件下,确定第一输入的哪个部分是有歧义的。查询输入的确定可以进一步基于输入的歧义部分。
[0027]在还有的实施例中,该方法包括确定输入的意图、实体和过滤器。意图可以是用户寻找的东西,实体可以是描述该意图的名词或代词,并且过滤器可以是该实体的限定词。
[0028]在还有的另一个实施例中,该方法包括:在其中歧义指数超过第二阈值的条件下,请求和接收来自用户的第二输入。查询输入的确定可以进一步基于第二输入。
[0029]在另一个实施例中,该方法包括请求和接收来自用户的第二输入。查询输入的确定可以进一步基于第二输入。
[0030]在还有的另一个实施例中,第二阈值高于第一阈值。
[0031]在实施例中,提供了在用于信息检索的对话交互中消除用户意图歧义的系统。该系统包括在非暂态计算机可读介质上编码的计算机可读指令。计算机可读指令使计算机系统提供对内容项集合的访问,其中每个内容项都与描述相应内容项的元数据相关联,并且计算机可读指令使计算机系统提供对结构化知识的访问,其中结构化知识示出内容项之间的语义关系和链接。计算机可读指令还使计算机系统提供描述用户对(i)特定内容项和
(ii)与内容项相关联的元数据中的至少一个的偏好的用户偏好签名、接收来自用户的第一输入、并且确定第一输入的歧义指数,其中用户想要第一输入识别至少一个期望的内容项。计算机可读指令还使计算机系统在其中歧义指数超过第一阈值的条件下,基于第一输入以及结构化知识、用户偏好签名、用户的位置和第一输入的时间中的至少一个来确定查询输入,并且基于将该查询输入与和内容项子集相关联的元数据进行比较来从内容项集合中选择该内容项子集。计算机可读指令还使计算机系统在其中歧义指数不超过第一阈值的条件下基于将第一输入与和内容项子集相关联的元数据进行比较来从内容项集合中选择该内容项子集。
【附图说明】
[0032]为了对本发明的各种实施例有更完整的理解,现在结合附图参考以下描述,附图中:
[0033]图1说明作为本发明实施例的体系结构。
[0034]图2说明特定于领域的结构化知识库的创建。
[0035]图3说明创建特定于领域的结构化知识库的阶段。
[0036]图4说明特定于领域的知识库实体以及实体之间关系的一部分的示意图。
【具体实施方式】
[0037]本发明的优选实施例包括在对话交流中用于消除用户意图的歧义并且满足那个意图的方法和系统。本发明的优选实施例及其优点可以通过参考图1-4来理解,其中相同的参考标号指代相同的元素。
[0038]信息库的创律
[0039]用于消除用户意图/输入歧义的特定于领域的信息库在不断地进化,命名实体的可扩展数据库通过把从不同来源收集到的许多结构化和非结构化信息放在一起进行整合。如图2中所示出的,由于结构化知识是从不同来源整合的,因此通过在对命名实体可用的元内容上执行统计文本处理、链接分析和其它信号分析(对例如位置信息等),就在信息库自身的成员之间创建隐含的和明确的语义关系和链接。这些关系始终在进化(如在图3中所示出的),并随着时间的推移通过聚合使用分析、协同过滤以及其它技术而被增强。
[0040]信息库中的每个命名实体都以类似于文本信息检索工作将文档表示为加权的文本短语向量的方式被表示为加权的文本短语(词语term)的向量。因为简单的基于
词频/逆文档频率)的方法单独在许多重要的情况下就本发明的实现目的来说是不够的。命名实体的向量表示中的权重计算被设计成利用以显示文本短语的方式呈现的更多的信息信号、在各种类型文本描述中文本短语的位置、以及还有与文本短语相关联的超链接的结构化和位置属性。权重计算因此基于文本、超链接以及从信息库中的元内容中挖掘的其它属性和关系的较丰富的统计和结构化分析。
[0041]在本发明的优选实施例中,信息库的创建受命名实体整合引擎的驱动,命名实体整合引擎本质上基于每个内容项的文本元内容计算它的简单的加权文本短语向量表示,接着高效地利用对应于所有命名实体的文本短语向量计算该项的文本短语向量的“点积”,接着收集对应于跨越阈值的点积的所有命名实体的列表,应用进一步的过滤以及重新整理(re-ordering)标准(其可以包括该项的非文本元内容和实体),并且接着最终输出与该项关联的实体的最终列表。该过程类似于网络搜索引擎将搜索查询当作向量并执行一种点积计算以根据其索引排列有意义的文档的方式。
[0042]用于创建信息库的技术使得本发明的实施例能够产生任何不可映射到某个单个命名实体的有利可图领域的丰富的加权文本短语向量表示,并且还可以发现现有实体之间的新的关系。概括地说,利用上述方法建造的信息库用作消除用户意图/输入的词汇和语义级别歧义的基础并且帮助图1体系结构中描述的诸多模块。依靠这个库来建造其自己的表示(本公开内容中描述的消除歧义机制的一部分)的重要模块是以下描述的图引擎110。_3] 适用于本发明实施例的信息库
[0044]一些信息库包括实体以及实体之间的关系。每个实体/关系分别具有来自类型集合中的类型。此外,与每个实体/关系相关联的是一组属性,在一些实施例中,这些属性能够被捕获,作为定义的名称-值字段的有限集合。由于实体/关系映射提供了描述各个内容项的信息,因此实体/关系映射也用作与内容项相关联的一组元数据。换句话说,特定实体将具有与其它实体的关系,并且这些“其它实体”用作对“特定实体”的元数据。此外,映射中的每个实体可以具有分配给它或分配给在映射中将该实体连接到其它实体的关系的属性。共同地,这构成了与实体/内容项相关联的元数据。一般而言,这种信息库被称为结构化的信息库,并且由结构化的信息库提供的信息被称为结构化知识。在一些实施例中,本发明使用结构化的信息库来访问用于信息检索的结构化知识。
[0045]一些信息库与领域相关联,领域是相似类型的信息和/或特定类型的内容项的分组。这些特定于领域的结构化的信息库包含特定于领域的结构化知识。本发明使用的结构化的信息库可以是特定于领域的信息库。下面接着是与领域相关联的信息库的例子。
[0046]媒体娱乐领域包括实体,诸如电影、电视节目、剧集、剧组、角色/人物、演员/名人、运动员、比赛、团队、联赛和锦标赛、体育人士、音乐艺术家和表演者、作曲家、专辑、歌曲、新闻名人和/或内容分销商。这些实体具有在信息库中捕获的关系。例如,电影实体经“在…中扮演”关系关联到一个或多个演员/名人实体。类似地,电影实体可以经“原声曲目”关系关联到音乐专辑实体,其又可以经“专辑中的曲目”关系关联到歌曲实体。同时,名称、描述、日程信息、评论、等级、成本、到视频或音频的URL、应用或内容存储句柄、分值等可以被视为属性字段。
[0047]个人电子邮件(email)领域包括实体,诸如电子邮件、电子邮件线程(email-thread)、联系人、发件人、收件人、公司名称、企业中的部门/业务单位、电子邮件文件夹、办公室位置和/或对应于办公室位置的城市和国家。关系的说明性例子包括关联到电子邮件发件人实体(以及到实体、cc实体、bcc实体、收件者实体和电子邮件线程实体)的电子邮件实体。同时,可以存在联系人与他或她的公司、部门、办公室位置之间的关系。在这个库中,与实体相关联的属性字段的实例包括联系人的姓名、职称、电子邮件句柄、其它联系信息、电子邮件发送/接收时间戳、主题、正文、附件、优先级、办公室的位置信息和/或部门的名称和描述。
[0048]旅行相关的/宾馆和景点领域包括实体,诸如城市、宾馆、宾馆品牌、各个兴趣点、兴趣点类别、面向消费者的零售连锁店、汽车租赁点和/或汽车租赁公司。这些实体之间的关系包括位置、连锁店的会员关系、和/或类别。此外,名称、描述、关键词、成本、服务类型、等级、评论等都相当于属性字段。
[0049]电子商务领域包括实体,诸如产品条目、产品类别和子类别、品牌、商店等。这些实体之间的关系可以包括产品条目之间的兼容性信息、“由…(商店)出售”的产品等。属性字段包括描述、关键词、评论、等级、成本和/或可获得性信息。
[0050]地址簿领域包括实体和诸如联系人姓名、电子邮件地址、电话号码、物理地址以及雇主的信息。
[0051]本文列出的实体、关系和属性只是说明性的,并不是要成为详尽的列表。
[0052]本发明的实施例还可以使用不是如上所描述的结构化信息库的库。例如,对应于基于网络的文档的信息库(例如,因特网/万维网)可以被认为是链接的文档(实体)的关系网。但是,一般而言,没有直接适用的类型结构可以在上述结构化信息库的意义上以非平凡(nontrivial)的方式有意义地描述与因特网的元素相关联的所有各种实体和关系以及属性。但是,诸如域名、互联网媒体类型、文件名、文件扩展名等的元素可以用作带有这种信息的实体或属性。
[0053]例如,考虑由一组非结构化文本文档构成的语料库。在这种情况下,没有直接适用的类型结构可以枚举一组实体和关系,它们有意义地描述文档内容。但是,作为预处理步骤的语义信息提取处理技术的应用可以产生可部分地从这种语料库中发现结构的实体和关系O
[0054]根据本发明的某些实施例
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1