用于认知超负荷的设备用户的交互式对话的制作方法

文档序号：6433400阅读：150来源：国知局

专利名称：用于认知超负荷的设备用户的交互式对话的制作方法
技术领域：
本发明涉及用于认知超负荷的设备用户的交互式对话的方法和系统。
背景技术：
带有口语对话接口的系统已经在广泛应用中获得稳步增长的认可。但是，口语对话接口系统可以使用受限语言和脚本对话交互。特别是，口语语言对话系统可以包括极少被关注的语言理解和对话交互的简单模型。然而，真实的人类对话可能很大程度上依赖于上下文和环境，充满不合语法的言辞(utterance)和不完整句，并且很可能是相当交互性和协作性的。例如，说话人可能互相打断，说完各自的句子，以及共同对共享的上下文做出贝献。理解语言和对自然对话建模在建造友好的口语语言接口中是很重要，并且在用户对外部任务非常关心的设置中至关重要，例如驾驶直升飞机或汽车。在这种场景中，用户可能在适当时刻之前不能提前计划好他们的措辞或“保持那种想法”。而是用户可能需要能够打断对话系统并做出基于上下文和环境的指示。相反的，对话系统必须在上下文中理解这些贡献，并且应该仅在合适时打断用户(比如在关键情况下)，并且任何来自系统的问题都应该尽可能的集中。由此，在高度着重的或认知超负荷的领域(domain)中的会话接口，即那些涉及到专注于其他任务的用户的领域，可能需要更灵活的对话，并且其具有鲁棒性的、覆盖广泛的语言理解。例如，在汽车工业中，对话系统可以提供对设备的命令和控制。然而，这些系统可能为了语言理解和对话管理而依赖于关键字识别技术和有限状态技术。这些系统可能还会碰到与更新数据库或接入到新设备/应用程序相关的困难。由此，由于这些系统所使用技术的限制，只能处理具有约束性的口语语言表达。此外，较为频繁发生的语言现象，例如代词，歧义和修正，可能不能正确处理。

发明内容
本发明的典型实施例和/或典型方法提供了一种典型的灵活的对话系统和/或方法，其允许用户在口头上与多种设备交互，并且能够进行具有完全口语理解的丰富对话、多线程对话管理、信息的动态更新、部分专有名词(partial proper name)的识别、并且允许简单有效的即插即用的领域端口。在这点上，根据本发明的典型对话系统和/或典型方法理解特定语言现象，该特定语言现象可能在人的对话中是普遍的但可能不容易被现有技术处理。特别是，根据本发明的典型对话系统可以提供完全的语言分析，在分析中，该典型系统理解不包含内容的单词的微妙之处，这些单词例如“一个(a)”、“该(the)”、“这个(this)”、“那个(that)”和“其
4他的(other)”。此外，典型对话系统可以对用户的言辞提供基于环境和上下文的理解。本发明的典型实施例和/或典型方法可以提供动态更新，从而可以动态地添加和扩展设备和信息内容。在这点上，本发明可以使用一组技术，其允许新内容的动态更新和新领域的快速适应。本发明的典型实施例和/或典型方法可以在管理庞大数量的内容方面给用户增加用户易用性，由此可以加速技术的市场接受程度。本发明的典型实施例和/或典型方法可以实现多种应用，并且允许公司快速添加新应用以便获取产业内的市场份额，比如汽车，手持设备和蜂窝电话。本发明的典型实施例和/或典型方法使用新的一组技术，其允许动态内容更新并且在管理用户喜欢的内容项目上为用户提供更多的方便。所述新技术还可以允许开发者/公司以更快、更节省成本的方式提出新应用。本发明的典型系统和/或典型方法可以包含统计式自然语言理解(NLU)模块，以提供鲁棒的全句分析，以及对话管理器(DM)，以支持基于上下文的理解并且管理用户-系统的交互。本发明的典型系统和/或典型方法在面对来自语音识别(SR)模块和人类用户的不完整输入时，可以提供鲁棒性，所述不完整输入包括，例如包含对部分专有名词的不完整引用的输入。本发明的典型对话系统和/或典型方法可以支持的对话包括对MP3音乐播放器 (在处理专有名词方面具有挑战性的领域)、蜂窝电话、导航系统和/或其他感兴趣点服务的控制。

图IA示出了根据本发明的典型对话系统；图IB示出了典型自然语言理解模块；图IC示出了典型对话管理模块；图2示出了用户和图IA的典型系统之间的简单对话，包括MP3音乐播放器的控制；图3示出了典型活动模型和语言映射实现的典型伪代码；图4A示出了与认知超负荷的设备用户进行交互式交谈的典型方法；图4B示出了对从认知超负荷的设备用户处接收到的语音转换的单词序列的含意结构进行确定的典型方法；图5示出了为图1所述的典型系统的用户提供的典型接口，其集成了多个设备；图6示出了图1的典型系统与该典型系统的用户之间的典型对话；以及图7示出了图1的典型系统执行的典型任务分配过程的典型伪代码。
具体实施例方式图1示出了典型对话系统100，用于为用户与多个设备151的交互提供端对端口语处理。该典型系统100包括语音增强器模块101、语音识别模块102、自然语言理解(NLU) 模块103、对话管理模块104、应答生成模块105、语音合成模块106、知识库模块107、知识管理模块108、韵律检测模块109以及设备/应用程序管理器110。语音增强器模块101增强典型对话系统100所接收的语音。特别是，语音增强器模块101可以提供例如噪声减少和/或回音消除。
语音识别模块102接收声学信号并且输出带有附加标记(例如置信值)的单词序列或者单词网格(lattice)。在这点上，语音识别模块102可以包含采用基于分类的n-gram 和动态语法的细微差别语言识别引擎(Nuance speech recognition engine)。N-gram涉及统计算法，该统计算法基于概率将单词和分类联系起来。自然语言理解模块103接收带有附加置信值的单词序列或单词网格，并且基于针对领域中的语言数据训练得到的统计模型而输出结构化的含意表达。在这点上，自然语言理解(NLU)模块103目的是提供灵活且鲁棒的口语能力。对话管理模块104获取所述结构化的含意表达，并且基于对话上下文和从知识库 107获得的知识，向其他模块发出合适的指令。知识库107与例如用户、设备、外部环境和当前上下文情况有关的知识。知识库107可以包括一个或多个数据库，例如包括关系数据库和本体数据库(ontological database)。特别是，知识库107可以包括例如歌曲、流派、艺术家和其他属性之间的本体关系数据库。知识库107还可以包括，例如导航任务与感兴趣点(POI)服务的本体关系的数据库。在这点上，知识库107可以获取领域数据/知识，以训练在语言理解中使用的统计模型。所述领域数据/知识可以包括，例如用于描绘和预测用户行为的统计量。知识库107 还可以包括语言学的知识，以便解决例如歧义。在这点上，所述语言学知识可以，例如从广泛可用的字典和其他来源中构建，所述其他来源包括，例如朗文出版公司出版的朗文当代英语字典(LDOCE)，或者WordNet——由普林斯顿大学的George Miller教授和他的助手们提供的开放资源(请见Cognitive science Group下的普林斯顿大学网站)。知识管理模块108管理知识库107、普通本体，领域特有本体以及用于任何活动领域的任何数据库。知识管理模块108还在不同模块之间更新并且同步当前知识库107。应答生成模块105从对话管理模块104获取内容，选取在该上下文中的相关部分，并且以简洁的语法方式组织它们，以输入到语音合成模块106中。在这点上，可以使用一种内容选取方法，该方法在例如在2004年8月20日申请的美国专利申请No. 10/923，590，名为“METHOD AND SYSTEM FOR ADAPTIVE NAVIGATION USINGA DRIVER' S ROUTE KNOWLEDGE” 中进行了描述，在此将其整体引入作为参考。语音合成模块106获取带有标记特征的单词序列并且产生语音波形。特别是，语音合成模块106可以包括使用例如Nuance Vocalizer实现的文本到语音(TTS)引擎。韵律检测模块109提供附加特征，比如对于声调、停顿和持续的检测，以便提高典型系统100的特定模块的性能，包括例如语音识别模块102、自然语言理解(NLU)模块103 和对话管理模块104。在这点上，可以使用Venkataraman等人在2003年的关于声学、语音 infW^^bSW IEEE H1 ^ .JlfitJ "Training a prosody-based dialog acttagger from unlabeled data”中描述的技术。典型系统对话系统100可以采用分散方式实现。例如，不采用其他系统中所使用的集线器体系结构，例如Seneff等人1998年在Proc. ICLSP，98上的“feilaxy-II =A Reference Architecture forConversational System Development，，中所描述的系统，典型系统100可以使用基于事件的、面向消息的中间件采用分布式方式进行配置，以便允许例如新模块和/或设备151的动态注册。典型对话系统100可以使用现货组件。特别是，典型对话系统100的一些部分可以使用微软 Visual C++6. 0、Nuance Vocalizer 4· O 和 Nuance Recognizer 8· 5 实现。典型对话系统100可以包括例如任何合适的处理设备，比如带有基于Intel微处理器的个人计算机。该适当的处理设备可以被例如广泛的各种操作和/或应用开发环境所支持，比如微软视窗2000或基于Linux的环境。需要了解的是，典型对话系统100的模块101至109 可以共存于公共平台中，或者这些模块中的一些或者全部可以分开驻留。NLU 模块图IB示出了典型自然语言理解模块103，用于提供灵活且鲁棒的口语能力。典型自然语言理解模块103包括四个子模块统计标记器103a、统计依赖分析器103b、特征映射器103c和语义分类器103d。统计标记器103a使用隐性马尔可夫模型(HMM)描述在基于历史预测语音部分(POS)的标记时的概率。所述模型可以例如从依赖性的和/或注释性的文本数据中训练得到。在这点上，统计标记器103a可以使用例如Dermataso和Kokkinakis在 ComputationalLinguistics, Volume 21, No2,1995 中的"Automatic Stochastic Tagging ofNatural Language Texts”中所描述的技术来实现，并且可以使用Viterbi算法来找到合适的标记序列。统计依赖分析器10 使用统计标记器103a所描述的统计概率建立语言模型，该语言模型包括条件概率分量和互信息分量。该条件概率分量在为两个首部给出两个相应子树的情况下，估计这两个首部之间的语法关系的概率。其可以使用，例如，在2003年7 月 3 日提交的美国专利申请 No. 10/613，366，名为 “A FAST FEATURESELECTION METHOF AN SYSTEM FOR MAXIMUX ENTR0PUM0DELING”中所描述的条件最大熵建模的选择性增益计算 (SGC)方法来进行计算，在此将其整体引入作为参考。最大熵(ME)建模是一种普通的统计建模范例，其可以应用于语言建模和自然语言处理中，以通过结合各种提供信息的特定特征来预测语言行为，每种特征都将某种语言统计事件从一个数据总集编码至条件模型的通用框架中。在这点上，条件最大熵模型可以采用于下形式
权利要求
1.一种用于帮助用户与多个设备交互的对话系统，包括对话管理模块(104)，其配置用于理解从所述用户的输入获得的单词序列以为所述多个设备确定任务；以及设备应用程序管理器(110)，其配置用于基于所述理解以及基于下列各项中的至少一项从所述多个设备中自动选择设备(a)在当前语言上下文中使用的设备；(b)指示上下文变化的语言线索；(c)对设备的明确的访问；以及(d)对于与所述设备的活动模型选择性关联的语言模板的所述单词序列的匹配。
2.根据权利要求1所述的对话系统，还包括知识库，其用于存储与所述多个设备有关的设备信息，并且用于采用关系方式和本体方式中的至少一种方式来对所述设备信息进行分类；其中，所述设备应用程序管理器配置用于以隔离所述知识库中的所有其他设备信息以及隔离所述知识库中的不依赖于设备的信息的方式，封装所述知识库中的所述多个设备中的每一个设备的各自的设备信息。
3.根据权利要求2所述的对话系统，还包括应答生成模块，其用于选择内容并且基于所述上下文和语法规则生成对所述用户的应答；以及语音合成模块，其用于合成所述应答的语音波形。
4.根据权利要求1所述的对话系统，其中，所述活动模型是多个活动模型中的一个，所述多个活动模型中的每一个说明性地指定了所述多个设备中的各个设备的能力并且包括从动词及其参数到设备动作的映射。
5.根据权利要求1所述的对话系统，其中，所述对话管理模块配置用于向所述多个设备查询它们各自的与所述任务有关的能力，并且基于来自所述多个设备的应答执行以下操作之一 (1)将所述任务发送到合适的设备；以及( 如果所述设备中不止一个设备适于所述任务，则询问所述用户以确定使用哪个设备来执行所述任务。
6.根据权利要求1所述的对话系统，其中，在所述当前语言上下文中的设备被重设，使得它在上下文中预定时间量之后不再被认为是在所述当前语言上下文中。
7.根据权利要求1所述的对话系统，其中，设备通过下列两种方式之一成为在所述当前语言上下文中的设备(1)被所述用户明确地访问；以及( 被命令指示。
8.根据权利要求1所述的对话系统，还包括语音识别模块(102)，其配置用于从所述用户处接收言辞并将所述言辞转换为所述单词序列；以及自然语言理解模块(103)，其配置用于从所述单词序列中确定含意结构；其中，所述单词序列的所述理解包括理解所述含意结构以确定所述任务。
9.一种用于帮助用户与多个设备交互的方法，包括对话管理模块理解从所述用户的输入获得的单词序列，以为所述多个设备确定任务；以及设备应用程序管理器基于所述理解以及基于下列各项中的至少一项从所述多个设备中自动选择设备(a)在当前语言上下文中使用的设备；(b)指示上下文变化的语言线索； (c)对设备的明确的访问；以及(d)对于与所述设备的活动模型选择性关联的语言模板的所述单词序列的匹配。
10.根据权利要求9所述的方法，还包括在知识库中存储与所述多个设备有关的设备信息，并且采用关系方式和本体方式中的至少一种方式来对所述设备信息进行分类；其中，所述设备应用程序管理器以隔离所述知识库中的所有其他设备信息以及隔离所述知识库中的不依赖于设备的信息的方式，封装所述知识库中的所述多个设备中的每一个设备的各自的设备信息。
11.根据权利要求10所述的方法，还包括选择内容并且基于所述上下文和语法规则生成对所述用户的应答；以及合成所述应答的语音波形。
12.根据权利要求9所述的方法，其中，所述活动模型是多个活动模型中的一个，所述多个活动模型中的每一个说明性地指定了所述多个设备中的各个设备的能力并且包括从动词及其参数到设备动作的映射。
13.根据权利要求9所述的方法，其中，所述对话管理模块向所述多个设备查询它们各自的与所述任务有关的能力，并且基于来自所述多个设备的应答执行以下操作之一 (1) 将所述任务发送到合适的设备；以及( 如果所述设备中不止一个设备适于所述任务，则询问所述用户以确定使用哪个设备来执行所述任务。
14.根据权利要求9所述的方法，其中，设备通过下列两种方式之一成为在所述当前语言上下文中的设备(1)被所述用户明确地访问；以及( 被命令指示。
15.根据权利要求9所述的方法，还包括从所述用户处接收言辞；将所述言辞转换为所述单词序列；以及从所述单词序列中确定含意结构；其中，所述单词序列的所述理解包括理解所述含意结构以确定所述任务。
16.一种计算机可读介质，其具有存储于其上的可由处理器执行的指令，当由所述处理器执行所述指令时，使得所述处理器执行一种用于帮助用户与多个设备交互的方法，所述方法包括对话管理模块理解从所述用户的输入获得的单词序列，以为所述多个设备确定任务；以及设备应用程序管理器基于所述理解以及基于下列各项中的至少一项从所述多个设备中自动选择设备(a)在当前语言上下文中使用的设备；(b)指示上下文变化的语言线索； (c)对设备的明确的访问；以及(d)对于与所述设备的活动模型相关联的语言模板的所述单词序列的匹配。
全文摘要
一种与认知超负荷的设备用户进行交互式对话的系统和方法，包括维护与设备和领域有关的信息的知识库；采用关系方式和本体方式中的至少一种组织所述信息；从用户处接收语音；将语音转换为单词序列；识别单词序列中的部分专有名词；使用所述领域信息的模型从单词序列中确定含意结构；调节所述部分专有名词的边界以增强所述含意结构的准确率；使用所述知识库在与认知超负荷的用户的对话的上下文中理解该含意结构；选择对于认知超负荷的用户的应答内容；基于所选择内容、所述对话的上下文以及语法规则生成所述应答；以及合成所述应答的语音波形。
文档编号G06F17/27GK102298928SQ20111027675
公开日2011年12月28日申请日期2005年8月10日优先权日2004年9月27日
发明者A·格林施泰因, B·拉格胡那坦, D·米尔科维奇, H·施密特, L·卡维多, L·希亚特, S·彼得斯, 翁富良申请人:罗伯特·博世有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：翁富良;L·卡维多;B·拉格胡那坦;D·米尔科维奇;L·希亚特;H·施密特;A·格林施泰因;S·彼得斯
技术所有人：罗伯特·博世有限公司
我是此专利的发明人

上一篇：一种打印文档防伪的数字水印方法
上一篇：用于将文本内容转换为图片内容的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。