使用脚本的对话管理的制作方法

文档序号:2830072阅读:281来源:国知局
专利名称:使用脚本的对话管理的制作方法
技术领域
本公开一般涉及对话管理,并且更具体地,涉及多应用、多设备 口语对话系统的管理。
背景技术
对话包括参与者之间会话的语言以及由参与者为会话而构建的 共享中心语境(例如,在后续会话中指称的"它"是指在会话中较早 所描述的某物)。会话的参与者可以是人、机器、或者人和机器的任 何组合。对话管理包括相对于共享语境对讲话者的话语进行解释,以 及用于对对话参与者之间的交互进行管理的技术和策略。已经为诸如 机器人设备的多模态控制、语音使能教学系统、与汽车内设备会话交 互这样的应用开发了面向行为的对话系统。典型的对话系统结构包括像语音识别器、语言解析器(parser)、语言发生器、语音合成器、以及 对话管理器("DM")的各种组件。该对话系统还可以包括到诸如本体 (ontology)或知识库("KB")的外部专用组件的连接以及对话使能设 备。对话系统的例子见下列文献(i) Lemon, O., A. Gruenstein, S. Peters (2002), "Collaborative activities and multi-tasking in dialogue systems", Traitement Automatique des Langues (TAL), 43(2); (ii) Clark, B., J, Fry, M. Ginzton, S. Peters, H. Pon-Barry, Z. Thomsen-Grey (2001), "Automated tutoring dialogues for training in shipboard damage control", SIGdial;禾口(iii) Weng, F., L. Cavedon, B. Raghunathan, D. Mirkovic, H. Cheng, H. Schmidt, H, Bratt, R. Mishra, S. Peters, L. Zhao, S. Upson, L. Shriberg, C. Bergmann (2004), "A conversational dialogue system for cognitively overloaded users (poster)", INTERSPEECH.
对话系统的DM是有助亍对话参与者之间交互的监管模块。使用 行为模型(Activity Model)的对话系统特指一种被称为"面向行为的对话"的对话类型,其是关于正在由用户和机器、计算机、以及/或者机器人(联合)开展的行为的对话。在用户或者讲话者发起系统中,DM 指示通过解释和后端系统响应对从一个组件到另一个组件的输入话 语的处理。在处理中,例如,DM对输入话语的信息输入进行检测和 处理,并且生成系统输出。可以与不同解析器和语言发生组件一起使 用DM。通过行为模型("AM"),即所公布的设备能力规范和它们与语 言处理的关系,对与外部设斧的交互进行调解。然而,由于在不同应 用上对话移动(dialogue move)需求的变化、与语言解析器和其它组 件接口中表示法的变化、以及具有领域专用方面的某些处理(例如, 指称求解(reference resolution)),所以对新领域的定制一般需要一些显 著的规划努力。
常规的对话管理系统的范围从广泛商业应用但是更受约束的基 于语音扩展标记语言("VXML")的对话建模机制到基于对信息状态进 行更新的TrindiKit方法的语义模型。虽然为特定的领域设计并且实 现了许多对话系统,但是将这些系统应用到新的领域需要相当大的工 程。相反地,基于VXML的对话管理基础结构允许对新的领域灵活 实现基于语音的对话系统,但是仅提供对对话建模中许多问题的肤浅 解决方法。
通过引用合并
这里通过引用将本说明书中所提到的每个出版物和/或发明申请 全部合并到本申请中,如同专门并且单独指定每个独立的出版物和/ 或发明申请通过引用合并到本申请中。


图1是根据实施例的中性表示对话系统("RNDS")对话管理器 ("DM") ("RNDS DM")的方框图2是根据实施例的RNDS的方框图3是根据实施例的用于使用对话移动脚本("DMS")将对话贡献 (dialogue contribution)的描述映射到对话移动的流程图4是根据实施例的用于使用名词短语求解脚本("NPRS")生成相应于设备的数据库査询(名词短语査询)的流程图5是根据实施例用于MP3设备的示例行为模型("AM")的部分;
图6是根据实施例用于MP3设备的"play"命令的示例DMS;
图7是根据实施例的对于"the song Vertigo by U2"的示例名词短语查询("NP査询")对象;
图8是根据实施例的名词短语求解规则的例子。
在附图中,相同的参考标号代表相同的或者非常类似的组件或行为。为了对任何特定组件或行为的讨论进行标识,在参考标号中最高位数字是首次引入该组件的图号(例如,关于图1首次对组件丄OO进行引入和讨论)。
具体实施例方式
基于信息状态更新方法,所描述的中性表示(representation-neutral) 对话系统和方法包括多应用、多设备口语对话系统。在这里共同被称 为中性表示对话系统("RNDS")的中性表示对话系统和方法包括对话 系统的中性表示核心组件,其提供对诸如对话移动模型和指称求解这 样的例程的脚本化的域专用扩展。RNDS支持专用语义表示和相关例 程的置换、到用于语言理解(即语音识别和解析)和语言生成的外部组 件以及到域专用知识源的干净接口,从而减少或者消除重新编码任何 核心软件组件的任何需求。如下所述,RNDS还允许与设备群的无缝 交互。
RNDS的脚本包括对话移动脚本("DMS")、行为模型和名词短语 求解脚本("NPRS"),提供了将RNDS轻松定制到新的对话域和应用 中的能力。此外,RNDS构成了 "即插即用"对话管理结构的基础, 其中,设备应用编程接口("API")对所定制的对话移动、行为模型、 知识库、以及到核心处理的域专用扩展(例如指称求解)进行封装。这 种即插即用对话管理使得能够进行多设备对话管理,允许将新的对话 使能设备动态添加到现存的多设备对话系统。
实施例的RNDS通过使用DMS实现对对话管理的信息状态更新
方法。DMS包括一般对话处理与对"对话移动"进行轻松扩展或定 制的能力的组合,其对从用户到新域的对话贡献进行处理。特别地, 这构成了 RNDS中多设备对话管理的基础,其中,每个设备提供其 自己的DMS("设备专用DMS"),该DMS包括从用户话语到设备专用 对话移动的映射。实施例的其它脚本(例如,NPRS)允许对其它对话 处理的定制,例如,名词短语求解("NP求解")(即,将自然语言中的 对象描述映射到数据库中的实际对象)以及行为模型,其中,行为模 型对由对话系统控制的对话使能设备的能力提供描述。
将RNDS脚本与来自核心对话管理结构的其它信息(例如,行为 模型("AM"))进行组合,以便在RNDS中提供即插即用能力。实施例 的即插即用RNDS允许对新的设备进行对话使能和与DM进行动态 注册,而不需要对DM进行重启或重新编译。例如,在汽车工业的语 境中,这允许将用于汽车的新设备作为对话使能实体出售,随后将该 新设备添加到诸如小汽车或卡车的车辆中的现存对话系统内。
通过对DM中现存的对话管理体系结构进行扩展,实施例的 RNDS还支持多设备对话管理。在RNDS下扩展的对话管理对相关的 数据结构进行扩展,从而使得同时对多个对话使能设备进行管理。所 扩展的对话管理还对诸如NP求解的内部处理进行扩展,以使扩展的 处理适合多设备交互。特别地,这种处理可以取绝于所选择的设备, 而设备识别自身使用NP求解。
因此,RNDS提供了强大的实际核心对话管理处理与域专用信息 的易于脚本化的定义的组合,所述域专用信息的定义诸如对话移动和 NP求解映射。因此,RNDS允许将DM轻松定制到新的域和应用, 并且还提供用于即插即用多设备对话管理的工具。RNDS还提供明确 的多设备对话管理处理,为了信息状态更新对话管理对核心对话管理 体系结构进行扩展,从而能够对与多个设备的同时交互进行管理。
在汽车应用语境中具有实际重要性的是,与车辆的会话对话需要 与许多设备进行交互,并且自然状态的交互需要与不同设备的无缝对 话管理。此外,随着与汽车内设备基于语音的对话交互成为现实,新 设备或者具有升级功能的设备可能出现在市场上并且是对话使能的。使用这些新的或者被升级的设备应该不需要具有内装DM的车辆的 所有者对他们的系统进行更新。因此,RM)S的动态即插即用多设备 对话管理是实现添加新的对话使能设备或者增强常规对话管理体系 结构内现存设备对话能力的必要组成部分。
在下列说明中,引入了许多特定细节,以便提供对RNDS的实 施例的彻底理解,并且能够对RNDS的实施例进行说明。然而,本 领域的相关技术人员将认识到,可以不需要一个或多个特定细节来实 现这些实施例,或者用其它组件、系统等来实现这些实施例。在其它 例子中,没有示出众所周知的结构或操作或者没有对其进行详细描 述,以便避免使所公开实施例的各个方面变得模糊。
图1是根据实施例的中性表示对话系统("RNDS")对话管理器 ("DM") ("RNDS DM") 100的方框图。RNDS DM 100包括多个系统或 组件和设备专用输入,其包括但不限于对话移动脚本("DMS") 102、 名词短求解脚本("NPRS") 104、行为模块、输入处理器106、对话移 动树("RMT") 108、行为树("AT") 110、名词短语求解器("NP求解器") 112以及输出处理器114中的至少一个。可以将RNDS DM的组件 102-114按照一种或多种组合进行连接,以适合于容纳该RNDS DM 的系统的实施例。
示例实施例的RNDS DM 100包括输入处理器106,其从RNDS DM外部的一个或多个系统接收输入。将输入处理器106连接到DMS 102、DMT 108和NP求解器112。将NPRS 104连接到NP求解器112, 但是不限于此。将实施例的DMT 108连接到AT 110。还将NP求解 器112连接到DMT108和输出处理器114。
实施例的DMS 102和NPRS 104对到RNDS DM 100的输入命令 进行识别,并且将该命令翻译成为了检索该命令的对象的査询。特别 地,DMS 102对输入命令(例如,"play",或者其它命令,像问题等) 与该输入命令的参数(例如,对象的名称、描述等,如播放"X")— 起进行识别,并且一旦识别了所接收的命令,NPRS 104的规则就对 命令进行翻译或者指定一个知识库或数据库查询,以便从数据库(未 示出)中检索该命令的实际对象(命令"Piay X"的对象"X")。因为取决于设备的语境,相同的字串可能具有两种完全不同的意义,所以
将命令/描述翻译成特定的查询可以是依设备而定的。因此,RNDS DM 100指定一个査询,该査询包括用户已请求对象的类型信息 (song(歌曲》以及任何特定的约束(例如,name(名称)、artist(艺术家) 等)。
作为包括RNDS DM 100的对话系统的例子,图2是根据实施例 的中性表示对话系统("RNDS")200的方框图。RNDS 200包括RNDS DM 100,RNDS DM 100连接到一个或多个其它组件,以适合于RNDS 200和/或容纳或包含RNDS 200的系统的配置。如上文关于图1以及 本文其它地方所描述的,RNDS DM 100包括DMS 102和NPRS 104。 除RNDS DM 100之外,实施例的RNDS 200还包括一个或多个语音 识别("SR")模块或系统202、语言理解模块204、知识管理模块206、 知识源208、语言发生("LG")模块210、以及文本到语音("TTS")模块 212。仅在口语对话系统中包括SR模块202和TTS模块212。 RNDS 200还可以包括应用管理器(未示出)。
SR模块202在一个或多个输入处接收声信号,并且输出具有诸 如置信度评分的附加标签的词序列或阵列。声信号可以来自用户(讲 话者)(例如,用户话语)。语言理解模块204也被称为自然语言理解 ("NLU")模块204,将其连接到SR模块202,并且在一个或多个输入 处从SR模块202接收具有附加置信度的词序列或阵列。NLU模块 204输出结构化意义表示,该结构化意义表示可能基于在域内语言数 据上所训练的统计模型和可用知识库。将RNDS DM 100连接到NLU 模块204,并且RNDS DM 100在一个或多个输入处接收结构化意义 表示。RNDSDM100在语境中对输入表示进行解释,基于该语境及 其知识库向RNDS 200的其它模块发布合适的指令。
将知识管理模块206或者在这里被称为"知识管理器"("KM") 206连接到RNDS DM 100,并且知识管理模块206通过对一般本体、 域专用本体和用于任何有效域的数据库进行管理,来作为到不同知识 源或知识库的关口 。 RNDS DM 100还在不同模块之间对当前知识库 进行更新和同步。
LG模块210也被称为自然语言发生器("NLG")210,例如,将其 连接到RNDSDM 100的输出处理器114,并且LG模块210在一个 或多个输入处对来自RNDS DM IOO的输出进行接收。LG模块210 以简洁并且合乎文法的方式将所接收的内容组织为适合于TTS模块 212。 TTS模块212从LG模块210接收组织后的内容(例如,具有标 记特征的词序列),并且产生语音波形。
还使用设备管理器220以及一个或多个各自的设备API 222将 RNDS DM 100的组件连接到一个或多个设备250。实施例的设备管 理器220将RNDS DM 100的AT 110连接到设备API 222,设备API 222适合于RNDS 200配置的设备250的数目。每个设备API 222包 括AM 230、设备专用DMS 232、设备专用NPRS 234(也被称为NP 求解语法)、以及对话管理器处理扩展("DM处理扩展"),但是不限于 此。
因此,RNDS DM 100的DMS 102禾tJ NPRS 104增强了 RNDS DM IOO的扩展性、定制和重用,并且提供了多设备即插即用RNDS 200 的基础。DMS 102和NPRS 104允许通过为新的域和应用生成脚本对 RNDS 200进行定制。脚本还允许对设备信息进行封装,以支持RNDS 200的即插即用能力。因此,RNDS DM 100和RNDS 200提供了一 种框架,在该框架中,可以轻易地将新的设备或者用于现存设备的对 话能力添加到主系统而不破坏现存的体系结构。作为一个例子, RNDS DM 100和RNDS 200的实施例可以是用于对车内电子组件进 行对话控制的系统的组件,所述系统例如娱乐系统、导航系统、和通 讯设备,但是实施例不限于车辆系统。
作为包括DMS 102的操作的一个例子,图3是根据实施例的使 用DMS将对话贡献的描述映射300到对话移动的流程图。在从讲话 者接收到声信号之后,映射300开始接收302来自讲话者的对话贡献 的结构化描述302。该结构化描述可以包括一个或多个句法、语义和 音位信息,以及诸如主题分类的话语范围信息。选择DMS用于对该 描述以及该描述的至少一个参数进行识别304。 DMS对应于设备和 应用的至少一个,但是不限于此。DMS将该描述映射306到对话移
动,其中,对话移动独立于设备和应用并且对应于所识别的参数。通
过对DMS进行重新编程,可以对对话移动进行定制或者使其适合于 在多个域和/或应用上使用。
返回包括NPRS 104操作的例子,图4是根据实施例的使用NPRS 生成对应于设备的数据库査询(名词短语查询)的流程图。查询的生成 开始于对与来自讲话者的对话贡献的描述对应的设备和/或应用进行 识别402。该识别402使用该描述的名词短语,但是不限于此。选择 404对应于所识别设备和/或应用的名词短语求解脚本(NPRS),并且 使用NPRS访问名词短语求解规则。使用该名词短语求解规则对该描 述进行翻译406,并且生成对应于设备和/或描述的査询。査询一旦产 生,就将其提供给RNDS的数据库或知识库,以从数据库检索对应 于对话贡献的对象(或者多个对象)。
可以将RNDS DM 100禾口/或RNDS 200的组件连接到在这里的图 中未示出的其它组件。虽然在这里通常使用术语"组件",但是应该 理解,"组件"包括如在本领域中已知术语的电路、组件、模块、和/ 或电路、组件和/或模块的任何组合。虽然可以将在这里示出的各个 组件描述为设置在一起,但是实施例不限于此;各个可选实施例的 RNDS DM 100禾n/或RNDS 200可以将由任何所描述的组件提供的一
个或多个功能分布在任何数目和/或类型的组件、模块和/或电路中。 虽然示出了包括RNDS DM 100和/或RNDS 200的每个组件之
虽然示出了包括RNDS DM 100 和/或RNDS 200 的每个组件之一,但是各个可选实施例包括任何数目的这些组件和/或这些组件的 任何组合,其中,以本领域已知的各种配置对这些组件中的每个进行 连接。此外,虽然将RNDSDM100和/或RNDS200的组件表示为单
独的方框,但是可以将这些方框中的某些或者全部统一集成在单独一 个芯片上、分布在多个芯片或者主系统的多个组件上、以及/或者由 算法的某些组合提供。通常,这里使用的术语"处理器"是指任何逻 辑处理单元,例如, 一个或多个CPU、数字信号处理器("DSP")、专 用集成电路("ASIC")等。
RNDS DM 100禾P/或RNDS 200的实际配置根据主系统的组件、 配置、功能和/或形成因数而定;因此,在RNDSDM100和/或RNDS200的组件之间示出的连接仅仅是示例性的,并且不是要将RNDS DM 100和/或RNDS 200限制于所示的配置。可以以在一个或多个处 理器上运行的软件算法、固件和硬件的任何组合来实现RNDS DM 100和域RNDS200,其中,可以将软件存储在任何合适的计算机可 读介质上,例如,将微码存储在半导体芯片中、计算机可读盘上、或 者从服务器下载的以及本地存储在主设备上。
RNDS DM 100和/或RNDS 200在程序或算法控制下可以在其它 组件的任何组合之间进行连接,这些其它组件例如包括处理器、存储 器设备、总线、控制器、输入/输出设备、通信系统以及显示器。所 连接的数据库可以包括任何数目、类型和/或组合的存储器设备,存 储器设备包括只读存储器("ROM")和随机访问存储器("RAM"),但是
不限于此。
因为RNDS DM 100的DMS 102允许不同设备根据特定设备的 需求而使用RNDS DM 100的Java组件,所以它有助于在不同的设备 (连接到RNDS DM 100的输入和输出的设备)上使用相同的Java代码 组件。因此,DMS 102类似于用于编写对话移动的编程语言。为了 在许多设备上使用对话移动,通过在比实际Java代码更高的级别上 改编对话移动的Java代码,DMS 102提供了一种高效地改编对话移 动以在不同域或应用上使用对话移动的方式。因此,为了对来自特定 设备的输入或发往特定设备的输出进行处理,可以通过对DMS 102 的改变来对RNDS DM 100所需要的任何变化进行调整,而无需变化 核心对话移动的Java代码。这样,DMS 102允许在新的应用中使用 对话移动,或者允许对新的设备作出命令,而不改变对话移动的核心 Java代码。类似地,DMS 102也允许为新的设备高效地生成新的应 用。
参考图1和2,可以与用于解析、NL生成(NLG)等的不同组件一 起使用RNDS DM 100。 RNDS DM 100的实施例可以使用基于规则的 头部驱动解析器(例如,二阶(Gemini)NLU系统),其具有适合特定应 用域的语法,其中,解析器自身进行语义标准化,返回直接对应于设 备行为特定表示的语义"逻辑形式"。RNDS DM 100的实施例还可以使用三方统计解析器,其仅返回弱标准化的语义形式。
实施例的RNDS DM 100使用信息状态模型或者更新方法(见 Larsson, S.禾口 D. Traum 2000 , " information state and dialogue management in the TRINDI dialogue move engine toolkit" , Natural Language Engineering, 6(3-4)),以便维持对话语境。"信息状态模型" 是一种建模方法,其对用于解释会话参与者的每个贡献的取决于语境 的方法进行建模(由参与者引入会话的对象和其它知识构成语境)。信 息状态模型基于前述事物构建语境,使得不要求讲话者在会话的后段 必须表达完整的想法。随后,使用对话语境对输入话语(包括片段和 修正)进行解释,对名词短语("NP")进行求解,构建突出响应,对事 件进行追踪等。还使用对话状态对语音识别器期望进行偏移并且改进 SR性能(见Lemon, O.禾Q A. Gruenstein, 2004, "Multi-threaded content for robust conversational interfaces: context-sensitive speech-recognition and interpretation of corrective fragments", Transactions on Computer-Human Interaction (ACM TOCHI)5 11(3))。
对话信息状态的两个中心RNDS DM 100组件是DMT 108和AT 110。 DMT108表示对话的历史语境。将每个对话贡献分类为"对话 移动"(例如,"Co匪and"、 "WhQuestion"、 "WhAnswer"等),并且 通过将其自身附加到DMT 108上合适的"有效"节点,在语境中对 其进行解释。例如,"WhQuestion"附加到对应于"WhAnswer"节点 的有效节点。DMT 108的树结构专门支持多线程、多主题会话,其 中,新的会话主题产生新的分支(见Lemon, O., A. Gmenstein, S. Peters (2002). "Collaborative activities and multi-tasking in dialogue systems", Traitement Automatique des Langues (TAL), 43(2))。不能将其自身附加 到最近有效节点的对话移动可以附加到另一个分支内的有效节点(对 应于所恢复的会话),或者通过将其自身附加到根节点来打开新的分 支(对应于新的会话线程)。DMT108还作为用于对片段、多话语构造 和修正进行解释的语境,并且为诸如NP求解的任务提供论述结构。
AT 110对关于对话的行为进行管理。当用户发布命令时,这通 常导致创建新的行为并且将其添加到AT 110。在可以将行为实际发
送到设备来执行之前,RNDS200尝试对其充分进行"求解",例如, 对所有提及的NP进行求解或者产生子对话以得出进一步的信息。典 型地,修正和校正(例如,"I meant/said...")包括对现存行为表示进行 编辑。在AT110上对行为执行进行监控,并且变化可以导致生成诸 如关于失败或者成功完成任务的通知消息。
如上所述,经由设备管理器220和设备API 222将AT 110连接 到RNDS 200的设备250的AM 230。AM 230对设备专用信息进行封 装,AM 230是与RNDS DM 100接口的代理或设备的能力的声明性 说明,并且AM 230包括语言信息,诸如从predicate(谓词)/argument(变 元)结构到设备行为的映射。当给定具有丢失变元的用户命令时,标 记为"required"的变元可以生成子对话。
可以将设备封装方法以及特别是这里所描述的对话移动脚本语 言和NP求解规则应用到初始域,例如,对MP3音乐播放器进行控 制并且访问音乐数据库。图5是根据实施例用于MP3设备的示例行 为模型("AM") 530的一部分。如下所述,该AM 530的"required" 变元位置包括"Playable",其对应于来自与该应用相关联的对象的相 关联本体的类;"playable-object"是通过对对话移动进行匹配所填充 的变量名,如下所述。
对话管理器可以完全从程序上对对话移动进行编码(例如,用 Java)。对话管理器还可以包括对应于在面向行为对话中所找到的对话 贡献类型的通用目对话移动(例如,"Command"、 "WhQuestion"、 "WhAnswer"等)库。随着将对话管理器应用到新的应用,将新的对 话移动实现为适合于新的应用,或者对现存的对话移动进行提炼以便 应用到新的应用。以这种方式实现多种应用。
因此,典型地,将对话移动定制到新的域需要大量的编码或重新 编码。此外,使用现有的具有宽覆盖范围语法的解析器、或者使用语 料训练统计解析器需要对话管理器能够对新的输入语义形式进行处 理。宽覆盖范围的需求指示从输入到正确对话移动的映射是可以轻易 扩展的。对覆盖范围进行扩展的一种方法是相对于广泛的语言本体 (例如,WordNet (见Miller, G. A,, 1995, "WordNet: A lexical database forEnglish", Comm. of the ACM 38))或者其它知识库(见Dzikovska, M., 2004, "A Practical Semantic Representation for Natural Language Parsing", Ph.D. Thesis, University of Rochester)对语义信息进行标准 化。然而,这仍然需要将输入形式映射到内部表示。
实施例的用于编写DMS 102的对话脚本语言提升了对话移动的 重用、增强了扩展性、并且处理多个域上的语义变化。实施例的对话 脚本语言定义了对话移动的分等级定义,允许对现存对话移动的继承 和重用,同时允许对特定域或设备的定制。实施例的对话脚本语言还 定义了从输入语义形式到适当对话移动的直接映射。此外,对话脚本 语言为信息更新提供了附加规则。另外,对话脚本语言提供了其它对 话移动专用信息,例如,为消除疑义生成的输出说明、对所需信息的 请求。
使用可轻易扩展的DMS 102与诸如如上文所述使用本体或知识 库的使用其它方法实现宽语义覆盖范围一致。然而,它另外提供了通 用方法,用于将应用专用信息提供给RNDSDMIOO,将其定制到新 的域,并且使能这里所描述的RNDS 200的即插即用多设备体系结 构。
图6是根据实施例用于MP3设备的"play"命令的示例对话移 动脚本("DMS") 602。 DMS 602中的变量对应于用于相应设备的AM 中的变量。特别地,用于MP3设备的AM包括具有相应(所需要的)
"_playable-object"变元的"play"操作。当输入语义形式与该DMS 602中的"Input"模板匹配时,统一操作(unification operation)填充
"jlayable-object"变量,其对来自设备对象域的对象进行求解(下文 对其进一步描述),并且在从设备AM构建的行为中填充对应的空隙 (slot)。随后是对对话移动脚本语言的属性的进一步细节的说明。虽然 该示例DMS 602是与特定类型的设备一起使用的特定命令,但是这 里所描述的实施例不限于该命令或者该设备。
实施例的对话移动脚本语言允许对对话移动的分等级说明和细 化。示例DMS 602对应于"piay"命令,并且继承更一般的"Command" 对话移动。例如,在Java中实现"Command"对话移动,其中对应的DMS具有对实现该对话移动的Java类命名的字段。通过相同的通 用代码来实现"play"命令移动,但是"play"命令移动为触发该移 动指定了它自己的模式,并且定义了附加模式和适当的生成消息。通 常,继承的深度是没有界限的(例如,可以定义在非常专用语境中应 用的"play"命令移动的子移动)。
DMS的继承对于其特别有用的一种类型的移动是在设备上的信 息査询移动。关于MP3数据库中音乐或者城市信息向导中餐馆的问 题在结构上通常是类似的,即査询结构自身是(相对)域独立的。可以 通过不同的对话移动(对应于不同的设备或知识源)处理每种类型的 査询,但是可以从单独一个"Query"对话移动中继承每个"Input" 集。
可以在对话移动的抽象级别上应用的其它操作包括"重写规则", 在将输入形式与对话移动"Input"模板进行匹配之前使用该"重写规 则"对输入形式进行转化,例如,将间接命令转化成直接命令,或者 以适当的语义特征替代时间标记(例如,"now")。重写规则是独立于 域/设备的,并且在对任何特定设备或对话移动进行选择之前将其应 用于输入。
实施例的DMS还经由语义模板支持对话移动的选择。DMS的 "Input"部分包括触发该特定对话移动的输入项目的列表。将这些模 板与解析器的输出进行匹配(所述解析器为,在示例DMS 602的情况 下,在从与MP3播放器交互的用户的Wizard of Oz实验中收集的语 料上训练的统计解析器(见Cheng, H., H. Bratt, R. Mishra, E. Shriberg, S. Upson, J. Chen, R Weng, S. Peters, L. Cavedon, J. Niekrasz, 2004, "A Wizard of Oz framework for collecting spoken human-computer dialogs", INTERSPEECH: 8th International Conference on Spoken Language Processing, Jeju Island, Korea))。在与"Input"模板进行匹配之前,可 以以任何方式(例如,使用本体,或者经由重写规则)对解析后的形式 进行标准化或处理。可以将"Input"模板附加到域专用对话移动或者 通用移动(并且是继承的)。
在示例DMS 602中的"Input"模板的特定形式记法说明了对特
定统计解析器的输出进行匹配的特定例子;不同的解析器输出形式记 法将使用不同的形式记法,但是一般而言,可以将模板视为特征结构, 并且匹配操作是有效的单向统一。将实施例的符号解释如下,但是不 限于此"#"表示词汇项,词汇项具有在"/"符号之后的词性标签; "I "表示可替换项;"?"表示可选变元;"—"表示来自行为模型 的变量匹配;并且"*"代表与任何事物的匹配。因此,在示例DMS 602中的对话移动与"play X"、 "start X"、或者包括"play X"或"hear X"的间接命令(为方便起见,间接命令使用通用重写规则提取它们的 嵌入语句)匹配;将要播放的对象标记为可选的(即,甚至当该变元丢 失时,模板也匹配)。
因为可以替换模板的形式和相应的匹配算法而不影响RNDSDM 体系结构,所以RNDSDM100是中性表示。这使得能够轻易地将解 析器或NLG组件替换成使用不同表示的组件。例如,可以替换更加 标准的特征结构表示和特征统一算法,而无需对RNDS DM代码的其 它变化。
当输入形式与对话移动的"I叩ut"部分中的条目匹配时,这可能 导致变量受限制;特别地,可以将变量限制为对应于来自AM的变量。 例如,如果与示例DMS 602匹配的输入包括合适的"arg"变元,那 么这为"jlayable-object"提供了值;如果不存在"arg",那么将该 变量剩余为未填充(在该情况下,"Command"对话移动可以生成对信 息的请求)。
通常,由于一般存在多个脚本对话移动和在每个移动的"Input" 部分中的多个条目,所以多种匹配是可能的。实施例的RNDS DM 100 使用一般标准对每个可能的匹配进行评分(例如,当前语境的可用性; 未求解信息的最小化)。然而,可选实施例可以包括概率方法,以便 对来自多个标准的证明进行合并以选择适当的对话移动,其包括韵律 信息和浅主题分类。
实施例的对话脚本语言提供了指定附加规则的机制。这些附加规 则确定了可以附加到DMT中现存有效节点的对话移动的类型。例如, 示例DMS 602示出了可以将消除歧义的"WhQuetsion"或用于填充
丢失变元的"WhQuestion"附加到"Command"节点(通常在更加抽 象的级别上而不是在专用命令的级别上指定该附加规则)。在这些说 明书之一内部,可以在"适当位置"脚注对话移动信息(如为"WhQuetsion: fill: play"移动所做的那样)。
DMS还在"CloseOn"字段内对哪些邻近移动关闭对话移动(即, 使对话移动无效,从而没有其它移动可以附加到其上)进行编码。关 闭用于附加的节点有效地关闭了相应的会话线程(修正可以重新打开"Command"或"Query"节点)。节点还在特定周期之后自动关闭。
自动生成大部分RDNS输出,例如,在通用目的对话移动中对 其进行编码。然而,应用可以要求域和设备专用输出。也可以在实施 例的DMS 102中对这些域和设备专用输出进行编码,由于这些输出 将是系统响应,所以在"System"对话移动中对其进行编码。DMS 102 允许这些特定输出的任何表示,只要该表示与RNDS DM 100针对给 定应用所接口的特定NLG系统210所使用表示匹配。以这种方式, 因为在对话系统中使用不同的NLG组件(使用不同的表示)仅导致对 DMS 102的修改,并且不需要对RNDS DM 100的核心进行修改,所 以RNDS DM 100是中性表示。
因此,RNDS 200提供了强大的实际核心对话管理过程与域专用 信息的轻松脚本化定义的合并,域专用信息例如对话移动和NP求解 映射。这样,可以将RNDS 200定制到新的域和应用,并且RNDS 200 还提供用于如上所述的即插即用多设备对话管理的工具。该即插即用 能力是系统的重要特征,所述系统可以使它们的功能扩展而不脱机。 典型地,即插即用包括将提供增强功能的新的组件添加到RNDS 200, 而不破坏现存的框架。实施例的RNDS 200通过使用说明语言实现即 插即用环境以及对组件实现的封装,其中组件使用所述说明语言公告 它们的能力。
即插即用多设备对话管理支持将新的设备添加到RNDS 200,其 与RNDS DM 100 —起作用,不必下载新的软件或者修改RNDS DM 100。当将新的设备插入RNDS 200中时,新的设备将其接口信息广 播到RNDS DM 100。例如,新的设备可以为RNDS DM IOO提供其实现的功能(行为模型)、其处理的语言(设备理解的来自用户的事物类
型)、任何设备专用DMS 232、任何设备专用NPRS 234(如果系统中 存在对有关设备的对象的描述,那么设备告知RNDS DM 100如何将 对象翻译成对设备KB的査询)、以及设备专用核心Java代码的信息。
参考图2,向RNDS DM 100注册的新设备对RNDS DM 100在
管理与这些新设备的对话中使用的所有所需信息进行封装。该封装信 息包括实施例中的四个组件,其中,这四个组件包括如上所述的DMS 232、对可通过对话访问的任何设备功能进行描述的AM230、设备专 用本体和/或知识库、以及用于设备专用NP求解的规则234。可选实 施例的封装信息可以包括适合于设备和RNDS DM 100的附加的或者 不同的信息。
通过将新的Java类包括到适合于设备的封装信息中,还可以添 加对话管理过程的对话专用实现,或者使用该专用实现重写通用实 现。例如,可以添加对由新的设备引入的新交互形式进行处理的对话 移动。然而,通常,组成封装信息的四个组件包括RNDSDM100为 了与设备进行对话所使用的全部设备专用信息,并且允许对话使能设 备的动态即插即用。
在提供多设备对话管理中,实施例的RNDS DM 100对DMT体 系结构进行扩展,以允许将新的设备动态添加或者插入RNDS 200。 一旦添加,新的对话使能设备就将它们自己向RNDS DM 100注册, 并且DMT108中的节点与适当的专用设备相关联。同样,"当前设备" 成为信息状态的组成部分,并且在该语境中对输入话语进行解释。
RNDS DM IOO还将设备选择(即,确定话语与那个设备相关联) 实现为多设备对话管理的组件过程。RNDS DM 100的设备选择判决 过程包括词汇和语义信息、对话移动分类和论述(discourse)结构,以 及到"当前设备"的偏离。判决过程还使用将NP与适当的设备本体 进行相关的策略(例如,指称"song"将与关联于MP3设备但可能不 关联于其它设备的本体内的类型匹配)。然而,该策略不一定解决所 有的设备模糊,例如,电话设备("get John on the phone")以及导航服 务("how do I get to John's house ")都可以使用地址本。因此,因为与NP求解有关的信息提供了与所提到的设备有关的 重要线索,所以RNDS DM 100将判决选择和NP求解过程相关为相 互依存的过程,但是如下所述,NP求解实际上可以是完全设备专用 的。这样,为了对设备进行识别,RNDSDM100执行浅NP分析(例 如,将名词和合适的名字与关联于特定设备的本体类型和KB项进行 匹配),并且随后使用下述的设备专用NP求解规则对NP进行完全求 解。然而,可选实施例可以为这种分类任务使用其它特征(例如,浅 主题分类技术)和/或概率方法。
可以将大部分NP求解过程视为相当独立于域的(例如,首语重复 求解)。然而,NP求解的方面是同时取决于域和设备的。例如,在 MP3播放器音乐播放的语境中,与当使用触摸屏多模态界面时相比, 对短语"What,sthis"进行不同解释。RNDS DM 100以类似于DMS 102 定制对话移动的方式,通过经由NP求解脚本语言和NPRS 104对在 RNDS DM 100中为特定域/设备实现的核心NP求解能力进行适配定 制,对此进行处理。NPRS 104是有效的语境无关语法,其允许用户 在当前对话信息状态和输入语义形式的语境下,对如何将NP对象映 射到用于特定设备的知识库查询进行定义。特别地,对于MP3设备, 例如,在"What'sthis"语境中的"this"将被映射到一个查询,该查
询返回当前正播放歌曲的名称。
RNDS DM 100使用NPRS 104将NP翻译成实现基于约束的KB 査询(在这里被称为"名词短语查询"或"NP查询")的Java对象。 图7是根据实施例的对于"the song Vertigo by U2"的示例名词短语 査询("NP查询")对象700。 RNDS DM 100的规则指定如何将在输入 语义形式中指定的NP翻译成这种对象。RNDS DM IOO包括多个通 用约束对象和相关联的变形,但是还可以将更多的对象包括为设备封 装的组成部分,以便提供专用于该设备的任何新颖处理。例如,MP3 设备将需要对诸如"by artist"的限定词进行处理,并且知道将该构 造翻译成KB的"artist"字段上适当的约束。
当然,将信息从NP表示中提取出来的方式取决于输入的特定格 式以及与设备相关的KB的结构。RNDS DM 100使用基于规则的语言,来指定NP(不管格式)如何映射到基于约束的查询对象,使用通 用或设备专用框架构造操作。将这种规则用于处理同义词(即,通过 将多个名词映射到相同的查询类型)以及指定来自复杂NP的复杂査 询对象的构造。
图8是根据实施例的名词短语求解C"NP求解")规则800的例子。 从用于MP3设备的NP求解脚本中获得这些NP求解规则800,但是 不限于此。每个规则的左侧与来自在该特定应用中使用的统计解析器 输出的构造匹配:符号指示已将相应的词标记为头词;"/"之 后的记号是所匹配项的词性("POS");并且大写的条目指明变量。 每个规则的右侧指定如何为KB构造查询或约束第一个项表示这是 何种类型的约束(其确定使用何种构造过程);右侧的剩余部分指定进 行测试的特定KB字段。
参考NP求解规则800, (l)为"Song"类型对象构造简单查询; (2)使用MP3专用约束构造过程,对标记为"this"(将其映射到当前 正在播放的歌曲)的"Song"进行匹配;(3)将"by X"补语映射到在 "Artist"上的约束(对于歌曲或曲集),其中,"FRAME"变量指示所 嵌入的NP可以是复杂的,并且应该对其自身进行分析;(4)对"named X"形式的嵌入语句进行处理;以及(5)对其它可以限定歌曲査询的补 语进行处理。由于一个规则应用的输出可以是另一个规则的输入,所 以规则可以是递归的。
虽然实施例的NP求解规则构造不取决于规则的特定语法或格 式,但是可以为给定的新设备轻松地指定NP求解规则构造,并且将 其与设备一起进行封装。由于具有DMS 102,所以可以在设备专用 脚本中对通用构造进行继承和重写,而可以将设备专用NP解释规则 与给定设备一起进行封装。
这里所描述的RNDS 200提供了对多设备会话、对话移动脚本、 以及脚本功能的管理,以便对其它核心对话处理(诸如NP求解)进行 扩展以覆盖域专用现象,其中,所述对话移动脚本有助于到新的域更 大的可移植性,并且还使多设备对话成为可能。还对RNDS200内部 的数据结构和处理过程进行增强,以便对不同设备之间的会话切换进行处理。对这些特征进行打包,以便有助于对API进行编程,API 使能将新的设备动态"即插即用"到RNDS DM 100中。
实施例的RNDS包括一种方法,该方法包含以下操作的至少一 个对从声信号产生的包括来自讲话者的对话贡献的描述的输入模式 进行接收;使用对话移动脚本(DMS)对该描述和该描述的至少一个参 数进行识别,其中,DMS对应于设备和应用中至少一个;并且使用 DMS将该描述映射到对话移动,该对话移动对应于所识别的参数并 且独立于设备和应用。
实施例的方法还包括通过对DMS重新编程,使对话移动进行 改编,以使其适合于在多个不同域和多个不同应用的至少一个上使 用。
实施例的方法还包括以下操作的至少一个使用该描述的名词短 语对与该描述对应的设备和应用的至少一个进行识别;选择对应于所 识别设备和应用中至少一个的名词短语求解脚本(NPRS),并且经由 所选择的NPRS访问名词短语求解规则;以及使用名词短语求解规则 对该描述进行翻译,并且生成对应于设备和描述中至少一个的查询。
实施例的方法还包括响应于该查询,从至少一个数据库中检索 由来自对话贡献的对象描述所指称的至少一个对象。实施例的对象描 述包括名词短语。
实施例的方法还包括通过对NPRS进行重新编程,对至少一个名词短语求解规则进行改编,以使其适合于在多个不同域和多个不同 应用的至少一个上使用。
实施例的NPRS包括知识库查询构造规则,可以对其进行编程以 便定义如何为多个设备中的每个设备将名词短语对象映射到查询。
实施例的生成查询包括将该描述的名词短语翻译成对象。
实施例的该描述是基于结构化语言的描述,其包括对话贡献的语 义描述、句法描述、音位信息、话语级别信息、以及主题分类中的至 少一个。
实施例的映射还包括对对话贡献的至少一个参数进行识别。
实施例的方法还包括对该描述的变量和对话移动组件之间的匹配进行评分。
实施例的RNDS包括一种系统,该系统包含以下组件的至少一 个基于信息状态更新方法的对话管理器,其包括多个对话移动和对 应于设备和应用中至少一个的对话移动脚本(DMS),该话管理器对从 声信号生成的输入模式进行接收,该输入模式包括对来自讲话者的对 话贡献的描述,该DMS对该描述和该描述的至少一个参数进行识别, 该DMS将该描述映射到对应于所识别参数的一个对话移动;连接到 对话管理器和至少一个数据库的知识管理器;以及连接到对话管理器 的设备管理器。
通过对DMS重新编程,对实施例的多个对话移动进行改编,以 使其适合于在不同域和应用的至少一个上使用。
实施例的对话管理器还包括连接到多个名词短语求解脚本 (NPRS)和多个规则的名词短语求解器,其中,每个NPRS对应于设 备和应用中的至少一个。
实施例的名词短语求解器使用NPRS来访问规则,并且对所识别 的描述进行翻译,以生成对应于设备和应用中至少一个的查询。
通过对NPRS重新编程来改编实施例的规则,以使其适合于在至 少一个不同域和应用上使用。
实施例的NPRS包括知识库査询构造规则,可对其进行编程以便 定义如何将名词短语对象映射到用于每个设备的査询。
实施例的系统还包括至少一个数据库,其中,知识管理器将査询 传送到数据库。响应于该查询,实施例的对话管理器从数据库接收对 话贡献的至少一个对象。
实施例的系统还包括多个设备,其中,将每个设备通过符合设备 应用编程接口(API)的每个设备的描述连接到设备管理器,其中,每 个设备描述包括行为模型、设备专用DMS、设备专用NPRS、以及 实现更多设备专用功能的代码中的至少一个。实现更多设备专用功能 的实施例的代码包括设备专用对话移动。实施例的行为模型包括对应 于DMS变量的变量。
响应于将设备连接到设备管理器,实施例的对话管理器对来自设备API的行为模型、设备专用DMS、设备专用NPRS、以及设备专 用对话移动的信息进行接收和存储。
实施例的系统还包括被连接到对话管理器输入的语音识别模块 和语言理解模块中的至少一个。
实施例的系统还包括被连接到对话管理器输出的语言发生模块 和文本到语音模块中的至少一个。
实施例的RNDS包括对话使能设备,其包括以下装置中的至少 一个用于对从声信号生成的输入模式进行接收的装置,所述输入模 式包括对来自讲话者的对话贡献的描述;用于使用对话移动脚本 (DMS)对该描述和该描述的至少一个参数进行识别的装置,其中, DMS对应于设备和应用中的至少一个;以及用于使用DMS将描述映 射到对话移动的装置,该对话移动对应于所识别的参数并且独立于设 备和应用。
实施例的RNDS包括计算机可读介质,该计算机可读介质包括 可执行指令,当在处理系统中执行该指令时,通过以下操作管理对话 对从声信号生成的输入模式进行接收,所述输入模式包括对来自讲话 者的对话贡献的描述;使用对话移动脚本(DMS)对该描述和该描述的 至少一个参数进行识别,其中,DMS对应于设备和应用中的至少一 个;以及使用DMS将该描述映射到对话移动,该对话移动对应于所 识别的参数并且独立于设备和应用。
实施例的RNDS包括一种方法,该方法包含以下操作中的至少 一个基于信息状态更新方法提供对话管理系统中的多个通用对话脚 本,其中,每个对话脚本包括对例程的扩展,其中,该扩展提供专用 于域、设备和应用中至少一个的功能;对对话管理系统的输入进行接 收,该输入包括对对话贡献的描述;以及使用至少一个通用对话脚本 将所接收的输入映射到多个核心组件中的至少一个,其中,核心组件 包括对话管理组件,其独立于域、设备和应用中的至少一个。
实施例的通用对话脚本包括对话移动脚本(DMS)和名词短语求 解脚本(NPRS)。
实施例的方法还包括以下操作对另外的通用对话脚本进行接收,其中,另外的通用对话脚本对与对话管理系统交互的域、设备和 应用中的至少一个进行扩展。实施例的另外的通用对话脚本是从连接 到对话管理系统的新设备和新应用中的至少一个中接收的。
可以将这里所描述的RNDS的方面实现为编程于各种电路中的 功能,各种电路包括可编程逻辑器件(PLD),诸如现场可编程门阵列 (FPGA)、可编程阵列逻辑(PAL)器件、电可编程逻辑、存储器器件、 基于蜂窝的标准器件、以及专用集成电路(ASIC)。用于实现RNDS 的方面的一些其它可能包括具有存储器的微控制器(例如电可擦除 可编程只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。此 外,可以将RNDS的方面嵌入微处理器,该微处理器具有基于软件 的电路仿真、离散逻辑(顺序和组合)、用户定制器件、模糊(神经)逻 辑、量子器件、以及以上类型器件的任何混合。当然,可以以多种组 件类型提供以下器件技术,例如,如互补金属氧化物半导体(CMOS) 的金属氧化物半导体场效应晶体管(MOSFET)技术、如射极耦合逻辑 (ECL)的双极技术、聚合技术(硅共轭聚合体和金属共轭聚合体金属结 构)、混合模拟和数字等。
应该注意,可以将这里所公开的各个组件描述和表示(或者代表) 为嵌入在各种计算机可读介质中的数据和/或指令。可以将该数据和/ 或指令嵌入在其中的计算机可读介质包括各种形式的非易失存储介 质(例如,光、磁或半导体存储介质)和载波,但是不限于此,其中, 可以使用载波通过无线、光、或者有线信号传输介质或者其任何组合 传送该格式化数据和/或指令。通过载波对该数据和/或指令进行传送 的例子包括在因特网和/或其它计算机网络上经由一个或多个数据传 送协议(例如,HTTP、 FTP、 SMTP等)进行传送(上载、下载、电子邮 件等),但是不限于此。当在计算机系统内经由一个或多个计算机可 读介质进行接收时,可以通过计算机系统内与执行一个或多个其它计 算机程序相结合的处理实体(例如, 一个或多个处理器)对上述组件的 这种基于数据和/或指令的表示进行处理。
除非上下文明确要求,否则,在整个说明书和权利要求书中,将 词语"包括"、"包含"等解释为包含在内的意义,这与排除在外或者
穷尽的意义相对立;也就是说,其具有"包括,但不限于"的意义。 使用单数或复数的单词分别包括复数或单数个。另外,单词"在这里"、 "在此之下"、"上文"、"下文"以及具有类似意思的词是将该申请作 为一个整体,而不是该申请的任何特定组成部分。当涉及两个或多个 项目的组而使用词"或"时,该词覆盖了下列所有对该词的解释该 组内任何项目、该组内所有项目、以及该组内项目的任何组合。
上文对所说明的RNDS实施例的描述不是想要穷尽所有实施例 或者将RNDS限制在所公开的确切形式中。虽然这里为了说明性目 的对RNDS的特定实施例和例子进行了描述,但是如本相关领域的 技术人员所认识到的,在RNDS范围内的各种等价修改是可能的。 在这里所提供的RNDS教义可以应用到其它处理系统和方法,而不 仅仅用于上述系统和方法。
可以对上述各个实施例的元素和行为进行合并以提供更多的实 施例。可以根据上述说明对RNDS进行这些和其它变化。
通常,在后面的权利要求中,不应该将所使用的术语解释为将 RNDS限制在说明书和权利要求中所公开的特定实施例,而应该将其 解释为包括在权利要求下操作的所有处理系统。因此,公开的内容不 是要对RNDS进行限制,相反,RNDS的范围完全由权利要求确定。
虽然在下文的某些权利要求形式中呈现了 RNDS的某些方面, 但是发明者在任何数目的权利要求形式中预期RNDS的各个方面。 例如,虽然仅将RNDS的一个方面叙述为嵌入在机器可读介质中, 但是可以将其它方面同样嵌入在机器可读介质中。因此,发明者保留 了在提交申请之后添加额外权利要求的权利,以便为RNDS的其它 方面寻求这种额外的权利要求形式。
权利要求
1、一种方法,包括对从声信号生成的输入模式进行接收,所述输入模式包括对来自讲话者的对话贡献的描述;使用对话移动脚本(DMS)对所述描述和所述描述的至少一个参数进行识别,其中,所述DMS对应于设备和应用中的至少一个;以及使用所述DMS将所述描述映射到对话移动,所述对话移动对应于所述识别的参数并且独立于所述设备和应用。
2、 如权利要求1所述的方法,还包括通过对所述DMS进行重新编程,使得所述对话移动适合于在多 个不同域和多个不同应用中的至少一个上使用。
3、 如权利要求l所述的方法,还包括使用所述描述中的名词短语对与所述描述对应的设备和应用中 的至少一个进行识别;选择与所识别的设备和应用中的至少一个对应的名词短语求解 脚本(NPRS),并且通过所选择的NPRS访问名词短语求解规则;以 及使用所述名词短语求解规则对所述描述进行翻译,并且生成与所 述设备和所述描述中的至少一个对应的查询。
4、 如权利要求3所述的方法,还包括响应于所述查询,从至少一个数据库中检索由来自所述对话贡献 的对象描述所指称的至少一个对象。
5、 如权利要求4所述的方法,其中,所述对象描述包括名词短语。
6、 如权利要求3所述的方法,还包括通过对所述NPRS进行重新编程,使得所述名词短语求解规则中 的至少一个规则适合于在多个不同域和多个不同应用中的至少一个 上使用。
7、 如权利要求3所述的方法,其中,所述NPRS包括知识库查 询构造规则,可以对所述知识库查询构造规则进行编程,以对于多个 设备中的每个设备定义如何将名词短语对象映射到査询。
8、 如权利要求3所述的方法,其中,生成所述查询包括将所述 描述中的名词短语翻译成所述对象。
9、 如权利要求l所述的方法,其中,所述描述是基于结构化语 言的描述,其包括所述对话贡献的语义描述、句法描述、音位信息、 话语级别信息以及主题分类中的至少一个。
10、 如权利要求l所述的方法,其中,所述映射还包括对所述对 话贡献的至少一个参数进行识别。
11、 如权利要求l所述的方法,还包括对所述描述中的变量和所述对话移动的组件之间的匹配进行评分。
12、 一种系统,包括基于信息状态更新方法的对话管理器,其包括多个对话移动和一个对应于设备和应用中至少一个的对话移动脚本(DMS),所述对话管理器对从声信号产生的输入模式进行接收,所述输入模式包括对来自 讲话者的对话贡献的描述,所述DMS对所述描述和所述描述的至少 一个参数进行识别,所述DMS将所述描述映射到所述对话移动中与所识别的参数对应的一个对话移动;知识管理器,其连接到所述对话管理器和至少一个数据库;以及设备管理器,其连接到所述对话管理器。
13、 如权利要求12所述的系统,其中,通过对所述DMS进行重新编程,使得所述多个对话移动中的至少一个适合于在至少一个不同的域和应用上使用。
14、 如权利要求12所述的系统,其中,所述对话管理器还包括名词短语求解器,其连接到多个名词短语求解脚本(NPRS)和多个规则,其中,每个NPRS对应于所述设备和所述应用中的至少一个。
15、 如权利要求14所述的系统,其中,所述名词短语求解器使用NPRS来访问所述规则,并且对所识别的描述迸行翻译,以生成对应于所述设备和应用中至少一个的查询。
16、 如权利要求14所述的系统,其中,通过对所述NPRS进行重新编程,使得所述规则适合于在至少一个不同的域和应用上使用。
17、 如权利要求14所述的系统,其中,所述NPRS包括知识库査询构造规则,可以对其进行编程,以对于所述设备中的每个设备定义如何将名词短语对象映射到査询。
18、 如权利要求14所述的系统,还包括至少一个数据库,其中,所述知识管理器将所述查询传送到所述数据库。
19、 如权利要求18所述的系统,其中,响应于所述査询,所述对话管理器从所述数据库接收所述对话贡献的至少一个对象。
20、 如权利要求12所述的系统,还包括多个设备,其中,将每个设备通过符合设备应用编程接口(API)的每个设备的描述连接到所 述设备管理器,其中,每个设备描述包括行为模型、设备专用DMS、 设备专用NPRS、以及实现更多设备专用功能的代码中的至少一个。
21、 如权利要求20所述的系统,其中,所述实现更多设备专用 功能的代码包括设备专用对话移动。
22、 如权利要求20所述的系统,其中,所述行为模型包括对应 于DMS变量的变量。
23、 如权利要求12所述的系统,其中,响应于将所述设备连接 到所述设备管理器,所述对话管理器对来自所述设备API的所述行为 模型、设备专用DMS、设备专用NPRS以及设备专用对话移动的信 息进行接收和存储。
24、 如权利要求12所述的系统,还包括被连接到所述对话管理 器的输入的语音识别模块和语言理解模块中的至少一个。
25、 如权利要求12所述的系统,还包括被连接到所述对话管理 器的输出的语言发生模块和文本到语音模块中的至少一个。
26、 一种对话使能设备,包括用于对从声信号生成的输入模式进行接收的装置,其中,所述输 入模式包括对来自讲话者的对话贡献的描述;用于使用对话移动脚本(DMS)对所述描述和所述描述的至少一 个参数进行识别的装置,其中,所述DMS对应于设备和应用中的至 少一个;以及用于使用所述DMS将所述描述映射到对话移动的装置,所述对 话移动对应于所识别的参数并且独立于所述设备和应用。
27、 一种包括可执行指令的计算机可读介质,当在处理系统中执行所述指令时,通过以下步骤管理对话对从声信号生成的输入模式进行接收,其中,所述输入模式包括 对来自讲话者的对话贡献的描述;使用对话移动脚本(DMS)对所述描述和所述描述的至少一个参 数进行识别,其中,所述DMS对应于设备和应用中的至少一个;以 及使用所述DMS将所述描述映射到对话移动,所述对话移动对应 于所识别的参数并且独立于所述设备和应用。
28、 一种方法,包括基于信息状态更新方法提供对话管理系统中的多个通用对话脚 本,其中,所述对话脚本每个都包括对例程的扩展,其中,所述扩展 提供对域、设备和应用中至少一个专用的功能;将输入接收到所述对话管理系统中,所述输入包括对对话贡献的 描述;以及使用所述通用对话脚本中的至少一个将所接收的输入映射到多 个核心组件中的至少一个,其中,所述核心组件包括独立于域、设备 和应用中至少一个的对话管理组件。
29、 如权利要求28所述的方法,其中,所述通用对话脚本包括 对话移动脚本(DMS)和名词短语求解脚本(NPRS)。
30、 如权利要求28所述的方法,还包括对额外的通用对话脚本进行接收,其中,所述额外的通用对话脚 本扩展与所述对话管理系统交互的所述域、设备和应用中的至少一 个。
31、 如权利要求30所述的方法,其中,从连接到所述对话管理 系统的新设备和新应用的至少一个中接收所述额外的通用对话脚本。
全文摘要
描述了中性表示对话系统和方法(“RNDS”),包括基于信息状态更新方法的多应用、多设备口语对话系统。RNDS包括对话系统的中性表示核心组件,其提供对诸如对话移动模型和指称求解这样的例程的脚本化域专用扩展,提供专用语义表示和相关联例程的轻易替换,以及到用于语言理解(即语音识别和解析)和语言生成的外部组件以及到域专用知识源的干净接口。RNDS还允许与设备群的无缝交互。
文档编号G10L15/26GK101203906SQ200680019192
公开日2008年6月18日 申请日期2006年5月8日 优先权日2005年5月31日
发明者D·米尔科维奇, L·卡维多 申请人:罗伯特·博世公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1