Computerimplementedmethodforinteractingwithuserviaspeech-baseduser...的制作方法

文档序号:2823075阅读:243来源:国知局
专利名称:Computer implemented method for interacting with user via speech-based user ...的制作方法
技术领域
本发明总体上涉及自动语音识别系统,更具体地涉及针对该系统的用户交互界
背景技术
使用自动语音识别(ASR)的应用需要基于语音的用户界面来与用户进行交互。一 般地讲,用户可以使用口述式用户输入执行两类任务。第一种任务类型与利用查询的信息 检索(IR)有关。在这种任务中,用户希望从存储在数据库中的大的项目集合(如互联网的 网页)中检索项目,如文件、图片、唱片等。另一任务类型是针对支持语音的命令与控制。此 处,用户希望进行一些操作。这两种任务都涉及将可能是用户所说的话的范围变窄。在IR的情况下,通常通过如图1所示的对话来完成,其中竖轴表示时间。在图1 中,用户101的步骤显示在左侧,系统102的步骤显示在右侧。系统具有某种根状态R 120。 用户101提供口述式输入110,例如用来检索项目。口述式输入110被解释为与状态集合X 124有关,而不是与另一些状态集合Y和Z 123有关。作为响应,系统进入下一状态\125, 并或许对用户进行提示。用户提供另外的输入110。例如,在基于语音的目的地输入系统中,在被允许说出 目的地街道名称之前,用户可能首先需要选择国家,然后在单独的步骤中选择城市。过程 124反复地、继续地使系统改变(126)状态128-129,直至交互完成,并检索到了相关项目 127。通常,每个系统状态具有有限的状态专用语法、词汇和/或语言模型,仅通过涉及 有限状态机(FSM dinite-state machine)中的两个或更多个应用状态的遍历的多个步骤 处理就可以获得状态(如128-129)。如图2所示,面向命令的方法通常涉及“载体”短语,其中命令字与特定的修饰词 (modifier word)和/或变量存在于相同的短语130中。系统将给出的载体短语的含义解 释(122)为短语130中的修饰语和变量,并进入状态集合X 124。如果载体短语与例如状态 &129有关,则系统可以立即进入该状态,或者在进入该状态之前请求来自用户的确认132。 使用口头的或物理的交互形态139可以完成用户部分133的确认或取消137。可以同前面 一样重复过程124。其它的方法也是常见的。例如,可以在没有命令的情况下说出变量,或者,命令可 以启动对话状态,在该状态下仅变量是可用的。利用诸如短语“发现艺术家Vanilla Ice” 中的载体词(carrier word)也可以完成搜索任务。然而,在各情况下,各状态的词汇、短语 语法和/或语言模式都是固定的。通常,这两个不同的界面彼此不兼容。也就是,IR界面不能处理命令,控制界面不 能处理查询。

发明内容
语音界面需要以一个多或更多个字的短语形式的口述式输入。确定该短语是查询 还是命令。如果该短语是查询,则从数据库中搜索由该短语所指定的相关项目,如该短语是 命令则执行操作。


图1为用于信息检索的、现有技术的基于语音的界面的框图;图2为用于命令和控制的、现有技术的基于语音的界面的框图;图3为根据本发明实施方式的口述式用户界面的框图;图4为根据本发明实施方式的域的示意图;图5为构建图4的域的过程的示意图;以及图6为根据本发明实施方式的域结构示例的示意图。
具体实施例方式本发明的实施方式提供了一种通过基于语音的界面与用户交互的方法。任意的口 述式输入要么与信息检索有关,要么与命令和控制有关,后者可以包括从菜单或功能的分 级体系中进行选择。与具有有限的词汇和语法的传统的口述式用户界面相比,我们的界面具有本质上 不受限的词汇和语法。这意味着可以以任何顺序说出任何字词。这大大增强了口述式界面 的操作的灵活性和有效性。界面结构和操作图3示出了根据本发明的实施方式的基于语音的用户界面。竖轴表示时间。用户 101的操作在左边示出,系统102的操作在右边示出。用户通过以一个或更多个字的短语的形式提供非结构化的(unstructured)或半 结构化(semi-structured)的口述式输入133。不同于传统的界面,该输入既可以是查询又 可以是命令。除了命令字词以外,在命令短语中还可以包括变量或修饰语。也就是,该界面允许 用户说任何话。不是象传统的界面中那样进入有限状态机(FSM),诸如在美国专利6877001中所 描述的,本系统使用基于语音的IR系统对该口述式输入进行一系列的多域查找和相关分 析135,在此以引用的方式将该专利的全部内容合并于此。口述式输入和任意下层索引以及数据库都可以使用如在同时待审的和相关的美 国专利申请SN. 12/036,681中所描述和示出的粒子(particle)。查找和相关的评分可以在 各域中出现,与传统的命令和控制界面中的一样,这些域中的一些属于命令,而这些域中的 其它域属于可搜索内容(如文件或音乐集)或导航系统中的兴趣点(POI)。可以将应用的不同功能性区域(如音频/视频和导航)内的状态分开进行索引, 以形成一个或更多个相区分开的命令域。命令域和查询域在命令域的情况下,由IR引擎检索到的“项目”为指向给定的FSM状态的指针,这些项目可以包括有关于由该状态和由可从该项目的状态到达的其它状态所预期的任何输 入的信息。如果所需的输入没有包括针对命令项目的IR索引中,则可以通过对照传统的有 限状态语法(FSG,其包括变量和/或修饰语的占位符)重新识别语音输入,或者通过提示用 户进行额外的阐明输入来提取出该输入。在内容域的情况下,检索到的“项目”为指向可搜索内容(如艺术家、相册、或音乐 收集中的歌曲、或附近餐馆Ρ0Ι)的单独节点的指针。系统确定口述式输入是查询还是命令(136)。如果最匹配的域为内容域,则向用户 展示结果列表137,用户选择激活哪个内容项目(140)。如果输入短语为命令,则可以向用 户展示最匹配的一个或更多个命令以进行确认,或者如果存在明确的最匹配命令,则可以 立即进行执行(138)。如果需要,可以输入额外的短语来改进或完善命令或查询。结果提示可以以多种不同的方式向用户提示相关命令或相关项目。可以按域分开来自不同 域的相关匹配,域每次以相同的顺序或者按照与给定的查询的相关度的降序出现。另选地, 可以将来自所有域的匹配混合成合并的结果列表。相关域确定某一语音输入短语可能在多个域中的各域中得到匹配。为了确定输入短语的最相 关的域,我们确定这些匹配中的哪一个最没有可能通过随机选取而被得到。该可能性可以 常规地被计算出来。图4示出了所有域中的项目I的集合406。在该集合中项目I的数目为T。子集 I1, I2等表示来自域1,2等的项目,并且T1, T2等表示这些子集中各子集中的项目数。子集 可以相互交叉,见子集407-408。用户输入短语U检索N个项目,其中N1个项目来自子集I1,N2个项目来自子集12, 等等。为了确定这些检索的相关度,我们确定出概率TVw^CAO, TV)。也就是,如果我们要从 集合I中随机地选出N个项目,则N1个项目来自子集D1。类似地,我们确定出概率Ρ/αλκ/(Α/"2,Λ/)。也就是,如果我们要从集合I中随机地选 出N个文件,则N2个属于子集12。总的说,概率TVw^iVi, TV)为从第i个域中得到的项目数 也可以通过从集合I中随机选取N个文件来得到的概率。于是,针对输入短语U的域具有 最小的概率iV"W(^,A0,即Domain( U) = argmin, P[and(Nh N)上述方法确定了哪个域最不可能被随机得到,并且将相应的域选择为该输入短语 的最相关的域。此外,可以将附加的关于概率的阈值一起用于完全地拒绝输入短语。上述方法的其它变型也是可能的,可以将随机选取N个文件的实际概率计算在 内,或者使用公式内PZw^iVi, AO的上限或下限。基于文件的域的构建如在相关的美国专利申请中所表述的,可以通过对各项目进行索引来构建域中的 项目。例如,项目为文本文件,诸如操作者手册510。该文件可以明确地或暗含地带有格式, 并可以以可机读或可人读的形式而被提供。索引处理将文件分割为较小的段520,并识别可 能由检索给定的段的用户所讲的词句(term)或短语。
5
有好几种使用文件结构(如章节标题和子章节)来识别这些词句的手段。可以针 对整体和针对各章节,将对字词和短语的出现的统计进行汇编。可以按段对涉及文件整体 的各个术语分配权重。这就使得能够识别出与IR的目的更相关的词句。可以对非重要词句(如非常短或常用的字,如“该”)的手动或机器生成的“非用 词表”进行合并。但是,如果非用词表上的术语被发现在某些段以很高的频率出现,而在其 它段不这样,则将该术语从非用词表中移出并移到相关项目的列表。可以在同义词词典中对出现在章节或子章节标题中的相关或有区别的术语进行 查找,如果找到了,也将该同义词添加到针对给定的段的相关或有区别的项目列表中。图6示出了用户输入133的分层形式的域的结构、一组搜索域610、一组命令域 620和项目的各种子集,它们中的一些可以交叉。尽管参照优选实施方式的示例描述了本发明,但应当理解,可以在本发明的精神 和范围内作出的许多其它的适应和修改。因此,所附的权利要求的目的在于涵盖落入本发 明的真正精神和范围内的所有这样的变型和修改。
权利要求
一种计算机执行的通过基于语音的用户界面与用户交互的方法,该方法包括如下步骤获取来自用户的一个或更多个字的短语形式的口述式输入;使用多个不同的域确定所述短语是查询还是命令;如果所述短语为查询,则从多个数据库中检索并展示相关项目;以及如果所述短语是命令,则执行操作。
2.根据权利要求1所述的方法,其中如果所述短语是命令,则所述短语包括变量和修 饰语。
3.根据权利要求1所述的方法,其中所述短语为粒子的形式,并且对所述项目的索引 为粒子的形式。
4.根据权利要求1所述的方法,其中按域对所述相关项目进行分离。
5.根据权利要求1所述的方法,其中按照相关度的顺序来展示所述相关项目。
6.根据权利要求1所述的方法,其中将所述相关项目混合在合并的结果列表中。
7.根据权利要求1所述的方法,其中所有可能的项目形成项目集合,该方法还包括如 下步骤将所述集合中的项目分组为项目子集,其中各项目子集形成所述多个域中的一个域; 响应于所述查询,从所述多个域中的一个或更多个域中检索所述项目;以及 如果检索到的项目最不可能通过从整个项目集合中进行随机选取而获得,则选择特定 的域作为与所述查询最相关的域。
全文摘要
文档编号G10L15/18GK101952883SQ20098010624
公开日2011年1月19日 申请日期2009年2月25日 优先权日2008年2月25日
发明者Schmidt-Nielsen Bent, Ramakrishnan Bhiksha, weinberg Garrett, Bret A Harsham 申请人:Mitsubishi Electric Corp
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1