语音对话方法和系统的制作方法

文档序号:7637180阅读:273来源:国知局
专利名称:语音对话方法和系统的制作方法
技术领域
本发明属于语音对话系统领域,特别是使用者说出短语进行确认 的领域。
背景技术
当前对话系统通常采用语音作为输入和输出形式。语音识别功能用于将语音输入转换为文本,而文本到语音(TTS)功能用于将文本表 现为语音输出。在很多对话系统中,TTS主要用于提供音频反馈以确 认语音输入。例如,在手持式通讯设备中,用户可以使用语音输入来 进行姓名拨号。当使用TTS来确认语音输入时提高了可靠性。然而, 使用TTS的传统确认功能占用了大量时间和资源研究每一种语言,同 时也消耗了手持式通信设备中大量的存储资源。这成为使用这种对话 系统的多语言设备在全世界推广的主要问题。


本发明采用示例进行说明但不限于附图,其中类似的参考表示类 似元件,并且其中图1是表示根据本发明一些实施例的语音对话方法的流程图;图2是表示根据本发明一些实施例的示范语音短语分析图表;图3是表示根据本发明一些实施例的执行语音对话的电子设备的 方块图;以及图4是表示根据本发明一些实施例的语音对话方法的流程图。熟练技术人员明白,附图中的元件仅简明地示出,而不一定按比 例绘制。例如,为了更好的理解本发明的实施例,附图中的一些元件 的尺寸相对于其他元件被放大。
具体实施方式
在对根据本发明的语音对话系统的特定实施例进行详细描述之 前,首先说明,本发明的实施例主要集中在有关语音对话系统的方法 步骤和装置构件的组合。因此,装置构件和方法步骤在图中采用常用 符号适当地进行表示,仅表示那些与理解本发明相关的特定细节,以 避免将本公开与那些对具有本说明书中益处的本领域普通技术来说已 经明显的细节相混淆。同样应当理解,除非特别说明其特定含义,否则这里使用的术语 和表述具有这些术语和表述各自相应调查和研究领域的普通含义。在本申请中,关系术语例如第一和第二,顶部和底部,仅仅是用 来区分一个实体或动作与另一个实体或动作并不要求或暗示这些实体 或动作之间的实际关系或顺序。术语"包含"或其他任何类似的变化 旨在表示非排他性包含,例如包含一系列要素的过程、方法、物品或 装置不仅仅包含这些要素,还可以包含其他没有特别列出的要素或者 这些步骤、方法、物品或装置中固有的要素。由"包含……"引导的 要素,没有更多限制时,并不排除在包含该要素的过程、方法、物品 或装置中还存在同样的要素。在本文中使用的"组"可以表示空的组。这里使用的术语"另一 个"被定义为至少一第二或者更多。这里使用的术语"包括"和/或"具 有"被定义为"包含"。这里使用的与电光技术相关的术语"耦合的" 被定义为连接,但不一定表示直接地、也不一定表示机械地。这里使 用的"程序"被定义为设计用于在计算机系统上执行的一系列指令。"程序",或"计算机程序",可以包括子程序、功能、过程、对象 方法、对象实现、可执行应用程序、小应用程序、伺服程序、源代码、 目标代码、共享程序附图l、 2和3,展示了根据本发明一些实施例的语音对话方法的一些步骤的流程图IOO(附图1),语音短语的分析图以及电子设备300 (图3)的方块图。在步骤105 (附图1),用户在对话中发出的语音 短语由电子设备300的麦克风305 (附图3)接收并由电子设备300利 用常规技术转换为数字采样信号307。语音短语由包含实例化变量的请 求短语组成,且可以进一步包含不可变片段。在附图2所示的实施例 中,语音短语为"拨TomMacTavish"。在这个语音短语中,"拨"是 不可变片段,而"TomMacTavish"是实例化变量的名字(也就是,变 量的特定值)。这个实施例中的不可变片段是命令〈拨〉,并且这个 变量在示例中具有变量形式就是〈拨名字〉。这个语音短语可以选择 性的不包含不可变片段或者包含一个以上的不可变片段,也可以包含 一个以上实例化变量。例如,为响应接收到的附图2所示的语音短语 示例,电子设备可以合成响应"请重复名字",因为正确的语音短语 可以只包含名字,没有不可变片段。在另一个实施例中,语音短语可 以是"把这个图片用邮件发送给Jim Lamb"。在这个示例中,"用邮 件发送"是不可变片段,"图片"是类型〈用邮件发送目标〉的实例 化变量,"JimLamb"是类型〈拨名字〉的实例化变量。电子设备300 以常用方式存储各组变量和不可变片段值的数学模型,例如隐马尔可 夫模型(HMM)。这里可以有一个以上的HMM,例如一个用于不可 变片段,而一个用于各种变量类型的每一个,或者HMM可以是所有 变量类型和不可变片段的联合模型。在步骤IIO (附图1),电子设备 300的语音识别功能310 (附图3)在定时间隔220 (附图2)对语音短 语的数字化电信号进行处理,例如10毫秒,并生成基音与发音特征315, 而且生成语音短语的声学向量。这些声学向量可以是Mel频率倒谱系 数(MFCC)或者是另一个常规(或非常规的)类型的特征向量。这些 可能更通常地被作为声学特征描述。在附图2所示的示例中,声学向 量用一系列逻辑框225表示,而基音与发音特征用一系列逻辑框230 表示。根据由至少一种类型的变量(例如〈拨名字〉)的一组值(例 如Tom MacTavish, Tom Lynch, Steve Nowlan, Changxue Ma,......)的声学状态得到的声学状态的存储模型,语音识别功能310从最可能 代表接收到的每一个实例化变量和不可变片段(当存在不可变片段时) 的声学向量的存储模型中选择一组声学状态。在一个示例中,存储模型是常规隐马尔可夫模型(HMM),但是也可以采用其他模型。在更普通的情况下,定义表示变量存储值的状态,使得它们可以被该数学 模型用于查找最相匹配的一组由接收到的音频片段得到的声学特征和一组表示变量值的状态。尽管在常规语音识别系统中HMM模型被广 泛用于实现这种目的,但是其他模型是公知的并且其他模型是可以被 开发的;这些模型可以被有益地用于本发明的实施例中。被选择的不 可变片段的声学状态组确定该不可变片段的值325 (附图3),在步骤 120完成不可变片段的语音识别。最能代表实例化变量的该组声学状态 被称为为该实例化变量的最相似的声学状态组320,在步骤125,最相 似的声学状态组的选择完成了的实例化变量语音识别部分。在附图2 所示的示例中,实例化变量"TomMacTavish"的最相似的状态组用一 系列声学状态235表示。依照一些实施例,响应短语判决器330 (附图3)根据不可变片段 (当其存在于声音短语中时)的识别值325和由对话历史功能器327 (附图3)产生的对话历史确定响应短语。在附图2所示的实施例中, 不可变值〈拨〉已经被确定并且可以用于不使用对话历史来确定产生 响应短语"你想要拨号吗"240的音频。在一些实施例中,每个响应短 语的值的一组声学状态被存储在电子设备300中,并且与存储的基音 与发音值一起釆用常规的声音合成技术生成该响应短语的数字音频信 号331,在附图2中用一组声学向量245和相应的基音与发音特征250 表示。在其他实施例中,响应短语的数字化音频采样被存储并且被用 于直接生成响应短语的数字音频信号331。电子设备300进一步包含合 成实例化变量生成器335,该实例化变量生成器根据与接收到的音频短 语的基音与发音特征校准的最相似的声学状态组生成合成实例化变量 的数字化音频信号336,在附图2中用声学向量255和基音与发音特征 260表示。基音与发音特征的持续时间被延长或縮短,以在校准期间与从最相似的声学状态组生成的声学向量匹配。数据流合成器340接着 以适当的顺序合成响应短语的数字化音频信号与合成实例化变量。在 合成过程中,响应短语的基音与发音特征可以根据那些存储的进行修 正,以更好地与那些用于合成实例化变量的相混合。在附图2所示的实施例中,当被选中的最相似的声学状态组针对 被叫名字的值是Tom MacTavish时,响应短语和合成实例化变量的表 示,在大多数情况下"Tom MacTavish" 265可以典型地被用户理解, 允许用户确认选择的正确性。另一方面,当所选的最相似的声学状态 组针对被拨叫名字时,例如Tom Lynch时,响应短语与合成实例化变 量"Tom Lynch" 270的表示很难使用户与请求的Tom MacTavish混淆 因为不仅是错误的选择和使用值,而且在大多数情况下向用户表现出 的是错误的基音与发音特征,使用户很容易给出不确认该选择。实质 上,根据接收到的短语的基音与发音,正确的变量值与语音学上接近 但不正确的变量值之间的区别被扩大了 。在一些实施例中,电子设备300的可选质量评估功能345(附图3) 确定最相似的声学状态组的质量量度,当质量量度达到了标准,质量 评估功能345控制选择器350将数据流合并器的数字音频信号输出与 将数字音频信号转换为模拟信号的扬声器相耦合并且使用它驱动扬声 器。质量评估功能345 (附图3)执行的确定和控制实施为可选步骤130 (附图1),在这里确定最相似的声学向量组的量度是否达到标准。通 过响应短语判决器330生成响应短语的数字信号331的部分实施为步 骤135 (附图3),其中给出声学存储的响应短语。根据最相似的声学 状态组和实例化变量的基音与发音特征生成合成实例化变量的数字化 音频信号336的部分包含在步骤140 (附图l)。在那些可选质量评估功能345 (附图3)确定最相似的声学状态组 的质量量度的实施例中,当质量量度没有达到标准时,在步骤145(附 图1)中质量评估功能345控制可选选择器350将来自未辨别词汇(OOV)音频响应功能360的数字化音频信号耦合到给出用户表示未 辨别词汇提示的短语扬声器功能355。例如,未辨别词汇提示可以是"请 重复你最后的短语"。对响应短语采用相同的方式,这个OOV短语可 以利用基音与发音特征存储为数字化采样或者声学向量,或者类似的 形式。在没有利用量度确定是否给出OOV短语的实施例中,数据流合成 器功能340的输出与扬声器功能355直接耦合,步骤130和145 (附图 1)被删除。在那些利用量度确定是否给出oov短语的实施例中的量度可以是表示对已进行的最相似的声学状态组的正确选择的置信度。例如,这个量度可以是表示实例化变量声学向量组与被选择的最相似的声学状态组之间的距离。依照附图4,给出了根据本发明一些实施例的语音对话方法的流程 图。步骤105-125在上面参考附图1的内容已经进行了说明。在步骤 410,被确定为正确地响应了至少一个变量的唯一值的实例化变量被存 储在值属性数据库中,每一个识别值都与用于标识该值的已存储的实 例化变量的最相似的声学状态组和基音与发音特征相关联。包含具有 新实例化变量的新请求短语的新语音短语在步骤415接收。识别值在 在步骤420通过第二实例化变量的语音识别被确定。在步骤425,至少 一个最相似的声学状态组和基音与发音特征是根据与具有消除歧义可 能性的识别值相关联的值属性数据库确定。在步骤430,根据与值属性 数据库中的识别值相关联的最相似的声学状态组和基音与发音特征生 成响应。应当理解,通过这种方法,与一个或多个先前接收到的变量 相关联的声学状态和基音与发音特征可以用于代替新接收到的实例化 变量,以更好地消除该实例化变量的歧义。这里描述的语音对话方法100、 400和电子设备300的实施例可以广泛应用于各种电子装置例如,但不局限于,便携式电话、个人娱乐 设备、寻呼机、电视线缆机顶盒、电子设备遥控单元,手提式或台式 或主机计算机,或电子测试装置。相对于包括了语音识别直到最相似 的实例化变量的文本版本与根据合成实例化变量的文本语音合成的确 定现有技术,这些实施例提供了縮短开发时间和减少所需处理资源的 有益效果。这些有益效果部分是避免开发用于这里所描述的实施例的 不同讲话语言的合成变量的合成的文本语音转换软件系统的结果。可以理解,这里描述的语音对话实施例可以包含一个或多个常规 处理器和唯一的存储程序指令,其控制一个或多个处理器结合非处理 器电路,以实现一些、更多或者所有的这里所描述的语音对话实施例 的功能。这个唯一的存储的程序可以通过媒体传递,例如软盘,或在 下载包含唯一程序的文件的数字信号传递。这个非处理器电路可以包 括,但不限于,无线电接收机、无线电发射机、信号驱动器、时钟电 路、电源电路以及用户输入设备。这样,这些功能可以解释成执行访 问通信系统的方法的步骤。或者, 一些或所有功能可以通过没有存储 程序指令的状态机来完成,其中每一个功能或某些功能的结合可以作 为定制逻辑来完成。当然,也可以使用两种方法的组合。这样,以上 所描述的就是这些功能的方法和装置。在前面的详细阐述中,本发明及其效益和优点通过特定的实施例 己经被描述了。但是,本领域的普通技术人员应当理解各种修正和替 换都在下面本发明所列出的权利要求的保护范围之内。因此,说明书 和附图作为展示而不是作为限制,并且所有这样的修正都包括在本发 明的范围之中。上面所描述的实施例的一些部分是常规技术,但是应 当理解这些部分也可以采用现在未知的装置和/或技术实现。效益、优 点、技术问题的解决方案,以及可以使效益、优点或解决方案出现或 更加显著的任何要素不构成任何或者所有权利要求的关键的、必须的 或本质的特征或者要素。
权利要求
1.一种语音对话方法,包括接收语音短语,该语音短语包含具有实例化变量的请求短语;生成所述实例化变量的基音与发音特征;执行对所述实例化变量的话音识别,以确定最相似的声学状态组;以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发音特征生成所述实例化变量的合成值。
2. 根据权利要求l所述的语音对话方法,其中所述请求短语进一 步包括与所述实例化变量相关联的不可变片段,进一步包括执行对所述不可变片段的话音识别;以及 呈现声学存储的响应短语。
3. 根据权利要求l所述的语音对话方法,其中执行对所述实例化 变量的话音识别包括确定所述实例化变量的声学特征;以及使用存储查找值的数学模型和所述声学特征确定所述最相似的声 学状态组。
4. 根据权利要求3所述的语音对话方法,其中所述存储查找值的 数学模型是隐马尔可夫模型。
5. 根据权利要求l所述的语音对话方法,其中生成所述实例化变 量的合成值是在所述最相似的声学状态组的量度符合标准时执行的, 并且进--步包括在所述最相似的声学状态组的量度不符合该标准时,呈现声学存 储的未辨别词汇响应短语。
6. —种语音对话电子设备,包括用于接收语音短语的装置,该语音短语包含具有实例化变量的请 求短语;用于生成所述实例化变量的基音与发音特征的装置; 用于执行对所述实例化变量的话音识别以确定最相似的声学状态 组的装置;以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发 音特征生成所述实例化变量的合成值的装置。
7. 根据权利要求6所述的语音对话电子设备,其中所述请求短语 进一步包括与所述实例化变量相关联的不可变片段,进一步包括用于执行对所述不可变片段的话音识别的装置;以及 用于呈现声学存储响应短语的装置。
8. —种包括存储程序指令组的媒体,包括接收语音短语的功能,该语音短语包含具有实例化变量的请求短语;生成所述实例化变量的基音与发音特征的功能; 执行对所述实例化变量的话音识别以确定最相似的声学状态组的 功能;以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发 音特征生成所述实例化变量的合成值的功能。
9. 根据权利要求8所述的媒体,其中所述请求短语进一步包括与 所述实例化变量相关联的不可变片段,进一步包括执行对所述不可变片段的话音识别的功能;以及 呈现声学存储响应短语的功能。
10. —种语音对话方法,包括接收包括一个或多个实例化变量的一个或多个语音短语;生成所述一个或多个实例化变量的基音与发音特征;执行对所述实例化变量的话音识别以确定所述一个或多个实例化 变量的每一个的最相似的声学状态组;存储最相似的声学状态组和所述一个或多个实例化变量的基音与 发音特征,它们每一个都被确定为正确地对应于值属性数据库中变量 的唯一值,每一所述最相似的声学状态组和基音与发音特征与它对应 的唯一值相关联地存储;接收新语音短语,该新语音短语包含具有新实例化变量的新请求短语;通过对所述新实例化变量的话音识别确定识别值; 从具有消除所述识别值歧义可能性的值属性数据库中确定最相似的声学状态组和基音与发音特征;利用与所述值属性数据库中所述识别值相关联的所述最相似的声学状态组和所述基音与发音特征生成响应。
全文摘要
一种语音对话电子设备(300)包括以下功能接收(305,105)包含具有实例化变量(215)的请求短语的语音短语,生成(335,115)实例化变量的基音与发音特征(315),和执行实例化变量的语音识别(319,125)以确定最相似的声学状态组(235)。电子设备利用该实例化变量的最相似的声学状态组和基音与发音特征生成(335,140)实例化变量的合成值。电子设备利用一组预先输入的唯一确定的变量的值,其中这些值与由每个值的接收确定的最相似的声学状态组和基音与发音特征关联在一起,以消除(425,430)最新接收的实例化变量的歧义。
文档编号H04M1/66GK101253547SQ200680014400
公开日2008年8月27日 申请日期2006年3月20日 优先权日2005年4月29日
发明者宸 刘, 史蒂文·J·诺兰, 特德·马祖尔凯维奇, 程燕鸣, 詹姆斯·R·塔利, 韦元军, 马长学 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1