语音对话方法和系统的制作方法

文档序号：7637180阅读：273来源：国知局

专利名称：语音对话方法和系统的制作方法
技术领域：
本发明属于语音对话系统领域，特别是使用者说出短语进行确认的领域。
背景技术：
当前对话系统通常采用语音作为输入和输出形式。语音识别功能用于将语音输入转换为文本，而文本到语音(TTS)功能用于将文本表现为语音输出。在很多对话系统中，TTS主要用于提供音频反馈以确认语音输入。例如，在手持式通讯设备中，用户可以使用语音输入来进行姓名拨号。当使用TTS来确认语音输入时提高了可靠性。然而，使用TTS的传统确认功能占用了大量时间和资源研究每一种语言，同时也消耗了手持式通信设备中大量的存储资源。这成为使用这种对话系统的多语言设备在全世界推广的主要问题。

本发明采用示例进行说明但不限于附图，其中类似的参考表示类似元件，并且其中图1是表示根据本发明一些实施例的语音对话方法的流程图；图2是表示根据本发明一些实施例的示范语音短语分析图表；图3是表示根据本发明一些实施例的执行语音对话的电子设备的方块图；以及图4是表示根据本发明一些实施例的语音对话方法的流程图。熟练技术人员明白，附图中的元件仅简明地示出，而不一定按比例绘制。例如，为了更好的理解本发明的实施例，附图中的一些元件的尺寸相对于其他元件被放大。
具体实施方式
在对根据本发明的语音对话系统的特定实施例进行详细描述之前，首先说明，本发明的实施例主要集中在有关语音对话系统的方法步骤和装置构件的组合。因此，装置构件和方法步骤在图中采用常用符号适当地进行表示，仅表示那些与理解本发明相关的特定细节，以避免将本公开与那些对具有本说明书中益处的本领域普通技术来说已经明显的细节相混淆。同样应当理解，除非特别说明其特定含义，否则这里使用的术语和表述具有这些术语和表述各自相应调查和研究领域的普通含义。在本申请中，关系术语例如第一和第二，顶部和底部，仅仅是用来区分一个实体或动作与另一个实体或动作并不要求或暗示这些实体或动作之间的实际关系或顺序。术语"包含"或其他任何类似的变化旨在表示非排他性包含，例如包含一系列要素的过程、方法、物品或装置不仅仅包含这些要素，还可以包含其他没有特别列出的要素或者这些步骤、方法、物品或装置中固有的要素。由"包含……"引导的要素，没有更多限制时，并不排除在包含该要素的过程、方法、物品或装置中还存在同样的要素。在本文中使用的"组"可以表示空的组。这里使用的术语"另一个"被定义为至少一第二或者更多。这里使用的术语"包括"和/或"具有"被定义为"包含"。这里使用的与电光技术相关的术语"耦合的" 被定义为连接，但不一定表示直接地、也不一定表示机械地。这里使用的"程序"被定义为设计用于在计算机系统上执行的一系列指令。"程序"，或"计算机程序"，可以包括子程序、功能、过程、对象方法、对象实现、可执行应用程序、小应用程序、伺服程序、源代码、目标代码、共享程序附图l、 2和3，展示了根据本发明一些实施例的语音对话方法的一些步骤的流程图IOO(附图1)，语音短语的分析图以及电子设备300 (图3)的方块图。在步骤105 (附图1)，用户在对话中发出的语音短语由电子设备300的麦克风305 (附图3)接收并由电子设备300利用常规技术转换为数字采样信号307。语音短语由包含实例化变量的请求短语组成，且可以进一步包含不可变片段。在附图2所示的实施例中，语音短语为"拨TomMacTavish"。在这个语音短语中，"拨"是不可变片段，而"TomMacTavish"是实例化变量的名字(也就是，变量的特定值)。这个实施例中的不可变片段是命令〈拨〉，并且这个变量在示例中具有变量形式就是〈拨名字〉。这个语音短语可以选择性的不包含不可变片段或者包含一个以上的不可变片段，也可以包含一个以上实例化变量。例如，为响应接收到的附图2所示的语音短语示例，电子设备可以合成响应"请重复名字"，因为正确的语音短语可以只包含名字，没有不可变片段。在另一个实施例中，语音短语可以是"把这个图片用邮件发送给Jim Lamb"。在这个示例中，"用邮件发送"是不可变片段，"图片"是类型〈用邮件发送目标〉的实例化变量，"JimLamb"是类型〈拨名字〉的实例化变量。电子设备300 以常用方式存储各组变量和不可变片段值的数学模型，例如隐马尔可夫模型(HMM)。这里可以有一个以上的HMM，例如一个用于不可变片段，而一个用于各种变量类型的每一个，或者HMM可以是所有变量类型和不可变片段的联合模型。在步骤IIO (附图1)，电子设备 300的语音识别功能310 (附图3)在定时间隔220 (附图2)对语音短语的数字化电信号进行处理，例如10毫秒，并生成基音与发音特征315，而且生成语音短语的声学向量。这些声学向量可以是Mel频率倒谱系数(MFCC)或者是另一个常规(或非常规的)类型的特征向量。这些可能更通常地被作为声学特征描述。在附图2所示的示例中，声学向量用一系列逻辑框225表示，而基音与发音特征用一系列逻辑框230 表示。根据由至少一种类型的变量(例如〈拨名字〉)的一组值(例如Tom MacTavish， Tom Lynch， Steve Nowlan， Changxue Ma，......)的声学状态得到的声学状态的存储模型，语音识别功能310从最可能代表接收到的每一个实例化变量和不可变片段(当存在不可变片段时) 的声学向量的存储模型中选择一组声学状态。在一个示例中，存储模型是常规隐马尔可夫模型(HMM)，但是也可以采用其他模型。在更普通的情况下，定义表示变量存储值的状态，使得它们可以被该数学模型用于查找最相匹配的一组由接收到的音频片段得到的声学特征和一组表示变量值的状态。尽管在常规语音识别系统中HMM模型被广泛用于实现这种目的，但是其他模型是公知的并且其他模型是可以被开发的；这些模型可以被有益地用于本发明的实施例中。被选择的不可变片段的声学状态组确定该不可变片段的值325 (附图3)，在步骤 120完成不可变片段的语音识别。最能代表实例化变量的该组声学状态被称为为该实例化变量的最相似的声学状态组320，在步骤125，最相似的声学状态组的选择完成了的实例化变量语音识别部分。在附图2 所示的示例中，实例化变量"TomMacTavish"的最相似的状态组用一系列声学状态235表示。依照一些实施例，响应短语判决器330 (附图3)根据不可变片段 (当其存在于声音短语中时)的识别值325和由对话历史功能器327 (附图3)产生的对话历史确定响应短语。在附图2所示的实施例中，不可变值〈拨〉已经被确定并且可以用于不使用对话历史来确定产生响应短语"你想要拨号吗"240的音频。在一些实施例中，每个响应短语的值的一组声学状态被存储在电子设备300中，并且与存储的基音与发音值一起釆用常规的声音合成技术生成该响应短语的数字音频信号331，在附图2中用一组声学向量245和相应的基音与发音特征250 表示。在其他实施例中，响应短语的数字化音频采样被存储并且被用于直接生成响应短语的数字音频信号331。电子设备300进一步包含合成实例化变量生成器335，该实例化变量生成器根据与接收到的音频短语的基音与发音特征校准的最相似的声学状态组生成合成实例化变量的数字化音频信号336，在附图2中用声学向量255和基音与发音特征 260表示。基音与发音特征的持续时间被延长或縮短，以在校准期间与从最相似的声学状态组生成的声学向量匹配。数据流合成器340接着以适当的顺序合成响应短语的数字化音频信号与合成实例化变量。在合成过程中，响应短语的基音与发音特征可以根据那些存储的进行修正，以更好地与那些用于合成实例化变量的相混合。在附图2所示的实施例中，当被选中的最相似的声学状态组针对被叫名字的值是Tom MacTavish时，响应短语和合成实例化变量的表示，在大多数情况下"Tom MacTavish" 265可以典型地被用户理解，允许用户确认选择的正确性。另一方面，当所选的最相似的声学状态组针对被拨叫名字时，例如Tom Lynch时，响应短语与合成实例化变量"Tom Lynch" 270的表示很难使用户与请求的Tom MacTavish混淆因为不仅是错误的选择和使用值，而且在大多数情况下向用户表现出的是错误的基音与发音特征，使用户很容易给出不确认该选择。实质上，根据接收到的短语的基音与发音，正确的变量值与语音学上接近但不正确的变量值之间的区别被扩大了。在一些实施例中，电子设备300的可选质量评估功能345(附图3) 确定最相似的声学状态组的质量量度，当质量量度达到了标准，质量评估功能345控制选择器350将数据流合并器的数字音频信号输出与将数字音频信号转换为模拟信号的扬声器相耦合并且使用它驱动扬声器。质量评估功能345 (附图3)执行的确定和控制实施为可选步骤130 (附图1)，在这里确定最相似的声学向量组的量度是否达到标准。通过响应短语判决器330生成响应短语的数字信号331的部分实施为步骤135 (附图3)，其中给出声学存储的响应短语。根据最相似的声学状态组和实例化变量的基音与发音特征生成合成实例化变量的数字化音频信号336的部分包含在步骤140 (附图l)。在那些可选质量评估功能345 (附图3)确定最相似的声学状态组的质量量度的实施例中，当质量量度没有达到标准时，在步骤145(附图1)中质量评估功能345控制可选选择器350将来自未辨别词汇(OOV)音频响应功能360的数字化音频信号耦合到给出用户表示未辨别词汇提示的短语扬声器功能355。例如，未辨别词汇提示可以是"请重复你最后的短语"。对响应短语采用相同的方式，这个OOV短语可以利用基音与发音特征存储为数字化采样或者声学向量，或者类似的形式。在没有利用量度确定是否给出OOV短语的实施例中，数据流合成器功能340的输出与扬声器功能355直接耦合，步骤130和145 (附图 1)被删除。在那些利用量度确定是否给出oov短语的实施例中的量度可以是表示对已进行的最相似的声学状态组的正确选择的置信度。例如，这个量度可以是表示实例化变量声学向量组与被选择的最相似的声学状态组之间的距离。依照附图4，给出了根据本发明一些实施例的语音对话方法的流程图。步骤105-125在上面参考附图1的内容已经进行了说明。在步骤 410，被确定为正确地响应了至少一个变量的唯一值的实例化变量被存储在值属性数据库中，每一个识别值都与用于标识该值的已存储的实例化变量的最相似的声学状态组和基音与发音特征相关联。包含具有新实例化变量的新请求短语的新语音短语在步骤415接收。识别值在在步骤420通过第二实例化变量的语音识别被确定。在步骤425，至少一个最相似的声学状态组和基音与发音特征是根据与具有消除歧义可能性的识别值相关联的值属性数据库确定。在步骤430，根据与值属性数据库中的识别值相关联的最相似的声学状态组和基音与发音特征生成响应。应当理解，通过这种方法，与一个或多个先前接收到的变量相关联的声学状态和基音与发音特征可以用于代替新接收到的实例化变量，以更好地消除该实例化变量的歧义。这里描述的语音对话方法100、 400和电子设备300的实施例可以广泛应用于各种电子装置例如，但不局限于，便携式电话、个人娱乐设备、寻呼机、电视线缆机顶盒、电子设备遥控单元，手提式或台式或主机计算机，或电子测试装置。相对于包括了语音识别直到最相似的实例化变量的文本版本与根据合成实例化变量的文本语音合成的确定现有技术，这些实施例提供了縮短开发时间和减少所需处理资源的有益效果。这些有益效果部分是避免开发用于这里所描述的实施例的不同讲话语言的合成变量的合成的文本语音转换软件系统的结果。可以理解，这里描述的语音对话实施例可以包含一个或多个常规处理器和唯一的存储程序指令，其控制一个或多个处理器结合非处理器电路，以实现一些、更多或者所有的这里所描述的语音对话实施例的功能。这个唯一的存储的程序可以通过媒体传递，例如软盘，或在下载包含唯一程序的文件的数字信号传递。这个非处理器电路可以包括，但不限于，无线电接收机、无线电发射机、信号驱动器、时钟电路、电源电路以及用户输入设备。这样，这些功能可以解释成执行访问通信系统的方法的步骤。或者，一些或所有功能可以通过没有存储程序指令的状态机来完成，其中每一个功能或某些功能的结合可以作为定制逻辑来完成。当然，也可以使用两种方法的组合。这样，以上所描述的就是这些功能的方法和装置。在前面的详细阐述中，本发明及其效益和优点通过特定的实施例己经被描述了。但是，本领域的普通技术人员应当理解各种修正和替换都在下面本发明所列出的权利要求的保护范围之内。因此，说明书和附图作为展示而不是作为限制，并且所有这样的修正都包括在本发明的范围之中。上面所描述的实施例的一些部分是常规技术，但是应当理解这些部分也可以采用现在未知的装置和/或技术实现。效益、优点、技术问题的解决方案，以及可以使效益、优点或解决方案出现或更加显著的任何要素不构成任何或者所有权利要求的关键的、必须的或本质的特征或者要素。
权利要求
1.一种语音对话方法，包括接收语音短语，该语音短语包含具有实例化变量的请求短语；生成所述实例化变量的基音与发音特征；执行对所述实例化变量的话音识别，以确定最相似的声学状态组；以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发音特征生成所述实例化变量的合成值。
2. 根据权利要求l所述的语音对话方法，其中所述请求短语进一步包括与所述实例化变量相关联的不可变片段，进一步包括执行对所述不可变片段的话音识别；以及呈现声学存储的响应短语。
3. 根据权利要求l所述的语音对话方法，其中执行对所述实例化变量的话音识别包括确定所述实例化变量的声学特征；以及使用存储查找值的数学模型和所述声学特征确定所述最相似的声学状态组。
4. 根据权利要求3所述的语音对话方法，其中所述存储查找值的数学模型是隐马尔可夫模型。
5. 根据权利要求l所述的语音对话方法，其中生成所述实例化变量的合成值是在所述最相似的声学状态组的量度符合标准时执行的，并且进--步包括在所述最相似的声学状态组的量度不符合该标准时，呈现声学存储的未辨别词汇响应短语。
6. —种语音对话电子设备，包括用于接收语音短语的装置，该语音短语包含具有实例化变量的请求短语；用于生成所述实例化变量的基音与发音特征的装置；用于执行对所述实例化变量的话音识别以确定最相似的声学状态组的装置；以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发音特征生成所述实例化变量的合成值的装置。
7. 根据权利要求6所述的语音对话电子设备，其中所述请求短语进一步包括与所述实例化变量相关联的不可变片段，进一步包括用于执行对所述不可变片段的话音识别的装置；以及用于呈现声学存储响应短语的装置。
8. —种包括存储程序指令组的媒体，包括接收语音短语的功能，该语音短语包含具有实例化变量的请求短语；生成所述实例化变量的基音与发音特征的功能；执行对所述实例化变量的话音识别以确定最相似的声学状态组的功能；以及利用所述最相似的声学状态组和所述实例化变量的所述基音与发音特征生成所述实例化变量的合成值的功能。
9. 根据权利要求8所述的媒体，其中所述请求短语进一步包括与所述实例化变量相关联的不可变片段，进一步包括执行对所述不可变片段的话音识别的功能；以及呈现声学存储响应短语的功能。
10. —种语音对话方法，包括接收包括一个或多个实例化变量的一个或多个语音短语；生成所述一个或多个实例化变量的基音与发音特征；执行对所述实例化变量的话音识别以确定所述一个或多个实例化变量的每一个的最相似的声学状态组；存储最相似的声学状态组和所述一个或多个实例化变量的基音与发音特征，它们每一个都被确定为正确地对应于值属性数据库中变量的唯一值，每一所述最相似的声学状态组和基音与发音特征与它对应的唯一值相关联地存储；接收新语音短语，该新语音短语包含具有新实例化变量的新请求短语；通过对所述新实例化变量的话音识别确定识别值；从具有消除所述识别值歧义可能性的值属性数据库中确定最相似的声学状态组和基音与发音特征；利用与所述值属性数据库中所述识别值相关联的所述最相似的声学状态组和所述基音与发音特征生成响应。
全文摘要
一种语音对话电子设备(300)包括以下功能接收(305，105)包含具有实例化变量(215)的请求短语的语音短语，生成(335，115)实例化变量的基音与发音特征(315)，和执行实例化变量的语音识别(319，125)以确定最相似的声学状态组(235)。电子设备利用该实例化变量的最相似的声学状态组和基音与发音特征生成(335，140)实例化变量的合成值。电子设备利用一组预先输入的唯一确定的变量的值，其中这些值与由每个值的接收确定的最相似的声学状态组和基音与发音特征关联在一起，以消除(425，430)最新接收的实例化变量的歧义。
文档编号H04M1/66GK101253547SQ200680014400
公开日2008年8月27日申请日期2006年3月20日优先权日2005年4月29日
发明者宸刘, 史蒂文·J·诺兰, 特德·马祖尔凯维奇, 程燕鸣, 詹姆斯·R·塔利, 韦元军, 马长学申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马长学;程燕鸣;刘宸;特德.马祖尔凯维奇;史蒂文.J.诺兰;詹姆斯.R.塔利;韦元军
技术所有人：摩托罗拉公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。