口语系统的制作方法

文档序号：2834615阅读：221来源：国知局

专利名称：口语系统的制作方法
背景技术：
口语系统一种由设备识别说出来的单词的系统；也就是说，说话声被系统的识别部件解释，并转换为语义内容和词汇形式，并且使用合成的或者预先录制的语音作出响应。这样的口语系统的范例是某些使用客户的话音(而不仅仅使用键选择)来进行交互的自动电话客户服务系统、以及免于用手的车辆控制系统，比如蜂窝电话拨号。在解释说话声的过程中，某些口语系统使用置信度分数，从词典或者多个词典中选择出已经说出来的单词的语义内容和词汇形式。此类系统是已知的。在某些此类系统中，此类系统向说出单词的用户呈现估计的语义内容，以便核实它的准确性。以口语系统中的合成话音的形式来呈现这些估计语义内容的解释后的单词，但也可以在显示器上呈现。口语系统的识别部件容易错误地识别所说出的单词，特别是在噪声环境中或是由于说话人和音频路径的变化。当需要精细级别的精确度时，比如在话音拨号应用中，系统通常在实际拨打电话前请求确认。部分确认可以包含将所识别出来的内容重复返回给用户，例如“呼叫家中的比尔”。为了使这种系统高效，存在一些待克服的问题。首先，语音输出的综合质量可能是不良的，特别是如果使用文语转换来合成而不是预先录制语音的的话，这在诸如蜂窝手机之类的资源受约束设备中很典型。因此，更多的用户认知能力被仅仅专注到破译发言上。其次，所使用的韵律学(音调和节拍)往往仅适用于说明性的句子。这使得用户难以领会到所识别的输入中的哪一部分需要校正或者确认，更一般来讲是什么信息是关键的，而什么是背景。最后，音频反馈可能占用太多时间。特别是对于通过使用惯常使用的韵律学用话音重复十位的电话号码来进行数字拨号的情况，当人们想要拨打电话时，可能会觉得这样做费时太多。
常规口语系统已经能够提供成功的人类交互，但这种交互并没有象它应该做到的那样高效和令人满意。

本发明是在附图中以范例的方式而非限制的方式来说明的，其中类似的参考标记指示类似的要素，并且其中图1示出根据本发明的最佳实施例的口语系统的方框图；图2示出在根据本发明的最佳实施例的口语系统中使用的方法的流程图；图3示出根据本发明的最佳实施例的对于由用户说出的并由口语系统接收的单词序列的置信度分数的图表；以及图4、5和6是显示根据本发明的最佳实施例的由口语系统作出的示例性调节的图示。
本领域技术人员将理解的是图中的要素是为简单和清晰起见而举例说明的，并不一定是按比例描绘的。例如，可能为了帮助更好地理解本发明的各个实施例，相对于其他元素放大了图中的一些元素的维度。
具体实施例方式
在详细说明根据本发明的具体口语系统之前，应注意到本发明主要是以与口语系统相关的方法步骤和设备部件的组合形式存在的。因此，所述设备部件和方法步骤在附图中以惯用符号适当表示出，仅仅示出了与理解本发明有关的细节，以免用对于受益于此处说明的本领域普通技术人员而言容易清楚的细节来模糊所公开的内容。
本发明适用于包括语音识别和生成部件两者的任何交互系统，即支持完全混合自发的对话或者简单的命令和控制交互的口语系统。本发明涵盖向用户呈现没有被语义地解释、而是作为系统对于用户讲话输入的逐字内容的最佳猜测的内容表示。
参见图1和2，示出了根据本发明的最佳实施例的口语系统100的方框图(图1)、和在口语系统100中使用的方法的流程图200(图2)。口语系统100包括与生成部件140耦合的识别部件120。口语系统可以是依赖于话音交互的任何系统，比如蜂窝电话或者其他便携式电子设备、家用电器、测试设备、个人计算机和大型计算机。识别部件120包括用于接收声音并将声音转换为电信号的麦克风110或等效物、以及识别处理器115。识别部件120接收215(图2)由麦克风110和相关电子线路转换为模拟信号112的口语单词序列105。识别处理器115使用常规技术从它们中生成220识别出的单词序列130。识别处理器115使用常规技术为所识别出的单词序列130中的每一单词分配225一个置信度分数，用于将接收的声音与已存储的声音模式相匹配。识别出的单词序列130和关联的分数置信度序列131被耦合到生成部件140。生成部件140包括表示呈现处理器145和扬声器150或等效设备。生成部件140通过在单词属于后续的确认或者澄清表示的一部分时，依据序列中的单词的置信度分数，将具有标称声学性能的单词的声学表示组合起来235，并参考它们的标称声学性能调节单词的声学性能以便增加或减少序列中的单词的声学和知觉起伏度，并连同其它动作一道生成所识别出的单词序列130的表示142。然后通过由适当的电路放大并由扬声器150转换为声音155，来呈现245已调节的单词序列或者表示142。
识别处理器115和呈现处理器145可以是由单个微处理器或者由按照存储的编程指令工作的单个计算机执行的基本独立的功能，或者是由连接在一起的两个或更多处理器执行的分布式功能。在一个实施例中，口语系统100是蜂窝电话手机的一部分，该蜂窝电话手机还包括无线电收发信机，用于建立通过利用口语系统而免提拨打的电话，并且识别处理器115和呈现处理器145是该蜂窝电话的单一控制处理器中的功能。在本实施例中，扬声器150可以是除了蜂窝电话的听筒扬声器之外的设备，并且扬声器150可以与蜂窝电话手机分离。
调节序列中的单词的声学上下文的主要益处是增强了用户使用口语系统100的体验。例如，当单词收到高置信度分数(即，表示在标准置信度范围之外的高置信度的置信度分数，而不一定是很高的数字)，该单词(据此，其在此处被描述为高置信度单词)可能不需要来自用户的确认或者纠正。因此，当单词被表示为确认语句或者查询的一部分时，该单词可能接受缩短的持续时间、压缩后的音调范围和/或不精确的发音。相反地，如果单词收到低的置信度分数(即，表示在标准置信度范围之外的低置信度的置信度分数，而不一定是很低的数字)，则调节后的声学性能提示并允许用户确认或者纠正口语系统100可能呈现的低置信度单词(即，具有低置信度分数的单词)。因此，所呈现的低置信度单词可以接受增加的持续时间和/或音调范围、和/或与这些参数的标称值相比更精确的乃至更夸大的发音。口语系统100甚至可以延长在低置信度单词之前的字间间歇以便向用户警告有问题的区域，和/或延长在低置信度单词之后的字间间歇以便给用户确认或者纠正它、或者取消口语系统的动作(响应于错误识别的单词)的时间。为了本描述的目的，单词之间的所有延迟均被标识为字间间歇或仅仅标识为间歇，以便简化描述。因此，当是标准的流利语音中使用的间隙的时候，两个单词之间的标称延迟(在有些情况下可能短到零毫秒，而在其他实例中可能例如为50毫秒，并且在有些情况下可能更长)被称作标称间歇。本发明的方法不仅适用于独立单词-它可以适用于更大的单位，比如短语、句子甚至整个发言。
本发明解决了口语系统中的两个有问题的区域(1)注意力聚焦它提供了将用户的注意力吸引到不可靠区域、并远离不需要作出进一步工作的区域的手段。这支持了用户认知资源的有效利用。(2)等待时间对具有高置信度分数的单词加速-整体地产生起伏度-减少声学变化-显著地减少了系统响应的等待时间并且从而有助于将用户受挫失败的情况最小化。这与数字拨号应用特别相关，在这种应用中必须准确地识别出每一数字。由于数字识别通常达到超过95％的准确性，所以大部分置信度分数很高，并且通过使用本发明的方法，可以当将具有高置信度的数字重复回给用户时加速该具有高置信度的数字，减少了等待时间和用户受挫失败情况。
单词的声学性能包括单词的声学特征，其通常被改变以便减少或者增加声学起伏度，这些声学特征主要是持续时间、音调范围、语调轮廓(例如平坦、上升、下降等等)、强度、发声类型(例如耳语、叽叽嘎嘎的话音、标准)和发音精确度。这些特征的实际实现取决于语音呈现的方法。当语音呈现是由文语转换(TTS)系统提供的时候，声学特征调节伴随有控制命令，该控制命令影响所呈现单词的音调、节拍、强度和发声特性，比如耳语或者叽叽嘎嘎话音。通过添加、置换或者删除音素来改变发音的精确度。当由预先录制的语音或者单词来形成该呈现的时候，可以应用直接的信号操作(例如，PSOLA-音调同步的覆盖和添加)来改变音调(F0)和节拍(持续时间)特征。强度是通过倍增信号振幅来增加或减少的。当由预先录制的话音或者单词来形成呈现的时候，还可以使用替代的记录来实现发音和发声中的变化。
单词的声学性能还包括单词或者一组单词的声学上下文，这可以被改变，也就是通过在具有低置信度分数的单词前后、或者在包含具有低置信度分数的单词的一组单词前后延长字间间隙。在之前(这是可选的)延长的字间间歇模拟人类会话中的实际做法，发言者往往在说出一个困难的单词或者概念之前有所犹豫。在之后延长的字间间歇允许用户容易地介入来纠正或确认低置信度单词或者中断基于错误识别的动作。
置信度分数和单词特征的不同组合可被用于确定对于单词及其上下文的声学调节的类型、幅度和位置。此外，这些过程也适用于更大的语言单位，比如短语、句子甚至整个发言。
参见图3，显示了根据本发明的最佳实施例的用于由用户说出的由十个数字电话号码构成的单词序列的置信度分数的图表。用户已说出847 576 3801。口语系统100接收并识别该口语单词序列，并为除“6”之外的所有数字(单词)计算高置信度分数，并将6解释为5。识别处理器解释成(作出所说出的单词的最佳估计)图表的第一行列出的数字，并分配了在图表的第二行中示出的置信度分数。因此，口语系统答复“拨打876”(使用缩短的字间间隙，快速地呈现四个单词中的每一个)发生字间间歇(被用于分隔拨号数字组的标称长度)“57”(单词的标称持续时间和字间间歇)在7之后发生延长的字间间歇“5”(慢慢地，并且在英语中使用上升的语调来表达不可靠性)发生延长的字间间歇(供用户用于纠正数字或者停止拨号动作)在此刻，用户可以插入“576”作为上述动作序列的典型结果，系统也许能为所讨论的该单词(数字)分配高置信度分数，并可以随后快速呈现“好的，拨打847 5763801”。或者，如果用户确定响应于所说出的单词序列而采取的动作(拨号)是错误的(例如，由于一些单词的解释中出现的错误)，用户可以插入一个命令比如“停止”，来结束这一特定的交互。可以在其他环境中期待(比“停止”)更长的命令，以便可以通过最长的一组可预测响应来确定单词之后的间歇延长。同时，将理解的是，在包括低置信度单词的一组单词之后创建“纠正”间歇是适当的。例如，如果在上述范例中7是一个低置信度单词，则可能最好的是延长在组“576”之后呈现的间歇而不是延长直接在呈现7之后的间歇。此外，口语系统100可以在延长的间歇期间确定正被接收的纠正单词或者命令正在接近纠正间歇的末尾，并且能够动态地延长纠正间歇以便用户可以完成纠正或者命令。因此，紧接着低置信度单词的间歇(也就是说，在其中的一些单词内部，或者之前，或者之后)在低置信度单词的声学上下文之内，并且可以与它们的由低置信度单词的置信度分数确定的标称值不同。
参看图4、5和6，这些图示显示出根据本发明的最佳实施例的由口语系统100作出的示例性调节。在图4中，由扬声器图标401表示的用户说出电话号码的七个数字，576 3801。口语系统为序列中的所有接收和识别的数字分配高置信度，并且使用数字之间的标称间歇来呈现该序列。除了三个的第一组410和四个的最后一组420之间的间歇415之外，这些间隙都十分短。间歇415是100毫秒，这代表标准语音和标称间隙，表示已准确地识别所有数字的高置信度。在图5中，说出相同的数字505，但是识别处理器115为数字7分配一个低置信度分数。在最佳实施例的这一实现方式中，呈现处理器145使用数字7的置信度分数和数字7的标称声学特征和上下文来确定应该增加数字7的持续时间511，所呈现的第一和第二组数字510、520之间的间歇515应该被延长，并且应该通过缩短每一数字以及每一数字之间的间隙(其中，它们是非零的)来缩短第二组数字520。这些调节强调了低置信度单词(7)，提供了纠正单词的插入，并且为用户提供表明第二组520中的单词全部正确的指示。在图6中，说出相同的数字605，但是识别处理器115为数字8分配一个低置信度分数。在最佳实施例的这一实现方式中，呈现处理器145使用数字8的置信度分数和标称声学特征和上下文来确定应该对所呈现的第一组单词610加速，应该在两组数字610、620之间使用标准的间歇615，并且在所呈现的第二组单词620中，应该通过应用表达对比重音的音调轮廓来呈现数字8，并且应该为短语(第二组数字620)施加最终的音调上升。这举例说明了本发明的一个特征，它为包括具有低于标准范围的置信度分数的单词的一组单词应用了表达不可靠性的短语轮廓。该短语轮廓能够影响该组单词中的超过一个单词的声学性能。例如，在英语中，该短语轮廓可以是在短语的末尾的几个单词上发生的最终音调上升。然而，不同语言的短语轮廓可能不同，以便符合特定预言的标准用法。此外，不同的声学性能调节能够应用于此处所述的全部声学性能，以便在不同的语言之中提供本发明的最多益处。
下文中给出按照置信度分数所确定的来改变单词序列中的单词的声学性能的几个伪代码范例。在本范例中，低于标准范围的置信度分数表示低置信度，而高于标准范围的置信度分数指示高置信度。
1.仅仅改变持续时间，其中对单词的音节进行加权改变在该情况下，依据音节是否携带词汇重音，通过音节来区别地改变单词持续时间——具有词汇重音的音节接受更多的延长和更少的缩短。基于音节的改变与重音定节拍的语言相关，比如英语，但是与音节通常具有相等长度的语言不相关，比如西班牙语。
如果置信度分数是在标准范围内持续时间无变化低于标准范围增加词汇重音音节的持续时间并且随后增加整个单词的持续时间高于标准范围降低词汇无重音音节的持续时间并且随后降低整个单词的持续时间。
2.改变之前间歇的持续时间在该情况下，延长在单词之前的间歇的持续时间。这是人类对话中的典型手段，用于向听众警告随后的单词的可能认知困难和/或重要性。在本范例中，间歇的长度反映出置信度分数和随后的信息的种类。例如，如果随后的单词是数字，则需要用足够的置信度来识别。
如果置信度分数低于标准范围并且还极其低基于置信度分数和信息类型计算之前间歇的长度在单词之前插入之前间隙。
3.改变随后间歇的持续时间延长单词之后的间歇如果置信度分数低于标准范围并且还极其低如果允许插入基于置信度分数和信息类型计算随后的间歇的长度在单词之后插入具有随后间歇长度的间歇。
4.改变多个声学性能如果置信度分数是在标准范围内无变化低于标准范围增加持续时间如果是TTS，则通过音素删除、置换或添加来增加发音高于标准范围降低持续时间如果是TTS，则通过音素删除、置换或添加来减少发音减少音调范围；如果置信度分数低于标准范围并且还极其低基于置信度分数和信息类型计算之前间歇的长度在单词之前插入之前间歇；以及如果置信度分数低于标准范围并且还极其低如果允许插入，基于置信度分数和信息类型计算随后间歇的长度在单词之后插入具有随后间歇长度的间歇。
应被注意的是，尽管如上所述的唯一技术改进了精确话音识别的效率，同时在不对短语添加单词的情况下为大部分用户提供更令人满意的体验，但可能有这样的环境上述技术在这样的环境中可以有益地与改变单词序列(比如，通过为短语添加解释性的或者询问的单词)的传统方法相结合。
在上述说明中，已经参考具体实施例描述了本发明及其益处和优点。然而，本领域中的一名普通技术人员理解的是，可以在不脱离以下在权利要求书中所阐述的本发明的范围的情况下，作出各种改进和改变。据此，说明书和附图应被认为是具有例证性的而不是限制性的意义，并且所有此类改进均被认为是涵盖在本发明范围内。然而，这些益处、优点、对于问题的解决方案，以及可能引起或导致此类益处、优点或解决方案的、或者使此类益处、优点或解决方案发生或更加显著的任何要素都不应当被看作是任何或所有权利要求的关键性、必需的或者必不可少的特征或要素。
此处以及所附权利要求书中使用的术语“包括”或者它的任何其他变型意图是覆盖非排他性的包含，以致包括一个要素列表的过程、方法、制品或者设备，不仅仅包含该列表中的那些要素，还可能包含其他未被明确地列出或者是此类处理、方法、制品或者设备所固有的其他要素。
此处所用的“集合”，意味着非空的集合(即，对于此处所定义的集合，包含至少一个成员)。此处使用的术语“另一个”被定义为至少第二个或更多。此处使用的术语“包含”和/或“具有”被定义为包括。此处参考电光技术所使用的术语“耦合”被定义为连接，尽管不一定是直接地连接，也不一定是机械地连接。此处使用的术语“程序”被定义为被设计在计算机系统上执行的指令序列。“程序”、“计算机程序”可以包括子例程、函数、过程、对象方法、对象实现方式、可执行应用、小应用程序(applet)、小服务程序(servlet)、源代码、目标代码、共享库/动态载入库和/或被设计在计算机系统上执行的其他指令序列。
权利要求
1.一种供口语系统使用的方法，包括根据接收的口语单词序列生成识别出的单词序列；为识别出的单词序列中的每一单词分配置信度分数；以及调节识别出的单词序列的呈现中的单词标称声学性能，依据每一单词的置信度分数来执行该调节。
2.根据权利要求1所述的方法，其中调节包括使用延长后的与具有低置信度分数的单词紧密相邻的字间间歇来调节呈现，其中延长后的字间间歇可识别地大于具有标准范围内的置信度分数的单词所使用的字间间隙。
3.根据权利要求2所述的方法，其中延长后的字间间歇被直接插入到具有低置信度分数的单词之后。
4.根据权利要求2所述的方法，其中延长后的字间间歇被插入到包括具有低置信度分数的单词的一组单词之后。
5.根据权利要求2所述的方法，其中延长后的字间间歇被插入到具有低置信度分数之后，并且基于置信度分数所表示的置信度低于标准范围的数量来确定间歇的持续时间。
6.根据权利要求2所述的方法，其中延长后的字间间歇被插入在具有低于标准置信度分数的单词之后，并且基于纠正响应的可能持续时间来确定延长后的字间间歇的持续时间。
7.根据权利要求6所述的方法，其中纠正响应的可能持续时间是按下按钮的持续时间和预计在延长后的字间间歇期间说出的单词的持续时间中的一个。
8.根据权利要求2所述的方法，其中延长后的字间间歇被直接插入到具有低于置信度分数的单词之前。
9.根据权利要求8所述的方法，其中为较低的置信度分数增加延长后的字间间歇的持续时间。
10.根据权利要求1所述的方法，其中调节包括为具有在标准范围之外的置信度分数的单词修改一组声学特征中的一个或多个的标称值。
11.根据权利要求10所述的方法，其中该组声学特征包括字间间歇、持续时间、音调范围、语调轮廓、强度、发声类型和发音准确度。
12.根据权利要求10所述的方法，其中修改包括以下中的至少一个当置信度分数表示比标称置信度低的时候，增加字间间歇、单词的持续时间、单词的音调范围、单词的音量和单词的发音准确度中的至少之一；以及当置信度分数表示比标称置信度高的时候，减少字间间歇、单词的持续时间、单词的音调范围、单词的音量和单词的发音准确度中的至少之一。
13.根据权利要求10所述的方法，其中该组声学特征还包括单词的每一音节的持续时间变化，并且其中每一音节的持续时间的不同变化是由音节的词汇重音参数来确定的。
14.根据权利要求10所述的方法，其中调节包括使用短语轮廓调节表示，所述短语轮廓表达在包括具有低于标准范围的置信度分数的单词的一组单词内的不可靠性。
15.一种口语系统，包括识别部件，其根据接收的口语单词序列生成识别出的单词序列，并且为该识别出的单词序列中的每一单词分配置信度分数；以及呈现部件，其调节识别出的单词序列的呈现中的单词标称声学性能，依据每一单词的置信度分数来执行该调节。
16.一种便携式电子设备，包括无线电收发信机，其能够建立电话呼叫；识别部件，其从接收的口语单词序列中生成识别的单词序列，并且为该识别的单词序列中的每一单词分配置信度分数；以及呈现部件，其调节识别的单词序列的呈现中的单词标称声学性能，依据每一单词的置信度分数来执行该调节。
全文摘要
一种口语系统(100)包括识别部件(120)，其根据接收的口语单词序列生成(220)识别出的单词序列，并为识别出的单词序列中的每一单词分配(225)置信度分数。口语系统的表示部件(140)调节(240)识别出的单词序列的表示(142)中的单词的标称声学性能，依据每一单词的置信度分数来执行该调节。该调节包括对于所呈现的单词序列中的单词和单词组的声学特征和声学上下文的调节。所述呈现部件呈现(245)调节后的单词序列。
文档编号G10L15/22GK1902682SQ200480022461
公开日2007年1月24日申请日期2004年7月27日优先权日2003年7月31日
发明者巴盖鲁特·塔尔顿, 珍尼特·E·卡恩, 马长学申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：巴盖鲁特.塔尔顿;珍尼特.E.卡恩;马长学
技术所有人：摩托罗拉公司
我是此专利的发明人

上一篇：汽车内装材料用泡沫薄片和汽车内装材料的制作方法
上一篇：卡拉ok装置的制作方法