使用声学特征矢量修正的分布式语音识别系统的制作方法

文档序号:2835056阅读:445来源:国知局
专利名称:使用声学特征矢量修正的分布式语音识别系统的制作方法
背景领域本发明涉及语音信号处理。说得更详细些,本发明涉及使用声学特征矢量修正的分布式语音识别的新颖方法和系统。
背景语音识别代表着把模拟智能赋予机器以识别用户的语音命令以及便于人与机器联系的最为重要的技术之一。使用一些技术从声学语音信号中恢复语言消息的系统称为语音识别(VR)系统。

图1示出基本的VR系统,它具有预加重滤波器102、声学特征提取(AFE)单元104和模式匹配引擎110。AFE单元104把一系列的数字语音样本转换成被称为声学特征矢量的一组测量值(例如,提取的频率分量)。模式匹配引擎110把包含在VR声学模型112中的模式与一系列声学特征矢量相匹配。VR模式匹配引擎通常使用本领域内公知的维特比(Viterbi)译码技术。当从声学模型112识别一系列模式时,对此系列进行分析以得出想要的输出格式,譬如相应于输入发言的经识别的语言学单词序列。
可以把声学模型112描述为从各种语音声音和相关统计分布信息中提取的声学特征矢量的数据库。这些声学特征矢量模式相应于短的语音分段,诸如音素、三单音和全字模型。“训练”指的是为了产生声学模型112中的模式而采集来自一个或多个说话者的特殊语音分段或音节的语音采样的过程。“测试”指的是把从终端用户语音样本提取的一系列声学特征矢量与声学模型112的内容进行相关的过程。给定系统的性能在很大程度上取决于终端用户的语音与数据库内容间的相关程度。
比较理想的是,终端用户在训练和测试期间都提供语音声学特征矢量,从而使声学模型112将与终端用户进行高度语音匹配。然而,由于声学模型112一般必须代表大量语音分段的模式,因此它时常占有大量的内存。此外,收集来自所有可能说话者的声学模型所需的所有数据是不切实际的。因此,许多现有的VR系统使用用许多代表性说话者训练的声学模型。如此设计这些模型,使之对于大量的用户具有最好的性能,但不对任何单个用户进行优化。在使用这样一个声学模型的VR系统中,其识别一个特殊用户的语音的能力将比使用对该特殊用户优化的声学模型的VR系统来识别该特殊用户的语音的能力差。对于某些用户,诸如具有浓重的外来口音的用户而言,使用共享的声学模型的VR系统的性能可能很差,以至他们完全不能有效地使用VR服务。
自适应是一种减轻由于训练和测试条件不匹配引起的识别性能劣化的有效方法。在测试期间,自适应修正VR声学模型以与测试环境紧密匹配。,诸如最大似然线性回归和贝叶斯(Bayes)自适应等这些自适应方案中的数种方案是本领域中公知的。
当语音识别任务的复杂性增加时,在无线装置中容纳整个识别系统也变得更加困难。因此,位于中央通信中心的一个共享的声学模型对于所有的用户提供声学模型。中央基站也对在计算上花费很大的声学匹配负责。在分布VR系统中,声学模型由许多个说话者共享,因而不能对任何单个的说话者进行优化。因此,在本领域中需要这样一种VR系统,它既对多个单独的用户具有改进的性能又减少了所需的计算资源。
概述这里揭示的方法和设备引向一种新颖和改进的分布语音识别系统,在该系统中使用了依赖于说话者的处理,以在语音识别模式匹配之前变换声学特征矢量。按照具有根据说话者而改变的参数的变换函数,按照使用一种自适应模型的中间模式匹配处理的结果,或按照它们二者,进行依赖于说话者的处理。可以在移动站,在通信中心,或在二者的组合中进行依赖于说话者的处理。也可以在语音识别模式匹配前使用依赖于环境的处理对声学特征矢量进行变换。可以修正声学特征矢量以适应运行的声学环境(环境噪声、话筒的频率响应、等等)的改变。也可以在移动站,在通信中心,或在二者的组合中进行依赖于环境的处理。
这里使用“示范的”一词来表示“用作例子、情况或说明”。不必把作为“示范的实施例”描述的任何实施例认作是较佳实施例或者比另外的实施例更有利。
附图简述通过下面结合附图的详细描述将使得现在揭示的方法和设备的特征、目的和优点变得更加明显,附图中的相同的附图标记始终对应相同的组成部分,其中图1示出基本的语音识别系统;图2示出按照一个示范实施例图3示出进行分布VR的一种方法的流程图,其中声学特征矢量修正以及特征矢量修正函数的选择完全在移动站内发生;图4示出进行分布VR的一种方法的流程图,其中声学特征矢量修正以及特征矢量修正函数的选择完全在通信中心内发生;图5示出进行分布VR的一种方法的流程图,其中使用中央声学模型以优化特征矢量修正函数或自适应模型。
详述在标准的语音识别器中,无论在识别中还是在训练中,大多数的计算复杂性集中在语音识别器的模式匹配子系统中。在无线系统的上下文中,为了把由语音识别应用所消费的经空中的带宽减至最小,语音识别器是作为分布系统来实施的。此外,分布VR系统避免了由于语音数据的有耗源编码而造成的性能劣化,这在诸如使用声码器时常出现。这样一种分布的构造在名为“分布语音识别系统”的第5,956,683号美国专利中有详细的描述,该专利转让给了本发明的受让人,并在这里称为′683专利。
在一个示范的无线通信系统中,诸如在数字无线电话系统中,通过在移动电话或移动站中的扩音器接收用户语音信号。然后把模拟语音信号进行数字取样以产生数字样本流,例如每秒钟8000个8位语音样本。直接把语音样本经无线信道发送是很不经济的,因此一般在传送之前把信息加以压缩。通过称之为语音编码(vocoding)的技术,声码器把语音样本流压缩为一系列小得多的声码器包。然后通过无线信道发送较小的声码器包而不是它们所代表的语音样本。然后由无线基站接收声码器包,然后进行语音译码以产生语音样本流,然后通过扬声器提供给聆听者。
声码器的一个主要目的是尽可能压缩说话者的语音样本,同时使得聆听者在对语音样本进行语音译码时能够明白发言。声码器算法一般是有耗压缩算法,从而经语音译码的语音样本与原先语音编码的样本不严格匹配。此外,时常对声码器算法进行优化,这样尽管在通过无线信道的传输中丢失一个或多个声码器包,仍能产生可以理解的经语音译码的发言。这种优化能够导致输入声码器的语音样本和由语音译码得到的结果之间进一步的失配。一般,由于语音编码和语音译码的语音样本的变更使得语音识别算法的性能变坏,虽然变坏的程度在不同的声码器算法之间变化很大。
在′683专利描述的系统中,远端站完成声学特征提取并且经无线信道发送声学特征矢量而不是声码器包至基站。由于声学特征矢量占用的带宽要比声码器包小一些,因此能够通过相同的无线信道以更强的抗通信信道差错能力(例如,使用前向纠错(FEC)技术)发送声学特征矢量。当使用依赖于说话者的特征矢量修正函数对特征矢量作如下所述的进一步的优化时,能够实现的VR性能甚至超出了在′683专利中描述的基本系统的性能。
图2示出按照一个示范的实施例的分布VR系统。声学特征提取(AFE)在远端站202内发生,而通过无线信道206传送声学特征矢量至基站和VR通信中心204。本领域的技术人员将理解,这里描述的技术同样可以应用于一个不包含无线信道的VR系统。
在所示的实施例中,来自用户的语音信号在扩音器(MIC)210中转换成电信号,而在模一数转换器(ADC)212中转换成数字语音样本。然后用预加强(PE)滤波器214(例如,衰减低频信号分量的有限脉冲响应(FIR)滤波器)对于数字样本流进行滤波。
然后在AFE单元216中分析经过滤波的样本。AFE单元216把数字语音样本转换为声学特征矢量。在示范的实施例中,AFE单元216对一段连续的数字样本进行富里叶(Fourier)变换,以产生相应于不同的频率箱的信号强度矢量。在示范的实施例中,频率箱按照巴克标尺(bark scale)具有不同的带宽。在巴克标尺中,每个频率箱的带宽与该箱的中心频率有这样的关系,从而频率较高的频率箱比频率较低的频率箱有较宽的频带。在Rabiner,L.R.和Juang,B.H.所著的《语音识别基础》(Prentice Hall出版社,1993年)中描述了巴克标尺,它在本领域中是公知的。
在示范的实施例中,每个声学特征矢量是在固定的时间间隔内从一系列语音样本中提取的。在示范的实施例中,这些时间间隔是重叠的。例如,声学特征可以从每隔10毫秒开始的时间间隔为20毫秒的语音数据获得的,这样每两个连续的时间间隔共享10毫秒的分段。本领域的技术人员理解,可以用非重叠的或具有不固定的持续时间的时间间隔来取代所述的时间间隔而不偏离这里描述的实施例的范围。
由AFE单元216产生的每个声学特征矢量(在图12中用X来表示)提供给自适应引擎224,它完成模式匹配以根据自适应模型228的内容来表征声学特征矢量。根据模式匹配的结果,自适应引擎224从存储器227中选出一组特征矢量修正函数f()中的一个并且用它来产生经修正的声学特征矢量f(X)。
这里用X来描述单个声学特征矢量或者一系列连续的声学特征矢量。类似地,用f(X)来描述单个经修正的声学特征矢量或一系列连续的经修正的声学特征矢量。
在示范的实施例中,并且如图2所示,于是在无线调制解调器218中调制经修正的矢量f(X),通过无线信道206传送它,并在通信中心204内的无线调制解调器230中对其进行解调,再由中央VR引擎234把它对照中央声学模型238进行匹配。无线调制解调器218、230和无线信道206可以使用包括CDMA、TDMA或FDMA等多种无线接口中的任何接口。此外,无线调制解调器218、230可以用其他类型的经非无线通信信道通信的通信接口来代替而不偏离所描述的实施例的范围。例如,远端站202可以通过多种类型的通信信道(包括陆上通信线调制解调器、T1/E1、ISDN、DSL、以太网或者甚至是在印刷电路板(PCB)上的线路)任何通信信道与通信中心204通信。
在示范的实施例中,对于特殊的用户或说话者优化矢量修正函数f(),并且如此设计该函数,使得当把它对照中央声学模型238(它由多个用户共享)进行匹配时,正确识别发言的可能性达到最大。远端站202中的自适应模型228要比中央声学模型238小得多,使得有可能保持对特殊用户优化的单独的自适应模型228。用于一个或多个说话者的特征矢量修正函数f()的参数也小得足以存储在远端站202的存储器227中。
在示范的实施例中,在存储器227中还存储着依赖于环境的特征矢量修正函数的一组附加参数。依赖于环境的特征矢量修函数的选择和优化更具有全局性,因此可以在每个呼叫期间进行。很简单的依赖于环境的特征矢量修正函数的一个例子是对每个声学特征矢量施加一个恒定的增益k以适应有噪声的环境。
矢量修正函数f()可以具有数种形式中的任何形式。例如,矢量修正函数f()可以是形如AX+b的仿射变换。或者,矢量修正函数f()可以是一组有限脉冲响应(FIR)滤波器。对于本领域的技术人员而言,其他形式的矢量修正函数f()是显而易见的,因此它们在这里描述的实施例的范围之内。
在示范的实施例中,根据一组连续的声学特征矢量来选择矢量修正函数f()。例如,为了确定自适应模型228中的声学特征矢量流与多个发言模式之间的相关度,自适应引擎224可以应用Viterbi译码或网格译码技术。一旦检测到高的相关度,就根据检测到的模式选择矢量修正函数f()并把它应用于声学特征矢量的相应的分段。这种方法要求自适应引擎224存储一系列声学特征矢量,并在选择要施加至每个声学特征矢量的f()之前完成该系列对照自适应模型228的模式匹配。在示范的实施例中,自适应引擎保持未修正的声学特征矢量的弹性缓冲器,然后在传送之前把选出的f()施加至弹性缓冲器的内容。把弹性缓冲器的内容与自适应模型228中的模式进行比较,而对于与弹性缓冲器的内容有最大相关度的模式产生最大相关性度量。把这个最大相关性与一个或多个阈值作比较。如果最大相关性超过检测阈值,则把与最大相关性有关的模式相对应的f()施加至缓冲器中的声学特征矢量并加以传送。如果在最大相关性超过检测阈值之前弹性缓冲器已满,则不作修正地传送弹性缓冲器的内容或者用默认的f()来修正。
可以用许多方法中的任何方法来完成f()的依赖于说话者的优化。在第一示范实施例中,控制处理器222监视用户发言与自适应模型228在多个发音上的相关度。当控制处理器222确定f()的改变将改善VR性能时,则它修正f()的参数并且把新的参数存储在存储器227中。另一种做法是,控制处理器222可以直接修正自适应模型228以提高VR性能。
如图2所示,远端站202可以额外包括单独的VR引擎220和远端站声学模型226。由于存储器的容量有限,远端站202(诸如无线电话)中的远端站声学模型226一般必须很小,因此限于少量的短语或音素。另一方面,由于它包含在由少量用户使用的远端站中,为了提高VR性能,可以把远端站声学模型226对一个或多个特殊的用户优化。例如,对于如“call”等词语的语音模式以及十个阿拉伯数字中的每一个数字可以适合该电话的所有者。这样一个局部的远端站声学模型226使得远端站202对于一组很少的词语具有很好的VR性能。此外,远端站声学模型226使得远端站202不建立至通信中心204的无线链路就能完成VR。
通过监督学习或无监督学习可以发生f()的优化。监督学习一般是指在用户对于预定词语或句子发音时发生的训练,以对远端站声学模型进行准确优化。由于VR系统具有用作输入的词语或句子的在先的知识,因此在监督学习期间无需进行VR来识别预定的词语和句子。一般认为监督学习是产生特殊用户的声学模型的最准确的方法。监督学习的一个例子是当用户首次把十个阿拉伯数字的语音编程为远端站202的远端站声学模型226。由于远端站202具有与说这些数字相应的语音模式的在先知识,因此远端站声学模型226可以适应特殊用户而使VR性能劣化的风险很小。
与监督学习相反,无需具有语音模式或发音词语的在先知识的VR系统即可发生无监督学习。由于有把发音与不正确的语音模式进行匹配的风险,因此必须以更为保守的方式进行基于无监督学习的远端站声学模型的修正。例如,可能出现了许多过去的发音,它们互相很相似,并且比任何其他的语音模式更接近声学模型中的一个语音模式。如果所有的那些过去的发音正确地与模型中的一个语音模式相匹配,则能够修正声学模型中的一个语音模式以与一组类似的发音更接近地匹配。然而,如果许多那些过去的发音不与模型中的一个语音模式相对应,则修正该语音模式将使得VR性能变坏。最理想的是,VR系统能够从用户那里收集到关于以往模式匹配准确性的反馈信息,但是时常得不到这种反馈信息。
遗憾的是,对于用户而言监督学习是冗长的,因此用它来产生具有大量语音模式的声学模型是不切实际的。然而,在优化一组矢量修正函数f(),或者甚至在优化自适应模型228中的更有限的语音模式监督学习仍然是有用的。由用户的浓重的口音造成的语音模式的差异是在其中可能需要监督学习的一个应用的例子。由于可能需要显著修正声学特征矢量来补偿一种口音,因此非常需要准确的修正。
对于特殊的用户也可使用无监督学习来优化矢量修正函数f(),如果优化不容易成为VR差错的直接原因。例如,为适应一个元音区的长度或平均元音pitch较长的说话者而对矢量修正函数f()的调整要比为补偿口音而需的调整更具有全局性。对这些全局的矢量的修正可能失准较为严重,但这对VR的效力并不产生剧烈的影响。
一般,自适应引擎224只使用小的自适应模型228来选择矢量修正函数f(),而不作全部的VR。由于其规模小,因此类似地自适应模型228也不适合作训练以优化自适应模型228或矢量修正函数f()。为改进说话者的语音数据与自适应模型228的匹配程度而出现的自适应模型228或矢量修正函数f()的调整实际上可能使对照较大的中央声学模型238的匹配程度变坏。由于中央声学模型238是一种实际用于VR的模型,这样的调整将是错误而不是优化。
在示范的实施例中,当使用无监督学习以修正自适应模型228或矢量修正函数f()时,远端站202与通信中心204合作。根据改进的对照中央声学模型238的匹配,作出是修正自适应模型228还是矢量修正函数f()的决定。例如,远端站202可以发送多组声学特征矢量、未经修正的声学特征矢量X和经修正的声学特征矢量f(X)至通信中心204。另一种做法,远端站202可以发送经修正的声学特征矢量f1(X)和f2(X),这里f2()是试验性的经修正的特征矢量修正函数。在另一个实施例中,远端站202发送X以及两个特征矢量修正函数f1()和f2()的参数。根据固定的时间间隔,远端站202可以发送是否发送第二组信息至通信中心204的多组决定。
在接收到多组声学特征信息(它们可以是经修正的声学特征矢量或特征矢量修正函数)之后,通信中心204使用其自己的VR引擎234和中央声学模型238估计最终的经修正的声学特征矢量的匹配程度。然后通信中心204把信息送回远端站202以指出此改变是否导致VR性能的提高。例如,通信中心204把对于每组声学特征矢量的语音模式相关性度量送回远端站202。一组声学遏制矢量的语音模式相关性度量指出了一组声学特征矢量与中央声学模型238的相关度。根据两组矢量之间的相关度的比较,远端站202可以调整其自适应模型228或者调整一个或多个特征矢量修正函数f()。远端站202可以规定使用哪个将用于实际识别词语的矢量组,或者通信中心204可以根据相关性度量来选择矢量组。在另一个实施例中,远端站202在从通信中心204接收到最后的相关性度量之后识别将要用于VR的声学特征矢量组。
在另一个实施例中,远端站202使用其自己的本地自适应引擎224和自适应模型228来识别特征矢量修正函数f(),并且把未修正的声学特征矢量X连同f()送至通信中心204。然后通信中心204把f()应用于X并使用经修正的和未修正的矢量进行测试。然后通信中心204把测试结果送回远端站202,使远端站202能更准确地调整特征矢量修正函数。
在另一个实施例中,自适应引擎224和自适应模型228被合并在通信中心204内,而不是在远端站202内。通信中心204内的控制处理器232通过调制解调器230接收未修正的声学特征矢量流,并且把它们提供给通信中心204内的自适应引擎和自适应模型。根据此中间模式匹配的结果,控制处理器232从存储在通信中心存储器236内的数据库选出一个特征矢量修正函数。在示范的实施例中,通信中心存储器236包含有相应于特定用户的特征矢量修正函数f()组。如上所述,这可以增添或替代存储在远端站202中的特征矢量修正函数信息。通信中心204能够使用许多种说话者识别信息中的任何信息来识别特殊的说话者,该说话者提供从其提取特征矢量的语音数据。例如,用来选择一组特征矢量修正函数的说话者识别信息可以是无线信道206相对端的无线电话移动识别号(MIN)。另一种做法是,为了加强VR服务的目的,用户可以键入口令以识别本人。此外,基于语音数据的测量,在无线电话呼叫期间可以使依赖于环境的特征矢量修正函数自适应和应用它。也可以使用许多其他的方法来选择一组依赖于说话者的矢量修正函数而不偏离这里描述的实施例的范围。
本领域的技术人员也将理解可以把远端站202内的多个模式匹配引擎220、224加以组合而不偏离这里描述的实施例的范围。此外,也可以把远端站202内的不同的声学模型226、228类似地加以组合。还有,可以把以一个或多个模式匹配引擎220、224合并入远端站202的控制处理器222。也可以把一个或多个声学模型226、228合并入由控制处理器222使用的存储器227。
如果自适应引擎(未示出)在通信中心204中存在的话,中央语音模式匹配引擎234可以与之相组合而不偏离这里描述的实施例的范围。此外,中央声学模型238可以与一个自适应模型(未示出)相组合。还有,如果中央语音模式匹配引擎234和自适应引擎(未示出)在通信中心存在的话,则可以把它们之中的任何一个或两者都合并入通信中心204的控制处理器232。如果中央声学模型238和自适应模型(未示出)在通信中心204存在的话,则可以把它们之中的任何一个或两者都合并入通信中心204的控制处理器232。
图3是进行分布VR方法的流程图,这里,根据对于远端自适应模型的收敛性,X和f()的改变完全出现在远端站202中。在步骤302,远端站202对来自扩音器的模拟语音信号取样以产生数字语音样本。在步骤304,例如使用如上所述的预加强滤波器接着对语音样本进行滤波。在步骤306,从经滤波的语音样本提取声学特征矢量X流。如上所述,可以从持续时间为固定或可变的语音样本的重叠或不重叠的间隔提取声学特征矢量。
在步骤308,远端站202进行模式匹配以确定声学特征矢量流和在自适应模型中容纳的多个模式(诸如图2中的228)之间的相关度。在步骤310,远端站202选择与声学特征矢量X流最接近匹配的自适应模型中的模式。被选中的模式称为目标模式。如上面所讨论的,可以把X和目标模式之间的相关度对照检测阈值作比较。如果相关度大于检测阈值,则远端站202选择与该目标模式相应的特征矢量修正函数f()。如果相关度小于检测阈值,则远端站或是选择这样的声学特征矢量特性函数,从而f(X)=X,或者选择某个默认的f()。在一个示范的实施例中,远端站20从特征矢量修正函数的本地数据库中选出一个特征矢量修正函数f(),特征矢量修正函数与在其本地自适应模型中的各种模式相对应。远端站202把选出的特征矢量修正函数f()应用于声学特征矢量X流,于是产生f(X)。
在示范的实施例中,远端站202产生指出X和目标模式之间的性程度的相关性度量。远端站202还产生指出f(X)和目标模式之间的性程度的相关性度量。在不监督学习的一个例子中,远端站202使用两个相关性度量以及以往的相关性度量值,以在步骤314确定是否修正一个或多个特征矢量修正函数f()。如果在步骤314作出修正f()的决定,则在步骤316修正f()。在示范的实施例中,在步骤318立即把经修正的f()应用于X以形成新的经修正的声学特征矢量f(X)。在另一个实施例中,省去步骤318,而新的特征矢量修正函数f()直到下一组声学特征矢量X出现时才生效。
如果在步骤318或者在其后的步骤316和318作出不修正f()的决定,则在步骤320远端站202把当前的f(X)通过无线信道206传送至通信中心204。然后在步骤322在通信中心内发生VR模式匹配。
在另一个实施例中,在VR模式匹配步骤322通信中心204产生语音模式相关性度量并且把这些度量送回到远端站302以帮助f()的优化。可以用多种方法中的任何方法来格式化语音模式相关性度量。例如,通信中心204可以返回一个声学特征矢量修正误差函数fE(),它可应用于f(X)以与在中央声学模型中找到的一个模型产生严格的相关。另一种做法是,通信中心204可以只返还一组与在中央声学模型中的一个或一些目标模式相应的声学特征矢量,发现这些模式与f(X)有最高的相关度。或者,通信中心204能返回分支度量,它是从用于选择目标模式的硬判决或软判决Viterbi译码过程导出的。语音模式相关性度量也可以包括这些类型的信息的组合。然后由远端站202在优化f()时使用这个返回的信息。在示范的实施例中,省略在步骤318的再产生f(),而远端站202在接收到来自通信中心204的反馈之后进行f()的修正(步骤314和316)。
图4是示出进行分布VR的方法的流程图,这里,根据对于远端自适应模型的收敛性,X和f()的改变完全出现在通信中心204中。在步骤402,远端站202对来自扩音器的模拟语音信号取样以产生数字语音样本。在步骤404,例如使用如上所述的预加强滤波器接着对语音样本进行滤波。在步骤406,从经滤波的语音样本提取声学特征矢量X流。如上所述,可以从持续时间为固定或可变的语音样本的重叠或不重叠的间隔提取声学特征矢量。
在步骤408,远端站202通过无线信道206传送未修正的声学特征矢量X流。在步骤410,通信中心204进行自适应模式匹配。如上所述,可以使用单独的自适应模型或者使用大的中央声学模型238进行自适应模式匹配。在步骤412,通信中心204在自适应模型中选择与声学特征矢量X流最接近匹配的模式。被选中的模式称为目标模式。如上面所讨论的,如果X和目标模式之间的相关性超出阈值,则选择与该目标模式相应的f()。否则,选择默认的f()或零f()。在步骤414,把选出的特征矢量修正函数f()应用于声学特征矢量X流,以形成经修正的声学特征矢量f(X)流。
在示范的实施例中,从位于通信中心204的打的特征矢量修正函数数据库的子组选择特征矢量修正函数f()。对于选择有用的特征矢量修正函数的子组是依赖于说话者的,从而使用中央声学模型(诸如图2中的238)的模式匹配在用f(X)比用X作为输入时更加准确。如上所述,通信中心204可以如何选择依赖于说话者的特征矢量修正函数的子组的例子包括使用说话者的无线电话的MIN或者由说话者输入的口令。
在示范的实施例中,通信中心204对于X和目标模式之间以及f(X)和目标模式之间的相关性产生相关性度量。然后在步骤416,通信中心204使用两个相关性度量连同以往的相关性度量值来确定是否修正一个或多个特征矢量修正函数f()。如果在步骤416作出修正f()的决定,则在步骤418修正f()。在示范的实施例中,在步骤420立即把经修正的f()应用于X以形成新的经修正的声学特征矢量f(X)。在另一个实施例中,省去步骤420,而新的特征矢量修正函数f()直到下一组声学特征矢量X出现时才生效。
如果在步骤416或者在其后的步骤418和420作出不修正f()的决定,则在步骤422,通信中心204使用中央声学模型238进行VR模式匹配。
图5示出进行分布VR的方法的流程图,其中使用通信中心204内的中央声学模型来优化特征矢量修正函数或自适应模型。在示范的实施例中,远端站202和通信中心204在需要时交换信息,并且相互合作,使特征矢量修正函数的优化达到最高的准确度。在步骤402,远端站202对来自扩音器的模拟语音信号取样以产生数字语音样本。
在步骤502,远端站202对来自扩音器的模拟语音信号取样以产生数字语音样本。在步骤504,例如使用如上所述的预加强滤波器接着对语音样本进行滤波。在步骤506,从经滤波的语音样本提取声学特征矢量X流。如上所述,可以从持续时间为固定或可变的语音样本的重叠或不重叠的间隔提取声学特征矢量。
在步骤508,远端站202进行模式匹配以确定声学特征矢量流和和包含在自适应模型中的多个模式(诸如图2中的228)之间的相关度。在步骤510,远端站202在自适应模型中选择与声学特征矢量X流最接近匹配的模式。被选中的模式称为目标模式。如上面所讨论的,如果X和目标模式之间的相关性超出阈值,则选择与该目标模式相应的第一特征矢量修正函数f1()。否则,选择默认的f()或零f()。相应于在其本地自适应模型中的各种模式,远端站202从本地的特征矢量修正函数数据库选择特征矢量修正函数f()。在步骤512,远端站202把选出的特征矢量修正函数f()应用于声学特征矢量X流,于是产生f(X)。
与结合图3和图4描述的方法形成对照,在步骤514,远端站通过信道206送出两组声学特征矢量f1(X)和f2(X)至通信中心204。在步骤506,通信中心204使用f1(X)作为输入对照其中央声学模型进行模式匹配。作为这个VR模式匹配的结果,通信中心204识别与f1(X)具有最大相关度的一个或一组目标模式。在步骤518,通信中心204产生指出f1(X)与目标模式的相关度的第一语音模式相关性度量以及指出f2(X)与目标模式的相关度的第二语音模式相关性度量。
虽然为进行对照中央声学模型的模式匹配使用了两组声学特征矢量,但对于实际的VR只使用一组。于是,远端站202能够估计建议的特征矢量修正函数的性能而没有料想不到的劣化性能的风险。还有,当优化f()时,远端站202完全无需依靠其小的本地的自适应模型。在另一个实施例中,对于f2(X)远端站202可以使用零函数,从而f2(X)=X。这个方法允许远端站202对照达到的VR性能证实f()的性能而不进行声学特征矢量修正。
在步骤520,通信中心204通过无线信道206把两个语音模式相关性度量送回远端站202。在步骤522,根据接收到的语音模式相关性度量,远端站202决定是否在步骤524修正f1(X)。可以根据一组语音模式相关性度量或者可以根据一组语音模式相关性度量(它们与来自本地自适应模型的相同的语音模式有关)来确定是否在步骤522修正f1(X)。如上面所讨论的,语音模式相关性度量可以包括这样的信息,如声学特征矢量修正误差函数fE()、相应于中央声学模型中与f(X)有最高相关度的模式或者Viterbi译码分支度量。
本领域的技术人员将理解,上面描述的技术同样可以应用于各种类型的无线信道206中的任何无线信道。例如,无线信道206(因而调制解调器218,230)可以使用码分多址(CDMA)技术、模拟蜂窝、时分多址(TDMA)或其他类型的无线信道。另一种做法是,信道206可以是除了无线信道之外的一种信道,包括但不限于光、红外和以太网信道。在又一个实施例中,把远端站202和通信中心204组合成单个系统,在使用中央声学模型238进行VR测试之前,该系统完全避免信道206进行依赖于说话者的声学特征矢量的修正。
本领域的技术人员将明白,使用许多种技术中的任何技术可以表示信息和信号。例如,在上面的描述中可以被引用的数据、指令、命令、信息、信号、位、码元和码片可以用电压、电流、电磁波、磁场或粒子、光场和粒子或者它们的任何组合来表示。
本领域的技术人员还将理解,针对这里揭示的实施例描述的各种示范的逻辑块、模块、电路和算法步骤可以作为电子硬件、计算机软件或者它们的组合而实施。为了清楚地描述硬件和软件的可互换性,一般已经在上面按其功能描述了各种示范的元件、块、模块、电路和步骤。该功能是作为硬件还是软件来实施取决于特殊的应用和加在整个系统上的设计约束。对于每个特殊的应用,本领域的技术人员可以用不同的方法来实施所描述的功能,但不应把这些实施决定解释为造成偏离本发明的范围。
针对这里揭示的实施例描述的各种说明性的逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件元件或者设计例完成这里描述的功能的它们的任何组合来实施或完成。通用处理器可以是微处理器,但在其他场合,处理器可以是任何传统的处理器、控制器、微控制器或状态机。处理器也可以作为计算装置的组合(例如DSP和微处理器、多个微处理器、一个或多个微处理器与一个DSP核心或者任何其他这样的构造的组合)来实施。
针对这里揭示的实施例描述的方法或算法的步骤可以直接用硬件、用由处理器执行的软件模块或者两者的组合来实施。软件模块可以驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘、CD-ROM或本领域中公知的任何其他形式的存储媒体中。把一个示范的存储媒体耦合至处理器,该处理器能够从该存储媒体读信息并把信息写至该存储媒体中。在另一个例子中,可以把存储媒体合并至处理器。处理器和存储媒体可以驻留在ASIC中。ASIC可以驻留在远端站中。在另一个例子中,处理器和存储媒体可以作为分立元件驻留在远端站中。
提供了上述对于所揭示的实施例的描述,以使本领域中的任何技术人员能够做出或使用本发明。对于本领域的技术人员而言,对这些实施例的各种变更是很明显的,可以把在这里确定的一般原理应用于其他的实施例而不偏离本发明的精神和范围。这样,不打算把本发明局限于在这里示出的实施例,而是打算使在这里揭示的原理和新特征与最广的范围相符合。
权利要求
1.一种语音识别系统,包括一个包含声学模式信息的自适应模型;以及一个自适应引擎,用于声学特征矢量与声学模式信息的模式匹配,以识别选出的特征矢量修正函数。
2.如权利要求1所述的语音识别系统,其特征在于进一步构造自适应引擎以将选出的特征矢量修正函数应用于声学特征矢量,以产生一组经修正的声学特征矢量。
3.如权利要求1所述的语音识别系统,其特征在于还包括语音识别引擎,用于把该组经修正的声学特征矢量与声学模型进行匹配。
4.如权利要求1所述的语音识别系统,其特征在于还包括控制处理器,用于评估选出的特征矢量修正函数的性能以及根据评估来调整选出的特征矢量修正函数。
5.如权利要求1所述的语音识别系统,其特征在于还包括存储器,用于存储相应于一组特征矢量修正函数的至少一组参数,其中选出的特征矢量修正函数是特征修正函数组的一个部分。
6.如权利要求5所述的语音识别系统,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个特殊的说话者。
7.如权利要求5所述的语音识别系统,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个不同的声学环境。
8.一种语音识别系统,包括一个包含声学模式信息的自适应模型;以及一个自适应引擎,用于进行声学特征矢量与声学模式信息的模式匹配,以识别依赖于说话者的特征矢量修正函数,并把依赖于说话者的特征矢量修正函数应用于声学特征矢量。
9.一种语音识别系统,包括一个自适应引擎,用于分析声学特征矢量以识别选出的特征矢量修正函数以及把选出的特征矢量修正函数应用于声学特征矢量以产生一组经修正的声学特征矢量;一个声学模型;以及一个语音识别引擎,用于把该组经修正的声学特征矢量与声学模型进行匹配。
10.如权利要求9所述的语音识别系统,其特征在于还包括自适应模型,其中所述自适应引擎通过把声学特征矢量与存储在自适应模型中的声学模型相匹配而对声学特征矢量进行分析。
11.如权利要求9所述的语音识别系统,其特征在于还包括控制处理器,用于评估选出的特征矢量修正函数的性能以及根据评估来调整选出的特征矢量修正函数。
12.如权利要求9所述的语音识别系统,其特征在于还包括存储器,用于存储相应于一组特征矢量修正函数的至少一组参数,其中选出的特征矢量修正函数是特征修正函数组的一个部分。
13.如权利要求12所述的语音识别系统,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个特殊的说话者。
14.如权利要求12所述的语音识别系统,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个不同的声学环境。
15.一种远端站设备,包括一个包含声学模式信息的自适应模型;以及一个自适应引擎,用于进行声学特征矢量对照声学模式信息的模式匹配,以识别选出的特征矢量修正函数,并把选出的特征矢量修正函数应用于声学特征矢量以产生一组经修正的声学特征矢量。
16.如权利要求15所述的远端站设备,其特征在于还包括控制处理器,用于评估选出的特征矢量修正函数的性能以及根据评估来调整选出的特征矢量修正函数。
17.如权利要求15所述的远端站设备,其特征在于还包括存储器,用于存储相应于一组特征矢量修正函数的至少一组参数,其中选出的特征矢量修正函数是特征修正函数组的一个部分。
18.如权利要求17所述的远端站设备,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个特殊的说话者。
19.如权利要求17所述的远端站设备,其特征在于所述存储器包含相应于一组特征矢量修正函数的一组以上的参数,其中每组参数相应于一个不同的声学环境。
20.如权利要求15所述的远端站设备,其特征在于还包括通信接口,用于把经修正的声学特征矢量传递至通信中心。
21.一种语音识别通信中心设备,包括一个用于接收声学特征矢量的通信接口,其中声学特征矢量已经用特征矢量修正函数修正过;一个包含声学模式的声学模型,其中不对单个说话者训练声学模型;一个语音识别引擎,用于把该组经修正的声学特征矢量与声学模型相匹配;以及一个控制处理器,用于根据匹配来估计特征修正函数。
22.一种语音识别通信中心设备,包括一个通信接口,用于至少从一个远端站接收声学特征矢量和说话者识别信息;一个包含依赖于说话者的特征矢量修正函数参数的存储器;以及一个自适应引擎,用于进行声学特征矢量与声学模型的模式匹配,根据模式匹配和说话者识别信息识别选出的依赖于说话者的特征矢量修正函数,以及把选出的依赖于说话者的特征矢量修正函数应用于声学特征矢量,以产生一组经修正的声学特征矢量。
23.如权利要求22所述的语音识别通信中心设备,其特征在于所述自适应引擎还包括语音识别引擎,用于把该组经修正的声学特征矢量与中央声学模型进行匹配,其中中央声学模型不对单个说话者进行训练。
24.如权利要求22所述的语音识别通信中心设备,其特征在于还包括中央声学模型,其中中央声学模型不对单个说话者进行训练,并且所述自适应引擎还被构造成对经修正的声学特征矢量组与中央声学模型进行模式匹配。
25.如权利要求22所述的语音识别通信中心设备,其特征在于还包括语音识别引擎,用于把经修正的声学特征矢量组与中央声学模型进行匹配。
26.如权利要求22所述的语音识别通信中心设备,其特征在于还包括控制处理器,用于评估选出的依赖于说话者的特征矢量修正函数的性能以及根据评估来调整选出的依赖于说话者的特征矢量修正函数的参数。
27.一种进行语音识别的方法,包括提取声学特征矢量;进行声学特征矢量与自适应模型的自适应模式匹配;根据自适应模式匹配选择特征矢量修正函数;把选出的特征矢量修正函数应用于声学特征矢量以形成一组经修正的声学特征矢量;以及进行经修正的声学特征矢量组与声学模型的语音识别模式匹配。
28.如权利要求27所述的方法,其特征在于从一组依赖于说话者的特征矢量修正函数中选出所述特征矢量修正函数。
29.如权利要求28所述的方法,其特征在于还包括根据自适应模式匹配来修正该组依赖于说话者的特征矢量修正函数。
30.如权利要求28所述的方法,其特征在于还包括根据语音识别模式匹配来修正依赖于说话者的特征矢量修正函数组。
31.如权利要求27所述的方法,其特征在于所述特征矢量修正函数对于声学环境是特定的。
32.一种进行语音识别的方法,包括在远端站,进行声学特征矢量与存储在远端站中的自适应模型的自适应模式匹配;在远端站,从存储在远端站中的特征矢量修正函数信息中选择特征矢量修正函数,其中选择特征矢量修正函数是基于模式匹配的;在远端站,把选出的特征矢量修正函数应用于声学特征矢量,以形成一组经修正的声学特征矢量;以及从远端站把经修正的声学特征矢量发送至通信中心。
33.如权利要求32所述的方法,其特征在于所述特征矢量修正函数信息是依赖于说话者的。
34.如权利要求32所述的方法,其特征在于还包括根据自适应模式匹配来修正特征矢量修正函数信息。
35.如权利要求32所述的方法,其特征在于还包括根据从通信中心接收到的信息在远端站处修正特征矢量修正函数信息。
36.如权利要求32所述的方法,其特征在于还包括在远端站进行语音识别,其中所述进行语音识别包括进行经修正的声学特征矢量与存储在远端站中的声学模型的语音识别模式匹配。
37.如权利要求36所述的方法,其特征在于还包括根据语音识别模式匹配在远端站处修正特征矢量修正函数信息。
38.如权利要求32所述的方法,其特征在于所述特征矢量修正函数信息是依赖于环境的。
39.一种在包括至少一个远端站和一个通信中心的系统中进行语音识别的方法,该方法包括在远端站,提取声学特征矢量;从远端站把声学特征矢量发送至通信中心;在通信中心,进行声学特征矢量与存储在通信中心内的自适应模型的自适应模式匹配;在通信中心,从存储在通信中心内的数据库中选择特征矢量修正函数,其中选择特征矢量修正函数是基于自适应模式匹配的;在通信中心,把选出的特征矢量修正函数应用于声学特征矢量,以形成一组经修正的声学特征矢量;以及在通信中心,进行该组经修正的声学特征矢量与存储在通信中心内的声学模型的语音识别模式匹配。
40.如权利要求39所述的方法,其特征在于还包括,在通信中心处选择一组依赖于说话者的特征矢量修正函数,其中选出的特征矢量修正函数是从该组依赖于说话者的特征矢量修正函数中选出的。
41.如权利要求40所述的方法,其特征在于还包括根据自适应模式匹配来修正该组依赖于说话者的特征矢量修正函数。
42.如权利要求40所述的方法,其特征在于还包括根据语音识别模式匹配来修正该组依赖于说话者的特征矢量修正函数。
43.如权利要求40所述的方法,其特征在于还包括从远端站把说话者识别信息发送至通信中心,其中选择一组依赖于说话者的特征矢量修正函数是基于说话者识别信息的。
44.一种在包括至少一个远端站和一个通信中心的系统中进行语音识别的方法,该方法包括在远端站,提取声学特征矢量;在远端站,进行未修正的声学特征矢量与存储在远端站内的自适应模型的自适应模式匹配;在远端站,根据自适应模式匹配来选择依赖于说话者的特征矢量修正函数;在远端站,把选出的特征矢量修正函数应用于声学特征矢量,以形成一组经修正的声学特征矢量;从远端站把经修正的声学特征矢量发送至通信中心;在通信中心,进行该组经修正的声学特征矢量与存储在通信中心内的声学模型的语音识别模式匹配。
45.如权利要求44所述的方法,其特征在于还包括根据自适应模式匹配来修正选出的依赖于说话者的特征矢量修正函数。
46.如权利要求44所述的方法,其特征在于还包括从远端站把未修正的声学特征矢量发送至通信中心;在通信中心,使用经修正的声学特征矢量和未修正的声学特征矢量来分析选出的依赖于说话者的特征矢量修正函数;以及在远端站,根据分析来修正选出的依赖于说话者的特征矢量修正函数。
47.如权利要求44所述的方法,其特征在于还包括根据语音识别模式匹配来修正该组依赖于说话者的特征矢量修正函数。
48.一种语音识别系统,包括用于提取声学特征矢量的装置;用于进行声学特征矢量与自适应模型的自适应模式匹配的装置;用于根据自适应模式匹配来选择特征矢量修正函数的装置;用于把选出的特征矢量修正函数应用于声学特征矢量以形成一组经修正的声学特征矢量的装置;以及用于进行该组经修正的声学特征矢量与声学模型的语音识别模式匹配的装置。
49.一种远端站设备,包括用于进行声学特征矢量与存储在远端站内的自适应模型的自适应模式匹配的装置;用于从存储在远端站内的特征矢量修正函数信息中选择特征矢量修正函数的装置,其中选择特征矢量修正函数是基于模式匹配的;用于把选出的特征矢量修正函数应用于声学特征矢量以形成一组经修正的声学特征矢量的装置;以及用于把经修正的声学特征矢量发送至通信中心的装置。
全文摘要
语音识别系统在对照依赖于说话者的声学模型(238)进行语音识别模式匹配之前把依赖于说话者的修正函数应用于声学特征矢量。自适应引擎(224)把一组声学特征矢量X与自适应模型(228)进行匹配,以选出依赖于说话者的特征矢量修正函数f(),然后把它应用于X以形成一组经修正的声学特征矢量f(X)。然后通过经修正的声学特征矢量f(X)与依赖于说话者的声学模型(238)的相关来进行语音识别。
文档编号G10L15/00GK1494712SQ02806068
公开日2004年5月5日 申请日期2002年1月30日 优先权日2001年1月31日
发明者C·张, N·马拉亚, B·Y·雅福索, , C 张, 雅福索 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1