具有不依赖于说话者的语音识别的通信设备的制作方法

文档序号：2830430阅读：405来源：国知局

专利名称：具有不依赖于说话者的语音识别的通信设备的制作方法
技术领域：
本文描述的技术通常涉及通信设备，以及这种通信设备中的不依赖于说话者的语音识别技术。
背景技术：
移动电话已经开始配备有依赖于说话者的姓名拨号以允许实现特定的功能，如不用手的自动拨号。在移动电话环境中，通过使用语音识别的不用手的拨号在使得用户能够在驾驶的时候通过读出一个姓名或被叫方的号码发出呼叫时特别有用。移动电话将用户的语音转换为特征数据，特征数据进一步被语音识别工具处理。为了识别出由用户说出的一个姓名或者被叫方的号码，这种移动电话需要在说出将要被识别的姓名或号码之前进行训练。典型地，用户的语音的特征数据将与相应于在注册或训练过程期间由用户预先记录的姓名的预先存储的不同特征数据组相比较。如果找到了匹配，则移动电话将自动拨打对应于该姓名的号码。
按照惯例，在使用具有话音识别能力的移动电话进行话音呼叫之前，说出的将被识别的姓名必须在注册过程期间提前训练。在训练阶段，用户必须说出将要被识别的姓名和指令，然后由移动电话记录和存储相应的所说的话。典型地，用户必须多次说出预期的姓名和指令，以便使得语音识别工具根据不同的所记录的预期姓名或指令的发声
实例，生成音频特征数据。识别过程的这个训练阶段对用户是非常不方便的，并且因此话音呼叫功能并未被大多数的用户很好的接受。
作为一个经证实的另一个缺点是，不能话音呼叫那些之前姓名没有在识别过程中训练过的新的人员的电话号码，因为没有针对该姓名记录和存储任何的音频特征数据。因此，不得不针对该姓名再次执行识别过程，这对用户来说是要花费相当大的力气。
另外还证实，具备话音拨号功能的这种移动电话的噪声相容性并不是特别的高。这在当用户驾驶车辆的时候设法进行话音拨号的呼叫是一个问题，因为移动电话环境非常嘈杂。
由于在训练阶段记录和存储的预先记录的特征数据对应于特定用户的发声，话音拨号期间的语音识别过程中的特征比较是说话者/ 用户相关的。如果移动电话已经预先记录的针对该特征数据的姓名是由另一个人，即后来的用户说出的，则识别率将会非常的低。同样在这种情况下，在后来的用户所说的姓名的最新记录的发声注册之后，电话将不能识别姓名是否是由最初的用户说出的。
对用户来说的另一个不便之处是所需的训练阶段，移动电话的环境应该是在一个较低的噪声级別以便生成所说出的姓名的特征数据，该环境受噪声影响较小。然而，由于注册和识别过程期间的噪声级别不同，已知的移动电话的噪声相容性相当的低，而且可能造成伪识别或识别出错。这可能造成呼叫了非预期的一方或者过多的未被识别的发音。

图l描述了根据一个实施例用于执行语音识别的设备的框图；图2描述了举例说明根据一个实施例的通信设备中的语音识别过程的流程图3、 4A、 4B和5描述了一个流程图，其更为详细地举例说明了根据不同的实施例的通信设备中的语音识别过程中执行的操作；以及图6和7描述了用于执行根据不同的实施例的语音识别过程的通信设备的框图。
具体实施例方式
本说明书中描述以及参考的"一个实施例"、"实施例"、"示例性
实施例，，等表示所描述的一个或多个实施例可能包括特定的特征、结
构或特点，但不是每一个实施例都需要包括该特定的特征、结构或特
点。此外，这种短语不是必需指的是同一个实施例。而且，当结合一
个实施例描迷一个特定的特征、结构或特点时，应当理解的是，无论
是否显式描述了，在本领域的技术人员的知识范围之内可以结合其它
的实施例影响这种特征、结构或特点。
现在将参考附图描述各种各样的实施例。在下面的描述中并未详
细描述众所周知的功能或构造，因为会因对它们的不必要的详述可能混淆本发明。
本发明提供了一种用于在具备不用手的话音拨号的通信设备中执行改进的语音识别的设备和方法，该通信设备例如为移动电话、蜂窝电话、智能电话等等。在一些实施例中，通信设备提供一种语音识别模式。在该语音识别模式中，诸如期望的被叫方姓名、号码或电话指令的用户的输入语音被转换为特征数据。根据该特征数据得到一个似然向量序列。每个似然向量的分量指示说出的语音单元在相应的用户的输入语音中出现的似然性。似然向量序列与若干语音单词模型相比较。语音单词模型对应于电话薄或电话指令中的条目，而且是类似于语音单元的单词子模型的样本。通过将似然向量序列与语音单词模型相比较可以应用调变(Warping)技术。作为调变操作的结果，计算语音单词模型的单词模型匹配似然性，并且确定与输入语音最为相
似的单词模型(在此称为"最佳匹配单词模型")。然后根据最佳匹配单词模型合成所识别的姓名、号码、或电话指令。在某些应用中，在已经合成了姓名、号码、或电话指令之后，可能执行一个自动拨号操作拨打相应的号码或者执行一个相应的指令。根据输入特征数据直接计算似然序列以及将其与由例如通信设备的条目中得出的语音单词模型相比较，提供了可靠且有效的语音识别。
此外，在所应用的语音识别中，无需针对将被识别的姓名的特征数据的预先记录和预先存储。如果相应的姓名可用的话，可以利用话音拨号功能拨打新的电话薄条目的号码。例如，在书写模式中也是可以的，从该模式中可以导出语音单词模式。
在一些实施例中，执行调变操作以便使得用户所说的话和语音单词模型的匹配似然性最大化。单词模型是将要识别的单词，例如期望的被叫方姓名、号码、或者电话指令的语音表示。通常，单词模型被分成单词子模型，而且每个单词子模型的特征在于其在单词模型中的位置。
在调变操作的一些实施例中，通过连续调变对应于输入语音的似然向量序列到包含单词模型向量序列的单词模型，计算单词模型的单词模型的匹配似然性。单词模型向量的分量表示在相应的单词模型位置找到某个子模型的期望值。
在一个实例中，借助于调变操作实现将单词模型向量分配给似然向量。取似然向量和所分配的单词模型向量的标积和的最大值，但保持似然向量以及单词模型向量的顺序。对于考虑中的每个单词，这个最大化的标量向量和被计算作为单词模型匹配似然性。对应于来自姓名或命令的最佳匹配单词模型的最高单词模型匹配似然性被合成，由此获得语音识别结果。
识别过程中使用的似然向量可以被理解为相应的特征数据的输入语音中的这些所说出的语音单元的似然性的指示。为了计算似然向量，可以使用语音的语言特定的内部表示，其包含了充当语音单词模型的子模型的语音单元的似然性分布。
在一些实施例中，语音似然性分布可以相对于当前说话者的特性和环境噪声进行更新。
在一些实施例中，提供一种具有话音拨号功能的通信设备，而且该通信设备执行不依赖于说话者的语音识别。
在一些实施例中，提供一种包含计算机程序代码的计算机程序和存储器装置，当计算机程序代码在通信设备上执行时，使得通信设备能够实现不依赖于说话者的语音识别，语音识别功能则实现了例如通信设备的不用手的话音拨号功能。
在一些实施例中，语音识别技术被用于识别声学传送的语音信号。这些语音信号来自通信设备的近端用户，通信设备为例如具有实现本方法或者包含用于执行语音识别的设备的不用手的话音拨号功能的移动电话。语音识别还可以用于控制通信设备。例如，在仅有有限的处理能力可用的情况下，语音识别技术可用于控制通信设备的功
能。语音识别技术还可以用于控制如下设备的功能例如机动车、巻帘窗、无线电接收机、导航系统、移动电话，或者甚至于控制机动车自身。
现在参考图1，附图标记100指示一个用于执行作为诸如移动或蜂窝电话的通信设备的一部分的语音识别的设备。为了清楚起见，图 1中已经省略了可在常规电话中发现的其它功能模块，如射频(RF) 组件、双音多频(DTMF)组件等。在操作中，通过麦克风10输入的模拟话音信号由例如模-数(A/D )转换器和脉冲编码调制器(PCM ) (均未示出)转换为数字话音输入信号。这个数字输入信号被传递给声码器20。
诸如微处理器的控制器40控制通信设备的基本操作并执行控制功能，例如进入语音识别模式，或者在语音识别判定之后和/或基于用户请求拨打对应于所识别的姓名的号码。
例如，在按下一个按键(图1中未示出)以便激活话音识别模式 (即，语音识别模式)之后，控制器40将通信设备置于话音识别模式。数字输入信号于是被声码器20处理，声码器20将数字输入信号划分为等长的部分而且从这些部分中提取频谱特征数据，即所谓的帧。频谱特征数据被转化为带有对数或非对数成分的频谱特征向量，该频镨特征向量被称为输入特征向量。举例来说，特征数据可以为每秒200个字节，而且由频i脊或对数倒频镨(cepstral)参数、信号幅
度和/或幅度的改变、或者它们的组合来表示。这种特征提取技术在本领域中是众所周知的。因此，从本讨论中省略了如何从数字输入语音中提取特征数据以及转换为输入特征向量的详细方法描述。
将要由通信设备识别的单词，如期望的被叫方姓名、号码、或者
电话指令，存储在电话薄90中。电话薄90可以在非易失的存储器，如闪存或EEPROM等，或者用户接口模块(SIM)卡中实现。电话薄典型地包含存储器存储的用户信息，包括移动站序列号和通信设备的制造商的代码指示等等。在一个实例中，非易失存储器包含语言特定的内部语音表示，其包含了语音单元的似然性分布，如充当将被识别的单词的子模型的字母表的字母的音素或语音表示。下面将进一步描述似然性分布的计算。简言之，似然性分布指示了用作参数化表示的特征空间的统计分布，用于计算对应于给定特征向量的所说的话中，所讲的语音单元的似然性。
通过利用下面将进一步描述的字形到音素(G2P)转换，控制器 40根据将被识别的单词生成语音单词模型。语音模型被存储在第一存储器50中，该第一存储器可以是用于存储在通信设备的用户操作期间所应用的各种临时数据的易失性存储器，例如RAM,或者为非易
失存储器，例如类似于存储电话薄90的存储器。
语音单词模型由类似音素的所选择的语言的单词子模型(即语音
单元)组成。因此，语音单词模型还可以被定义为单词模型向量序列，其中每个单词模型向量包括指示在相应的单词模型的位置找到相应
语音单元的期望值的分量。如可以在图l中看出的，以举例方式在第一存储器50中描述了两个单词模型向量序列51和52。
在语音识别模式中，基于所选择的语言的内部表示的似然性分布，计算每个输入特征向量的相应似然向量。似然向量的各分量表示在该特征数据帧中相应的语音单元被说出的似然性。由此，每个似然向量的维数对应于在所选择的语言中使用的语音单元的数量。
语音识别由语音识别部件30执行。语音识别部件30包括似然向量计算部件60，其根据从声码器20输入的特征向量计算似然向量序
列。从似然向量计算部件60输出的似然向量序列被传递到语音识别部件30的调变器(warper) 70。调变器70使似然向量序列61与单词模型向量序列51、 52—同调变，使得单词模型向量序列51、 52可相继由第一存储器50使用。调变处理的结果是给单词模型向量分配以似然向量。执行这项工作以便似然向量和所分配的单词模型向量的标积和最大。同样，保持似然向量以及单词模型向量二者的顺序。在此之后，计算在考虑当中的每个单词(即，语音单词模型)的最大标量向量和。最大和对应于最佳匹配的单词，而且标量向量和的值代表单词模型的匹配等级次序。
由调变器执行的调变处理的一个原理是针对每个单词模型，最大化单词模型匹配似然性。在一个实例中，这是在两个相邻位置完成的。
根据调变技术，将与恒定的时间间隔有关的匹配似然向量序列与相应的单词模型的子模型向量相比较。每个这样的子模型向量都指示在该
位置，在相应的单词模型中可能意味着出现或者不出现相应的单词子模型的分布。子模型向量在某个位置处的单个分量因此可以被理解为指示单词模型中的某个单词子模型在该位置的期望值。在一个优化处
理中，通过相对于将被分配给该位置处或者该位置的下一位置处的单词子模型的时间帧的似然向量，移位相邻单词子模型之间的边界，可以使得这些相邻单词子模型的匹配似然性最大化。
由同一申请人申请的标题为"Speech Recognition Method and System" ( 2002年6月4日提交的EP申请号No. 02012336.0 )的欧洲专利申请中提供了有关所应用的用于确定似然向量序列的最佳匹配单词模型的调变技术的附加的细节，其全部内容作为参考包含于此。
此外，或者可选地，语音识别装置30可能包括合成来自最佳匹配单词模型的姓名作为所识别的姓名或命令的合成器(图i中未示
出)。这个识别的姓名可以接着被输出以便通知用户语音识别已完成。例如，所识别的姓名的合成的话音数据接着被提交给声码器20，话音数据在此被转换成PCM信号而且接着提供给数-模(D/A )转换器(图 1中未示出)。在D/A转换器中将PCM信号转换为模拟信号之后，
该信号可能被放大为可听见的信号并通过扬声器15输出。由此，例如当用户在通信设备100的语音识别模式中说出一个被叫方姓名，而且语音识别装置30识别该姓名对应于电话薄90中的某个姓名的语音单词模型时，其将这个的识别报告给用户。例如，可以通过再现所识别的姓名来完成这种报告。控制器40于是可以执行自动拨号或者等待一个口头的确认命令(例如，"拨号，，或"是的，，)或者在继续拨号之
前由用户按一个键。
在一些实施例中，带有似然向量计算组件60、调变器70以及可能还有合成器的语音识别装置30可以实现为运行在例如控制器40的微处理器上的一组硬件单元、软件程序，或者通过硬件和软件的结合来实现。当以软件形式实现时，语音识别功能可以包含在非易失存储器中，如通信设备的SIM卡中，无需如图1所描述的分离的电路组件。
现在参考图2，图2举例说明了在具有话音拨号功能的通信设备中的语音识别过程200。在块210，通过例如按下通信设备上的一个键或者按钮进入语音识别模式。例如，用户可以按下通信设备上的适当的按键以便进入语音识别模式。该键入通过例如通信设备100的控制器40被检测到，然后控制器40进入语音识别模式。
在块220，根据当前记录的输入特征数据的输入特征向量生成似然向量序列。所选择的语言的语音单元的似然性分布被用于生成似然向量序列。例如，可以基于当前用户的国籍选择语言。在接通通信设备之后，提供似然性分布的语音的语言特定的内部表示被从服务提供商经由移动通信链路传送给该通信设备。
在块230，通过将似然向量序列调变到单词模型向量序列，比较似然向量序列和语音单词模型。可以从通信设备的电话薄中的姓名的书写表示法得到语音单词模型。例如，这可以基于所选择的语言的语音单元，利用字形到音素转换来完成。
作为调变操作的结果，确定了最佳匹配单词模型或者最佳匹配单词模型的列表。对这些最佳匹配单词模型的相应的姓名，通过合成这些姓名用于声音输出或者在通信设备的内置的显示装置上以合理的
顺序显示一个或多个姓名来指示。用户于是可以通过例如按下一个按钮或者说出一个话音指令来选择所识别的姓名。这允许通信设备拨打对应于所识别的姓名的号码。
图3举例说明了过程300，其中相对于环境噪声级别和当前用户的个人说话者特性来更新似然性分布。如参考图3所解释的，通过引入附加的特征向量可以考虑通信设备的环境噪声和当前说话者的特性，所引入的附加的特征向量随后被用于更新似然性分布。一个称为噪声特征向量的向量代表环境噪声，而另一个称为说话者特性适应向量的向量代表当前说话者的特性。如将参考图4A、 4B和5进一步解释的，该两个向量均影响语音的内部表示。
在块310，如上所述，在语音识别模式中根据话音输入生成输入特征向量。此外，还以与如输入特征向量生成类似的方式，在块310 生成噪声特征向量。噪声特征向量可能具有与输入特征向量相同的频镨特性，而且均根据属于噪声输入而不是话音输入的输入特征数据帧生成的。话音和噪声之间的区别可以基于不同的标准。举例来说但不是限制性的，一种标准可以是在进入语音识别模式之后，用户还未说出一个话音输入。另外，或者可选地，可以根据在已经关闭了收音机或者音乐播放器时，且已经进入了语音识别模式之后，但是在开始一个话音消息之前记录的噪声输入，计算噪声特征向量。例如，话音消息可能是"请说你想拨打的姓名"，该话音消息可以由通信设备输出。另一种可能的标准可以是基于话音或噪声输入的典型分布，评估输入特征向量的频镨功率分布，以便决定当前的输入向量是输入特征向量还是噪声特征向量。
根据一个实施例，可以提供根据由当前用户所讲的相应的话音输入生成的输入特征向量，而且可以使用说话者特性适应向量。如果没有说话者特性适应向量可用，则可以使用一个默认的特性适应向量。在一个实例中，默认特性适应向量的所有分量等于0。在另一个实例中，通信设备包括一个类似SIM卡的非易失存储器，在其上存储有当前用户的说话者特性适应向量，随后于是可以使用该说话者特性适应
向量。
在一些实施例中，可以在通信设备中存储几个说话者特性适应向量，或者可以例如通过来自服务提供商的移动通信链路作出请求。在此情况下，用户可以从一个此类向量的列表中选择最为适当的说话者特性适应向量。这个列表可以包括例如带有或者不带有严重口音的针对男性和女性用户的向量，等等。
噪声特征向量以及说话者特性适应向量均可以是具有如输入特征向量的同样维数和频谱属性的频谱向量。
在块320，通过使似然性分布适应当前环境噪声级别和当前用户的语音学特征，更新似然性分布。噪声特征向量和说话者特性适应向量可以以这样一种方式来修正似然性分布即，可以改变一个相同的特征向量的似然向量的分量值以便提高识别率。下面进一步详细描述更新操作。
在块330，基于更新的似然性分布，根据当前输入特征向量生成一个似然向量序列。在块340，执行例如如上所述的调变操作。基于操作中确定的最佳匹配单词模型，过程300继续进行到块350。在块 350，通过选择对应于该最佳匹配单词模型的姓名，确定识别结果。
在另一条路径中，过程300从块340分支到块360，在此计算当前说话者特性适应向量。这个计算操作是基于由调变操作(上面参考图1，以及关于调变技术参考的共同待审的专利申请中描述的)执行的使相应的单词模型向量与似然向量关联来完成的。最新计算的说话者特性适应向量于是可以用于在后续识别周期中更新似然性分布。
在一个实例中，参考图4A和4B更为详细的解释了似然性分布的更新操作(过程300中的块320 )。通信设备100的电话薄90包含在所选择的语言中所需的语音单元(音素)的典型的特征向量。这些典型的特征向量是具有同样的维数和如上所述的输入特征向量的频谱特性的频谱向量(在此，"相同的频谱特性"意思是在这一点上，这些向量中的同样位置上的分量代表同样频率范围的特征而且在类似的幅度参考系统中测量)。
语音单元的典型特征向量可以在来自代表相应音素的话音采样
的无噪声环境中预先存储。举例来说，对于每个音素一组IOO个的典型向量可能就足够了，而且某一语言典型地需要不超过50个不同的音素。因此，大约5， 000个典型特征向量对于定义所选择语言的内部表示可能就足够了。
现在参考图4A,图中举例说明了过程400a，其中一个或多个说话者特性适应向量420A在操作415中与语言特定的音素410的典型特征向量相乘。在一些实施例中，乘法操作415起到混频器的作用，以将典型特征向量410与说话者特性适应向量420A混频。在一个实例中，第一混频操作415的结果被称为第一修正的典型特征向量，而且可以再次与说话者特性适应向量420A混频，以便产生进一步修正的典型特征向量。在操作435中，噪声特征向量被添加到第一或者进一步修正的典型特征向量中的每一个。噪声特征向量可以是出自一组噪声特征向量430的随机样本，或者是基于噪声特征向量430的平均的随机样本。噪声特征向量的平均意味着至少某些可用的噪声特征向量的分量被平均，以便产生用作操作435中的噪声特征向量430的平均噪声特征向量。在块440,所计算的第二修正的典型特征向量然后被用于计算语音单元的似然性分布。该计算的结果就是噪声和说话者修正的似然性分布450。
现在参考图4B，图中举例说明了过程400B，其中在用户说出一个命令或所期望的被叫方姓名之前，记录环境噪声并处理以便产生一组噪声特征向量430。噪声特征向量430，如典型特征向量410，可以是具有非对数分量的频i普向量。每个典型特征向量410通过添加典型
特征向量和噪声特征向量二者的相应的分量与其中一个噪声特征向量430相加。例如，典型特征向量410的每个分量与随机从噪声特征向量組中选择的其中一个噪声特征向量430的相应的分量相加。在另一个实例中，典型特征向量410的每个分量与平均噪声特征向量的相应的分量相加。在操作425中，取和向量的每个分量的对数，而且在块426中求这个和向量的对数。在操作427中，与这个对数和向量相
关联的是具有对数分量的说话者特性典型向量426b。结果，计算了一组修正的对数典型特征向量。在块440，根据修正的对数典型特征向量，通过例如利用多维高斯适配(Gauss fit)的参数化方法，计算对数特征空间中的音素的统计分布。假定高斯型分布，则可以依据一小组参数，即特征空间的每一维中的期望值和标准偏差，建模特征空间中的噪声和说话者修正的语音似然性分布。这个参数化方法表示更新
的噪声和说话者修正的语音似然性分布450，该分布也称为更新的语音似然性分布，根据该分布可以计算似然向量或者如输入特征向量的任意给定的对数特征。所谓的更新的语音似然性分布450接着可以用在进一步的语音识别过程中。
噪声和说话者修正的似然性分布可以考虑作为一组噪声和说话
者修正的典型特征向量，其中的每一个典型特征向量对应于相应的语音单元。针对一个特定语音单元，在多个典型特征向量之上求这些典型特征向量的平均，类似如上所述的对每个音素取100个典型特征向量。
现在参考图5，图中举例说明了计算说话者特性适应向量的过程 500。依赖于似然性分布的计算，或者根据图4A中的流程图400A，或者根据图4B中的流程图400B，可以以非对数特征向量(420A)或者对数特征向量(420B)的形式计算说话者特性适应向量。在一个识别周期之后，例如由调变操作得到的将最佳匹配单词子模型分配给似然向量的结果被用于更新说话者特性适应向量。由于每个似然向量可以相当于相应的输入特征向量，最佳匹配的单词子模型同样可以被分配给这些相应的输入特征向量。这意味着话音输入内容可以根据输入特征向量被划分为段，对于每一个输入特征向量，一个最佳匹配单词模型被分配作为调变结果。换言之，在块510，一个语音单元被分配给之前处理的话音输入的每一个输入特征向量。在差分操作530中，基于所分配的语音单元的分布中心与对应于之前提到的输入特征向量的似然向量之间的值，为每个输入特征向量计算差分向量。该差分向量是通过计算分配给调变产生的语音单元的输入特征向量的相应
分量和相应语音单元的典型特征向量之间的差异来确定的。
在一个实例中，分配的语音单元的分布中心是这个相应语音单元
的平均的典型特征向量520。
在块540,每个差分向量于是以音素特定的方式被求平均。结果，对于每个语音单元，基于这个语音单元被分配作为最佳匹配的单词子模型，计算平均的差分向量。在块550，计算平均的差分向量之上的平均。预先选择的音素的平均差分向量之上的平均就是说话者特性适应向量560。因此，可以在每个识别周期之后更新说话者特性适应向量。然而，在每第十个识别周期之后更新说话者特性适应向量就已足够了，或者可以在当前用户改变了之后更新说话者特性适应向量。
图6和7描述了用于根据各种各样的实施例执行语音识别过程的通信设备的框图。首先参考图6，图中描述了在例如移动或蜂窝电话的具有话音拨号功能的通信设备中执行语音识别的设备600。语音单词模型51、 52是例如根据存储在通信设备的SIM卡或其它存储器上的电话薄90中的姓名条目生成的。可以通过利用字形到音素转换 (G2P) 620执行生成单词模型51、 52的语音单词模型计算，而且可以执行作为存储在电话薄中的姓名的文本到语音转换。在变换或转换操作620中，可以使用所选择的语言的语音单元作为单词子模型，根据该单词子模型可以组装语音单词模型。例如，存在不同的以基于规则方式工作的或者简单地替换语音单元考虑中的姓名中的字母或字母组合工作的G2P转换器。单词模型51、 52可以存储在存储器50 中，其可以是例如通信设备的RAM存储器或者SIM卡上的另外的部分。
在例如用户按下了某个键后进入语音识别模式。根据进一步的实施例而且依赖于通信设备，也可以经由其它模式和/或命令进入语音识别模式，例如通过一个检测相应的由用户发出的请求的控制器(图6 中未示出)。在一个实例中，通信设备通过内置的扬声器15输出一个说出的命令。所说出的命令可以是例如"请说你想要呼叫的姓名，，，提示用户说出他或她想要呼叫的姓名。由用户说出的姓名接着被麦克
风10记录作为话音输入并传送到声码器20。声码器20根据该话音输入计算输入特征向量，并且将这些输入特征向量传送到似然向量计算部件60。基于似然性分布610，似然向量计算部件60根据输入特征向量计算似然向量序列61。似然向量序列61接着被调变器70调变，以便产生存储在存储器50中的单词模型51、 52。在调变操作中，计算考虑中的单词模型的单词模型匹配似然性。单词模型匹配似然性被带入各自的级别，其中最高单词模型匹配似然性在顶部。该识别结果于是就是针对其已经计算了最高单词匹配似然性的最佳匹配单词模型。根据另一个实施例，可以给出的识别结果为一个最佳匹配的单词模型的列表。
识别结果可以被传送给语音合成器650，其合成对应于最佳匹配单词模型的一个或多个最佳匹配姓名，用于通过扬声器15以可听见的声音输出。根据另一个实例，可以通过在通信设备600的显示屏670 上，以对应于最佳匹配单词模型的顺序显示一个或多个最佳匹配的姓名，将识别结果呈现给用户。换言之，可以利用内置或者分离的输出装置660将识别结果呈现给用户。
此外，或者可选地，用户于是可以从一个最佳匹配姓名列表中选择一个姓名，或者仅仅确认最佳匹配的那个就是他想要呼叫的人的姓名。在一个实例中，用户的选择在显示屏670上高亮显示，或者通过扬声器15输出为合成的单词。用户接着可以通过说出命令和/或滚动按钮点击来改变单词选择，而且最新选择的单词于是被高亮显示，或者作为合成单词以可听见形式的输出。为了确认所选择的单词是用户想要呼叫的人的姓名，用户可以说出一个诸如"拨号"或"是的"、或者按下通信设备上的相应按钮。通过利用根据通信设备中的可用通信设备命令列表生成的调变操作中的单词模型，可以以如所说出的姓名的话音输入同样的方式，识别所说出的命令。
在由用户确认之后，拨号器640拨打对应于所选择的姓名的号码，而且例如通过控制器(图6中未示出)退出话音识别模式。
在一些实施例中，通信设备可以自动拨打对应于最佳匹配单词模
型的号码，而无需将识别结果呈现给用户，或者在已经给出了识别结
果之后就自动拨打。例如，这可以通过由语音合成器650输出相应的合成单词，并且拨打该对应的号码来完成。在一个实例中，由拨号器 640在同一时刻或者短暂地在已经将识别结果呈现给用户之后，拨打对应的号码。如果用户接着意识到由语音合成器650输出的合成单词或者通过显示屏670的提示不正确或者不是用户想要拨打的那个，用户可以例如通过按一个与该通信设备有关的相应的按键来中断拨号过程。
参考图7，图中描述了一个用于在具有话音拨号功能的通信设备中执行语音识別的设备700。除了在设备700中，似然性分布610基于如上述有关操作320解释的说话者特性和噪声而被更新之外，设备 700类似于图6中描述的设备600。此外，设备700不包含如图6所描述的语音合成器650。因此，识别结果可能以最为像是正确结果的顺序的一个或多个姓名呈现给用户，该结果被显示在内置的显示屏 670上。
再次参考图7，在进入语音识别模式之后，通信设备可以通过扬声器15输出一个口头的命令以便提示用户说出用户想要呼叫的用户。在通信设备的不用手的操作模式中，通过利用干涉消除器710从麦克风10记录的输入信号中去除扬声器干涉。干涉消除器710执行回声消除，并从由麦克风10检测到的输入信号中去除通过扬声器输出的口头命令，以便当扬声器15正在使用中时可能记录的环境噪声不会带有口头命令。由于环境噪声是在通信设备输出口头命令的时候记录
的，用户正在听该口头命令，存在极大的可能是在此期间用户没有讲话，由此麦克风10可能记录纯噪声信号。噪声处理器720可以根据所记录的噪声信号计算一组噪声特征向量。
在一些实施例中，也可以由声码器20根据记录的噪声输入计算噪声特征向量，并且随后传送给噪声处理器720,噪声处理器720计算将进一步在识别过程中使用的平均噪声特征向量。在通信设备700 中，可以利用从噪声处理器720提供的噪声特征向量，并且基于由说
话者适应单元730提供的当前说话者的特性，更新似然性分布610。上面已经参考图3、 4A、 4B和5描述了更新过程的细节。在说话者适应单元730中，可以根据来自调变操作结果的分配给由调变器70提供的似然向量的子模型，计算说话者特性适应向量。由此，根据之前记录的说话内容的识别结果，更新似然性分布610以便连续改进后续的识别结果。
本领域的技术人员将理解的是，可以以任何有意义的组合结合图 1、 6和7中描述的功能块。
上述的各种各样的实施例允许充分的语音识别而无需其中不得不记录而且预存储将要识别的单词的特征数据的注册过程。此外，通过利用环境噪声和当前说话者的特性，所描述的各种各样的实施例适于降低通信设备的话音拨号模式中的识别错误率，而且进一步降低了话音识别遗漏的概率。此外，通过使用语音单元和它们的似然性分布作为所选择的语言和它们的识别过程的内部表示，所描述的各种各样的实施例能够容易地适用于不同的语言，而且能够识别仅有书写表示且没有语音特征数据可用的新的单词，例如，作为电话薄条目。
结论
上面已经描述了本发明的各种各样的实施例，应当理解的是已经给出的那些实施例仅是示例而不是限制。对相关领域的技术人员来说很显然的是，可以在它们之中作出各种各样的形式和细节上的改变而不偏离本分明的精神和范围。因此，本发明的宽度和范围不应受任何上述的示例性实施例的限制，而是仅应当根据下述的权利要求书和它们的等同物来定义。
应当理解的是，详细描述的章节，而非发明内容以及摘要，用于解释权利要求书。发明内容以及摘要可以阐明一个或多个但不是全部的本发明人预期的本发明的示例性实施例，并且由此并不打算以任何方式限制本发明以及所附权利要求书。
权利要求
1、一种用于在具有话音拨号功能的通信设备中执行语音识别的方法，包括:a)进入语音识别模式；b)接收到语音识别模式中的话音输入后，根据话音输入生成输入特征向量；c)根据指示说出语音单元时的似然性的输入特征向量，计算似然向量序列；d)调变所述似然向量序列到语音单词模型；e)根据所述语音单词模型，计算单词模型匹配似然性；以及f)确定所述单词模型匹配的其中一个最佳匹配作为识别结果。
2、根据权利要求l的方法，其中所述语音单元充当所述语音单词模型的单词子模型，每个所述语音单词模型包括一个单词模型向量序列，而且所述单词模型向量的分量指示在所述语音单词模型的相应位置找到相应的一个语音单元的期望值。
3、根据权利要求l的方法，其中每个所述似然向量是利用所选择的语言的内部表示，根据所述相应输入特征向量计算的。
4、根据权利要求3的方法，其中所述内部语言表示包含从指示特征空间中的典型特征向量的统计分布的语音单元的各个典型特征向量计算的似然性分布。
5、根据权利要求4的方法，其中所述似然性分布的计算是在注册模式中执行的，包括记录不同的说话者在无噪声环境中所说的话音输入样本；选择对应于所述选择的语言中要求的语音单元的所述话音输入样本的部分；以及根据所述选择的部分，生成典型特征向量。
6、根据权利要求4的方法，还包括确定当前用户的说话者特性适应向量，并且通过将所述说话者特性适应向量反映到所述典型特征向量中，更新所述似然性分布。
7、根据权利要求4的方法，还包括测量通信设备环境中的噪声；根据所述测量的噪声，处理噪声特征向量；以及通过使所述噪声特征向量关联到所述典型特征向量，更新所述似然性分布。
8、根据权利要求7的方法，其中所述噪声特征向量、所述说话者特性适应向量以及所述典型特征向量是频镨向量，而且更新所述似然性分布包括将所述说话者特性适应向量与每个所述典型特征向量相乘，以便生成第一修正的典型特征向量；将所述第一修正的典型特征向量与所述噪声特征向量相加，以便生成第二修正的典型特征向量；以及确定所述第二修正的典型特征向量在特征空间中的统计分布，作为更新的似然性分布。
9、根据权利要求7的方法，其中所述输入特征向量、所述噪声特征向量、所述说话者特性适应向量以及所述典型特征向量是频谱向量，所述噪声特征向量和所述典型特征向量具有非对数分量，所述输入特征向量和所述说话者特性适应向量具有对数分量，而且更新所述似然性分布包括将每个所述典型特征向量加上所述噪声特征向量，以便生成第一修正的典型特征向量；对于所述第一修正的典型特征向量的每个分量查对数；将所述说话者特性适应向量加到、所述第一修正的和求对数的典型特征向量，以便生成第二修正的典型特征向量；以及确定所述第二修正的典型特征向量在特征空间中的统计分布，作为更新的似然性分布。
10、根据权利要求7的方法，其中确定所述说话者特性适应向量包括针对每个所述典型特征向量，计算说话者特性适应向量，进一步包括给每个所述输入特征向量分配最佳匹配语音单元；计算每个所述输入特征向量和所述相应的典型特征向量之间的差分向量；以及为每个所述相应的典型特征向量计算音素特定的平均差分向量，作为说话者特性适应向量。
11、根据权利要求io的方法，其中在所述音素特定的平均差分向量之上，对于所述说话者特性适应向量求平均。
12、根椐权利要求l的方法，还包括根据所述最佳匹配的单词模型合成姓名，并拨打对应于所述姓名的号码。
13、根据权利要求l的方法，其中利用字形到音素转换，根据电话薄中的姓名生成所述语音单词模型，作为所述单词子模型序列。
14、一种用于在具有话音拨号功能的通信设备中执行语音识别的设备，包括用于存储电话薄中的姓名的单词模型的第一存储器；用于根据语音识别模式中的话音输入，生成输入特征向量的声码器；语音识别组件，包括(a)用于根据指示说出语音单元时的似然性的输入特征向量，计算似然向量序列的似然向量计算装置，(b) 用于调变所述似然向量序列到所述单词模型的调变器，(c)用于根据所述单词模型，计算单词模型匹配似然性的计算装置，以及(d) 用于确定最佳匹配单词模型作为识别结果的确定装置；以及用于启动语音识别模式的控制器。
15、根据权利要求14的设备，其中利用根据所述语音单元的典型特征向量计算的似然性分布，从所述相应的输入特征向量计算每个所述似然向量，所述设备还包括用于记录所述话音输入和环境噪声作为噪声输入的麦克风；其中所述声码器处理来自所述噪声输入的噪声特征向量；以及其中所述语音识别组件通过将所述噪声特征向量反映到所述典型特征向量，更新所述似然性分布。
16、根据权利要求14的设备，其中利用从所述语音单元的典型特征向量计算的似然性分布，根据所述相应的输入特征向量计算每个所述似然向量，所述设备还包括说话者特性适应装置，用于确定当前用户的说话者特性适应向量，并且用于通过将所述说话者特性适应向量反映到所述典型特征向量中，更新所述似然性分布。
17、根据权利要求16的设备，其中所述噪声特征向量、所述说话者特性适应向量以及所述典型特征向量是频镨向量，所述说话者特性适应装置用于通过下述操作更新似然性分布将所述说话者特性适应向量与每个所述典型特征向量相乘，以便生成第一修正的典型特征向量；将所述第一修正的典型特征向量加上所述噪声特征向量，以便生成第二修正的典型特征向量；以及确定所述第二修正的典型特征向量在特征空间中的统计分布，作为似然性分布。
18、根据权利要求16的设备，其中所述说话者特性适应装置用于通过下述操作确定或更新所述说话者特性适应向量给每个所述输入特征向量分配最佳匹配语音单元；计算每个所述输入特征向量和所述相应的典型特征向量之间的差分向量；对每语音单元的差分向量求平均，并且生成音素特定的平均差分向量；以及在所述音素特定的平均差分向量之上求平均。
19、根据权利要求14的设备，还包括用于根据所述最佳匹配的单词模型，合成姓名的合成器；以及其中所述控制器拨打电话薄中对应于根据所迷最佳匹配的单词模型合成的姓名的号码。
20、根据权利要求19的设备，其中所述调变器用于确定最佳匹配的单词模型的列表；所述合成器用于为所述列表中的每个最佳匹配的单词模型合成姓名；所述设备还包括用于输出所述合成的姓名的输出装置；以及用于由用户选择其中一个输出姓名的选择装置；以及所述控制器拨打电话薄中对应于所述选择的姓名的号码。
21、根据权利要求20的设备，其中所述输出装置包括所述通信设备中的扬声器，用于输出来自所述控制器的控制指令；所述麦克风在所述扬声器正在输出时记录所述环境噪声；以及所述设备还包括用于从所述记录的噪声中消除扬声器干涉，以生成噪声输入的千涉消除装置。
22、一种计算机程序产品，包括具有在其上记录的用于控制至少一个处理器的计算机程序逻辑的计算机可读介质，所迷计算机程序逻辑包括用于进入语音识别模式的计算机程序代码单元；用于在接收到语音识别模式中的话音输入后，根据话音输入生成输入特征向量的计算机程序代码单元；用于根据指示说出语音单元时的似然性的输入特征向量，计算似然向量序列的计算机程序代码单元；用于调变所述似然向量序列到语音单词模型的计算机程序代码单元；用于根据所述语音单词模型计算单词模型匹配似然性的计算机程序代码单元；以及用于确定所述单词模型匹配的其中一个最佳匹配作为识别结果的计算机程序代码单元。
23、一种包含计算机程序代码的存储器装置，当计算机程序代码在通信设备上执行时使得通信设备能够实现这样一种方法，即所述方法包括a) 进入语音识别模式；b) 接收到语音识别模式中的话音输入后，根据话音输入生成输入特征向量；c) 根据指示说出语音单元时的似然性的输入特征向量，计算似然向量序列；d) 调变所述似然向量序列到语音单词模型；e) 根据所述语音单词模型，计算单词模型匹配似然性；以及f) 确定所述单词模型匹配的其中一个最佳匹配作为识别结果。
24、一种包含通过这样一种方法控制通信设备的至少一个处理器的指令的计算机可读介质，所述方法包括a) 进入语音识别模式；b) 接收到语音识别模式中的话音输入后，根据话音输入生成输入特征向量；c) 根据指示说出语音单元时的似然性的输入特征向量，计算似然向量序列；d) 调变所述似然向量序列到语音单词模型；e) 根据所述语音单词模型，计算单词模型匹配似然性；以及f) 确定所述单词模型匹配的其中一个最佳匹配作为识别结果。
25、根据权利要求24的利用所述方法控制所述处理器的所述计算机可读介质，其中所述语音单元充当所述语音单词模型的单词子模型，每个所述语音单词模型包括一个单词模型向量序列，所述单词模型向量的分量指示在所述语音单词模型的相应位置找到相应的一个语音单元的期望值。
26、根据权利要求24的利用所述方法控制所述处理器的所述计算机可读介质，其中每个所述似然向量是利用所选择的语言的内部表示，根据所述相应的输入特征向量计算的。
27、根据权利要求26的利用所述方法控制所述处理器的所述计算机可读介质，其中所述内部语言表示包含从指示特征空间中所述典型特征向量的统计分布的所述语音单元的各个典型特征向量计算的似然性分布。
28、根据权利要求27的利用所述方法控制所述处理器的所述计算机可读介质，其中所述似然性分布的计算是在注册模式中执行的，包括记录不同的说话者在无噪声环境中所说的话音输入样本；选择对应于所述选择的语言中要求的语音单元的所述话音输入样本的部分；以及根据所述选择的部分生成典型特征向量。
29、根据权利要求28的利用所述方法控制所述处理器的所述计算机可读介质，还包括确定当前用户的说话者特性适应向量，并且通过将所述说话者特性适应向量反映到所述典型特征向量中，更新所述似然性分布。
30、根据权利要求28的利用所述方法控制所述处理器的所述计算机可读介质，还包括测量通信设备环境中的噪声；根据所述测量的噪声处理噪声特征向量；以及通过使所述噪声特征向量关联到所述典型特征向量中，更新所述似然性分布。
31、根据权利要求30的利用所述方法控制所述处理器的所述计算机可读介质，其中所述噪声特征向量、所述说话者特性适应向量以及所述典型特征向量是频谱向量，而且更新所述似然性分布包括将所述说话者特性适应向量与每个所述典型特征向量相乘，以便生成第一修正的典型特征向量；将所述第一修正的典型特征向量与所述噪声特征向量相加，以便生成第二修正的典型特征向量；以及确定所述第二修正的典型特征向量在特征空间中的统计分布，作为更新的似然性分布。
32、根据权利要求30的利用所述方法控制所述处理器的所述计算机可读介质，其中所迷输入特征向量、所述噪声特征向量、所述说话者特性适应向量以及所述典型特征向量是频i普向量，所述噪声特征向量和所述典型特征向量具有非对数分量，所述输入特征向量和所述说话者特性适应向量具有对数分量，而且更新所述似然性分布包括将每个所述典型特征向量加上所述噪声特征向量，以便生成第一修正的典型特征向量；对所述第一修正的典型特征向量的每个分量查对数；将所述说话者特性适应向量加到所述第一修正的和查对数的典型特征向量，以便生成第二修正的典型特征向量；以及确定所述第二修正的典型特征向量在特征空间中的统计分布，作为似然性分布。
33、根据权利要求30的利用所述方法控制所述处理器的所述计算机可读介质，其中确定所述说话者特性适应向量包括针对每个所迷典型特征向量计算说话者特性适应向量，进一步包括给每个所述输入特征向量分配最佳匹配语音单元；计算每个所迷输入特征向量和所述相应的典型特征向量之间的差分向量；以及为每个所述相应的典型特征向量计算音素特定的平均差分向量，作为说话者特性适应向量。
34、根据权利要求33的利用所述方法控制所述处理器的所述计算机可读介质，其中在所述音素特定的平均差分向量之上对所述说话者特性适应向量求平均。
35、根据权利要求24的利用所述方法控制所述处理器的所述计算机可读介质，还包括根据所述最佳匹配的单词模型合成姓名，并拨打对应于所述姓名的号码。
36、一种利用权利要求24的方法控制所迷处理器的所述计算机可读介质，其中利用字形到音素转换，根据电话薄中的姓名生成所述语音单词模型，作为所述单词子模型序列。
全文摘要
本发明提供一种用于在具有话音拨号功能的通信设备中执行语音识别的技术。在接收到语音识别模式中的话音输入之后，根据该话音输入生成输入特征向量。同样，还根据指示在说出语音单元时的似然性的输入特征向量，计算似然向量序列。在调变操作中，似然向量序列与语音单词模型相比较，而且计算该单词模型的单词模型匹配似然性。在确定了最佳匹配的单词模型之后，在拨号操作中拨打对应于根据最佳匹配单词模型合成的姓名的号码。
文档编号G10L15/02GK101385073SQ200780005463
公开日2009年3月11日申请日期2007年2月13日优先权日2006年2月14日
发明者D·鲁维什申请人:知识风险基金21有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.鲁维什
技术所有人：知识风险基金21有限责任公司
我是此专利的发明人

上一篇：在音频编码/解码中用于知觉加权的设备的制作方法
上一篇：语音检测器和用于语音检测器中抑制子频带的方法