为鲁棒语音识别对语音信号进行处理的方法和设备的制作方法

文档序号:2819110阅读:250来源:国知局
专利名称:为鲁棒语音识别对语音信号进行处理的方法和设备的制作方法
技术领域
本发明涉及用于为随后的语音识别对具有噪声的语音信号进行处理的方法和设备。
语音识别越来越多地被使用,以便简化电气设备的操作。为了能够进行语音识别,必须创建所谓的声学模型。为此训练语音命令,这例如(针对语音识别与说话者无关的情况)可以已经在工厂侧完成。在此,“训练”被理解为基于多次讲述语音命令来创建所谓的描述语音命令的特征向量。然后,在声学模型、例如所谓的HMM(隐马尔可夫模型)中收集这些特征向量(这些特征向量也称为原型)。该声学模型用于(在识别期间)为从词汇表中所选出的语音命令或词的给定序列确定所考察的特征向量的概率。
为了语音识别或者识别流利的语音,除了声学模型之外还使用所谓的语音模型,所述语音模型说明在要识别的语音中各个词相继的概率。
目前改进语音识别的目标是,达到越来越好的语音识别率,也就是说,提高由移动通信设备的用户所说的词或语音命令也被识别为该词或语音命令的概率。
因为在多方面使用这种语音识别,所以也在受噪声干扰的环境中进行该使用。在这种情况下,语音识别率显著下降,因为位于声学模型、例如HMM中的特性向量是基于纯的、也即不带有噪声的语音来创建的。这导致在喧闹的环境中、例如在街道上、在许多人造访的建筑物中或者在汽车中不令人满意的语音识别。
以这种现有技术为出发点,本发明的任务是创造即使在具有噪声的环境中也以高的语音识别率来实现语音识别的可能性。
该任务通过独立权利要求来解决。有利的改进方案是从属权利要求的主题。
本发明的核心是在将语音信号例如输入到语音识别之前,进行对该语音信号的处理。在该处理的范围内,该语音信号经受噪声抑制。随后,该语音信号在其信号级方面被归一化。在此情况下,该语音信号包括一个或多个语音命令。
这具有以下优点在这样被预处理的具有带有噪声的语音的语音信号情况下语音命令的语音识别率明显高于在具有带有噪声的语音信号的常规语音识别的情况下的语音识别率。
可选地,该语音信号在噪声抑制之后还可以被输入到用于确定语音活动的单元。然后,基于该噪声减少的语音信号来确定是否存在语音或语音间歇。据此确定用于信号级归一化的归一化因子。特别地,可以这样来确定归一化因子,使得语音间歇被更多地抑制。因此,存在语音的语音信号段与这些不存在语音的语音信号段(语音间歇)之间的差异变得更明显。这使语音识别变得容易。
具有上述特征的方法也可以被用在所谓的分布式语音识别系统中。分布式语音识别系统的特征在于不是所有的在语音识别范围内的步骤都在同一组件上被执行。因此需要多于一个的组件。例如一个组件可以是通信设备,而另一个组件可以是通信网络的单元。在此情况下,例如在被构造为移动站的通信设备中进行语音信号检测,而在网络侧在通信网络单元中进行真正的语音识别。
该方法不仅能够被应用在语音识别中,而且能够已经在声学模型、例如HMM的创建中被应用。结合语音识别,已经在声学模型的创建中的应用展示出语音识别率的进一步提高,其中所述语音识别基于根据本发明被预处理的信号。
借助所选出的实施例来描述另外的优点,所述实施例也在图中被示出。


图1针对为创建声学模型进行训练的情况示出一直方图,在该直方图中包含一个或多个语音命令的语音信号相对于其信号级被绘出;图2针对语音识别的情况示出语音信号相对于其信号级的直方图;图3示出根据本发明的处理的示意性的扩展方案;图4示出一直方图,在该直方图中相对于语音信号级绘出噪声减少并且语音级归一化的语音信号;图5示出一直方图,在该直方图中相对于信号级绘出噪声减少的语音信号;图6示出一直方图,在该直方图中根据本发明对训练中的语音信号进行预处理;
图7示出分布式语音处理的方案;图8示出一个电气设备,该电气设备能够在分布式语音处理的范围内被使用。
在图8中示出被构造为移动电话或移动站MS的电气设备。该电气设备具有用于接收包含语音命令的语音信号的麦克风M、用于处理语音信号的处理器单元CPU、以及用于传送数据(例如所处理的语音信号)的无线电接口FS。
该电气设备可以单独地或者与其他组件一起实现关于所接收的或所检测的语音命令的语音识别。
现在首先将描述导致了本发明的详细的研究在图1中可以看到一直方图,在该直方图中包含一个或多个语音命令的语音信号根据其信号级L被分类,并且频率H相对于信号级L被绘出。在此,语音信号S如例如在随后的图中所示的那样包含一个或多个语音命令。为了简化起见,下面假定语音信号包含一个语音命令。语音命令例如可以在被构造为移动电话的电气设备中通过请求“呼叫”以及可选地确定的名字来形成。在语音识别的情况下必须训练语音命令,也就是说,基于多次讲述该语音命令,创建一个或多个(也即多于一个的)特征向量。在创建声学模型、例如HMM的范围中进行该训练,该声学模型已经在制造商侧完成。这些特征向量稍后被考虑用于语音识别。
在所确定的信号级或响度级上执行语音命令的训练(“单级训练”),该训练用于创建特征向量。为了最佳地利用用于将语音信号转换成数字信号的AD转换器的动态范围,优选地在-26dB处工作。由可供信号级使用的位得出对分贝(dB)的确定。因此,0dB将表示溢出(也即超出最大响度或最大级)。替代地,代替“单级训练”,也能够在多个信号级上、例如在-16、-26和-36dB处进行训练。
在此情况下,在图1中可以看到在将语音命令用于训练的情况下语音级的频率分布。
针对语音命令得到平均信号值Xmean以及语音信号级的某一分布。这可以被描述为具有平均信号级Xmean和方差σ的高斯函数。
当在图1中可以看到针对训练情况的语音命令的分布之后,在对应于图1又相对于信号级L给出频率H的图2中示出在语音识别时的情况具有一个或多个语音命令的语音信号S′(如在随后的图中示出的)在这里根据其信号级L被分类,并且频率H被绘出。基于环境影响,在已经应用了噪声抑制NR(参看图3)之后也得到相对于图1中的训练情况被偏移的分布,该分布具有相对于训练中的平均值Xmean被偏移的平均信号级xmean。
已经在研究中证明由于该偏移的平均信号级xmean,语音识别率显著降低。
这可以从下面的表1中看出表1利用不同响度级或信号级(多级)的纯(“干净”)语音的训练。
该语音识别率涉及测试语音,所述测试语音被归一化为信号级-16、-26、-36dB。
在表1中针对不同的噪声环境列出语音识别率或词识别率,其中已经进行了利用不同响度的无噪声的语音(“干净语音”)的训练。测试语音、也即图1的语音信号被归一化为在-16dB、-26dB和-36db处的三个不同级。针对这些不同的测试语音能级,说明针对具有5dB噪声级的不同类型的噪声的语音识别率。所述不同的噪声是典型的环境噪声,诸如地铁(subway)、所谓的多路串扰(Babble)噪声(也即例如具有语音和其他噪声的咖啡馆环境)、汽车(car)中的背景噪声、以及展览会环境(也即类似于只有更糟的可能具有广播通知、音乐等的多路串扰噪声)。从表1中可以看出语音识别在无噪声的语音的情况下在很大程度上不受测试语音能级的变化影响。然而,对于带有噪声的语音来说,可以看出语音识别的显著下降。为了进行语音识别,在此情况下考虑了下面所描述的基于终端的预处理AFE,该预处理AFE用于创建特征向量。
尽管如此,在表1中所研究的语音识别率(其仍然是不令人满意的)的情况下,相对于基于利用仅仅一个响度级的训练的语音识别,情况被显著改善。
换句话说,环境噪声对基于仅仅一个训练语音响度所创建的声学模型的影响更显著地恶化。
这导致下面所描述的根据本发明的改进现在,在图3中示出根据本发明的一种实施形式的流程。语音命令或语音信号S、例如由人说出的词经受噪声抑制NR。在这种噪声抑制NR之后存在噪声受抑制的语音信号S′。
随后,噪声减少的语音信号S′经受信号级归一化或信号值的归一化SLN。该归一化用于创建信号值,该信号值能够与图1中用Xmean标明的平均信号值相比较。已经证明在可比较的信号平均值的情况下达到较高的语音识别率。也就是说,通过信号值的偏移已经提高语音识别率。
在信号值归一化SLN之后存在归一化的并且噪声减少的语音信号S″。这可以随后例如在具有较高语音识别率的语音识别SR中即使在最初带有噪声的测试语音的情况下也被使用。
可选地,噪声减少的信号S′被分解,并且除了信号值归一化SLN之外还流入语音活动确定单元或“Voice Activity Detection”VAD。根据是否存在语音或语音间歇,调整归一化值,其中利用该归一化值对噪声减少的语音信号S′进行归一化。例如可以在语音间歇中使用较小的乘法归一化因子,由此与在语音存在期间相比,在语音间歇中更大地降低噪声减少的语音信号S′的信号级。因此能够实现语音、也即例如单个语音命令和语音间歇之间的更大的区别,这在语音识别率方面进一步明显改善后置的语音识别。
此外规定不仅在语音间歇与语音段之间改变归一化因子,而且还在不同语音段的词内改变归一化因子。由此也能够改善语音识别,因为一些语音段由于其中所包含的音位、例如在爆破音时(例如p)具有非常高的信号级,而另外的语音段倒不如说是固有地轻的。
为了信号级归一化,考虑不同的方法、例如实时能量归一化,如在Qi Li等人于2002年3月在IEEE Transactions on Speech and AudioProcessing(Vol.10,No.3)中发表的文章“用于实时语音和说话者识别的鲁棒端点检测以及能量归一化(Robust Endpoint Detectionand Energy Normalisation for Real-Time Speech and Speakerrecognition)”中在段C(第149-150页)内所描述的。此外,在ITU的范围内说明了一种信号级归一化方法,该方法可以在Software ToolLibrary 2000User’s Manual(第151-161页,Genf,Schweiz,2000年12月)中在ITU-T“SVP56The Speech voltmeter”内找到。那里所说明的归一化“离线”或者在所谓的“批处理模式”下工作,也就是说,不是与语音检测同步或同时工作。
对于噪声减少或噪声抑制(参看图3)来说,同样设置有不同的已知方法、例如在频率空间中运行的方法。一种这样的方法在Ch.Beaugeant等人在Proceedings of 6th World Multi-conference onSystemics,Cybernetics and Informatics(Orlando,2002)中发表的“使用RLS和心理声学推动的算法的计算上高效的语音增强(Computationally efficient speech enhancement using RLS andpsycho-acoustic motivated algorithm)”中被描述。在那里所说明的系统基于通过综合的分析(Analyse-durch-Synthese)系统,在该系统中逐帧地递归地提取描述(纯)语音信号和噪声信号的参数(参见那里的第二章节“Noise Reduction in the Frequency Domain”、第三章节“Recursive implementation of the least squarealgorithm”)。此外,对这样获得的纯语音信号进行加权(参见第四章节“Practical RLS Weighting Rule”),并且对噪声信号的功率进行估计(参见第五章节“Noise Power Estimation”)。可选地,可以借助于心理声学推动的方法来实现所获得的结果的改进(第六章节“Psychoa coustic motivated method”)。其他可根据图3的实施方式被考虑的噪声减少方法例如在2002年10月的ETSI ES 2020505 V1.1.1中在5.1章节(“Noise Reduction”)内被说明。
图1(训练情况)和图2(测试情况、也即针对语音识别)中的频率分布基于在噪声抑制NR和信号级归一化SN方面未被处理的语音信号S。图5中的频率分布基于噪声减少的语音信号S′。图4(测试情况)和图5(训练情况)中的分布基于噪声减少的并且信号级归一化的信号。
图3中所示的、用于后置的语音识别的、语音信号处理的示意性流程所基于的思想在图4至图6中被示出。
在图5中示出了噪声减少的语音信号S′的频率分布,如例如在图3中在噪声抑制NR之后所出现的。相对于图2,在噪声抑制NR之后也进行了实施,其中图2例如涉及图3中所示的语音信号S的频率分布。
该噪声减少的语音信号S′相对于语音级L的频率分布的中心位于平均值xmean′处。所述分布具有宽度σ′。在到图4的过渡中,对图5中所示的噪声减少的语音信号S′执行信号级归一化SLN。因此,图4中的分布所基于的语音信号例如对应于噪声减少的并且信号级归一化的语音信号S ″。信号级归一化使图5中的实际信号级达到所期望的信号级、例如图1中用Xmean标明的在训练中所达到的信号级。此外,信号级归一化SLN导致所述分布变得更窄、也即σ″小于σ′。由此,利用图1中的在训练中已达到的平均信号级Xmean能够更容易地覆盖图4中的平均信号级xmean″。这导致更高的语音识别率。
现在,联系图7来对上述方面应用于语音识别进行探讨。如在文章开始处已经阐述的,可以在一个组件中或者在多个组件上分布式地进行语音识别。
例如用于检测语音信号的装置(例如图8中所示的麦克风M)、用于噪声抑制NR的装置、以及用于信号级归一化SN的装置可以位于被构造为移动站的电气设备MS中。这些装置可以在处理器单元CPU的范围内加以实现。因此,图3中所示的依照本发明实施形式的语音信号处理的思想以及随后的语音识别可以在移动无线电设备或移动站中单独地或结合通信网的单元加以实现。
依照替代方案之一,语音识别SR(参见图3)自身在网络侧完成。为此,根据语音信号S″创建的特征向量经由信道、特别是无线电信道被传输到网络中的中央单元。然后,在那里基于所传输的特征向量,根据尤其是已经在工厂侧创建的模型来进行语音识别。“在工厂侧”尤其是可以意味着,声学模型由网络运营商创建。
特别地,如在所谓的Aurora情况的范围内所进行的,所建议的语音识别可以被应用于与说话者无关的语音识别。
如果语音命令已经在工厂侧建立声学模型时或者在训练时在其信号级方面被归一化,则得到另一改进。因为由此信号级的分布变得更窄,因而达到图4中所示的分布与在训练中达到的分布之间的更好的一致。在图6中示出了在训练中的语音命令的情况下频率H相对于信号级L的这种分布,其中在训练中执行了信号级归一化。得到的训练平均值Xmea_neu与噪声减少的并且信号级归一化的语音信号S″(图3)的平均值xmean″(图4)一致。如已经阐明的,平均值的一致是高的语音识别率的判据之一。此外,图6中的分布的宽度是非常窄的,这使该分布利用图4中的分布来覆盖、也就是说使该分布达到相同的信号级变得容易。
在图7中示出了分布式语音识别或“Distributed SpeechRecognition”(DSR)。分布式语音识别例如可以在已经提及的ETSISTQ(Speech Transmission Quality(语音传输质量))的AURORA项目的范围内得到应用。
在分布式语音识别的情况下,在一个单元中检测例如语音命令的语音信号,并且创建描述该语音信号的特征向量。这些特征向量被传输到另外的单元、例如网络服务器。在那里处理这些特征向量,并且基于这些特征向量来进行语音识别。
在图7中示出了作为第一单元或组件的移动站MS、和网络单元NE。
也被称为终端的移动站MS具有用于基于终端进行预处理的装置AFE,该装置AEF用于创建特征向量。移动站MS例如是移动无线电终端设备、便携式计算机、或者任意的其他移动通信设备。用于基于终端进行预处理的装置AFE例如是在AURORA项目的范围内所讨论的“先进前端”。
用于基于终端进行预处理的装置AFE包括用于对语音信号进行标准处理的装置。该标准语音处理例如在2000年10月的规范ETSI ES202050 V1.1.1中在图4.1内被说明。在移动站侧,标准语音处理包括具有以下步骤的特征提取,即噪声减少、信号形式或“波形处理”、倒频谱计算、以及隐藏的均衡或“盲均衡(Blind Equalization)”。接着进行特征压缩以及传输的预处理。该处理对于专业人员来说是已知的,因此这里不对此进行更详细探讨。依照本发明的一个扩展方案,用于基于终端进行预处理的装置AFE还包括用于信号级归一化和语音活动检测的装置,以此实现依照图3的预处理。
这些装置可以被集成在装置AFE中或者替代地被实现为分离的组件。
通过紧接着的用于特征向量压缩基于终端的预处理AFE的装置FC压缩一个或多个根据语音命令所创建的特征向量,以便经由信道CH进行传输。
另一单元例如由作为网络单元NE的网络服务器构成。在该网络单元NS中,特征向量经由用于特征向量解压缩的装置FDC又被解压缩。此外,经由装置SSP进行服务器侧的预处理,以便然后利用用于语音识别的装置SR基于隐马尔可夫模型HMM进行语音识别。
现在阐述根据本发明的改进的结果在表1至2中示出了针对语音命令的不同训练以及被考虑用于语音识别的不同语音级或响度的语音识别率(测试语音)。
现在,在表2中示出了测试语音的不同能级的语音识别率。所述训练在-26dB的语音能级上进行。测试语音经受依照图3的噪声抑制和语音级归一化。从表2中可以看出,纯语音的语音识别率又一如既往是高的。相对于迄今的语音识别方法的重要改进在于根据测试语音的能级(在信噪比或“Signal-to-Noise Ratio”为5dB的情况下)消除了在表1中可以看出的、针对带有噪声的语音的语音识别率的差异。为了进行语音识别,考虑了前面所描述的“先进前端”。
权利要求
1.用于为随后的语音识别(SR)而对带有噪声的语音信号(S)进行处理的方法,其中所述语音信号(S)代表至少一个语音命令,所述方法具有以下步骤a)检测带有噪声的语音信号(S);b)将噪声抑制(NR)应用于所述语音信号(S)以产生噪声受抑制的语音信号(S′);c)借助于归一化因子将噪声受抑制的语音信号(S′)归一化为额定信号值,以产生噪声受抑制的、归一化的语音信号(S″)。
2.按照权利要求1所述的方法,其中,根据语音活动来确定所述归一化因子的值。
3.按照权利要求1或2所述的方法,其中,基于噪声受抑制的语音信号来确定所述语音活动。
4.按照上述权利要求之一所述的方法,该方法具有另外的步骤d)通过一个或多个特征向量来描述噪声受抑制的、归一化的语音命令。
5.按照权利要求4所述的方法,其中,创建一个或多个用于描述噪声受抑制的、归一化的语音命令的特征向量。
6.按照上述权利要求之一所述的方法,该方法具有以下的另外的步骤e)传送描述所述一个或多个特征向量的信号。
7.按照上述权利要求之一所述的方法,该方法具有以下的另外的步骤f)基于噪声受抑制的、归一化的语音命令来执行语音识别。
8.按照权利要求6或7所述的方法,其中,步骤a)中的语音信号的检测以及步骤f)中的语音识别的执行在位置上分离地被执行。
9.按照上述权利要求之一所述的方法,其中,在空间上分离地或在相同位置执行预处理(AFE)以及描述语音信号的特征向量的特征向量压缩(FC)。
10.用于训练带有噪声的语音信号中的语音命令的方法,该方法包括以下步骤a′)检测带有噪声的语音信号;b′)将噪声抑制应用于所述语音信号以产生噪声受抑制的语音信号;c′)借助于归一化因子将噪声受抑制的语音信号归一化为额定信号值,以产生噪声受抑制的、归一化的语音信号。
11.按照权利要求10所述的方法,其中,所述训练用于创建声学模型、特别是HMM。
12.具有麦克风(M)和处理器单元(CPU)的电气设备(MS),该电气设备(MS)被设立用于执行按照权利要求1至11所述的方法、特别是用于执行步骤a)、b)和c)。
13.按照权利要求12所述的设备,该设备具有用于创建特征向量的装置,所述特征向量用于描述语音信号。
14.按照权利要求12或13所述的电气设备,该电气设备被构造为通信设备、特别是移动站,该电气设备具有发送/接收装置(FS)和按照权利要求12或13所述的设备。
15.具有按照权利要求14所述的移动站和通信网络的通信系统,在该通信网络中执行语音识别。
全文摘要
本发明涉及用于为随后的语音识别(SR)而处理带有噪声的语音信号(S)的方法,其中该语音信号(S)代表至少一个语音命令,该方法具有以下步骤a)检测带有噪声的语音信号(S);b)将噪声抑制(NR)应用于该语音信号(S)以产生噪声受抑制的语音信号(S′);c)借助于归一化因子将噪声受抑制的语音信号(S1)归一化为额定信号值,以产生噪声受抑制的、归一化的语音信号(S″)。
文档编号G10L21/0208GK1902684SQ200480040358
公开日2007年1月24日 申请日期2004年10月4日 优先权日2004年1月13日
发明者T·芬谢德特, P·泽蒂亚万, S·施坦 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1