用于抗噪声语音识别的在线参数直方图正态化的制作方法

文档序号:2821040阅读:165来源:国知局
专利名称:用于抗噪声语音识别的在线参数直方图正态化的制作方法
技术领域
本发明大体上涉及语音处理领域,更具体地说,涉及抗噪声语音识别。
背景技术
语音识别技术允许通信网络的用户例如在不需要使用键盘敲入单词的情况下访问计算机或手持电子装置。具体地说,口语系统提供用户-计算机交互,这使人与机器之间能够进行自然的对话。
语音识别系统大致上划分为特征提取器(前端)和识别器(后端)。前端算法将输入语音波形信号转换成特征参数,同时保留了用于语音识别的必要信息,该特征参数提供了输入语音的压缩表示。后端算法执行实际的识别任务,将特征参数作为输入并执行模板匹配操作,将特征与要识别的可能单词或其它语音单位的参考模板相比。
在语音识别系统中,通常前端用于将特征参数而不是将编码的语音波形传送到语音识别后端。具体地说,当在分布式语音识别(DSR)系统中进行语音识别处理时,特征参数需要的用于无线电传输的带宽少于编码的语音波形所需的带宽,因此,可利用数据信道将特征参数发送到自动语音识别(ASR)服务器。这不需要使用高比特率语音信道。在嵌入式系统、如移动终端中,前端将语音特征以比初始采样语音更适合识别的形式提供给后端。
欧洲电信标准协会(ETSI)已经建立了用于DSR信号处理的标准。在ETSI ES 201 108 V1.1.2中,公布了一种用于前端特征提取及其传输的标准算法。该标准算法针对每个10ms语音帧计算具有十四个分量的特征向量。尤其是,此ETSI公布涵盖了前端特征提取算法以产生Mel频率倒谱系数(MFCC)。尽管如ETSI公布中所公开的标准算法是为无线传输设计的,但是这种基本方法可应用于例如嵌入手持电子装置中的语音识别系统。倒谱是用于信号的功率谱的对数的离散余弦变换的术语,mel频率卷绕是非线性地修改频谱的傅立叶变换表示的标度的过程。根据对数幅度谱的mel频率卷绕后的傅立叶变换表示,计算一组倒谱系数或参数以表示语音信号。所提取的倒谱系数或参数称为特征向量。将这些特征向量传送到后端识别器以执行实际概率估算和分类,以便识别所讲的字。由于不同的讲话者具有不同的声音、语速、口音及可能影响语音识别系统的其它因素,因此具有优质的特征向量以确保语音识别的良好性能是重要的。此外,环境噪声和失真也可能使特征向量的质量变坏,并影响到语音识别系统的性能。
目前,通过训练声学模型来提高语音识别系统的性能,该模型利用相对无噪声的语音数据使纯净语音条件下的性能最佳。

图1显示标准MFCC前端。如图所示,通过频谱转换(FFT)将输入语音变换成一组谱系数。谱系数由Mel换算模型来换算。通常,前端每10ms产生一个特征向量(帧)。在Mel换算后,语音信号表示为N(N=22)维向量,其中各分量对应于该频段的谱能量。在Mel换算之后,对Mel向量分量应用非线性变换(对数)。然后采用离散余弦变换(DCT)对信号去相关。采用微分器通过取向量的一阶和二阶导数来获取连续帧之间的信息。最后,应用倒谱域特征向量正态化以减少训练条件和测试条件之间的失配。
当这类语音识别系统用于高噪声环境、例如汽车中时,背景噪声可能导致声学模型与语音数据之间的失配。现在,利用直方图正态化技术来减少这种失配。在谱系数的直方图中,横坐标对应于谱值,而纵坐标值对应于相应谱值的似然性。在嘈杂的环境中,例如快速行驶的汽车中,特征向量可因噪声而变化,并变得与在安静环境中获取的结果不同。因此,测试频谱信号的直方图的形状和位置明显与训练频谱信号的那些直方图的形状和位置不同。在前端中,如图l所示,在倒谱域中通过特征向量正态化来补偿特征中的这些变化。此方法称为倒谱域特征向量正态化,是一种改善抗噪声性的有效方法。然而,它具有一些缺点。当在失真的(有噪声的)频谱信号上应用DCT时,该失真会扩散到所有倒谱参数。即使环境噪声局限在某个频段,但是噪声在DCT过程之后将会影响所有倒谱系数。因此,即便倒谱域特征向量正态化有效地消除了不同环境之间的失配,但正态化信号将始终具有在所有倒谱系数中的噪声残余。
Mammone等人(美国专利No.6038528)公开了一种语音处理方法,其中,倒谱参数正态化是基于倒谱系数的仿射变换。此方法涉及倒谱变换后的系数,因此也对噪声能量向倒谱分量的扩散敏感。
Molau等人(“Histogram based Normalization in the Acoustic FeatureSpace”,ASRU 2001 Workshop on Automatic Speech Recognition andUnderstanding,2001)以及Hilger等人(“Quantile Based HistogramEqualization for Noise Robust Recognition”,EUROSPEECH 2001,pp.1135-1138)公开了两种脱机直方图正态化技术,其中需要将训练数据的直方图和测试数据的直方图提前发送到后端。这些技术是不切实际的,因为需要更多的关于直方图的分布的数据。此外,根据Hilger等人的方法需要通常持续几秒的一次发言的延迟(语音输入和语音识别之间)。根据Molau等人的方法也是不切实际的,因为它需要所有的数据均来自相同的测试讲话人。
提供一种性能改善的语音识别前端是有利且合乎需要的,在该前端中,与噪声能量的扩散相关的问题可减到最小,而且语音输入和语音识别之间的延迟也适当地缩短。
发明概述根据本发明的第一方面,提供一种改善语音识别系统中的抗噪声性的方法,该系统包括用于从输入语音提取语音特征的前端和用于根据所提取特征进行语音识别的后端,其中前端包括对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;对数据作出响应、用以在频谱上将数据转换成具有值的相关概率分布的多个谱系数、以便提供表示谱系数的谱数据的装置;以及对谱数据作出响应、用于对谱系数执行去相关转换、以便提供所提取的特征的装置。此方法的特征在于获取在不同时刻的谱系数值的概率分布的参数表示;根据一个或多个参考值修改参数表示;以及根据修改后的参数表示来调整至少一个谱系数,以便在去相关转换之前改变谱数据。
根据本发明,将训练语音的多个谱系数用于匹配,并且此方法的特征还在于一个或多个参考值包括根据高斯近似法得到的训练语音的谱系数的平均值和标准偏差。
根据本发明,参数表示包括谱系数的各种值的平均值和标准偏差。
根据本发明的第二方面,提供一种用于具有后端的语音识别系统中的语音识别前端,该前端从输入语音中提取语音特征,以使后端可以根据所提取的特征来识别输入语音,所述前端包括对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;用于在频谱上将数据转换成具有值的相关概率分布的多个谱系数、以便提供表示谱系数的谱数据的装置;以及用于对谱系数执行去相关转换、以便向后端提供所提取的特征的装置。所述前端的特征在于对谱系数作出响应的装置,用于获取在不同时刻的谱系数值的概率分布的参数表示,用于根据一个或多个参考值修改参数表示,以及用于根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
根据本发明的第三方面,提供一种包括用于从网元接收语音数据的后端的通信系统中的网元,该网元包括接收输入语音的话音输入装置;以及对输入语音作出响应的前端,用于从输入语音中提取语音特征,从而提供表示语音特征的语音数据,以使后端可根据该语音特征识别所述输入语音,其中前端包括对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;用于在频谱上将数据转换成多个谱系数,以便提供表示具有值的相关概率分布的谱系数的谱数据的装置;以及用于对谱系数执行去相关转换、以便提供所提取的特征的装置。网元的特征在于,该前端还包括对谱系数作出响应的装置,该装置用于获取在不同时刻的谱系数值的概率分布的参数表示,根据一个或多个参考值修改参数表示,以及根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
根据本发明的第四方面,提供一种在语音识别前端中使用的计算机程序,用以从输入语音中提取语音特征,以使语音识别后端可根据所提取的特征来识别输入语音,其中该前端包括对输入语音作出响应的装置,用以提供表示在多个时刻的输入语音的数据;用于在频谱上将数据转换成多个具有值的相关概率分布的谱系数、以便提供表示谱系数的谱数据的装置;以及用于对谱系数执行去相关转换、以便提供所提取的特征的装置。所述计算机程序的特征在于一种算法,用于生成在不同时刻的谱系数值的概率分布的参数表示,根据一个或多个参考值修改参数表示,以及根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
附图简介图1是说明现有技术的MFCC前端的框图。
图2是说明根据本发明的MFCC前端的框图。
图3表示一个无噪声话语与有噪声的相同话语的第7个log-Mel带的轨迹。
图4表示图3的轨迹的直方图。
图5表示一个无噪声话语与有噪声的相同话语的第21个log-Mel带的轨迹。
图6表示图5的轨迹的直方图。
图7是说明包括具有根据本发明的语音识别前端的网元以及语音识别后端的通信系统的框图。
本发明的最佳实施方式如背景部分中所论述的,当在已失真的谱信号上进行DCT时,失真会扩散到所有倒谱参数中。因此,在DCT(在倒谱域中)之后的特征向量正态化并未消除噪声向倒谱系数中的扩散。本发明的主要目的是提供一种将输入语音的特征与训练语音的特征匹配而不受噪声在倒谱系数中扩散的影响的方法。此目的可通过在谱域而非倒谱域中执行直方图正态化步骤来达到。这意味着,在失真(噪声)扩散到所有倒谱系数中之前执行正态化。具体地说,在DCT变换之前以及最好是在对数压缩之后执行直方图正态化(当然也可以在对数压缩之前执行),如图2所示。图2是表示根据本发明的DSR前端10的框图。如图2所示,输入语音100被预处理块20处理成帧形式的语音样本102。对语音样本应用块30中的FFT以计算输入语音信号的幅度谱。FFT块30的输出是多个谱系数104。在Mel换算后,谱系数被转换成N维向量106,该向量的各分量对应于该频段的谱能量。Mel滤波的输出106经过块50中的自然对数函数的运算。块50的输出108称为对数压缩后的Mel滤波器组输出。当对数压缩的Mel滤波器组输出108的值对照各值的似然性绘出曲线时,得到谱信号的直方图。根据本发明,在块60中采用高斯近似法将谱信号的直方图正态化成训练集62的直方图。利用计算机软件程序64根据以下结合等式1-4介绍的正态化算法来执行此正态化过程。接着通过去相关模型70将正态化的谱信号110转换成一组倒谱系数112。块70的输出还受到块80中的倒谱域特征向量正态化。如图2所示的参考标号120表示要传送到后端的所提取的特征(未示出)。应当指出,如块70中进行的这种去相关可被理解为任何减少输入信号样本之间相关性的处理或变换。例如,DCT、FFT、WT(小波变换)都是这种变换。
与将每个倒谱系数正态化成零平均值和一方差的现有技术倒谱域正态化方法相比,本发明重点在于恢复谱域中原始纯净的训练分布。
正态化算法根据本发明,此算法最好是基于训练和测试直方图的高斯近似法。不过,也可以采用其它近似法,例如χ分布、平均分布以及泊松分布。高斯算法仅需要少量的参数向量用于估算,以便得到平均值(μ)和标准偏差(σ)向量的估算值。如图2所示,由于用于估算的参数数量少,因此可以在线方式执行正态化。本发明是高效的,部分是因为可以在相对较短的时间帧内得到足量的数据,从而可靠地估算正态化参数。
关于训练集,利用对数谱向量分量计算平均值μtrain和标准偏差σtrain。这些值是据以判断识别阶段中的正态化的目标值。对于测试谱信号,平均值μtest和标准偏差σtest被分别初始化为μtrain和σtrain的值。通过利用38帧超前缓冲器估算当前语音数据的参数,正态化中所用的值按照如下等式变化μtest=αMean*μtest+(1-αMean)*MEL (1)(σtest)2=αVar*(σtest)2+(1-αVar*(MEL)2(2)其中MEL是原始log-Mel值,αMean和αVar是值在0和1之间的系数。依照如下等式得到log-Mel的正态化值MEL′=(σtrai/σtest)*(MEL-μtest)+μtrain(3)等式3表示正态化log-Mel值和原始log-Mel值之间的映射。应当指出,用于获取估算值的帧数可以不同(例如,19、10或者甚至5或更少)。类似地,可以根据需要调整αMean和αVar的值(例如,在0.05和0.20之间)。此外,帧不必是连续的。例如,仅选择每第二或第三帧来进行估算。
为使这种映射较不主动,可以采用加权因子w。当w=1时,不进行映射。当w=0时,将测试分布完全映射到训练分布。实际中,选择0和1之间固定的w值。通过加权因子,按照如下等式计算修改后的log-Mel值MEL″=wMEL+(1-w)MEL′ (4)当采用0和1之间的加权值、例如0.7-0.9或0.1-0.3时,正态化处理仅将带噪声特征分布部分地“移向”训练数据分布。
也可以分别映射平均值和标准偏差,即用于调整平均值的量不同于用于调整标准偏差的量。为此,需要定义两个加权因子一个针对平均值,而另一个针对标准偏差。否则,根据等式3和4进行映射,即,将标准偏差朝向其参考值改变第一相对量,使平均值朝向其参考值改变第二相对量。
为说明正态化的log-Mel值与原始log-Mel值之间的映射,在图3-6中显示了一个话语发音的第7个和第21个log-Mel带的轨迹和直方图。各图中均显示了无噪声和有噪声曲线。这些图说明噪声数据的轨迹和直方图如何不同于相应的无噪声数据。当与图4和6中的直方图相比时,可以发现特定的汽车噪声对第7个log-Mel带的破坏超过对第21个log-Mel带的破坏。这主要是因为第7个log-Mel带的无噪声和有噪声直方图之间的分离比第21个log-Mel带的无噪声和有噪声直方图之间的分离远。通常,应当逐带地进行直方图正态化,因为对特定带的破坏随噪声谱而变。然而,可以仅正态化那些看似更容易受到噪声破坏的带。因此,当特定带的近似直方图与训练集的直方图大不相同时,仅对该带的直方图执行正态化。而不必对其它带进行正态化。
图3显示了一个话语的第7个log-Mel带的轨迹轨迹1是无噪声话语的轨迹,轨迹2是在加入汽车噪声之后的相同话语的轨迹。在图4中,曲线A和曲线B分别是轨迹1和轨迹2的直方图。图5显示了一个话语的第21个log-Mel带的轨迹轨迹3是无噪声话语的轨迹,轨迹4是在加入汽车噪声之后的相同话语的轨迹。在图6中,曲线C和曲线D分别是轨迹3和轨迹4的直方图。应当指出,在图4和6中,直方图仅表示值的概率分布或log-Mel值出现的似然性,这是分别根据图3和5的数据得到的估算值。
试验结果用四种语言在多语言的孤立字识别任务(名称拨号)中进行测试。训练数据集包含来自这些语言的数据,但是没有一个测试话语或讲话者用于训练。表I显示不具有讲话者自适应的速率,表II包括当采用最大值A经验(MAP)讲话者自适应时的速率。注意,仅在测试阶段中使用高斯谱正态化。针对训练的数据用标准MFCC前端加上倒谱正态化来处理。
英国英语 法语
德语西班牙语
表I英国英语 法语
德语 西班牙语
表II如表I和表II所示的实验结果是采用前述正态化算法从多语言的孤立字识别任务中获取的。具体而言,在等式1、2和4中的系数的值是αMean=αVar=0.985,w=0.8。这些值在整个测试过程中保持不变。已发现,前端系统对αMean和αVar不是非常敏感。还采用受不稳定噪声(例如自助餐厅噪声)污染的语音话语对本发明进行测试,但是识别精度并未提高。因此,得出的结论是,本发明可以改善在安静的环境中以及在准稳定噪声环境(例如汽车噪声)中的识别性能。
本发明胜过现有技术方法的主要优点包括1.在嘈杂环境中的识别精度得到明显提高,而没有降低无噪声语音环境中的性能;2.针对每个话语在线(块60中)估算正态化参数,同时合理地缩短了所引入的算法延迟;3.对于静态存储器的需要是可以忽略的-只需要存储两个表示无噪声训练统计数据的参数向量(2×22值);4.运行期存储量的增加小,需要缓存38个谱帧;5.谱域中的在线直方图正态化与现有倒谱域特征向量正态化(块80)兼容;以及6.当与MAP讲话者自适应一起使用时,识别速率也得到提高。
可在独个装置的语音识别系统或分布式语音识别系统中实现语音识别特征。在任一情况中,系统包括前端和后端。在分布式系统中后端一般驻留在网络中,而前端驻留在用户装置中。在独个装置的语音识别系统中,前端和后端都嵌入同一装置中。根据本发明改善语音识别中抗噪声性的方法特别适用于嵌入式系统。因此,根据本发明的抗噪声前端可用于台式计算机或文字处理器,这使用户例如可以用口述的方式来撰写文件。前端可用于手持电子装置中,这使用户可以例如利用话音将文本项输入装置中。前端可用于智能家用电器,使之识别来自任何用户的字和短语,以便它可实施例如所请求的功能。前端也可用于智能住宅、智能服装、智能家具等。然而,根据本发明的前端也适用于分布式系统。例如,如图7所示,前端可用于作为网元的移动终端中。
图7是表示通信系统1的框图。系统1具有终端或网元5,用于将表示语音特征120的语音数据130传送到后端装置90中,以便进行语音识别。如图7所示,网元5包括用于接收来自例如用户的输入语音100的话音输入装置80。前端10根据结合图2所介绍的过程从输入语音100中提取语音特征120。如果必要的话,利用比特流格式化模型82将所提取的特征120转换成语音数据130以便传输。在后端90中,语音数据接收器92所收到的语音数据经过后端语音识别器94处理,用以提供表示输入语音的信号。字或文本生成装置96用来提供所识别的输入语音的声音或显示文本。
应当指出,在DCT变换之前,最好是在对数压缩之后,实施根据本发明优选实施例的直方图正态化步骤。然而,也可以在对数压缩之前实施直方图正态化步骤。此外,不是对识别参数进行调整,而是可利用输入语音参数的概率分布对用于识别的模板进行调整,从而获得实质上相同的效果。
尽管已经就本发明的优选实施例描述了本发明,但是本领域的技术人员会理解,在不脱离本发明的范围的前提下,可以在其形式和细节方面作出前述和各种其它的变化、省略以及偏差。
权利要求
1.一种改善语音识别系统中的抗噪声性的方法,所述系统包括用于从输入语音提取语音特征的前端和用于根据所述提取的特征进行语音识别的后端,其中所述前端包括对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;对所述数据段作出响应、用以在频谱上将所述数据段转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及对所述谱数据作出响应、用以对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,特征在于获取所述谱系数的值的概率分布的参数表示;根据一个或多个参考值修改所述参数表示;以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换之前改变所述谱数据。
2.如权利要求1所述的方法,其特征在于,把训练语音的多个谱系数用于匹配,所述方法的特征还在于所述一个或多个参考值包括所述训练语音的谱系数的平均值。
3.如权利要求2所述的方法,其特征在于,所述一个或多个参考值还包括所述训练语音的谱系数的标准偏差。
4.如权利要求1至3中任一项所述的方法,其特征还在于,所述参数表示包括所述谱系数的值的概率分布的平均值。
5.如权利要求1至3中任一项所述的方法,其特征还在于,所述参数表示包括所述谱系数的值的概率分布的标准偏差。
6.如权利要求1至3中任一项所述的方法,其特征还在于,根据高斯近似法来获取所述参数表示。
7.如权利要求3所述的方法,其特征在于,所述训练语音的所述谱系数具有值的另一概率分布,所述方法的特征还在于根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
8.一种用于具有后端的语音识别系统中的语音识别前端,所述前端从输入语音中提取语音特征,以便使所述后端可根据所述提取的特征识别所述输入语音,所述前端包括对所述输入语音作出响应、用于提供表示在多个时刻的所述输入语音的数据的装置;用于在频谱上将所述数据转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及用于对所述谱系数执行去相关转换、以便向所述后端提供所述提取的特征的装置,特征在于对所述谱系数作出响应的装置,该装置用于获取所述谱的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换执行之前改变所述谱数据。
9.如权利要求8所述的前端,其特征在于,把训练语音的多个谱系数用于匹配,所述系统的特征还在于所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
10.如权利要求9所述的前端,其特征在于,所述一个或多个参考值还包括所述训练语音的所述谱系数的标准偏差。
11.如权利要求8至10中任一项所述的前端,其特征还在于所述参数表示包括所述谱系数的值的概率分布的平均值。
12.如权利要求8至10中任一项所述的前端,其特征还在于所述参数表示包括所述谱系数的值的概率分布的标准偏差。
13.如权利要求8至10中任一项所述的前端,其特征还在于,所述参数表示是根据高斯近似法获得的。
14.如权利要求10所述的前端,其特征在于,所述训练语音的所述谱系数具有值的另一个概率分布,所述前端的特征还在于根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
15.一种通信系统中的网元,所述通信系统包括用于从所述网元接收语音数据的后端,所述网元包括用于接收输入语音的话音输入装置;以及对所述输入语音作出响应的前端,用于从所述输入语音提取语音特征,用以提供表示所述语音特征的语音数据,以便使所述后端可根据所述语音特征来识别所述输入语音,其中所述前端包括对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;用于在频谱上将所述数据转换成多个谱系数、以便提供表示具有值的相关概率分布的所述谱系数的谱数据的装置;以及用于对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,所述网元的特征在于所述前端还包括对所述谱系数作出响应的装置,用于获取所述谱系数的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换执行之前改变所述谱数据。
16.如权利要求15所述的网元,其特征在于,把训练语音的多个谱系数用于匹配,所述网元的特征还在于所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
17.如权利要求16所述的网元,其特征还在于所述一个或多个参考值还包括所述训练语音的所述谱系数的标准偏差。
18.如权利要求15至17中任一项所述的网元,其特征还在于所述参数表示包括所述谱系数的值的概率分布的平均值。
19.如权利要求15至17中任一项所述的网元,其特征还在于所述参数表示包括所述谱系数的值的概率分布的标准偏差。
20.如权利要求15至17中任一项所述的网元,其特征还在于所述参数表示是根据高斯近似法获得的。
21.如权利要求17所述的网元,其特征在于,所述训练语音的谱系数具有值的另一概率分布,所述方法的特征还在于根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
22.一种在语音识别前端中用于从输入语音中提取语音特征、以便使语音识别后端可根据所提取的特征来识别所述输入语音的计算机程序,其中所述前端包括对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;用于在频谱上将所述数据转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及用于对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,所述计算机程序的特征在于一种算法,用于产生所述谱系数的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在去相关转换执行之前改变所述谱数据。
23.如权利要求22所述的计算机程序,其中,把训练语音的多个谱系数用于匹配,所述计算机程序的特征还在于所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
24.如权利要求23所述的计算机程序,其特征还在于所述一个或多个参考值包括所述训练语音的所述谱系数的标准偏差。
25.如权利要求22至24中任一项所述的计算机程序,其特征还在于所述参数表示包括所述谱系数的值的概率分布的平均值。
26.如权利要求22至24中任一项所述的计算机程序,其特征还在于所述参数表示包括所述谱系数的值的概率分布的标准偏差。
27.如权利要求22至24中任一项所述的计算机程序,其特征还在于所述参数表示是根据高斯近似法获得的。
28.如权利要求24所述的计算机程序,其中所述训练语音的系数具有值的另一个概率分布,所述计算机程序的特征还在于根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
全文摘要
一种用于提高语音识别中的抗噪声性的方法,其中,前端用于从输入语音中提取语音特征,以及提供多个换算的谱系数。采用高斯近似法将换算的谱系数的直方图正态化成训练集的直方图。随后通过去相关模块将正态化的谱系数转换成一组倒谱系数,并进一步进行倒谱域的特征向量正态化。
文档编号G10L15/20GK1650349SQ03809428
公开日2005年8月3日 申请日期2003年4月28日 优先权日2002年4月30日
发明者H·哈维里宁, I·基斯 申请人:诺基亚有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1