一种用于鲁棒语音识别的语音特征提取方法

文档序号：2833595阅读：711来源：国知局

专利名称：一种用于鲁棒语音识别的语音特征提取方法
技术领域：
本发明涉及语音识别领域，尤其涉及一种在语音识别中，能够对平稳和非平稳噪声有明显抑制作用的语音特征提取算法方法。
背景技术：
语音识别系统在复杂环境下识别性能急剧降低是语音识别中最重要的问题之一。例如在马路上手机语音查询地理位置，用户所处的声学环境非常复杂且变化迅速，这对语音识别系统的性能产生了极大的影响。原有的语音识别系统在没有噪声的环境下能取得很好的处理和识别效果，但在现实应用中识别系统的性能会由于时变的不可预测的环境噪音和信道的影响，说话人的差异，谈话内容的变化等因素影响严重下降。所以如何提高语音识别系统在训练和测试环境的不匹配条件下的鲁棒性成为语音识别技术的关键。
近年来，在语音识别技术环境鲁棒性这一研究领域人们提出了很多改进技术和算法，并取得了一定的效果。根据语音识别的流程，鲁棒语音识别可以分为四类时频域的抗噪；特征域的噪声补偿；模型域的噪声自适应和解码域的自适应。最早的技术是时频域的抗噪，例如谱减和维纳滤波，还有经典的欧洲电信标准协会的两阶段维纳滤波。特征层面噪声抑制通常是在提取特征的过程中对噪声进行补偿。由于PLP和MFCC特征一直占据鳌头，所以特征层面的噪声抑制大多是在这两种特征上进行的，例如向量泰勒级数等。第三个阶段是在模型方面对噪声进行自适应，包括多状态的语音模型、共享变量参数的HMM等。第四个层面是在解码层面的噪声自适应，包括不确定性解码和用子带重估来代替不确定性解码坐寸ο
所有的这些方法从根本上来说都是寻求在某种准则下训练环境和测试环境之间不匹配的一种最佳补偿。在一系列假设前提条件，如加性噪音的高斯分布、噪音与语音信号的独立性、不同噪音之间的独立性、信道的渐变特性等等，这些方法对于语音识别技术的鲁棒性都作出了有益的探索和贡献，尤其在平稳噪声环境下有较好的噪声抑制效果。但这与在真实噪音环境下语音识别系统的应用要求还有很大的差距，因此对于更加复杂的环境，比如突发噪声等环境却无能为力。发明内容
(一 )要解决的技术问题
为了解决上述的在复杂环境下的语音识别率低，而普通的特征提取方法对非平稳噪声的抑制能力不够强的缺点，本发明提出一种能够提高其识别率的特征提取方法，目的在于提高带有突发噪声和音乐噪声等加性噪声影响的语音的识别率，并且使纯净环境下的语音识别率不下降。
( 二 )技术方案
本发明所基于的一种用于鲁棒语音识别的语音特征提取方法，包括以下步骤来实现
步骤I、获取语音信号的功率谱；
步骤2、将所获得的功率谱通过滤波器组处理，获得含噪语音的短时功率谱；
步骤3、根据所获得的含噪语音的短时功率谱，采用帧平均的方式求取含噪语音的中等时长功率谱；
步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪，以得到纯净语音的中等时长功率谱；
步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱；
步骤6、对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪音；
步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重；
步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作；
步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换，以求取倒谱系数，对倒谱系数进行均值归一化处理，最终得到语音特征。
本发明从传统的语音特征提取方法入手，针对传统语音特征抗噪能力弱的缺点，提出了若干手段改进语音特征，最终形成一套新的语音特征提取方法。本发明针对噪声变化比语音慢的特点，利用帧平均的方式将短时功率谱转换为中等时长的功率谱，用于估计噪声；利用不对称滤波的方式，分别估计含噪语音中噪声和语音的频谱包络；在不对称滤波的基础上采用掩蔽的方式估计信噪比，并对其进行处理，将其转换为短时功率谱的信噪比进行抗噪；还通过能量归一化和指数非线性对功率谱进行处理。本发明提出的用于鲁棒语音识别的语音特征提取方法不仅能够对噪声进行更加准确的估计，也能使语音特征更加符合人耳的听觉特性。因此这种特征提取方法所求取的特征对噪声有很好的抑制作用。
(三)有益效果
本发明从传统的语音特征提取方法入手，在传统的语音特征提取方法中加入了抗噪处理和符合人耳听觉的变换处理，使得这种特征提取方法不仅能够拟制各种加性噪声，并且在纯净环境下的识别率也高于传统的语音特征提取方法。

图I为本发明用于鲁棒语音识别的语音特征提取方法的总流程框图2为包含掩蔽的不对称低通滤波抗噪模块的结构流程图3为图2中掩蔽模块的结构流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
图I为本发明用于鲁棒语音识别的语音特征提取方法的总流程框图。如图I所示，本发明提出的一种用于鲁棒语音识别的语音特征提取方法主要由以下几个流程组成对语音信号进行预加重；对语音加窗并采用短时傅立叶变换求取语音频谱；对语音频谱平方，求取功率谱；采用滤波器组对功率谱进行处理，以获得含噪语音的短时功率谱；采用帧平均的方式求取含噪语音的中等时长功率谱；对所求取的含噪语音的中等时长功率谱进行不对称低通滤波处理，跟踪语音中的噪声，同时对所求取的中等时长功率谱进行掩蔽处理，得到纯净语音的短时功率谱；对纯净语音和带噪语音的功率谱的比值进行通道平均处理，以进行平滑；将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的含噪语音的短时功率谱相乘，得到纯净语音的短时功率谱；对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪声；将归一化后的短时功率谱进行等响度加重，使其符合人耳听觉效应；然后将等响度加重后的功率谱利用指数操作进行强度响度转换，使其符合人的生理特征；之后对经过强度响度转换后的功率谱进行傅立叶逆变换；再根据傅立叶逆变换得到的结果求取倒谱系数；最后对求取的倒谱系数进行均值归一化处理，最终得到本发明方法的语音特征。以下对发明的各步骤具体阐述。
一、对语音信号进行预加重
预加重的目的是削弱低频干扰的影响，突出高频信号的主成份。通常使用如下公式对语音采样点进行预加重
权利要求
1.一种用于鲁棒语音识别的语音特征提取方法，其特征在于，该方法包括步骤I、获取语音信号的功率谱；步骤2、将所获得的功率谱通过滤波器组处理，获得含噪语音的短时功率谱；步骤3、根据所获得的含噪语音的短时功率谱，采用帧平均的方式求取含噪语音的中等时长功率谱；步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪，以得到纯净语音的中等时长功率谱；步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱；步骤6、对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪音；步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重；步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作；步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换，以求取倒谱系数，对倒谱系数进行均值归一化处理，最终得到语音特征。
2.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，步骤I中所述获取语音信号的频谱进一步包括以下内容步骤11、对语音信号采用公式(I)进行预加重
3.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤2中采用的滤波器组为梅尔滤波器组Mel-f ilter bank或Gamma-tone滤波器组,通道数根据不同的滤波器选取不同的数目，其中，利用Ga_a-tone滤波器组求和得到含噪语音的短时功率谱，如公式(3)所示
4.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，步骤3中采用帧平均的方式求取含噪语音的中等时长功率谱，如公式(4)所示 A = "H PWJ]U) 其中Q[m，I]为含噪语音的中等时长功率谱，m和I分别表示帧和滤波器组通道的索引，M表示求取中等时长的时候，分别向前和向后所取的帧数之和，P[m'，1]为第m'帧的含噪语音短时功率谱。
5.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，步骤4中所述对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪具体包括以下几个步骤步骤41、将所获得的含噪语音中等时长功率谱经第一个不对称低通滤波器进行滤波，并将所述含噪语音中等时长功率谱减去所述第一个不对称低通滤波器的输出结果以进行整合；其中所述第一个不对称低通滤波器如公式(5)表示
6.根据权利要求5所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述掩蔽模块的操作流程包括以下内容所述经半波整流模块得到的Qjm，I]经过掩蔽模块的MAX模块得到Qp [m，I]如公式(9)所示 Qp[m, I] = max(入 tQp[m-l, I], Q0[m, I])(9) 其中Xt是遗忘系数，取值范围是(0 1)，掩蔽模块最后的输出值Qtm[m，l]由第二选择性开关决定，所述第二选择性开关如公式(10)所示
7.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤5中获取纯净语音的短时功率谱包括以下内容步骤51，计算得到所获得的纯净语音的中等时长功率谱与含噪语音的中等时长功率谱的比值H[m，l]如公式(11)所示
8.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤6中对纯净语音的短时功率谱进行能量归一化处理，如公式(15)所示其中k是任意常数，T[m, I]为纯净语音的短时功率谱，U [m]如公式(14)所示
9.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤7中，所述对纯净语音的短时功率谱进行等响度加重如公式(17)所示
10.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤8中，所述对等响度加重后的纯净语音的短时功率谱进行指数非线性操作如公式(18)所示 L[m, I] = 0[m, I] 9(18) 其中e为指数非线性的参数，0[m，I]为所述等响度加重后的纯净语音的短时功率谱。
全文摘要
本发明公开了一种用于鲁棒语音识别的语音特征提取方法，该方法包括获取功率谱；采用滤波器组对功率谱进行处理；采用帧平均的方式求取中等时长的功率谱；对功率谱进行不对称滤波处理，同时对功率谱进行掩蔽处理，得到纯净语音功率谱；对纯净语音和带噪语音功率谱的比值进行通道平均处理，以进行平滑；将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘，得到纯净语音的短时功率谱；对短时功率谱进行能量归一化处理，以消除乘性噪声；功率谱进行等响度加重；功率谱进行指数操作；对功率谱进行傅立叶逆变换；求取信号的倒谱系数；对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征，速度快，能够实现在线处理；利用本发明提取的特征训练出的声学模型，具用很好的抗噪效果；本发明具有非常重大的使用意义。
文档编号G10L15/20GK102982801SQ20121044943
公开日2013年3月20日申请日期2012年11月12日优先权日2012年11月12日
发明者徐波, 范利春, 柯登峰, 孟猛申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐波;范利春;柯登峰;孟猛
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种音乐播放校音的方法、装置和设备的制作方法
上一篇：电吉他琴桥的后置弹簧的制作方法