一种基于mfcc远距离差值的鲁棒语音识别方法

文档序号：2835872阅读：841来源：国知局

专利名称：一种基于mfcc远距离差值的鲁棒语音识别方法
技术领域：
本发明涉及语音识别技术领域。提出了一种采用梅尔频率倒谱系数(MFCC)远距离差值作为特征参数的鲁棒语音识别方法。
背景技术：
语音识别系统在噪声环境下性能下降的主要原因是纯净的训练数据与被噪声污染的测试数据之间存在着不匹配，寻找一种能够减少这种不匹配的特征参数是提高语音识别系统含噪语音识别率的一种重要方法。目前常用的语音识别特征参数有梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient，简称 MFCC)和线性预测倒谱系数(Linear Predictive Cepstral Coeff icient，简称LPCC)。MFCC符合人耳的听觉特性，具有较好的抗噪性能，计算方法如下首先对语音信号进行端点检测、预加重、分帧、加窗等预处理，然后对每一帧信号进行快速傅立叶变换(Fast Fourier "Transform，简称FFT)后取模平方得到功率谱，采用M维梅尔滤波器组对功率谱进行滤波，将滤波后的能量进行对数变换，最后再进行离散余弦变换(Discrete Cosine Transform，简称DCT)得到MFCC参数，具体计算过程可以参考文献(如韩纪庆，张磊，郑铁然.语音信号处理[M].北京清华大学出版社， 2004.)。LPCC基于人的发声模型，假设人的发声模型为一个全极点模型，认为当前时刻的语音可以用之前若干个时刻的语音线性组合来表示。采用最小均方误差准则和自相关法可以求出上式中的线性预测系数，然后根据同态处理方法可以求得线性预测倒谱系数(LPCC)。具体计算过程可以参见文献(如韩纪庆，张磊，郑铁然.语音信号处理[M].北京清华大学出版社，2004.)。大量实验(如 Steven B. Davis, Paul Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. [J]. IEEE Trans, on ASSP,1980,28(4) :357-366.禾口 Shang-Ming Lee, Shi—hau Fang, Jeih-weih Hung and Lin—Shan Lee. Improved MFCC feature extraction by PCA-optimized filter-bank for speech recognition. [J]. IEEEAutomatic Speech Recognition and Understanding, 2001,49-52.)表明，MFCC 比 LPCC 具有更好的抗噪声性能，但是MFCC在鲁棒语音识别中仍不能取得令人满意的效果(Yeganeh H.，Ahadi S. M. ， Ziaei A. A new MFCC improvement method for robust ASR. [J], IEEE ICSP,2008, 643-646.)。文献(Steven B.Davis, Paul Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. [J]. IEEE Trans, on ASSP,1980,28(4) :357-366.)中采用主成份分析 (Principal Component Analysis，简称PCA)的方法对梅尔滤波器组进行优化，提高鲁棒性；又有文献(Yeganeh H. , Ahadi S. M. , Ziaei A. A new MFCC improvement method for robust ASR. [J]. IEEE ICSP，2008，643-646.)中首先计算梅尔子带谱减，然后对每一个子带估计信噪比，根据此估计对参数进行加权，受噪声影响较小的参数权重较大，从而达到提高语音识别系统在噪声环境下的鲁棒性。韩国专利KR1008931MB1将加权的MFCC系数用于语音性别识别中，美国专利US2009177466将语音频谱波峰的能量代替整个功率谱用于提取语音的梅尔频率倒谱系数，在不增加语音特征维数的情况下提高了语音识别的抗噪稳健性。本发明的显著特点是利用MFCC远距离差值作为语音识别特征参数，摒弃传统的 MFCC参数本身及其一阶差分系数的组合作为语音识别特征参数。实验表明，当特征参数选用MFCC4个采样点和6个采样点远距离差值时，语音识别系统具有最好的抗噪鲁棒性。

发明内容
1、发明目的提出一种基于MFCC远距离差值的鲁棒语音识别方法。该方法选用 MFCC4个采样点和6个采样点的远距离差值作为特征参数，而摒弃传统的MFCC参数本身及其一阶差分系数。2、技术方案为实现上述发明目的，本发明所提出的算法在计算得到MFCC参数的基础上，求得其4个采样点和6个采样点的远距离差值，以此作为语音识别特征参数用于训练和识别。标准的MFCC参数计算方法为首先对语音信号进行预处理，即端点检测、预加重、分帧、加窗，然后对每一帧语音计算其FFT并取模平方得到功率谱，对功率谱用Mel滤波器组进行滤波，滤波后取对数，并计算DCT得到标准的MFCC参数。具体可参阅文献(俸云，景新幸，叶懋.MFCC特征改进算法在语音识别中的应用.[J].计算机工程与科学，2009， 31(12) :146-148.)。MFCC 2个采样点差值的计算方法如下Δ 2MFCC (i) = MFCC (i+1)-MFCC (i-1)(1)同理，MFCC 4个采样点远距离差值的计算方法如下Δ 4MFCC (i) = MFCC (i+2)-MFCC (i-2)(2)MFCC 6个采样点远距离差值的计算方法如下Δ 6MFCC (i) = MFCC (i+3)-MFCC (i-3)(3)其中MFCC⑴为第i帧语音信号的MFCC参数，Δ 2MFCC为MFCC 2个采样点差值， A4MFCC为MFCC 4个采样点远距离差值，A6MFCC为MFCC 6个采样点远距离差值。具体语音识别系统可采用如隐式马尔科夫模型(Hidden Markov Model，简称HMM) (但不限于)作为系统模型，对选用的特征参数(本发明公开的MFCC 4个采样点和6个采样点的远距离差值)，训练过程可采用Baum-Welch算法(但不限于)，识别过程可采用Viterbi解码算法(但不限于)。具体语音识别系统算法流程可参阅文献(如何强，何英.MATLAB扩展编程[M].北京清华大学出版社，2002.)。3、有益效果本发明显著优点在于选用MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数，在基本不增加计算量和存储量的基础上，比本领域通常采用的 MFCC参数本身及其一阶差分系数组合作为特征参数提高含噪语音识别率20-40个百分点。

图1是计算MFCC 4个采样点远距离差值的原理框图。
4
图2是计算MFCC 6个采样点远距离差值的原理框图。五具体实施例方式本发明所提出的算法特征为选用MFCC远距离差值作为语音识别特征参数，摒弃传统的MFCC参数本身及其一阶差分系数组合作为特征参数。下面以孤立词鲁棒语音识别系统为例，详细介绍其实现过程。孤立词鲁棒语音识别系统采用隐式马尔科夫模型(Hidden Markov Model，简称 HMM)作为系统模型，训练过程采用Baum-Welch算法，识别过程采用Viterbi解码算法。语音数据为8kHz采样，16位量化，帧长为256，帧移128，加窗采用汉明窗。语音信号预处理部分，端点检测采用经典的短时能量-过零率双门限法。具体HMM算法流程可参阅文献(如何强，何英.MATLAB扩展编程[M].北京清华大学出版社，2002.)。具体过程如下1、计算MFCC 4个采样点和6个采样点远距离差值作为特征参数首先对语音信号进行预处理，即端点检测、预加重、分帧、加窗，然后对每一帧语音计算其FFT并取模平方得到功率谱，对功率谱用Mel滤波器组进行滤波，滤波后取对数，并计算DCT得到标准的MFCC参数。最后按照上述方法计算MFCC 4个采样点和6个采样点的远距离差值作为特征参数。2、用纯净语音进行HMM模型训练用HMM进行语音识别时，先要对模型参数进行训练，此处用120人(63男/57女) 的纯净语音的MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数，输入到 HMM中进行训练。HMM采用连续概率密度模型，每个HMM有4个状态，每个状态由3个高斯元混合而成。3、用含噪语音进行测试用51人(31男/20女)的含有不同信噪比的语音进行测试，发现选用MFCC 4个采样点和6个采样点远距离差值作为特征参数比本领域通常使用的MFCC参数本身及其一阶差分系数作为特征参数时识别率高出20-40个百分点，具体结果如表1-表4所示。表1不同特征参数不同信噪比语音识别率(高斯噪声)
权利要求
1.一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别算法，其特征在于采用MFCC 4个采样点和6个采样点远距离差值作为特征参数。
2.如权利要求1所述的MFCC4个采样点远距离差值的计算方法，其特征在于 Δ4MFCC(i) = MFCC(i+2)-MFCC(i_2)，其中MFCC(i)为第i帧语音信号的MFCC参数，A4MFCC为MFCC 4个采样点远距离差值。
3.如权利要求1所述的MFCC6个采样点远距离差值的计算方法，其特征在于 Δ6MFCC(i) = MFCC(i+3)-MFCC(i_3)，其中MFCC(i)为第i帧语音信号的MFCC参数，A6MFCC为MFCC 6个采样点远距离差
全文摘要
本发明公开了一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别方法。本发明显著特点在于选用MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数，在基本不增加计算量和存储量的基础上比本领域通常使用的MFCC参数本身及其一阶差分系数作为特征参数时提高了鲁棒语音识别系统识别率20-40个百分点。
文档编号G10L11/02GK102290048SQ20111025888
公开日2011年12月21日申请日期2011年9月5日优先权日2011年9月5日
发明者赵斯培, 邱小军申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵斯培;邱小军
技术所有人：南京大学
我是此专利的发明人

上一篇：一种多麦克风阵列噪声消除方法、装置及系统的制作方法
上一篇：一种吸声结构的制作方法