一种语音识别中的特征参数提取方法

文档序号：2833076阅读：623来源：国知局

专利名称：一种语音识别中的特征参数提取方法
技术领域：
本发明涉及一种语音识别方法，具体涉及的是一种语音识别中的特征参数提取方法。
背景技术：
语音识别技术是计算机模拟人类的认识过程，把人类的语音信号转变为相应的文本或命令的技术，其根本目的是研究出一种具有人听觉功能的机器，这种机器能够接受人的语音，理解人的意图，并做出相应的反应，从而对人类的发展提供帮助。
由于语音信号多变性，对环境的依赖性很强，这样就会导致所提取的语音特征参数有所差异，因此需要鲁棒性高的语音特征参数，才能提高语音的识别率。传统的语音特征算法主要从时域、频域等角度进行提取，主要有基于声道参数的线性预测倒谱参数及基于梅尔频率的倒谱特征参数等。通过滤波分割的方法，分两个通道处理语音信号，低频部分主要是语音的浊音部分，采用符合人耳听觉特性的巴克滤波器组进行信号重构并提取语音特征，高频部分主要是清音及噪声部分，采用非线性动力学的最大李雅普诺夫指数来描述，最后整合为语音特征序列，进行语音识别。

发明内容
为解决上述问题，本发明提供一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割，获得低频和高频信息，使处理之后的信号更加符合人类的听觉系统，从而能够提取出性能更优秀的语音特征参数。为实现上述技术目的，实现上述技术效果，本发明通过以下技术方案实现
一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割，低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述，其具体做法如下
a.巴克频率倒谱参数的提取，包括以下步骤
步骤I)选择巴克域子波母函数为#)= e-#，其中C1 = 41η 2 ;
可得听觉感知域下的函数表达式
_= 0-b,- khb) == 2^'-^\k= 0Χ-·,Κ-\；
其中，b代表听觉感知频率，听觉感知频率带宽为[bl，b2];
Δ = 1>2-Μ)/(Ζ-1)为4(b)的平移步长;
步骤2)再引入特劳恩米勒所给出的线性频率与听觉感知频率之间的函数关系 i = 6.7asmh[(/-20)/600]；步骤3)代入上式，就得到线性频率下的听觉感知子波函数的表达式癸(Y) =c 2~^ 疗纽办汗■
C2为规整因子，可近似认为常数，取O. 2 ；
步骤4)将语音能量计算出以后通过巴克滤波器组BWJM随后通过能
量对数的离散余弦变换提取出巴克频率倒谱系数参数；
b.最大李雅普诺夫参数的提取采用wolf法，包括以下步骤
步骤I)对语音时间序列而,A,…采用虚假邻点法确定重构维数《，平均互信息法确定延迟时间间隔τ，重构相空间攻幻=(W1，…，&< +),相点数为及-(m-i)T ；
步骤2)以初始相点巧为基点，在点集中除％外的其余点中选取一个与而最近的点巧作为端点，构成初始向量，A -巧间欧氏距离可记为从0 ;
步骤3)时间步长或演化时间A，初始向量沿轨线向前演化得到一新向量，其相应基点与
端点间欧氏距离可记为在相应时段内系统线度指数增长率记为a=Iin ^14;
LiJ)k Αβ )
步骤4)如此继续，直至所有相点，然后取各指数的增长率的平均值为最大李雅普诺夫 N LU )
指数估计值;
c.统一特征化，包括以下步骤
步骤I)提取低频部分的巴克频率倒谱参数加上其一阶差分，巴克频率倒谱系数+ Λ巴克频率倒谱系数共24阶，分别求取每阶参数的均值和方差，进行排列；
步骤2)提取高频部分的最大李雅普诺夫参数，取其前50帧；
进一步的，将所述巴克频率倒谱参数和所述最大李雅普诺夫参数分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。本发明的有益效果是
本发明采用低通滤波器和高通滤波器进行分割，使处理之后的信号更加符合人类的听觉特性，从而能够提取出性能更优秀的语音特征参数。

图I为本发明的流程图2为所述巴克频率倒谱参数的提取流程图。
具体实施例方式下面将参考附图并结合实施例，来详细说明本发明。参见图I、图2所示，一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割，低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述。本实施例采用汉语数字语音库作为实验对象，每个数字语音各100个，共1000个数字语音作为实验的数据源，其具体做法如下
a.巴克频率倒谱系数参数的提取，包括以下步骤步骤I)选择巴克域子波母函数为#0= eO\其中C1 = 4111 2 ;
可得听觉感知域下的函数表达式
权利要求
1.一种语音识别中的特征参数提取方法，其特征在于将数字语音样本采用低通滤波器和高通滤波器进行分割，低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述，其具体做法如下 a.巴克频率倒谱参数的提取，包括以下步骤步骤I)选择巴克域子波母函数为:#(b)=eO\其中Cl = 41n2 ; 可得听觉感知域下的函数表达式 4>%{h) = φ ^bl-kAb) =，七1 ; 其中，b代表听觉感知频率，听觉感知频率带宽为[bl，b2];Δ = ( 2-Μ)/(Γ-1)为4(b)的平移步长；步骤2)再引入特劳恩米勒所给出的线性频率与听觉感知频率之间的函数关系* = 6.7ssmh[(:/-20)/600]；步骤3)代入上式，就得到线性频率下的听觉感知子波函数的表达式W-2￡J)/eOO]-(#,+ΛΙ#)]1 . C2为规整因子，可近似认为常数，取0. 2 ; 步骤4)将语音能量计算出以后通过巴克滤波器组BWJk) 1S S24,随后通过能量对数的离散余弦变换提取出巴克频率倒谱参数； b.最大李雅普诺夫参数的提取采用wolf法，包括以下步骤步骤I)对语音时间序列巧，- ,今, 采用虚假邻点法确定重构维数m，平均互信息法确定延迟时间间隔T，重构相空间XW = (Λ)，相点数为况-(m-1)T ；步骤2)以初始相点％为基点，在点集中除力外的其余点中选取一个与七最近的点巧作为端点，构成初始向量,A A间欧氏距离可记为Ζ( )；步骤3)时间步长或演化时间i，初始向量沿轨线向前演化得到一新向量，其相应基点与端点间欧氏距离可记为在相应时段内系统线度指数增长率记为2 =；L(t) Ui0) 步骤4)如此继续，直至所有相点，然后取各指数的增长率的平均值为最大李雅普诺夫 . I Jl I L(Ii)指数估计值2—In —~-; c.统一特征化，包括以下步骤步骤I)提取低频部分的巴克频率倒谱参数加上其一阶差分，巴克频率倒谱系数+ Λ巴克频率倒谱系数共24阶，分别求取每阶参数的均值和方差，进行排列；步骤2)提取高频部分的最大李雅普诺夫参数，取其前50帧。
2.根据权利要求I所述的语音识别中的特征参数的提取方法，其特征在于将所述巴克频率倒谱参数和所述最大李雅普诺夫参数分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。
全文摘要
本发明公开了一种语音识别中的特征参数提取方法，将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数，并进行规整化处理；高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述；所述一种语音识别中的特征参数提取方法包括巴克频率倒谱系数参数的提取和最大李雅普诺夫参数的提取两个步骤。本发明采用低通滤波器和高通滤波器进行分割，使处理之后的信号更加符合人类的听觉特性，从而能够提取出性能更优秀的语音特征参数。
文档编号G10L15/02GK102646415SQ20121010280
公开日2012年8月22日申请日期2012年4月10日优先权日2012年4月10日
发明者吴迪, 季晶晶, 张晓俊, 肖仲喆, 陶智申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晓俊;陶智;肖仲喆;吴迪;季晶晶
技术所有人：苏州大学
我是此专利的发明人

上一篇：使用扩展带频率编码的复变换信道编码的制作方法
上一篇：基于长脉冲响应的实时快速卷积系统的制作方法