一种组合pca和rbm的孤立数字语音识别分类系统及方法_4

文档序号:9454216阅读:来源:国知局
要求1所述的一种组合PCA和RBM的孤立数字语音识别分类系统,其特征 在于,MFCC与一阶差分MFCC特征提取模块包括:预加重与分帖加窗模块,用于将原始语音 信号S。通过预加重、分帖、加窗处理得到成帖的语音信号Sf;端点检测模块,用于从成帖的 语音信号Sf中截取实际有效的语音信号Sp;FFT模块,对每一帖有效地的语音信号S。进行 离散FFT变换得到该帖的频谱,进而对该频谱取模的平方求得该帖的离散功率谱S(n);梅 尔频率滤波器组模块,将FFT模块输出的功率谱S(n)通过M个具有S角滤波特性的带通滤 波器Hm(n)的M化滤波器组得到M化频谱;Log对数能量模块,将得到的M化频谱取对数能量 得到对数能量谱,再经M化滤波器组输出;DCT求倒谱模块,将对数能量谱经过离散余弦变 换到倒谱域即得到肥L频率倒谱系数Dm,m= 0, 1…M-I,舍去代表直流成份的D。,取化,〇2''-Dg作为MFCC特征参数值,其中M取24,g取12。3. -种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,包括W下步骤: 步骤1 :输入孤立数字语音信号; 步骤2 :提取孤立数字语音信号的梅尔频率倒谱系数MFCC,然后计算一阶差分倒谱系 数,并与梅尔频率倒谱系数MFCC进行组合得到MFCC组合特征参数; 步骤3 :采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数 得到统一; 步骤4 :采用RBM对线性降维后得到的特征进行非线性降维处理; 步骤5 :采用Softmax分类器实现孤立数字语音的识别分类。4. 根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取,或W 指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。5. 根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC的具体过程为: 步骤2. 1 :将原始孤立数字语音信号S。通过预加重、分帖、加窗处理得到成帖的语音信 号Sf,其中,预加重处理使用的传递函数为八巧,)i-?病%式中,S。为原始语音信号,U为 预加重系数,取0.9375,H(S。)为预加重后的语音信号; 步骤2. 2 :采用基于短时能量和短时过零率的端点检测方法,从成帖的语音信号Sf中 截取得到实际有效的语音信号帖S。; 步骤2. 3 :对每一实际有效的语音信号帖S。进行离散FFT变换得到其频谱,再对该频谱 取模的平方求得离散功率谱S(n); 步骤2. 4 :将离散功率谱S(n)通过M个具有S角滤波特性的带通滤波器Hm(n)的MEL 滤波器组得到M化频谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个MEL频谱参数Pm,m= 0, 1…M-I; 步骤2. 5 :将得到的M化频谱取对数能量得到对数能量谱,再经M化滤波器组输出,即 计算Pm的自然对数,得到对数能量谱Lm,m= 0,I",M-I; 步骤2. 6 :将对数能量谱Lm经过离散余弦变换到倒谱域即可得到M化频率倒谱系数Dm,m= 0, 1…M-I,舍去代表直流成份的D。,取Di, 〇2…Dg作为MFCC特征参数值,其中M取24,g 取12。6. 根据权利要求5所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分MFCC参数,并与 MFCC进行组合得到24维的MFCC组合特征参数,其中包括12维MFCC参数和12维MFCC- 阶差分参数。7. 根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤3中采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维 数得到统一的方法为:对语音信号求MFCC特征参数,每一帖得到24维的MFCC组合特征参 数,最后该语音信号得到一个N*24的特征参数矩阵,N为语音信号的帖数,将特征参数矩阵 进行转置,再与特征参数矩阵相乘,得到24巧4的方阵,求其特征值,取前两个最大特征值 所对应的特征向量作为该语音信号的特征参数,得到一个48维的特征向量。8. 根据权利要求7所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤4中采用RBM对线性降维后得到的特征进行非线性降维处理的方法为: 步骤4. 1 :构建RBM,RBM由显层、隐层两层构成,层内无连接,层间双向连接,RBM显层 神经元个数为48,对应非线性特征向量维数48,隐层神经元个数为10,对应0~9十个数字 语音分类,层间连接权重初始化为正态分布,均值为零,标准差0.Ol的随机数,显层和隐层 的偏置均初始化为0 ; 步骤4. 2 :训练RBM,训练用样本批量处理,RBM的训练使用对比散度算法,采用高 斯-伯努利RBM定义能量函数:式中,0 = {ai,b,,Wi,}是RBM的模型参数,曰1是显层节点i的偏置,b,是隐层节点j的 偏置,Wi,是显层节点i和隐层节点j之间的连接权值,V是显层神经元,S为显层神经元个 数,h是隐层神经元,T为隐层神经元个数; RBM模型的联合概率分布为:其中,方=ZZexp(-巧r,么为配分函数,目二咕,b,,w。}是醒的模型参数,V 是显层神经兀,h是隐层神经兀; RBM模型关于显层神经元节点的边缘概率分布为:其中,0 = {ai,b,,Wi,}是RBM的模型参数,V是显层神经元,h是隐层神经元; RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函数为: 妒=猫*摆曲跑log/(K島) 岛' 其中,0 = (ai,b,,Wi,}是RBM的模型参数,V是显层神经元; 对目标函数求偏导,可W得到权值的更新公式为: AW。=Edata(Vihj)-Emodel(Vihj) 式中,Ed。,。(Vih,)是训练集数据的显层和隐层状态的期望值,Emcdel(Vih,)是对所有可能 的(V,h)建立模型的期望值;AWi,为权值的改变量; 各参数的更新准则为: AW。=mAW。+ £ (<Vihj〉data-<Vihj〉recJ Abi=mAbi+e(<Vi〉data-<Vi>巧cJ Aaj=mA曰j+e(<hj〉data-<hj>巧CJ 其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取0.5,e是学习率,取 0. 001,<.〉f。。。。表示一步重构后模型定义的分布; 使用重构误差对RBM进行评估,重构误差就是W训练数据作为初始状态,根据RBM的分 布进行一次吉布斯采样所获得的样本与原数据的差异; 步骤4. 3 :训练完毕后保存RBM的权值和偏置值,训练后的RBM实现线性降维后得到的 特征的非线性降维输出。9.根据权利要求8所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为: 步骤5. 1 :构建Softmax分类器,对于给定的输入X,用假设函数hs(X)针对每一个类 别S估算出概率值p(y=s|x),SG(0,1,2,……,9},假设函数hs(x)输出一个t维的向 量表示运t个估计的概率值,t= 10,假设函数hg(X)如下:其中,51,52,...,St是Softmax分类器的全部参数,为输入,y^为输 出,Softmax分类器将X分为类别S的概率为:其中,X"为输入,yW为输出. 步骤5. 2 =Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类编号 0~9 ;对于RBM输出的特征,选择概率P(yW=SIXW; 5 )最大的类别S作为该特征对 应的类别。10.根据权利要求9所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征 在于,RBM预训练完成后,微调整RBM的连接权重及偏置、W及RBM与Softmax之间的连接 权重,具体方法为: DRBM训练完成后,使用共辆梯度法对网络模型进行微调,在微调开始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对RBM内部的、W及RBM和Softmax之间的 连接权重进行调整,微调使用的代价函数为:其中,1{yW=s}为指示性函数,当括号中的值为真时,该函数结果为1,否则为〇,m为 语音信号样本数量; 共辆梯度法利用负梯度方向,即其中,目标函数f(X)是R"上的连续可微函数;为f(X)在点Xk处的梯度;dW 为捜索方向;参数Pk的确定使得dW与dA"互相共辆; 共辆梯度法的计算步骤如下: 第一步:取任意初始点X(O)GR。,令苗W= -V/(xW),k= 0,精度e〉0 ; 第二步:若Iw(XW)I气则X=x(k),方法终止,否则进人第S步; 第立步:由线性捜索确定步长ak,并令=XW+akdW; 韵-=0 , 第四步:由或=] /M、 0與.d(k"),其中热=..嚴.…令k=k+1,进入第 -巧'护))+心材 二步; 。微调结束后得到RBM模型最终的参数,将RBM的输出作为Softmax分类层的输入,通 过Softmax分类器得到最后的识别结果。
【专利摘要】本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法,首先,采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合,初步抽取孤立数字的语音动态特征;然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理,并统一新得到的特征的维数;进而,采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理;最后,采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合,大大改善了模型的特征表征与分类能力,提高了孤立数字语音识别正确率,为实现孤立数字语音高准确率识别提供了一种高效的解决方案。
【IPC分类】G10L15/26, G10L15/08
【公开号】CN105206270
【申请号】CN201510514595
【发明人】宋青松, 田正鑫, 安毅生, 赵祥模
【申请人】长安大学
【公开日】2015年12月30日
【申请日】2015年8月20日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1