一种组合pca和rbm的孤立数字语音识别分类系统及方法

文档序号：9454216阅读：844来源：国知局

一种组合pca和rbm的孤立数字语音识别分类系统及方法
【技术领域】
[0001] 本发明属于语音识别领域，具体涉及一种组合PCA和RBM的孤立数字语音识别分类系统及方法。
【背景技术】
[0002] 数字语音识别有着广阔的研究和应用价值，常见方法有很多，比如动态时间规整 (DTW)、主成分分析（PCA)、人工神经网络（ANN)方法等。DTW基于动态规划的思想，解决了发音长短不一的模板匹配问题，但是，DTW存在运算量大、识别性能依赖端点检测等不足。 PCA可以实现数据的降维，并且能够统一数据维数，但本质上是一种基于最优正交变换的线性降维方法，无法保留原始数据中的非线性特征，对于非线性问题难得到较好的结果。ANN 方法特别是Hinton等提出的受限波尔兹曼机（RBM)及其快速学习算法，在模式识别与分类问题中表现出良好的非线性特征降维与特征表征能力，但通常需要适当的特征参数提取等预处理手段配合使用。每种方法有各自的长处，单一种类的方法很难发挥综合优势。

【发明内容】

[0003] 本发明的目的在于提供一种组合PCA和RBM的孤立数字语音识别分类系统及方法，以克服上述现有技术存在的缺陷，本发明能够对数字语音信号进行有效降维和特征表征，显著改善了分类识别正确率，为高精度孤立数字语音识别提供了一种高效的解决方案。
[0004] 为达到上述目的，本发明采用如下技术方案：
[0005] -种组合PCA和RBM的孤立数字语音识别分类系统，包括：孤立数字语音输入模块，用于对孤立数字的语音信号进行采样或读取；MFCC与一阶差分MFCC特征提取模块，用于提取语音信号的梅尔频率倒谱系数MFCC与一阶差分MFCC;PCA线性降维模块，用于将 MFCC特征参数通过主成分分析PCA进行线性降维，并且使降维后得到的特征维数得到统一；RBM非线性降维模块，采用受限波尔兹曼机RBM对PCA线性降维后得到的特征进行非线性特征降维表征；Softmax分类识别模块，用于对RBM非线性降维模块输出的结果进行分类识别。
[0006] 进一步地，MFCC与一阶差分MFCC特征提取模块包括：预加重与分帧加窗模块，用于将原始语音信号S。通过预加重、分帧、加窗处理得到成帧的语音信号sf;端点检测模块，用于从成帧的语音信号sf中截取实际有效的语音信号S^FFT模块，对每一帧有效地的语音信号\进行离散FFT变换得到该帧的频谱，进而对该频谱取模的平方求得该帧的离散功率谱S(n);梅尔频率滤波器组模块，将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器(n)的MEL滤波器组得到MEL频谱；Log对数能量模块，将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出；DCT求倒谱模块，将对数能量谱经过离散余弦变换到倒谱域即得到MEL频率倒谱系数D^，m= 0, 1…M-1，舍去代表直流成份的D。，取Di，D2."Dg作为MFCC特征参数值，其中M取24,g取12。
[0007] -种组合PCA和RBM的孤立数字语音识别分类方法，包括以下步骤：
[0008] 步骤1:输入孤立数字语音信号；
[0009] 步骤2:提取孤立数字语音信号的梅尔频率倒谱系数MFCC，然后计算一阶差分倒谱系数，并与梅尔频率倒谱系数MFCC进行组合得到MFCC组合特征参数；
[0010] 步骤3 :采用PCA对MFCC组合参数特征进行线性降维，并且使降维后得到的特征维数得到统一；
[0011] 步骤4 :采用RBM对线性降维后得到的特征进行非线性降维处理；
[0012] 步骤5:采用Softmax分类器实现孤立数字语音的识别分类。
[0013] 进一步地，步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取，或以指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。
[0014] 进一步地，步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC的具体过程为：
[0015] 步骤2. 1:将原始孤立数字语音信号S。通过预加重、分帧、加窗处理得到成帧的语音信号Sf，其中，预加重处理使用的传递函数为〃= 1 _ 1 ;式中，S。为原始语音信号，u 为预加重系数，取0.9375, H(S。）为预加重后的语音信号；
[0016] 步骤2. 2:采用基于短时能量和短时过零率的端点检测方法，从成帧的语音信号Sf 中截取得到实际有效的语音信号帧
[0017] 步骤2. 3:对每一实际有效的语音信号帧\进行离散FFT变换得到其频谱，再对该频谱取模的平方求得离散功率谱S(n);
[0018] 步骤2. 4:将离散功率谱S (n)通过M个具有三角滤波特性的带通滤波器扎(n)的 MEL滤波器组得到MEL频谱，即计算S(n)和Hjn)在各离散频率点上的乘积之和，得到M个 MEL 频谱参数 P"，m = 0, ;
[0019] 步骤2. 5:将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出，即计算Pm的自然对数，得到对数能量谱L m，m = 0, 1…M-1 ;
[0020] 步骤2. 6:将对数能量谱L"经过离散余弦变换到倒谱域即可得到MEL频率倒谱系数D^m = 0, 舍去代表直流成份的D。，取Du DyDg作为MFCC特征参数值，其中M取 24, g 取 12。
[0021] 进一步地，步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分 MFCC参数，并与MFCC进行组合得到24维的MFCC组合特征参数，其中包括12维MFCC参数和12维MFCC -阶差分参数。
[0022] 进一步地，步骤3中采用PCA对MFCC组合参数特征进行线性降维，并且使降维后得到的特征维数得到统一的方法为：对语音信号求MFCC特征参数，每一帧得到24维的 MFCC组合特征参数，最后该语音信号得到一个N*24的特征参数矩阵，N为语音信号的帧数，将特征参数矩阵进行转置，再与特征参数矩阵相乘，得到24*24的方阵，求其特征值，取前两个最大特征值所对应的特征向量作为该语音信号的特征参数，得到一个48维的特征向量。
[0023] 进一步地，步骤4中采用RBM对线性降维后得到的特征进行非线性降维处理的方法为：
[0024] 步骤4. 1:构建RBM，RBM由显层、隐层两层构成，层内无连接，层间双向连接，RBM显层神经元个数为48,对应非线性特征向量维数48,隐层神经元个数为10,对应0~9十个数字语音分类，层间连接权重初始化为正态分布，均值为零，标准差〇. 01的随机数，显层和隐层的偏置均初始化为〇 ;
[0025] 步骤4. 2 :训练RBM，训练用样本批量处理，RBM的训练使用对比散度算法，采用高斯-伯努利RBM定义能量函数：
[0026]
[0027] 式中，0 = {a;,bj,Wg}是RBM的模型参数，a;是显层节点i的偏置，b是隐层节点j的偏置，Wl]是显层节点i和隐层节点j之间的连接权值，v是显层神经元，S为显层神经元个数，h是隐层神经元，T为隐层神经元个数；
[0028] RBM樽型的联合概率分布为：
[0029]
[0030] 其中，
；)配分函数，9 = {aubpwd是RBM的模型参数，v是显层神经元，h是隐层神经元；
[0031] RBM模型关于显层神经元节点的边缘概率分布为：
[0032]
[0033] 其中，0 = {a;,bj,Wg}是RBM的模型参数，v是显层神经元，h是隐层神经元；
[0034] RBM的模型参数使用最大似然准则通过无监督训练得到，训练的目标函数为：
[0035]
[0036] 其中，0 = {a;,bj,wd是RBM的模型参数，v是显层神经元；
[0037] 对目标函数求偏导，可以得到权值的更新公式为：
[0038] AWlj=Edata (vxhj) -Enodel (vxhj)
[0039] 式中，是训练集数据的显层和隐层状态的期望值，是对所有可能的（v，h)建立模型的期望值；AWij为权值的改变量；
[0040] 各参数的更新准则为：
[0041 ]AWlj=mAwxj+e?v1hj>data-<v1hj>recon)
[0042] Ab^mAb^e?v1>data-<v1>recon)
[0043] Aaj =mAaj+e?hj>data-<hj>recon)
[0044] 其中，m是动量参数，在训练迭代前5次，m取0. 9,大于第5次，取0. 5，e是学习率，取0. 001，〈.>"_表示一步重构后模型定义的分布；
[0045] 使用重构误差对RBM进行评估，重构误差就是以训练数据作为初始状态，根据RBM 的分布进行一次吉布斯采样所获得的样本与原数据的差异；
[0046] 步骤4. 3 :训练完毕后保存RBM的权值和偏置值，训练后的RBM实现线性降维后得到的特征的非线性降维输出。
[0047] 进一步地，步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为：
[0048] 步骤5. 1:构建Softmax分类器，对于给定的输入X，用假设函数h5 (x)针对每一个类别s估算出概率值p(y = s |x)，s G {〇, 1，2,......，9}，假设函数h5 (x)输出一个t维的向量表示这t个估计的概率值，t = 10,假设函数h5 (x)如下：
[0049]
[0050] 其中，S S 2, ???，S ,是Softmax分类器的全部参数，
力)为输入，y⑴ 为输出，Softmax分类器将x分为类别s的概率为：
[0051]
m
[0052] 其中，x(1)为输入，y (1)为输出；
[0053] 步骤

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋青松;田正鑫;安毅生;赵祥模;
技术所有人：长安大学;
我是此专利的发明人

上一篇：智能设备的语音唤醒方法及实现所述方法的系统的制作方法
上一篇：一种语音处理方法和装置的制造方法