修正线性深度自编码网络语音识别方法与流程

文档序号：12475857阅读：来源：国知局

技术特征：

1.一种修正线性深度自编码网络语音识别方法，所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练，其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题，最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别，其具体方法是按下列步骤进行的：

1）语音数据预处理：

11）对语音信号进行采样和量化，采样率为，帧长256采样点，帧移128采样点；

12）对步骤11）所得到的语音信号进行预处理，包括预加重、分帧、加窗以及归一化处理；

13）将步骤12）所得的单帧信号进行端点检测，获得有效的单帧信号；

2）提取声学特征：

21）将步骤13）所得的有效单帧信号进行快速傅里叶变换，得到语音信号的频域信号；

22）使用对应的滤波器组对步骤21）所得的频域信号进行滤波处理；

23）对22）所得的滤波信号进行一系列非线性变换得到语音的声学特征；

3）训练修正线性深度自编码网的步骤：

31）利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器，并得到参数；

32）将第一个RAE的输出作为第二个RAE的输入，按相同的方式继续训练得到第二组参数，并对后面所有的RAE采取相同的策略依次训练其参数；

33）在所有隐含层训练完成之后，通过有监督的反向传播算法调整所有层的参数，实现网络“微调”；

34）将最顶层的隐含层输出作为Softmax分类器的输入，对输入的语音数据进行分类识别；

35）选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验，分析不同方法对系统识别性能的影响；

36）选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果，从而证明基于L2正则化的修正线性深度自编码网络模型构建方法的可行性。

完整全部详细技术资料下载

当前第2页1 2 3