修正线性深度自编码网络语音识别方法与流程

文档序号:12475857阅读:来源:国知局

技术特征:

1.一种修正线性深度自编码网络语音识别方法,所述方法首先是采用修正线性单元作为激活函数替换传统的Sigmoid函数对深度自编码网络进行训练,其次是引入L2正则化来优化深度模型训练过程中容易产生的过拟合问题,最后通过逐层贪婪无监督的“预训练”和有监督的“微调”得到具有特征表示的权值进行语音识别,其具体方法是按下列步骤进行的:

1)语音数据预处理:

11)对语音信号进行采样和量化,采样率为,帧长256采样点,帧移128采样点;

12)对步骤11)所得到的语音信号进行预处理,包括预加重、分帧、加窗以及归一化处理;

13)将步骤12)所得的单帧信号进行端点检测,获得有效的单帧信号;

2)提取声学特征:

21)将步骤13)所得的有效单帧信号进行快速傅里叶变换,得到语音信号的频域信号;

22)使用对应的滤波器组对步骤21)所得的频域信号进行滤波处理;

23)对22)所得的滤波信号进行一系列非线性变换得到语音的声学特征;

3)训练修正线性深度自编码网的步骤:

31)利用“训练集”数据通过无监督逐层贪婪训练算法“预训练”网络的第一个修正线性自动编码器,并得到参数

32)将第一个RAE的输出作为第二个RAE的输入,按相同的方式继续训练得到第二组参数,并对后面所有的RAE采取相同的策略依次训练其参数;

33)在所有隐含层训练完成之后,通过有监督的反向传播算法调整所有层的参数,实现网络“微调”;

34)将最顶层的隐含层输出作为Softmax分类器的输入,对输入的语音数据进行分类识别;

35)选用三种激活函数ReLU、Sigmoid、tanh与两种方法L2正则化和权重衰减Dropout的不同组合进行实验,分析不同方法对系统识别性能的影响;

36) 选用ReLU和L2正则化的组合方法较其他方法取得了最佳的识别结果,从而证明基于L2正则化的修正线性深度自编码网络模型构建方法的可行性。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1