一种基于深度残差神经网络的语音识别方法与流程

文档序号：16004133发布日期：2018-11-20 19:50阅读：来源：国知局

技术特征：

1.一种基于深度残差神经网络的语音识别方法，其特征在于，具体按照下述步骤进行：

步骤1，构建语音库，得到n+1组声音信号组；

步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；

步骤3，利用n组所述训练组训练深度残差神经网络，得到训练好的深度残差神经网络；

步骤4，将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别。

2.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1中构建语音库具体按照下述方法进行：

步骤1.1，随机选取多个不同的汉字组成测试汉字组；

步骤1.2，采集所述测试汉字组中每一个汉字的声音信号，得到初始声音信号组；

步骤1.3，将所述初始声音信号组的每个声音信号进行类别标号，将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号，得到一组声音信号组；

步骤1.4，将步骤1.2和步骤1.3重复n+1次，得到n+1组声音信号组。

3.根据权利要求2所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1.3中对声音信号按照下述步骤进行预处理：

步骤1.3.1，将所述初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号，得到频域声音信号组；

步骤1.3.2，将所述频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号，得到正则化信号组；

步骤1.3.3，将所述正则化信号组中的每个所述正则化信号转化为二维矩阵形式的声音信号，得到声音信号组。

4.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤3中训练深度残差神经网络具体按照下述方法进行：

步骤3.1，构建深度神经网络框架，其中，深度神经网络主要包括三个部分，第一部分为输入层，第二部分为隐含层，第三部分为输出层，所述隐含层连接在输入层上，所述输出层连接在所述隐含层上；所述隐含层包括至少一个训练层，每一个训练层的输入端均与输入层连接；

步骤3.2，取一组所述训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练，训练时遍历训练组的每一个语音数据，训练结束后，输出层输出语音识别的准确率；

步骤3.3，准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络；

若准确率达不到设定值，则调整深度神经网络框架中的权重和阈值，并且增加一层训练层，训练层与调整前的深度神经网络框架的隐含层相连，取另一组所述训练组输入至调整后的深度神经网络框架进行训练，训练结束后，输出层输出语音识别的准确率；如此循环，直至准确率达到设定值，则当前的深度神经网络为训练好的深度残差神经网络。

5.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述输出层为Soft-Max层。

6.根据权利要求4所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述训练层包括两个相连的卷积层，一个所述卷积层连接输入层，另一个所述卷积层连接输出层，所述卷积层之间存在参数传递通道，且参数传递通道不能在卷积层之间相互交叉。

7.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法，其特征在于，每一个所述卷积层的激活函数使用Relu激活函数。

8.据权利要求5或权利要求6所述的一种基于深度残差神经网络的语音识别方法，其特征在于，每个所述卷积层后均连接有池化后层。

完整全部详细技术资料下载

当前第2页1 2 3