一种基于卷积神经网络的方言分类方法与流程

文档序号：12802799阅读：520来源：国知局

本发明涉及卷积神经网络应用领域，尤其是一种基于卷积神经网络的方言分类方法。

背景技术：

卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。输入图像通过和三个可训练的滤波器和可加偏置进行卷积，卷积后在c1层产生三个特征映射图，然后特征映射图中每组的四个像素再进行求和，加权值，加偏置，通过一个sigmoid函数得到三个s2层的特征映射图。这些映射图再经过滤波得到c3层。这个层级结构再和s2一样产生s4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。

一般地，c层为特征提取层，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；s层是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(c-层)都紧跟着一个用来求局部平均与二次提取的计算层(s-层)，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。

技术实现要素：

本发明所要解决的技术问题在于，提供一种基于卷积神经网络的方言分类方法，能够对方言音频声谱图片进行分类和识别。

为解决上述技术问题，本发明提供一种基于卷积神经网络的方言分类方法，包括如下步骤：

(1)建立包含多地方言的样本集，对样本进行预处理，并进行标注；

(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图，并为每张图片赋予标签信息，标签信息表示对应的图片所属的县级市；

(3)建立卷积神经网络，卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层，使用梯度下降法和反向传播算法训练所属卷积神经网络；

(4)训练完成后，得到训练过程中的错误率下降趋势图。

优选的，步骤(1)中，对样本集进行预处理，将音频文件转换成声谱图，并去掉声谱图中的空白边缘。

优选的，步骤(1)中，样本集包括多个地方的方言样本。

优选的，步骤(2)中，图片统一缩放成227×227的彩色图片。

优选的，步骤(3)中，卷积神经网络为经典的alexnet网络结构，在该网络中，第一层为输入层，接受大小为227×227的彩色图像作为输入，最后一层为输出层，共n个结点，n表示需要分类的方言数据集的类别总数。

优选的，步骤(3)中，梯度下降算法的具体步骤为：从任一点开始，沿该点梯度的反方向运动一段距离，再沿新位置的梯度反方向运行一段距离，如此迭代。解一直朝下坡最陡的方向运动，希望能运动到函数的全局最小点，即使得误差值最小的点。

优选的，步骤(3)中，反向传播算法的具体步骤为：当使用梯度下降法找到误差的最小值之后，从网络的最后一层依次向前更新权值，用反向传播的方法更新权值，即链式求导法则，链式求导法则如下：

优选的，步骤(4)中，训练样本和测试样本，即分批次对所有样本进行训练，不断更新权值，直到目标函数的值收敛于一个稳定区域内的值，即错误率收敛于一个稳定值。

本发明的有益效果为：使用卷积神经网络对二维图像进行分类，可取得良好的分类效果，很大程度上提高对方言的分类准确率。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的卷积神经网络用语方言分类的目标函数及错误率的变化趋势图。

具体实施方式

如图1所示，一种基于卷积神经网络的方言分类方法，包括如下步骤：

(1)建立包含多地方言的样本集，对样本进行预处理，并进行标注；对样本集进行预处理，将音频文件转换成声谱图，并去掉声谱图中的空白边缘；样本集包括多个地方的方言样本；

(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图，并为每张图片赋予标签信息，标签信息表示对应的图片所属的县级市；图片统一缩放成227×227的彩色图片；

(3)建立卷积神经网络，卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层，使用梯度下降法和反向传播算法训练所属卷积神经网络；

(4)分批次对所有样本进行训练，不断更新权值，直到目标函数的值收敛于一个稳定区域内的值，即错误率收敛于一个稳定值；训练完成后，得到训练过程中的错误率下降趋势图。

卷积神经网络为经典的alexnet网络结构，在该网络中，第一层为输入层，接受大小为227×227的彩色图像作为输入，最后一层为输出层，共n个结点，n表示需要分类的方言数据集的类别总数。

梯度下降算法的具体步骤为：从任一点开始，沿该点梯度的反方向运动一段距离，再沿新位置的梯度反方向运行一段距离，如此迭代。解一直朝下坡最陡的方向运动，希望能运动到函数的全局最小点，即使得误差值最小的点。

反向传播算法的具体步骤为：当使用梯度下降法找到误差的最小值之后，从网络的最后一层依次向前更新权值，用反向传播的方法更新权值，即链式求导法则，链式求导法则如下：

实验条件：现选取一台计算机进行方言分类，该计算机的配置有intel(r)处理器(3.30ghz)和32gb随机存取存储器(ram)，gtx970gpu,64位操作系统，编程语言用的是matlab(r2015a版本)。

实验对象：方言数据库包含灰度图像数据库与彩色图像数据库，本发明中采用彩色图像数据库图像进行实验，所分类的是江苏70个地方的方言，因此共有70个类，每个类别都包含200幅图像，每幅图像大小为227×227。在每一类图像中随机选取160幅作为训练图像，剩下的40幅作为测试图像。

实验步骤：

步骤1、将方言音频文件转换成声谱图，并去掉声谱图的空白边缘，然后将图片调整为227×227的彩色图片。

步骤2、将所有训练和测试图片做标注。

步骤3、在matconvnet中alexnet网络结构中，修改部分参数，使得网络结构与方言数据库匹配。

步骤4、准备就绪后，将标注的图片送入网络中，开始运行程序。

步骤5、程序会输出每一张图片识别的错误率，程序完成时，会输出整个运行过程中训练和测试的错误率的变化趋势图。

图2为本发明中卷积神经网络用于方言分类的目标函数及错误率的变化趋势图；其中，横坐标(epoch)表示训练的批次；左边objective表示目标函数的变化趋势，纵坐标表示目标函数的值；中间top1err表示准确分到其所属类别的错误率的变化趋势图，纵坐标表示错误率的大小；右边top5err为表示分到与所属类别最接近的5个类别的错误率的变化趋势图，纵坐标表示错误率的大小。由于实验过程中，我们用曲线的颜色来区分训练和测试过程，由于限制图2中曲线的颜色均为黑色，由于top1err是判断实验准确率的关键标准，我们仅参考top1err的指标。top1err中上面曲线为测试过程，下面曲线为训练过程。top1err测试的值可以稳定在90％。

尽管本发明就优选实施方式进行了示意和描述，但本领域的技术人员应当理解，只要不超出本发明的权利要求所限定的范围，可以对本发明进行各种变化和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：伍家松;魏黎明;邱诗洁;杨淳沨;孔佑勇;朱小贝;舒华忠
技术所有人：东南大学
我是此专利的发明人

上一篇：具有凹凸结构的化妆用粉刷的制作方法与工艺
上一篇：一种含陨石成分的洗发液及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。