一种基于深度残差的中文语音识别方法与流程

文档序号:18469037发布日期:2019-08-20 20:03阅读:457来源:国知局
一种基于深度残差的中文语音识别方法与流程

本发明涉及语音信号处理及识别领域,尤其是涉及一种基于深度残差的中文语音识别方法。



背景技术:

语音作为一种最便捷自然的交流形式,它承载着信息传递和情感表达的功能。随着语音识别技术的进步,越来越多的人们期望能够通过语音与机器进行沟通,因此语音识别这一技术也越来越受到关注。目前语音识别应用最广泛的一种结构是长短时记忆网络,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。而双向lstm网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度残差的中文语音识别方法。

本发明的目的可以通过以下技术方案来实现:

一种基于深度残差的中文语音识别方法,包括如下步骤:

步骤(1)、获取含有语音信息的原始数据。

步骤(2)、对原始数据提取mfcc特征参数,并获取mfcc特征参数的一阶差分和二阶差分。

提取mfcc特征参数具体包括下列步骤:

21)对语音进行预加重、分帧和加窗预处理;

22)对每一个短时分析窗,通过fft获取对应的频谱;

23)将步骤22)获取的频谱通过mel滤波器组得到mel频谱,通过mel频谱,将线形的自然频谱转换为体现人类听觉特性的mel频谱;

24)在mel频谱上面进行倒谱分析,获取mel频率倒谱系数mfcc,将mfcc作为语音特征。

mfcc特征参数的一阶差分为离散函数中连续相邻两帧之差,其表达式为:

y(k)=x(k+1)-x(k)

式中,k为帧号,x(k)为第k帧的mfcc特征参数,x(k+1)为第k+1帧的mfcc特征参数。

二阶差分表示第k+1帧的一阶差分与第k帧的一阶差分之间的关系,二阶差分的表达式为:

z(k)=y(k+1)-y(k)=x(k+2)-2*x(k+1)+x(k)

步骤(3)、将当前帧与该帧的一阶差分和二阶差分进行拼接,获取最后的特征参数,并将该特征参数的二维数组上增加一个通道,获取三维数组的最后的特征参数。

残差块包括两层卷积层和一层随机失活层,所述的随机失活层的输出直接与经过一层卷积后的输入相加,获取最终的目标映射。所述的深度残差网络的结构包括多层卷积层、四个残差块、两层池化层、两层全连接层以及softmax层组成,第一层全连接层设有512个神经单元,第二层全连接层设有1422个神经单元,所有卷积层的卷积核为3x3,第一层、第二层和第一个残差块的卷积核的个数均为32,第一层池化层的步长为2x2,第三层卷积层和第二个残差块的卷积核的格式为64,第四层卷积层和第三个残差块的卷积核个数为128,第五层卷积层和第四个残差块的卷积核个数为256,第二层池化层的步长为1x2,最后一层卷积核的个数为512。

优选地,所述的残差块结构中的卷积核的大小为3x3,随机失活层的参数设置为0.2,随机失活层选择性地对输入进行响应。

步骤(4)、将步骤(3)中三维数组的最后的特征参数全部输进深度残差网络中,对深度残差网络反复训练,直到取得符合要求的识别率,所述的识别率为语音识别的音素误码率。

优选地,若训练模型达到15.42%的音素误码率,则判定为模型训练的结果达到符合要求的识别率。

步骤(5)、对训练好的深度残差网络模型进行测试,输出识别文本。

对训练好的模型进行测试,将要测试的语音按照训练时的方法进行特征提取,提取到的特征参数输入训练好的模型中,模型的输出为识别到的文本。

与现有技术相比,本发明具有以下优点:

1)本发明方法采用的是深度残差网络,即将残差块结构应用到卷积神经网络中,卷积神经网络一般包括卷积层、池化层和全连接层,卷积层的输入为特征参数,卷积核以设置好的的步长滑动,学习特征图中不同的局部特征,卷积层越多,提取的特征就越多,池化层主要对特征参数进行压缩,计算每一个区域的平均值或最大值,对特征进行降维,减少模型中网络节点的个数,全连接层具有分类器的作用,该层网络将学习到的特征参数映射到样本标记空间,进行分类匹配,预测输入信号所属类别,因此,卷积神经网络共享权值的特点可大大减少模型的参数,加快模型的训练速度,进而解决解码时延高的问题;

2)本发明将残差结构应用到卷积神经网络中,卷积神经网络直接学习输入数据到输出标签的目标映射,会出现神经网络的层数加深后,训练精度不上升反而下降等问题,但是这种现象并不是由过拟合引起的,简单的加深网络会使得网络本身难以训练,而残差网络通过学习目标映射与原输入的残差量,将残差量与原输入量相加,得到最终的目标映射,这种学习机制能有效的解决网络性能退化等问题,在加深网络深度的同时,缓解过拟合的问题,提高了语音的识别率。

附图说明

图1本发明中残差块结构图;

图2为本发明方法的流程示意图;

图3为提取mfcc特征的主要流程图;

图4为深度残差网络总结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

本发明涉及一种基于深度残差的中文语音识别方法,包括下列步骤:

步骤一、获取含有语音信息的原始数据。

步骤二、对原始数据提取mfcc特征参数。

对语音通过一组mel滤波器提取mfcc(melfrequencycepstralcoefficents)特征参数,即梅尔频率倒谱系数(500,13),其中,提取mfcc特征的主要过程为:

1)先对语音进行预加重、分帧和加窗,用于加强语音信号性能(信噪比,处理精度等)的一些预处理。

2)对每一个短时分析窗,通过fft得到对应的频谱,用来获得分布在时间轴上不同时间窗内的频谱。

3)将上面的频谱通过mel滤波器组得到mel频谱,通过mel频谱,将线形的自然频谱转换为体现人类听觉特性的mel频谱。

4)在mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过dct离散余弦变换来实现,取dct后的第2个到第13个系数作为mfcc系数),获得mel频率倒谱系数mfcc,这个mfcc就是这帧语音特征。

这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的mfcc特征向量。获取mfcc特征向量后就可以通过这些倒谱向量对语音分类器进行训练和识别了。

然而,mfcc只是语音的静态特征,若要提取语音的动态特征,则求取一阶和二阶差分。一阶差分就是离散函数中连续相邻两帧之差,定义如下式:

y(k)=x(k+1)-x(k)

式中,k为帧号,x(k)为第k帧的mfcc特征参数,x(k+1)为第k+1帧的mfcc特征参数。

二阶差分表示第k+1帧的一阶差分与第k帧的一阶差分之间的关系,二阶差分的定义如下式:

z(k)=y(k+1)-y(k)=x(k+2)-2*x(k+1)+x(k)

步骤三、将当前帧与该帧的一阶差分和二阶差分拼接,最后的特征参数为(500,39),在该二维数组上增加一个通道,将该二维数组转换成三维数组(500,39,1)。

步骤四、将计算出的自后的特征参数全部输进深度残差网络中,对深度残差网络反复训练,通过反向传播,减小神经网络的损失,直到取得较好的识别率。

残差块结构是由两层卷积层,一层随机失活层构成。随机失活层的输出直接与经过一层卷积后的输入相加,得到最终的目标映射。该残差块结构中卷积核的大小为3x3,随机失活层的参数设置为0.2,随机失活层选择性地对输入进行响应,可以提高学习精度。

本发明深度残差网络的结构由多层卷积层、4个残差块、两层池化层和两层全连接层以及softmax层组成,第一层全连接层有512个神经单元,第二层全连接层有1422个神经单元。所有卷积层的卷积核为3x3,第一层、第二层和第一个残差块的卷积核的个数均为32,第一层池化层的步长为2x2,第三层卷积层和第二个残差块的卷积核的格式为64,第四层卷积层和第三个残差块的卷积核个数为128,第五层卷积层和第四个残差块的卷积核个数为256,第二层池化层的步长为1x2,最后一层卷积核的个数为512。神经网络将输入序列为(x1,x2,...,xt)的特征参数在经过一系列卷积层,池化层,全连接层和softmax层之后,转化为输出序列(y1,y2,...,yt),ctc(connectionisttemporalclassification,连接时序分类技术)根据(y1,y2,...,yt)计算出实际序列的后验概率p(l1,l2,...,lm|x1,x2,...xt),神经网络训练的过程就是在给定输入和实际音素序列的情况下,调整神经网络参数使得训练样本集p(l1,l2,...,lm|x1,x2,...xt)最大,即ctc解码就是在给定输入的条件下,寻找后验概率最大的序列其中,l1,l2,...,lm为标签序列,t为帧号,m为标签的个数。

识别率为语音识别的音素误码率,经过多次试验,在深度残差网络的损失几乎不下降时,即模型达到15.42%的音素误码率,判定为模型训练的结果达到符合的识别率。

本实施例基于thchs30中文数据集进行实际实验,相对于语音识别中传统的blstm(bidirectionallongshort-termmemory,双向长短时记忆)框架,采用本发明方法训练时收敛的速度要比blstm网络快上3倍,语音的识别率提高了3%。

步骤五、对训练好的模型进行测试,将要测试的语音按照训练时的方法进行特征提取,提取到的特征参数输入训练好的模型中,模型的输出为识别到的文本。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1