一种用于语音识别的新型时延递归神经网络的制作方法

文档序号:16906318发布日期:2019-02-19 18:22阅读:481来源:国知局
一种用于语音识别的新型时延递归神经网络的制作方法

本发明涉及语音识别的声学模型建模领域,具体涉及一种用于语音识别的新型时延递归神经网络。



背景技术:

随着智能语音技术的日渐发展,如siri、alexa和cortana这样的智能助手正走进千家万户,极大的方便了大家的日常生活。语音识别是智能语音技术的关键环节,通过语音识别技术,可以将语音数据转换为文本数据,以便后续处理。一般来说,语音识别系统由声学模型和语言模型组成。在现今,基于神经网络构建的声学模型相对于早期的基于混合高斯模型的声学模型,效果提升显著,并且被广泛的应用在各种知名的语音识别系统中。

在语音识别中,如何有效地组织、提取和处理声音特征帧的上下文信息,是一个研究焦点。目前为止,声学建模效果较好的神经网络有基于降采样技术的时延神经网络和基于递归神经网络的长短时记忆单元。采用了降采样技术的时延神经网络由于没有递归结构,具有训练收敛速度快、模型参数量少的特点;而长短时记忆单元由于具有长时记忆功能,因此建模效果更好,但是训练过程繁琐、费时,网络结构复杂、体积大。在实践中,两种网络往往混搭使用,相辅相成。



技术实现要素:

有鉴于此,为解决上述现有技术中的问题,本发明提供了一种用于语音识别的新型时延递归神经网络,具有提高训练效率、减少模型体积的优点。

为实现上述目的,本发明的技术方案如下。

一种用于语音识别的新型时延递归神经网络,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。

进一步地,所述时延递归神经网络结构包括时延神经网络结构和递归神经网络结构,所述时延神经网络结构的上下文输入直接输入到递归神经网络结构中,与递归神经网络结构相结合,所述时延递归神经网络结构用于减少网络层数。

进一步的,所述时延神经网络结构中,输出按照以下公式计算:

yt=f(wct+b);

ct={xt-n,xt+n}

其中xt、yt是t时刻的输入输出,f是非线性函数,wct+b是仿射运算,w为仿射运算中的二维矩阵,b表示方向向量,ct是经过拼接的上下文信息,n是下层网络上下文信息帧数,大于等于1;

所述递归神经网络结构中,输出按照以下公式计算:

yt=f(wxt+wyt-1+b);

所述时延递归神经网络结构中,将上述公式合并,输出按照以下公式计算:

yt=f(wct+wyt-1+b);

ct={xt-n,xt+n}。

进一步地,将普通神经网络结构与时延递归神经网络结构连接后,经过非线性变换,输出按照以下公式计算:

yt=f(wct+wdt-1+b);

ct={xt-n,xt+n};

dt-1=f(wyt-1+b)。

进一步地,该新型时延递归神经网络包含两个可调试的超参数,其中一个超参数为时延递归神经网络层的层数,调试范围为1~3层,另一个超参数为递归路径的长度,即深度神经网络层的层数,调试范围为为1~2层。

进一步地,所述时延神经网络结构的上下文输入长度通常为8~20个语音采样帧。

进一步地,该新型时延递归神经网络采用数据并行的训练方法,在数据并行训练过程的梯度更新步骤中,引入了动量这一概念来进行参数的平滑处理,在一次参数更新量计算完成后,新的参数按照以下公式进行平滑处理:

value=α*value+(1-α)*update

其中,value为模型参数,α为参数保留系数,update为数据并行的梯度更新步骤计算得到的待更新梯度。

与现有技术比较,本发明的一种用于语音识别的新型时延递归神经网络具有以下优点和有益效果:

在神经网络声学模型中,长短时记忆单元虽然对上下文的建模效果良好,但是其训练消耗资源过大。在混搭时延神经网络和长短时记忆单元的研究中发现,在一个普通的6层降采样时延神经网络中,额外添加一层长短时记忆单元会使得训练时间变为大约原来的两倍;而在效果更好的添加三层长短时记忆单元的混搭网络训练耗时大约是原网络的四倍。与此同时,参数量的增长也是相当可观的。基于这个问题,认为混搭的网络中存在一定的网络结构冗余,为了减少这种冗余,提出了一种新型的混搭时延神经网络和递归神经网络的网络构造方法,称之为时延递归神经网络。通过使用这种网络,可以在保持建模效果与原先混搭的时延神经网络和长短时记忆单元网络相似的同时,提高训练效率、减少模型体积。

附图说明

图1为典型降采样时延神经网络结构的示意图。

图2为图1中插入一层递归神经网络结构的示意图。

图3为图2中时延神经网络结构和递归神经网络结构结合为时延递归神经网络结构的示意图。

图4为本发明的一种用于语音识别的新型时延递归神经网络结构示意图。

具体实施方式

下面将结合附图和具体的实施例对本发明的具体实施作进一步说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图4所示,为本发明的一种用于语音识别的新型时延递归神经网络结构示意图,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。

所述时延递归神经网络结构包括时延神经网络结构和递归神经网络结构,所述时延神经网络结构的上下文输入直接输入到递归神经网络结构中,与递归神经网络结构相结合,所述时延递归神经网络结构用于减少网络层数。

实施例1

如图1所示,为典型降采样时延神经网络结构的示意图,是一个锥形结构,其输入部分的经降采样的上下文数据帧的序号如表一。

表一一个典型的降采样时延神经网络

其中上下文信息表示网络层对输入的拼接方式,如{-3,3}表示将下层网络的过去第三帧和将来第三帧拼接在一起作为本层的输入。

如图2所示,在图1所述典型降采样时延神经网络结构中的第二层和第三层之间插入一层任意的递归神经网络结构,增加网络的深度,使得网络更加难以训练,因此,将相邻的时延神经网络结构和递归神经网络结构直接合并为时延递归神经网络结构,即直接将时延神经网络结构的上下文输入直接输入到递归神经网络结构中,如图3所示。

在述时延神经网络结构中,其输出按照以下公式计算:

yt=f(wct+b);

ct={xt-n,xt+n}

其中xt、yt是t时刻的输入输出,f是非线性函数,wct+b是仿射运算,w为仿射运算中的二维矩阵,b表示方向向量,ct是经过拼接的上下文信息,n是下层网络上下文信息帧数,大于等于1;

在所述递归神经网络结构中,其输出按照以下公式计算:

yt=f(wxt+wyt-1+b);

在所述时延递归神经网络结构中,将上述公式合并,其输出按照以下公式计算:

yt=f(wct+wyt-1+b);

ct={xt-n,xt+n}

通过这种合并方法,可以将原来的三轮运算减少为两轮运算,提升效率,减少参数量,且与合并前的模型效果相似。

通过观察长短时记忆单元发现,其上一帧的输出会经过复杂的非线性处理后,才能间接影响当前帧的输出;本发明对这种非线性操作进行了简化。在深度时延递归神经网络结构中,上一帧的输出会经过一层或多层普通神经网络结构的非线性变换,才输入到当前帧,其输出按照以下公式计算:

yt=f(wct+wdt-1+b);

ct={xt-n,xt+n};

dt-1=f(wyt-1+b)

这种方法相当于在大大简化运算的同时,也依然能让递归信息沿着更加复杂的路径进行传播,即可以保持递归路径的深度。在实验中发现,采用了这种运算方式的深度时延递归神经网络结构,可以取得和现有时延长-短时记忆混合网络结构相似的效果,且训练时间更短,参数更少,其中在测试中,具有三层深度时延递归神经网络层的网络,训练时间大约是具有三层长短时记忆网络的一半。

本发明中,时延递归神经网络层的层数为一个可以调试的超参数,在研究中,使用一至三层的效果相似,因此出于性能考量,可以使用一层时延递归层;但不排除在某些应用场景中采用多层网络性能更好的情况。

另一个可以调试的超参数为深度神经网络层的层数,即递归路径的长度是;若路径过于复杂,可能增加训练的难度,建议使用时采用一到两层的普通神经网络结构。

输入特征帧上下文输入长度的设置直接影响模型的训练效率和效果。由于递归网络的特点,递归信息难以被长距离携带,与此同时,递归运算是无法并行进行的;在长短时记忆网络中,通常采用较长的时间帧,如50个语音采样帧的上下文输入长度以保证建模效果,而时延神经网络结构的上下文输入长度通常为8~20个语音采样帧,二者相差甚远,这也是运算耗时的一个主要原因。本发明的一种用于语音识别的新型时延递归神经网络可以以较短的上下文长度,如16帧的情况下,达到和长短时记忆网络相似的效果。

本发明的新型时延递归神经网络采用数据并行的训练方法,在数据并行训练过程的梯度更新步骤中,引入了动量这一概念来进行参数的平滑处理,在一次参数更新量计算完成后,新的参数按照以下公式进行平滑处理:

value=α*value+(1-α)*update

其中,value为模型参数,α为参数保留系数,update为数据并行的梯度更新步骤计算得到的待更新梯度。

综上所述,本发明的一种用于语音识别的新型时延递归神经网络通过将时延神经网络结构和递归神经网络结构相结合的网络构造方法,保持建模效果与原先混搭的时延神经网络和长短时记忆单元网络相似的同时,提高训练效率、减少模型体积。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1