基于张量环分解的长短期记忆网络稀疏连接方法与流程

文档序号:16857129发布日期:2019-02-12 23:27阅读:682来源:国知局
基于张量环分解的长短期记忆网络稀疏连接方法与流程
本发明属于神经网络结构优化领域,特别涉及一种基于张量环分解的长短期记忆网络稀疏连接方法。
背景技术
:长短期记忆网络(lstm)已被广泛应用于时间序列信息处理领域,如语音识别,文本翻译,视频分类等。lstm为基础循环神经网络的一种变体,循环神经网络通过记忆单元(隐藏层)来对时间序列信息前序的信息进行记忆。输入数据按时间顺序依次输入,在每一时刻,隐藏层接受这一时刻的输入层的数据以及上一个时刻隐藏层的输出进行处理,从而使得循环神经网络能够捕捉到时间序列信息。lstm是近年应用最为广泛的一种循环神经网络,它解决了原始循环神经网络的梯度消失以及长时间记忆缺失的问题。lstm通过将以往循环神经网络的隐藏层单个向量换成更为复杂的表示,并且引入门控单元来丰富基础循环神经网络的表达性。是现在最为通用的一种循环神经网络。但是无论是基础的循环神经网络或者是lstm,当面对高维的数据作为输入,比如当视频处理时,输入为一张rgb图片,若在输入层到隐藏层的连接采用全连接的方式,过量的参数会导致神经网络难以训练,导致很差的网络整体效果。为了解决这一问题,一些方法采用先将高维数据,如rgb图片通过卷积神经网络得到较为低维的表示,再将低维表示作为循环神经网络的输入,但是这种方法只是部分解决了输入层到隐藏层的过参数问题,且不能实现端到端的训练。另一类方法主要探寻输入到隐层的低秩结构,比如用矩阵分解的方法奇异值分解来对全连接矩阵进行处理,或者采用一些张量分解的方法来处理过量的参数。张量分解是将高维大量数据通过相对少量的参数进行表示,从而自动的在压缩数据的同时得到数据内部的低秩结构,这为解决神经网络中的大量参数而引起的过拟合提供了解决思路。将张量分解引入神经网络,可以在减少模型参数的同时提高模型的精确度。但已有的应用张量分解替换循环神经网络的输入到隐层的全连接层矩阵的方法无论从压缩率还是模型精度方面都可提高。现有的方法无论是基于卷积神经网络对图片进行预处理,或者是寻求全连接层的低秩结构,都可以作进一步的改进。技术实现要素:为了解决现有的循环神经网络结构输入到隐层的过参数化问题,本发明提出了一种基于张量环分解的循环神经网络稀疏连接方法,将输入层到隐层的全连接矩阵张量化后,用张量环分解进行替代。与现有技术相比,在参数的压缩量以及模型的预测准确率都得到了进一步的提升,同时为循环神经网络提供了一个可以广泛应用的基础构架。本发明采用的技术方案为:一种基于张量环分解的长短期记忆网络稀疏连接方法,包括:s1、对网络的输入向量x张量化,得到第一张量对隐层向量h张量化,得到第二张量将各全连接权重矩阵w*合在一起得到权重矩阵w,对权重矩阵w张量化,得到第三张量s2、对第三张量进行张量分解,得到张量分解后的第三张量s3、用表示新的稀疏连接方式,替换原矩阵乘法w·x为新的张量乘法s4、采用bptt算法对长短期记忆网络进行训练。进一步地,所述s1包括:输入向量隐层向量权重矩阵构造的张量为m维和为n维张量,为m+n维张量,其中,i=i1·i2·...·im,j=j1·j2·...·jn。进一步地,所述s2中对第三张量进行张量分解的过程包括:根据所述第三张量得到分解的节点共d=m+n个,利用张量环分解算法进行分解其中,为第k个因子张量;为张量乘法符号,表示沿着一个张量第a维和另一个张量的第b维进行乘积;merge表示张量环沿着两个维度做的乘积;rk表示第k个因子张量的第一个维度,nk表示第k个因子张量的第二个维度,rk+1表示第k个因子张量的第三个维度。进一步地,所述s3包括:用表示新的稀疏连接方式,参数量p为替换原矩阵乘法w·x为新的张量乘法表示为其中,为张量收缩操作。本发明的有益效果:本发明提供了一种基于张量环分解的长短期记忆网络稀疏连接方法,基于用张量环分解对于全连接矩阵进行替换,从而在减少参数的情况之下寻求了全连接的低秩表示,这对于高维的输入数据导致的过参数化的问题得到很好的解决。进行张量分解替换之后的循环神经网络比之原始的全连接矩阵,无论是训练速度或者模型精度都有很大的提升。本发明同时适用于普通的循环神经网络,以及循环神经网络的变体lstm以及gru,为循环神经网络处理大规模的输入数据提供了基础的模块。附图说明图1为本发明实施例的流程图。具体实施方式下面结合附图对本发明的实施例做进一步的说明。请参阅图1,本发明提供的一种基于张量环分解的长短期记忆网络稀疏连接方法,具体通过以下步骤实现:s1、对网络的输入向量x张量化,得到第一张量对隐层向量h张量化,得到第二张量把各个门的全连接权重矩阵w*合在一起得到权重矩阵w,对权重矩阵w张量化,得到第三张量本实施例中,设定输入向量隐层向量权重矩阵构造的张量为m维和为n维张量,为m+n维张量,其中,i=i1·i2·...·im,j=j1·j2·...·jn。本实施例中,张量化操作表示,将原有的矩阵或向量折叠为一个高维张量;反之称为矩阵化或者向量化,即将高维张量进行低维展开,得到原有矩阵或向量。s2、对第三张量进行张量分解,得到张量分解后的第三张量本实施例中,根据所述第三张量得到分解的节点共d=m+n个,利用张量环分解算法进行分解其中,是与原张量维度相同的一个近似表示,为第k个因子张量;为张量乘法符号,表示沿着一个张量第a维和另一个张量的第b维进行乘积;merge表示张量环特有的沿着两个维度做的乘积;rk表示第k个因子张量的第一个维度,nk表示第k个因子张量的第二个维度,rk+1表示第k个因子张量的第三个维度。当k∈[1,m]时,nk=ik;当k∈[m+1,d]时,nk=jk-m。具体地,给定两张量和第-1维表示最后一个维度,若第a维和第b维相等,即ia=jb,则和的该乘积可表示为:其中,表示下标(i1,i2,…,ia-1),表示下标(ia+1,…,id),和定义相似。具体地,表示的沿着第(1,-1)维,与的第(-1,1)维对应的两个维度做乘法。s3、用表示新的稀疏连接方式,替换原矩阵乘法wx为新的张量乘法本实施例中,全连接权重矩阵w在网络中的含义是将输入向量x中的每一个元素与记忆向量h的每一个元素全连接,连接的权重即存储于w中。经过张量环分解得到的权重张量在所有维度上进行权重共享,极大限度地裁剪掉冗余的连接权重,大幅简化模型。用表示新的稀疏连接方式,参数量(即连接的边数)p为在现有技术中,全连接方法的参数量是本发明方法参数量的千倍以上;从而可知本发明方法模型的收敛速度相比于现有的方法更快。对输入向量x,记忆向量h和全连接权重矩阵w张量化后,不能再利用简单的矩阵乘法wx进行计算,需要利用张量乘法的方式完成,具体如下:其中,为张量收缩操作,即两张量沿着多个维度进行乘积。s4、采用bptt算法对长短期记忆网络进行训练。本实施例中,基于新的张量乘法计算方式,本发明采用bptt算法进行训练。本发明在视频分类数据集ucf11上进行试验,如表1所示,本发明方法的一组对比模型tr-lstm相比于现有方法中的gru、lstm、bt-lstm在模型精度和参数量方面相较于现有的rnn方法有较大提升。模型grulstmbt-lstmtr-lstm测试精度0.680.690.860.87参数量442368005898240033601725表1本发明方法与现有方法的测试精度对比本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1