一种带有注意力机制批量训练的树循环神经网络算法的制作方法

文档序号：28502028发布日期：2022-01-15 05:02阅读：来源：国知局

技术特征：
1.一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，包括：s100、选择任意长度序列批量数据，导入循环神经网络rnn；s200、基于循环神经网络rnn建立依赖所有子代单元的门向量和记忆单元的长短期记忆网络，获得树长短期记忆网络；s300、基于树长短期记忆网络，附加上注意力机制，获得注意力机制长短期记忆网络；s400、通过注意力机制长短期记忆网络，对序列批量数据进行批量训练，并对训练进行加速。2.根据权利要求1所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s100包括：s101、建立t个训练数据，将t个训练数据分为多个小批量数据；s102、将步骤s101所述的小批量数据分成多份数据集；s103、根据训练任务选择损失函数，并选择优化器；导入循环神经网络rnn。3.根据权利要求1所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s200包括：s201、将循环神经网络rnn的序列变量输入变为树变量输入；s202、对每一个子代k，都建立一个遗忘门f
jk
，选择性包含各子代信息；s203、通过选择性包含各子代信息的循环神经网络rnn运算门，建立依赖所有子代单元的门向量和记忆单元的长短期记忆网络，获得树长短期记忆网络。4.根据权利要求1所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s300包括：s301、给定隐藏层状态h1,
…
,h
n
，给每个隐藏层状态赋予一个权重a
k
，从而生成一个加权值的向量g；s302、通过注意力机制多层计算，得到新隐藏层向量s303、用置换树长短期记忆网络中的原隐藏层向量获得注意力机制长短期记忆网络。5.根据权利要求2所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s400包括：s401、为每个小批量数据构建一个元树，汇总元树的所有数据；s402、对元树内的数据进行高度分类；聚合全隐藏层向量h内的所有矩阵乘法。s403、依次将小批量数据导入注意力机制长短期记忆网络进行并行优化训练；根据批量训练算法进行并行计算，当训练集和交叉验证集上的损失不再下降或者在很小的范围内波动时，完成训练。6.根据权利要求2所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s100还包括：s111、建立t个训练数据包括：设置其中，t为全部训练数据个数，ti为第i个训练数据，yi为第i个输出数据，i为1～t的正整数；多个小批量数据个数设置为n个，设置每个小批量数据包括m个数据；
s112、每个小批量数据表示为：其中，tij为小批量数据中的第j个训练数据，yij为小批量数据中的第j个输出数据，m为小批量数据中的数据个数，小批量数据中，i为1～m的正整数、j为1～n的正整数，j为属于第j个小批量；s113、多份数据集包括：训练集数据、测试集数据和交叉验证集数据。7.根据权利要求3所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s200还包括：s211、建立数据序列长短期记忆网络；定义每个时间步t的长短期记忆网络的转移函数，公式如下：i
t
＝σ(w
(i)
x
t
+u
(i)
h
t-1
+b
(i)
)f
t
＝σ(w
(f)
x
t
+u
(f)
h
t-1
+b
(f)
)o
t
＝σ(w
(o)
x
t
+u
(o)
h
t-1
+b
(o)
)u
t
＝tanh(w
(u)
x
t
+u
(u)
h
t-1
+b
(u)
)c
t
＝i
t
⊙
u
t
+f
t
⊙
c
t-1
h
t
＝o
t
⊙
tanh(c
t
)其中，i
t
为一个输入门，f
t
为一个遗忘门，o
t
为一个输出门，u
t
为tanh层候选单元，c
t
为一个记忆单元，c
t-1
为记忆单元前一个状态向量，h
t
为一个隐状态，ht-1为隐状态的前一个状态向量，i
t
为门向量，f
t
和o
t
为概率值，其值都在[0，1]范围内，x
t
为当前时间步的输入，σ为sigmoid函数，σ＝1/(1+e-t
)，w
(i)
为输入门权重，u
(i)
为输入门隐状态权重，b
(i)
为输入门偏置项，w
(f)
为遗忘门权重，u
(f)
为遗忘门隐状态权重，b
(f)
为遗忘门偏置项，w
(o)
为输出门权重，u
(o)
为输出门隐状态权重，b
(o)
为输出门偏置项，w
(u)
为tanh层候选单元权重，u
(u)
为tanh层候选单元隐状态权重，b
(u)
为tanh层候选单元偏置项，tanh为双曲正切函数，
⊙
为驻点乘法；通过遗忘门控制前面哪个记忆单元被遗忘，输入门控制每个单元要更新多少，输出门控制内部记忆状态的输出；s212、根据门控的值对于每个向量元素的变量都不同进行模型学习，表示多个信息时间尺度；将变量输入由序列变成树，创建树长短期记忆网络；树长短期记忆网络包括：门向量和记忆单元依赖所有的子代单元；对于每一个子代k包含一个遗忘门fjk；网络单元选择性的包含每个子代得信息；树长短期记忆网络算法计算公式如下：性的包含每个子代得信息；树长短期记忆网络算法计算公式如下：f
jk
＝σ(w
f
x
j
+u
f
h
k
+b
f
)))h
j
＝o
j
⊙
tanh(c
j
)
其中，为树长短期记忆网络节点j的原隐藏层向量，h
k
为第k个隐藏层向量，i
j
为节点j输入门，f
jk
为节点j遗忘门，o
j
为节点j输出门，u
j
为节点j tanh层候选单元，c
j
为节点j记忆单元，c
k
为记忆单元第k个状态向量，h
j
为节点j隐状态，ht-1为隐状态的前一个状态向量，i
t
为门向量，f
jk
和o
j
为概率值，其值都在[0，1]范围内，x
j
为节点j时间步的输入，σ为sigmoid函数，σ＝1/(1+e-t
)，w
i
为节点j输入门权重，u
i
为节点j输入门隐状态权重，b
i
为节点j输入门偏置项，w
f
为节点j遗忘门权重，u
f
为节点j遗忘门隐状态权重，b
f
为节点j遗忘门偏置项，w
o
为节点j输出门权重，u
o
为节点j输出门隐状态权重，b
o
为节点j输出门偏置项，w
u
为节点j tanh层候选单元权重，u
u
为节点j tanh层候选单元隐状态权重，b
u
为节点j tanh层候选单元偏置项，tanh为双曲正切函数，
⊙
为驻点乘法；定义cj是节点j的所有子代的集合；k∈cj；通过上述公式，获得树长短期记忆网络。8.根据权利要求4所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s302包括：s3021、计算每个子代的隐藏层状态向量m
k
，计算公式如下：m
k
＝tanh(w
m
h
k
+b
mm
)s3022、计算每一个隐藏层状态的注意力概率，计算公式如下：s3023、计算加权值的向量g，计算公式如下：s3024、得到新隐藏层向量计算公式如下：其中，m
k
为每个子代的隐藏层状态向量，a
k
为每一个隐藏层状态的注意力概率，g为加权值的向量，为新隐藏层向量，其余字母和上述步骤相同字母代表的含义相同；算法每小批量的矩阵乘法的数量从m1*n1个降低到logn1，m1为每个小批量内树的个数，n1为节点的数量。9.根据权利要求2所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s103包括：s1031、根据训练任务，构建训练样本，构成训练样本对；所述训练样本由自然语言的语句序列和含噪声语言的语句序列组成，将自然语言的语句序列和含噪声的语句序列构成训练样本对；s1032、采用循环神经网络rnn提取训练样本的深度卷积特征，所述循环神经网络rnn包括主训练网络部分和判别网络部分；s1033、将训练样本输入主训练网络部分，且在自然语言的语句序列分支网络和含噪声语句序列分支网络的每层中间层上进行融合，所述主训练网络部分输出预测的去除噪声的语句序列；s1034、将主训练网络部分输出的预测的去除噪声的语句序列和预测的自然语言的语句序列以及标准语句输入判别网络部分，然后利用损失函数计算预测值与标准值之间的差异，并利用sgd优化器对损失值进行优化，迭代计算，直至损失值不再发散时步骤完成。
10.根据权利要求5所述的一种带有注意力机制批量训练的树循环神经网络算法，其特征在于，s403包括：s4031、依次获取小批量带噪数据和小批量标准数据；计算所述小批量带噪数据的时频隐蔽值标签，在注意力机制长短期记忆网络中设定所述小批量带噪数据的时频隐蔽值标签为训练目标，并将经过预设处理的仿真带噪数据输入至所述注意力机制长短期记忆网络中进行训练；s4032、利用聚类的方式估计所述小批量带噪数据的软时频隐蔽值标签，在所述注意力机制长短期记忆网络中设定所述小批量标准数据的软时频隐蔽值标签为所述小批量标准数据的训练目标，并将经过预设处理的真实带噪数据输入至所述注意力机制长短期记忆网络中进行训练，至训练集和交叉验证集上的损失不再下降或者在很小的范围内波动时，完成训练。

技术总结
本发明公开了一种带有注意力机制批量训练的树循环神经网络算法，包括：选择任意长度序列批量数据，导入循环神经网络RNN；基于循环神经网络RNN建立依赖所有子代单元的门向量和记忆单元的长短期记忆网络，获得树长短期记忆网络；基于树长短期记忆网络，附加上注意力机制，获得注意力机制长短期记忆网络；通过注意力机制长短期记忆网络，对序列批量数据进行批量训练，并对训练进行加速。并对训练进行加速。并对训练进行加速。

技术研发人员：王然
受保护的技术使用者：众微致成（北京）信息服务有限公司
技术研发日：2021.09.28
技术公布日：2022/1/14

完整全部详细技术资料下载

当前第2页1 2