训练方法、装置、计算机设备和可读存储介质与流程

文档序号：15999791发布日期：2018-11-20 19:18阅读：来源：国知局

技术特征：

1.一种训练方法，其特征在于，应用于对话生成网络，所述对话生成网络包括具有对偶关系的第一生成器和第二生成器，还包括第一判别器以及第二判别器；所述训练方法，包括：

对所述第一生成器输出的第一文本，采用所述第一判别器进行质量判别，得到第一判别信息；所述第一文本，是所述第一生成器根据对话上文输出的，用于回复所述对话上文；

对所述第二生成器输出的第二文本，采用所述第二判别器进行质量判别，得到第二判别信息；所述第二文本，是所述第二生成器根据对话下文输出的，用于作为上文接续在所述对话下文之前；

在所述对偶关系的约束下，根据所述第一判别信息对所述第一生成器进行训练，以及根据所述第二判别信息对所述第二生成器进行训练。

2.根据权利要求1所述的训练方法，其特征在于，所述在所述对偶关系的约束下，根据所述第一判别信息对所述第一生成器进行训练，以及根据所述第二判别信息对所述第二生成器进行训练，包括：

采用策略梯度算法，计算所述对偶关系关于第一生成器参数的梯度，得到所述第一生成器的策略梯度，以及计算所述对偶关系关于第二生成器参数的梯度，得到所述第二生成器的策略梯度；

根据所述第一文本与回复所述对话上文的期望文本之间的差异，以及根据所述第一判别信息，确定所述第一生成器的对抗梯度；

根据所述第二文本与作为上文接续在所述对话下文之前的期望文本之间的差异，以及根据所述第二判别信息，确定所述第二生成器的对抗梯度；

将所述第一生成器的对抗梯度与所述第一生成器的策略梯度合成，得到所述第一生成器的更新梯度；

将所述第二生成器的对抗梯度与所述第二生成器的策略梯度合成，得到所述第二生成器的更新梯度。

3.根据权利要求2所述的训练方法，其特征在于，所述采用策略梯度算法，计算所述对偶关系关于第一生成器参数的梯度，得到所述第一生成器的策略梯度，以及计算所述对偶关系关于第二生成器参数的梯度，得到所述第二生成器的策略梯度之前，还包括：

确定对话下文r在对话中出现的概率Pr(r)；

确定对话上文q在对话中出现的概率Pq(q)；

根据所述概率Pr(r)和概率Pq(q)，确定所述对偶关系为其中，为将对话上文q输入采用参数θqr的第一生成器，得到第一文本的概率；为将对话下文r输入采用参数θrq的第二生成器，得到第二文本的概率。

4.根据权利要求3所述的训练方法，其特征在于，所述采用策略梯度算法，计算所述对偶关系关于第一生成器参数的梯度，得到所述第一生成器的策略梯度，以及计算所述对偶关系关于第二生成器参数的梯度，得到所述第二生成器的策略梯度，包括：

对所述对偶关系进行正则转化，得到损失函数γ，其中，

对所述损失函数γ计算关于所述第一生成器参数θqr的梯度，得到所述第一生成器的策略梯度

对所述损失函数γ计算关于所述第二生成器参数θrq的梯度，得到所述第二生成器的策略梯度

5.根据权利要求2所述的训练方法，其特征在于，所述根据所述第一文本与回复所述对话上文的期望文本之间的差异，以及根据所述第一判别信息，确定所述第一生成器的对抗梯度，包括：

根据将对话上文q输入采用参数θqr的第一生成器后，输出第一文本的概率，确定所述第一生成器的损失函数其中，所述损失函数取值，是根据所述第一文本与回复所述对话上文的期望文本之间的差异确定的；

根据所述第一判别信息，确定所述第一生成器参数θqr的调整方向

根据所述第一生成器的参数调整方向以及所述第一生成器的损失函数得到所述第一生成器的对抗梯度其中，b为常数。

6.根据权利要求2所述的训练方法，其特征在于，所述根据所述第二文本与作为上文接续在所述对话下文之前的期望文本之间的差异，以及根据所述第二判别信息，确定所述第二生成器的对抗梯度，包括：

根据将对话下文r输入采用参数θrq的第二生成器后，输出第二文本的概率，确定所述第二生成器的损失函数其中，所述损失函数取值，是根据所述第二文本与作为上文接续在所述对话下文之前的期望文本之间的差异确定的；

根据所述第二判别信息，确定所述第二生成器的参数θrq调整方向

根据所述第一生成器的参数调整方向以及所述第一生成器的损失函数得到所述第一生成器的对抗梯度其中，

7.根据权利要求2所述的训练方法，其特征在于，所述将所述第一生成器的对抗梯度与所述第一生成器的策略梯度合成，得到所述第一生成器的更新梯度，包括：

将所述第一生成器的对抗梯度与所述第一生成器的策略梯度相减，得到所述第一生成器的更新梯度。

8.根据权利要求2所述的训练方法，其特征在于，所述将所述第二生成器的对抗梯度与所述第二生成器的策略梯度合成，得到所述第二生成器的更新梯度，包括：

将所述第二生成器的对抗梯度与所述第二生成器的策略梯度相减，得到所述第二生成器的更新梯度。

9.根据权利要求1-8任一项所述的训练方法，其特征在于，所述方法还包括：

对所述第一判别器和所述第二判别器进行参数更新。

10.一种训练装置，其特征在于，应用于对话生成网络，所述对话生成网络包括具有对偶关系的第一生成器和第二生成器，用于对所述第一生成器的输出进行质量判别的第一判别器，以及用于对所述第二生成器的输出进行质量判别的第二判别器；所述训练装置，包括：

处理模块，用于对所述第一生成器输出的第一文本，采用所述第一判别器进行质量判别，得到第一判别信息；所述第一文本，是所述第一生成器根据对话上文输出的，用于回复所述对话上文；对所述第二生成器输出的第二文本，采用所述第二判别器进行质量判别，得到第二判别信息；所述第二文本，是所述第二生成器根据对话下文输出的，用于作为上文接续在所述对话下文之前；

训练模块，用于在所述对偶关系的约束下，根据所述第一判别信息对所述第一生成器进行训练，以及根据所述第二判别信息对所述第二生成器进行训练。

11.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-9中任一所述的训练方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的训练方法。

13.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-9中任一所述的训练方法。

完整全部详细技术资料下载

当前第2页1 2 3