一种新型的优化语言生成模型输出未知字符的方法与流程

文档序号：23384046发布日期：2020-12-22 13:48阅读：来源：国知局

技术特征：

1.一种新型的优化语言生成模型输出未知字符的方法，其特征是，包括以下步骤：

(1)向语言生成模型中输入某一或者某些词汇，将当前词汇输入解码器；

(2)解码器计算下一个词的概率分布；

(3)在得到下一个词概率分布之后，对unk增加一个概率惩罚项；概率惩罚项即在预测下一个词之前先将unk的预测概率改为零，得到调整过的概率分布结果；

(4)根据步骤(3)调整后的概率分布结果，选择概率最大的词汇作为预测结果进行输出；

步骤(3)中，概率修正公式如下：

p(word)＝softmax(p′(word))(1)

p’为加了惩罚项之后的概率，p表示最终输出的概率；公式(2)中，xi表示词表中第i个词汇的预测概率值。

技术总结
本发明公开了一种新型的优化语言生成模型输出未知字符的方法，包括以下步骤：(1)向语言生成模型中输入某一或者某些词汇，将当前词汇输入解码器；(2)解码器计算下一个词的概率分布；(3)在得到下一个词概率分布之后，对unk增加一个概率惩罚项；概率惩罚项即在预测下一个词之前先将unk的预测概率改为零；(4)根据步骤(3)调整后的概率分布结果，选择概率最大的词汇作为预测结果进行输出；本发明的优化方法和模型本身无关，无论是经典的LSTM模型或者是现在比较常用的transformer生成模型，都可以使用这一方法对unk问题进行优化，且都可以达到较好的效果。

技术研发人员：陈一圣;罗学优
受保护的技术使用者：杭州艾耕科技有限公司
技术研发日：2020.09.08
技术公布日：2020.12.22

完整全部详细技术资料下载

当前第2页1 2