主动学习平行语料构建方法与流程

文档序号：16755133发布日期：2019-01-29 17:17阅读：来源：国知局

技术特征：

技术总结
本发明涉及一种主动学习平行语料构建方法，应用于低资源语言神经机器翻译，而且，应用在基于注意力机制且采用encoder‑decoder框架的NMT模型，包括：获取原始平行语料和源端单语；获取所述原始平行语料的embedding和所述源端单语的embedding；计算所述源端单语中的每句话和所述平行语料的相似度；对所述源端单语中的每句话按照相似程度进行排序，选择前面设定百分比的句子；获取上述“前面设定百分比的句子”进行人工翻译后的目标端单语；将所述人工翻译后的目标端单语和上述“前面设定百分比的句子”构成的平行语料加入到所述原始平行语料中，组成新的平行语料；用所述新的平行语料，训练出新的模型。

技术研发人员：熊德意;张培
受保护的技术使用者：苏州大学
技术研发日：2018.09.04
技术公布日：2019.01.29