本发明涉及一种译文质量评估方法,具体为一种基于图神经网络的译文质量评估方法,属于机器翻译。
背景技术:
1、机器翻译引擎作为人工翻译的助手,在翻译活动中被广泛应用。然而,机器翻译引擎的翻译结果质量良莠不齐,会出现错译,漏译,增译的现象,此外,还存在字词句不同级别的各种问题。如果机器翻译引擎的每句译文由人工再次评估一遍,与纯人工翻译相比,更加降低整体翻译流程的效率和提高人工的成本。
2、现有技术中的译文质量评估方法是通过学习译员打标的质量标签结果对译文质量进行预测。这种方式存在的问题有:1)预测准确率低;2)比较依赖大量的专业的人工标注数据;3)缺乏对译文具体信息的量化评测,无法让人理解译文因句意或词意未翻译正确而导致的质量降低。
3、因此,如何更加准确地、可理解地判断机器翻译译文的质量高低,使机器翻译引擎成为更好地辅助翻译工具,是加快翻译流程及提高翻译效率的关键。
技术实现思路
1、本发明的目的就在于为了解决上述机器翻译译文质量评估在翻译流程应用中出现的问题而提供一种基于图神经网络的译文质量评估方法。
2、本发明通过以下技术方案来实现上述目的:一种基于图神经网络的译文质量评估方法,该译文质量评估方法包括:
3、步骤一、收集语料,将所述语料预处理后计算译文质量等级,并形成新的原文-机器译文对;
4、步骤二、获取图神经网络的输入特征
5、获取原文的依存句法树、获取机器译文的依存句法树、获取原文和机器译文的词典型单词匹配结果,并将原文和机器译文分别输入预训练语言模型,获取原文和机器译文的单词表征向量,将得到的所述单词表征向量替换原文-机器译文匹配图中的点,构成图神经网络的输入特征;
6、步骤三、预测机器译文的译文质量分类标签
7、将原文-机器译文匹配图作为多头图注意力网络层的输入特征以获得原文句法图特征、原文匹配图特征、机器译文句法图特征和机器译文匹配图特征;拼接所述原文句法图特征、原文匹配图特征、机器译文句法图特征和机器译文匹配图特征,并输入mlp中,同时训练图神经网络,得到预测机器译文的译文质量分类标签。
8、作为本发明的进一步技术方案:步骤一中,所述语料包括原文、机器译文和经过修改审校后的机器译文。
9、作为本发明的进一步技术方案:步骤一中,所述预处理具体包括处理文本,去除文本中的特殊字符,html标签,将文字全半角归一化。
10、作为本发明的进一步技术方案:步骤一中,计算译文质量等级时,根据所述机器译文和所述经过修改审校的机器译文,计算所述机器译文和所述经过修改审校的机器译文的编辑距离,并以0.1,0.5,0.7为阈值,将所述机器译文划分至四类质量标签,同时将所述原文和所述机器译文中的单词还原成词典型,形成新的原文-机器译文对。
11、作为本发明的进一步技术方案:步骤二中,所述获取原文的依存句法树具体包括:原文经过依存句法分析工具处理得到输出的依存句法树,并将原文的单词作为点,以输出的依存句法树中的关系或句子中位置相邻关系作为边,构建原文的句法图。
12、作为本发明的进一步技术方案:步骤二中,所述获取机器译文的依存句法树具体包括:机器译文经过依存句法分析工具处理,得到输出的机器译文依存句法树,将机器译文的单词作为点,以输出的机器译文依存句法树中的关系或句子中位置相邻关系作为边,构建机器译文的句法图。
13、作为本发明的进一步技术方案:步骤二中,所述获取原文和机器译文的词典型单词匹配结果包括:原文的词典型单词基于双语词典能够匹配机器译文的词典型单词,则连接原文和机器译文的两个词典型单词作为边,并与所述原文的句法图和所述机器译文的句法图合并,生成原文-机器译文匹配图。
14、作为本发明的进一步技术方案:步骤三中,所述原文-机器译文匹配图作为多头图注意力网络层的输入特征包括:
15、1)分别将所述原文的句法图和机器译文的句法图通过一个一层多头图注意力网络层,得到新的原文单词列表的句法图表征和新的机器译文单词列表的句法图表征;
16、2)将所述原文-机器译文匹配图通过另一个两层多头图注意力网络层,得到新的原文-机器译文匹配图表征,其中,所述新的原文-机器译文匹配图表征包括原文单词列表的匹配图表征和机器译文单词列表的匹配图表征;
17、3)将所述新的原文单词列表的句法图表征按照元素位置求和平均,得到原文句法图特征;
18、将所述新的机器译文单词列表的句法图表征按照元素位置求和平均,得到机器译文句法图特征;
19、将所述原文单词列表的匹配图表征按照元素位置求和平均,得到原文匹配图特征;
20、将机器译文单词列表的匹配图表征按照元素位置求和平均,得到机器译文匹配图特征。
21、作为本发明的进一步技术方案:步骤三中,所述训练图神经网络包括:以所述图神经网络的输入特征作为输入,以所述计算译文质量等级中计算出的分类为标签,并基于所述图神经网络的输出特征,预测机器译文的译文质量分类标签。
22、本发明的有益效果是:
23、1)通过分析原文和译文在整体句意翻译和词匹配层面的翻译质量,综合评价得到译文的质量评估结果;
24、2)通过本方法进行译文质量评估,可以对译文质量进行全面,准确地评估,为后续的译文修改提供一定的指导。
25、3)通过使用图神经网络建模原文和译文词匹配和句法层面的信息,形成模型,并且模型能评估出重要词汇是否都有翻译出来,且能从句法层面分析句子是否通顺有语病。
1.一种基于图神经网络的译文质量评估方法,其特征在于,所述译文质量评估方法包括:
2.根据权利要求1所述的译文质量评估方法,其特征在于:步骤一中,所述语料包括原文、机器译文和经过修改审校后的机器译文。
3.根据权利要求1所述的译文质量评估方法,其特征在于:步骤一中,所述预处理具体包括处理文本,去除文本中的特殊字符,html标签,将文字全半角归一化。
4.根据权利要求2所述的译文质量评估方法,其特征在于:步骤一中,计算译文质量等级时,根据所述机器译文和所述经过修改审校的机器译文,计算所述机器译文和所述经过修改审校的机器译文的编辑距离,并以0.1,0.5,0.7为阈值,将所述机器译文划分至四类质量标签,同时将所述原文和所述机器译文中的单词还原成词典型,形成新的原文-机器译文对。
5.根据权利要求4所述的译文质量评估方法,其特征在于:步骤二中,所述获取原文的依存句法树具体包括:原文经过依存句法分析工具处理得到输出的依存句法树,并将原文的单词作为点,以输出的依存句法树中的关系或句子中位置相邻关系作为边,构建原文的句法图。
6.根据权利要求5所述的译文质量评估方法,其特征在于:步骤二中,所述获取机器译文的依存句法树具体包括:机器译文经过依存句法分析工具处理,得到输出的机器译文依存句法树,将机器译文的单词作为点,以输出的机器译文依存句法树中的关系或句子中位置相邻关系作为边,构建机器译文的句法图。
7.根据权利要求6所述的译文质量评估方法,其特征在于:步骤二中,所述获取原文和机器译文的词典型单词匹配结果包括:原文的词典型单词基于双语词典能够匹配机器译文的词典型单词,则连接原文和机器译文的两个词典型单词作为边,并与所述原文的句法图和所述机器译文的句法图合并,生成原文-机器译文匹配图。
8.根据权利要求7所述的译文质量评估方法,其特征在于:步骤三中,所述原文-机器译文匹配图作为多头图注意力网络层的输入特征包括:
9.根据权利要求8所述的译文质量评估方法,其特征在于:步骤三中,所述训练图神经网络包括:以所述图神经网络的输入特征作为输入,以所述计算译文质量等级中计算出的分类为标签,并基于所述图神经网络的输出特征,预测机器译文的译文质量分类标签。