基于重复句检测的翻译校正方法与系统与流程

文档序号:16898337发布日期:2019-02-19 17:41阅读:179来源:国知局
基于重复句检测的翻译校正方法与系统与流程

本申请涉及翻译技术领域,尤其涉及一种基于重复句检测的翻译校正方法与系统。



背景技术:

在一些特定场合,翻译人员必须保证翻译结果的高度准确性和统一性,而不允许随意变化。在这些场合中,相同语境中的相同句子的翻译结果必须统一,不管是同一个人翻译还是不同人翻译,在最后的整体翻译结果中,对于同一个句子的翻译结果也应当保持相当程度上的一致性,以体现翻译结果的严肃和公正。这些场合主要包括涉及法律的文书、涉外合同、政府公告/新闻稿、专业教科书等。

涉外合同中包含大量的重复模板语句、涉及法律的文书例如涉外专利由于撰写特点也存在大量的重复语句,如果不能保持前后同一重复句子的翻译一致性,将极大的损害其权威性。

然而,在当前的翻译工作中,针对上述特定场合的翻译需求,翻译人员很难一开始就做到保证同一个句子的翻译前后一致,因为无法预判是否存在同一个句子,更无法预知其他人对同一个句子的翻译结果是否与自己一致。

通常情况下只能先完成各自翻译任务,后续再进行处理。然而,目前的后续处理都是纯人工进行,耗时费力;即使可以采用计算机代替人工,但是其针对的翻译量巨大,效率极低。



技术实现要素:

本发明的技术方案至少从以下几个方面解决了上述问题。

在本发明的第一个方面,提供了一种基于重复句检测的翻译质量校正方法,该方法基于检测到的重复句,对已经完成的翻译成果进行校正,从而保证翻译成果中的重复句的翻译结果的一致准确性。

这里,已有的翻译成果,包括翻译前的语料和对应的翻译后的语料。

发明人经过长期的翻译工作意识到,对于已经完成的翻译成果,需要校正的部分仅仅是一小部分特定的重复句子,大部分句子是不需要校正的的。因此本发明的第一个要解决的问题是如何高效快速的检测出潜在的需要校正的重复句。

首先,本发明需要设置一个关注数据库,所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括magazine(弹匣),因为有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;

其次,本发明需要设置一个关注阈值范围。所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。

接下来,本发明需要在已有的翻译结果中查找满足条件的句子,检测出重复句子。

满足条件包括:

翻译结果中的当前句子长度;和或;当前句子是否包含关注数据库中的词汇。

这里包括两个步骤:

(1)首先查找出满足上述条件的句子,构成满足条件的句子集;

(2)从满足条件的句子集合中,检测出重复句子。

由于步骤(1)的存在,本发明检测重复句子的工作量得到了大大降低;

这里,检测出重复句子,包括:

从所述翻译前的语料中检测出重复句子,和/或,从所述对应的翻译后的语料中检测出重复句子;

如果从所述翻译前的语料中检测出重复句子,则需要判断这些重复句子对应的翻译后的语料中的翻译结果是否一致;

从所述对应的翻译后的语料中检测出重复句子,则需要判断这些重复句子对应的翻译前的语料中的句子是否相同。

当然,作为一个优选,本发明的技术方案还可以省略上述判断步骤,因为最终的目的都是为了保持重复句子的翻译结果一致,因此,可以不用判断已有的结果是否一致,直接进入后续校正步骤(即使原有的重复句子的翻译结果完全一致,也可以完成校正工作)。

作为本发明的另一个创新点,校正步骤采用如下方式进行校正:

◆自动校正:采用人工智能系统自动完成校正。

所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;

◆交叉比对校正:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;

◆专家校正:专家提供当前重复句子的翻译结果作为一致的统一结果。

在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。

通过上述方式,所有的校正资源都可以被利用起来,不同的翻译员可以充分发表自己的意见,多头并进的完成校正工作。

上述多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。

在本发明的第二个方面,提供了一种翻译质量校正系统,所述系统采用计算机组件配置实现,自动完成翻译成果的质量校正。

所述系统包括如下配置:

(1)前置条件设置模块,所述前置条件设置模块用于设置重复句检测的前置条件;

(2)重复句检测模块,用于检测翻译成果中的重复句;

(3)翻译结果质量校正模块,用于对翻译结果进行校正。

本发明中的所述前置条件设置模块,包括关注数据库设置模块,和/或,关注阈值范围设置模块。

所述翻译结果质量校正模块至少包括如下组件之一:

◆自动校正组件:采用人工智能系统自动完成校正。所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;

◆交叉比对校正组件:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;

◆专家校正组件:专家提供当前重复句子的翻译结果作为一致的统一结果。在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。

在本发明的技术方案中,上述翻译结果校正组件可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正组件;也可以事先设置不同校正的优先级,当不同的校正组件给出的校正结果不一致的,选择优先级最高的校正组件给出的结果;当至少两个不同校正组件给出的校正结果一致时,直接采用该一致的校正结果。

本发明还公开一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述指令,则可以完成上述公开的方法的各个步骤,同样可以解决本申请的技术问题。

本发明更具体的实施方式将在具体实施例部分进一步体现。

附图说明

图1是本发明的一种翻译质量校正系统的界面框架图

图2是本发明的基于重复句检测的翻译质量校正方法流程图

具体实施方式

参见图1,本发明的翻译质量校正系统,包括前置条件设置模块、重复句检测模块、翻译结果质量校正模块;

本发明中的所述前置条件设置模块,包括关注数据库设置模块,和/或,关注阈值范围设置模块。

所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括magazine(弹匣),因为很有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;

所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。

所述翻译结果质量校正模块至少包括如下组件之一:

◆自动校正组件:采用人工智能系统自动完成校正。所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;

◆交叉比对校正组件:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;

◆专家校正组件:专家提供当前重复句子的翻译结果作为一致的统一结果。在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。

在本发明的技术方案中,上述翻译结果校正组件可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正组件;也可以事先设置不同校正的优先级,当不同的校正组件给出的校正结果不一致的,选择优先级最高的校正组件给出的结果;当至少两个不同校正组件给出的校正结果一致时,直接采用该一致的校正结果。在图1中,所述翻译结果校正件包括了三大组件,图示为了便于展示,而将其分开示出。

在本实施例中,所述重复句子,是指满足条件的句子集中,某两个句子的相似度满足一定条件;还可以基于两个句子各自包含的关键词比对相似度进行判断。因此,更进一步的优选,所述系统还可以包括相似度设置模块,用于设置相似度阈值,从而调节重复句子的检测标准;

参见图2,本发明的基于重复句检测的翻译质量校正方法包括如下步骤:

(1)设置前置条件;

(2)检测重复句;

(3)校正翻译结果。

在本实施例中,发明人发现,翻译过程存在如下现象:

a)相似的句子,翻译结果可能相同;

b)相似的翻译结果,对应的翻译原文可能相同。

不过无论如何,这些不同句子不同翻译结果之间存在一定的相似度。当相似度满足一定条件时,意味着这些不同句子/不同翻译结果应当保持统一。

当然,也没有必要一一检测所有的句子。对于已经完成的翻译成果,需要校正的部分仅仅是一小部分特定的重复句子,大部分句子是不需要校正的的。因此本发明的第一个要解决的问题是如何高效快速的检测出潜在的需要校正的重复句。

该问题首先通过设置前置条件来解决,包括:

需要设置一个关注数据库,所述关注数据库是指预先设置的包含需要关注的特殊词汇的数据库。不同领域的翻译材料包括不同的需要关注的特定词汇,例如,枪械翻译中需要关注的词汇包括magazine(弹匣),因为有可能存在翻译人员将其错误翻译为“杂志”的情形。这可以由相关领域的翻译专家提供,或者事先预置;

和,或,设置一个关注阈值范围。所述关注阈值范围是指潜在的可能存在重复的句子的长度范围。过短的句子,其翻译难度较低,具备一定水平的翻译人员通常不会出现不一致的错误;过长的句子,其翻译相对慎重,翻译人员通常需要交叉比对才会给出结果,并且其通常不会大量重复出现,因此,其不被视为潜在的需要校正的目标。

接下来,本发明需要在已有的翻译结果中查找满足条件的句子,检测出重复句子。

满足条件包括:

翻译结果中的当前句子长度;和或;当前句子是否包含关注数据库中的词汇。

这里包括两个步骤:

a)首先查找出满足上述条件的句子,构成满足条件的句子集;

b)从满足条件的句子集合中,检测出重复句子。

由于步骤a)的存在,本发明检测重复句子的工作量得到了大大降低;

这里,检测出重复句子,包括:

从所述翻译前的语料中检测出重复句子,和/或,从所述对应的翻译后的语料中检测出重复句子;

如果从所述翻译前的语料中检测出重复句子,则需要判断这些重复句子对应的翻译后的语料中的翻译结果是否一致;

从所述对应的翻译后的语料中检测出重复句子,则需要判断这些重复句子对应的翻译前的语料中的句子是否相同。

在本实施例中,所述重复句子,是指满足条件的句子集中,某两个句子的相似度满足一定条件;还可以基于两个句子各自包含的关键词比对相似度进行判断。

当然,作为一个优选,本发明的技术方案还可以省略上述判断步骤,因为最终的目的都是为了保持重复句子的翻译结果一致,因此,可以不用判断已有的结果是否一致,直接进入后续校正步骤(即使原有的重复句子的翻译结果完全一致,也可以完成校正工作)。

作为本发明的另一个创新点,校正步骤采用如下方式进行校正:

◆自动校正:采用人工智能系统自动完成校正。

所述人工智能系统根据机器学习,自动选择最优的翻译结果作为一致的统一结果,包括:自动统计历史翻译语料中对同一句子的翻译结果,选择被选择数量最多的翻译结果作为一致的统一结果;

◆交叉比对校正:将当前针对重复句子的所有翻译结果均显现处理,供所有当前翻译员交叉比对并投票,选择投票数最多的翻译结果作为一致的统一结果;

◆专家校正:专家提供当前重复句子的翻译结果作为一致的统一结果。

在专家校正中,可以实现专家实时在线校正,也可以将当前待校正句子提交,待达到一定数量或者专家在线时再统一校正。

通过上述方式,所有的校正资源都可以被利用起来,不同的翻译员可以充分发表自己的意见,多头并进的完成校正工作。

上述多种方式的翻译结果质量校正方式可以互相配合使用,也可以选择其中之一;还可以事先设置优先采用哪种校正方式;也可以事先设置不同校正方式的优先级,当不同的校正方式给出的校正结果不一致的,选择优先级最高的校正方式给出的结果;当至少两个不同校正方式给出的校正结果一致时,直接采用该一致的校正结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1