机器翻译效果评测方法、装置、设备及存储介质与流程

文档序号:23222191发布日期:2020-12-08 15:05阅读:89来源:国知局
机器翻译效果评测方法、装置、设备及存储介质与流程

本申请涉及机器翻译技术领域,更具体的说,是涉及一种机器翻译效果评测方法、装置、设备及存储介质。



背景技术:

随着机器翻译水平的发展,效果上的评价变得尤为重要,研究人员们在不断开发和改进翻译系统的过程中,需要经常去评价翻译结果来反馈从而改善翻译系统。

人为的评价是非常耗时、耗力,并且复杂性也很高。这时,设计一种机器翻译效果自动评价方法就显得非常重要,做出一个好的机器翻译评价方案对从业者有着非常重要的意义。例如,判断新的研究技术是否带来好的效果;翻译产品指标会给顾客带来深刻印象;用户该怎么去衡量哪个翻译工具会更好等。在如今这种激烈竞争市场下,研究效果评价可以不断地观察并帮助潜在的用户去了解翻译特性,同时能为机器翻译评价去建立良好基础。



技术实现要素:

鉴于上述问题,提出了本申请以便提供一种机器翻译效果评测方法、装置、设备及存储介质,以解决人工评价所存在的耗时、耗力的问题。具体方案如下:

一种机器翻译效果评测方法,包括:

获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;

对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;

将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;

基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

优选地,在所述获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文之前,该方法还包括:

对待翻译文本进行子句划分,得到待翻译文本包含的每一子句。

优选地,所述对待翻译文本进行子句划分,包括:

以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句;

或,

遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。

优选地,所述对每一子句的机器译文进行长度约束,包括:

确定每一子句的长度约束量,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度;

基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。

优选地,所述确定每一子句的长度约束量,包括:

按照每一子句的划分方式,确定与所述划分方式对应的长度约束量,以得到每一子句的长度约束量。

优选地,

若子句是按照标点划分得到,则对应的长度约束量为第一设定长度;

若子句是按照遍历文本达到设定长度后划分得到,则对应的长度约束量为第二设定长度,所述第二设定长度大于所述第一设定长度。

优选地,所述基于每一子句的长度约束量,对每一子句的机器译文进行长度约束,包括:

基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,所述若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译结果;

或,

基于每一子句的长度约束量,删除每一子句的机器译文中末尾所述长度约束量个分词。

优选地,所述将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失,包括:

判断每一子句的约束后机器译文,是否存在于下一相邻子句的机器译文中;若存在,则确定所述子句约束成功,否则,确定所述子句约束失败;

基于所述待翻译文本中各子句的约束成功和失败情况,确定所述待翻译文本的机器译文的翻译约束损失。

优选地,所述基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分,包括:

基于所述翻译约束损失及所述参考译文包含的子句数量,确定所述待翻译文本的机器译文的翻译约束损失系数;

将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率;

利用所述翻译约束损失系数,对所述匹配准确率进行惩罚,得到机器译文评分。

优选地,所述将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率,包括:

确定所述待翻译文本的机器译文与所述参考译文的n元文法匹配准确率。

一种机器翻译效果评测装置,包括:

译文获取单元,用于获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;

约束处理单元,用于对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;

翻译约束损失确定单元,用于将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;

评分单元,用于基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

一种机器翻译效果评测设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的机器翻译效果评测方法的各个步骤。

一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的机器翻译效果评测方法的各个步骤。

借由上述技术方案,本申请对于待翻译文本包含的每一子句,以该子句及其之前子句输入机器翻译工具得到翻译结果,作为该子句的机器译文,进一步的,考虑到子句末尾部分分词在机器翻译时无法参考到后续子句的内容,导致翻译结果可能不准确,为此,本申请对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,也即,将末尾翻译结果可能不准确的部分机器译文进行删除,而当前子句的下一相邻子句的机器译文在翻译时,针对当前子句末尾部分分词翻译时能够参考到后续子句的内容,使得翻译结果更加准确,大大提升了上下文关系,在此基础上,将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到待翻译文本的机器译文的翻译约束损失,该翻译约束损失可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力,在此基础上,基于翻译约束损失和参考译文,确定待翻译文本的机器译文评分,该机器译文评分考虑了更为细致的句子层级的连贯性,对于多翻译和漏翻译都能进行适当惩罚,大大提升了机器译文评分的准确性和可靠性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例提供的机器翻译效果评测方法的一流程示意图;

图2示例了待翻译文本的子句划分方式,及参考译文的示意图;

图3为本申请实施例提供的一种机器翻译效果评测装置结构示意图;

图4为本申请实施例提供的机器翻译效果评测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供了一种机器翻译效果评测方法,能够适用于对各种场景下机器翻译工具进行翻译的效果评测。以同传翻译为例,同传翻译中,每个子句的翻译都是逐渐递增的形式,对于上下文关系非常密切,采用本申请的机器翻译效果评测方法,可以准确、可靠的对机器翻译工具在同传翻译场景下翻译效果进行评测。

本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。

为了实现对机器翻译效果的评测,本案申请人首先考虑了一种基于机器译文与参考译文进行相似度匹配,确定匹配准确率。同时,考虑机器译文长度小于参考译文时,可能会随着句子长度变短而翻译结果变好,这样在翻译不完整时也会存在匹配准确率很高的情况,为此在机器译文小于参考译文时对机器译文在长度上进行惩罚,也即,利用长度惩罚系数对匹配准确率进行惩罚,进而得到机器译文的最终评分。

通过进一步分析发现,上述方式直接计算机器译文与参考译文间的相似程度,忽略了子句之间的相关性,句子过长时无法规避一个句子漏掉重要词语和忽略不必要词语,这样不能保证对每个词语的平等性。并且,匹配准确率只关注译文在篇章级别的准确度,长度惩罚也仅仅是考虑译文整体长度进行的惩罚,对于译文整体的上下文连贯性没有进行考虑,导致句子层面评测表现不足。

为此,本案申请人进一步提出了一种以下方案,以克服前述提出的问题,实现机器翻译效果更加准确、可靠的评测。

接下来,结合图1所述,本申请的机器翻译效果评测方法可以包括如下步骤:

步骤s100、获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文。

具体的,待翻译文本的参考译文可以理解为标准的翻译结果,其可以是由专业人工翻译的结果。

待翻译文本可以包含多个子句,本步骤中以子句为单位,获取每一子句的机器译文。每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果。也即,针对目标子句,将待翻译文本中目标子句前的子句和目标子句一并输入机器翻译工具得到机器翻译结果,该机器翻译结果作为目标子句的机器译文,也即,目标子句的机器译文携带有目标子句之前的子句的翻译结果,且目标子句翻译时也会考虑到目标子句的上文子句信息,使得目标子句的翻译更加准确。

可以理解的是,待翻译文本可以是一个完整的句子,则每一目标子句的机器译文,可以是将待翻译文本中目标子句之前的各子句及所述目标子句输入机器翻译工具,得出的翻译结果作为目标子句的机器译文。除此之外,待翻译文本还可以是多个完整的句子组成的文本段落或篇章,其中每一完整的句子可以包括多个子句。则对于每一目标子句的机器译文,可以是将目标子句所在完整句子中处于目标子句之前的各子句及目标子句输入机器翻译工具,得出的翻译结果作为目标子句的机器译文。另一种可选的方式,还可以是将待翻译文本中目标子句之前的所有子句及所述目标子句输入机器翻译工具,得出的翻译结果作为目标子句的机器译文。

步骤s110、对每一子句的机器译文进行长度约束,得到约束后机器译文。

其中,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文。考虑到对于子句进行机器翻译时,子句末尾部分分词在机器翻译时无法参考到后续子句的内容,导致翻译结果可能不准确,为此,本申请对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,也即,将机器译文末尾部分可能不准确的译文进行删除,得到的约束后机器译文为相对更加准确的翻译结果。

并且,每一目标子句的下一相邻子句在机器翻译时,由于会将目标子句和下一相邻子句一起输入机器翻译工具,也即会携带有目标子句末尾部分的分词,并参考下一相邻子句的内容进行重新翻译,保证了上下句子的连贯性,使得翻译结果更加准确。

步骤s120、将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失。

具体的,对于每一子句在得到约束后机器译文之后,可以将子句的约束后机器译文与下一相邻子句的机器译文进行匹配,由于下一相邻子句的机器译文包含了对上一子句末尾部分分词的翻译结果,通过匹配可以判断上一子句的约束后机器译文与下一相邻子句的机器译文之间的连贯性,最终得到的待翻译文本的机器译文的翻译约束损失,可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力。

步骤s130、基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

具体的,在得到待翻译文本的机器译文的翻译约束损失后,可以结合参考译文,确定待翻译文本的机器译文评分,该机器译文评分考虑了更为细致的句子层级的连贯性,对于多翻译和漏翻译都能进行适当惩罚,大大提升了机器译文评分的准确性和可靠性。

本申请实施例提供的机器翻译效果评测方法,对于待翻译文本包含的每一子句,以该子句及其之前子句输入机器翻译工具得到翻译结果,作为该子句的机器译文,进一步的,考虑到子句末尾部分分词在机器翻译时无法参考到后续子句的内容,导致翻译结果可能不准确,为此,本申请对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,也即,将末尾翻译结果可能不准确的部分机器译文进行删除,而当前子句的下一相邻子句的机器译文在翻译时,针对当前子句末尾部分分词翻译时能够参考到后续子句的内容,使得翻译结果更加准确,大大提升了上下文关系,在此基础上,将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到待翻译文本的机器译文的翻译约束损失,该翻译约束损失可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力,在此基础上,基于翻译约束损失和参考译文,确定待翻译文本的机器译文评分,该机器译文评分考虑了更为细致的句子层级的连贯性,对于多翻译和漏翻译都能进行适当惩罚,大大提升了机器译文评分的准确性和可靠性。

在本申请的一些实施例中,在执行上述步骤s100,获取待翻译文本的参考译文及每一子句的机器译文之前,本申请还可以进一步包括对待翻译文本进行子句划分的操作,通过对待翻译文本进行子句划分,可以得到待翻译文本包含的每一子句。

其中,对待翻译文本进行子句划分的方式,可以包括多种方式,示例如:

第一种子句划分方式:

以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句。

具体的,待翻译文本中包含有标点,如逗号、句话、问号等,则可以基于这些标点作为子句划分界限,将待翻译文本在标点处切分,从而得到若干子句。

第二种子句划分方式:

可以从待翻译文本的首个分词开始,遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。

也即,本申请可以预先设定长度k,如k=8个分词,则若遍历的待翻译文本在达到k个分词之前存在标点,可以以标点作为子句划分界限进行子句划分,若在达到k个分词时还不存在标点,则可以将遍历的k个分词划分为一个子句,并继续向后遍历。

当然,上述仅仅示例了两种可选的子句划分方式,本领域技术人员还可以根据需要采用其它子句划分方式,对待翻译文本进行子句划分,对此本申请不做严格限定。

在本申请的一些实施例中,对于上述步骤s110,对每一子句的机器译文进行长度约束,得到约束后机器译文的过程进行介绍。

可以理解的是,对每一子句的机器译文进行长度约束的过程,即删除子句的机器译文末尾的若干长度的译文的过程。基于此,本申请实施例中可以首先确定每一子句的长度约束量,进而基于长度约束量,对子句的机器译文进行长度约束,具体过程如下:

s1、确定每一子句的长度约束量。

其中,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度。

在确定每一子句的长度约束量时,可以结合每一子句的划分方式,确定与划分方式对应的长度约束量,进而得到每一子句的长度约束量。

也即,本申请可以预先针对不同的子句划分方式,设定对应的长度约束量。以上述实施例中示例的两种子句划分方式为例进行说明:

针对第一种子句划分方式,也即子句是按照标点划分得到,则可以设置对应的长度约束量为第一设定长度。

针对第二种子句划分方式,也即子句是按照遍历文本达到设定长度后划分得到,则可以设置对应的长度约束量为第二设定长度。

由于第二种子句划分方式为按照本申请所能容忍的子句的最大长度划分得到,因此在对该类型子句进行长度约束时,其长度约束量可以大于第一种子句划分方式对应子句的长度约束量,也即,本申请实施例中可以设置上述第二设定长度大于第一设定长度。

示例性的,第一设定长度可以是3个分词,第二设定长度可以是第一设定长度的两倍或其它数值,如6个分词。

s2、基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。

基于上述介绍可知,长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度。基于此,本实施例中提供了两种不同的对子句的机器译文进行长度约束的可选方式,如下:

第一种、

长度约束量规定了需要对子句末尾该长度约束量个分词的翻译结果进行删除。则,具体长度约束过程可以是:

基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,该若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译结果。

也即,最终需要删除的机器译文末尾译文的长度可能是一个非固定值,该所需删除的机器译文末尾译文,对应子句末尾所述长度约束量个分词的翻译结果。

示例如,长度约束量为3,则本实施例中可以将子句的机器译文末尾一定长度的译文删除,该删除的译文对应子句末尾3个分词的机器翻译结果。

举例说明如:

子句为:在情况有所不对时。该子句包含的分词划分结果为:在/情况/有所/不对/时。

子句对应的机器译文为:whensomethingiswrong。

假设长度约束量为3,则分析可以确定,机器译文末尾部分的译文对应子句中如下3个分词:情况/有所/不对,因此,可以将子句中:情况/有所/不对三个分词对应的机器译文删除,也即删除:somethingiswrong,得到的约束后机器译文为:when。

第二种、

长度约束量规定了需要对子句的机器译文末尾该长度约束量个分词进行删除。则,具体长度约束过程可以是:

基于每一子句的长度约束量,删除每一子句的机器译文中末尾所述长度约束量个分词。

也即,最终需要删除的机器译文末尾译文的长度是一个固定值,即所述长度约束量。

示例如,长度约束量为3,则本实施例中可以将子句的机器译文末尾3个分词删除。

仍使用上述例子进行说明:

可以将机器译文中最后3个分词删除,也即删除:somethingiswrong,得到的约束后机器译文为:when。

本申请实施例中,通过如下一个具体实例,介绍待翻译文本子句划分、子句长度约束的过程。

参考图2,图2示例了待翻译文本的子句划分方式,及参考译文。

假设对待翻译文本进行子句划分按照前述第二种划分方式,且设定长度为8个分词。

则分析待翻译文本按照前述第二种划分方式,可以得到如图2所示的划分结果,图2中不同子句之间用竖线分隔,可知待翻译文本中每个标点符号之间的分词数量均不超过8,因此可以按照标点符号将待翻译文本划分为子句1-4。

针对每个子句,将子句及其之前的子句作为机器翻译工具的输入,得到的翻译结果作为子句的翻译结果,并对翻译结果进行长度约束,假设长度约束量3,对应的长度约束过程为将子句末尾3个分词对应的机器译文删除,则各子句的机器翻译译文及约束后机器译文如下表1所示:

表1

在本申请的一些实施例中,进一步对上述步骤s120,将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失的过程进行说明。

通过将子句的约束后机器译文与下一相邻子句的机器译文进行匹配,由于下一相邻子句的机器译文包含了对上一子句末尾部分分词的翻译结果,通过匹配可以判断上一子句的约束后机器译文与下一相邻子句的机器译文之间的连贯性,最终得到的待翻译文本的机器译文的翻译约束损失,可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力。具体的匹配过程可以包括:

判断每一子句的约束后机器译文,是否存在于下一相邻子句的机器译文中;若存在,则确定所述子句约束成功,否则,确定所述子句约束失败。

基于所述待翻译文本中各子句的约束成功和失败情况,确定所述待翻译文本的机器译文的翻译约束损失。

具体的,可以将约束成功的子句个数作为待翻译文本的机器译文的翻译约束损失。

以上述表1示例的情况为例进行说明:

子句1的约束后机器译文在子句2的机器译文中,子句2的约束后机器译文不在子句3的机器译文中,子句3的约束后机器译文在子句4的机器译文中,因此约束成功的子句个数为2,则待翻译文本的机器译文的翻译约束损失可以设置为2。

在此基础上,本申请实施例中进一步对前述步骤s130,基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分的过程进行介绍。本申请实施例提供了一种可选的实现方式,如下:

s1、基于所述翻译约束损失及所述参考译文包含的子句数量,确定所述待翻译文本的机器译文的翻译约束损失系数。

具体的,前述步骤已经确定了待翻译文本的机器译文的翻译约束损失。进一步的,对于参考译文,可以默认其包含的各子句均约束成功,也即可以将参考译文包含的子句数量作为参考译文的翻译约束损失。进而,可以基于机器译文的翻译约束损失,及参考译文的翻译约束损失,确定待翻译文本的机器译文的翻译约束损失系数。其中,翻译约束损失系数随待翻译文本的机器译文的翻译约束损失的增加而增加。

可选的,考虑到相对参考译文的约束翻译损失,机器译文约束翻译成功次数越高,其准确度就越高,因此可以将翻译约束损失系数设置为,机器译文的约束翻译损失与参考译文的约束翻译损失的比值的指数变化形式,如下公式所示:

其中,cf为约束翻译损失系数,lc为机器译文的约束翻译损失,lr为参考译文的约束翻译损失。

以上表1示例的情况为例,其中lc等于2,lr等于3,则cf为:

s2、将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率。

具体的,可以确定所述待翻译文本的机器译文与所述参考译文的n元文法匹配准确率。

n元文法匹配准确率的计算过程可以包括如下:

1)、计算n-gram在参考译文中出现的最大匹配次数。

对于n-gram的匹配规则在一些情况下,如待翻译文本的机器译文中有重复单词导致匹配不准,因此可以按照下述公式进行修正:

countclip=min(count,max_ref_count)

其中,countclip为n-gram在参考译文中出现的最大匹配次数,count是指n-gram文法在机器译文中的出现次数,max_ref_count是指n-gram文法在参考译文中出现最多次数。

利用上述公式,可以对1到n的gram进行遍历匹配计算,其匹配原理就是比较机器译文和参考译文之间的n组词的一个占比,从实际体现上看,1-gram体现单独词被译出来的高低,主要体现译文的忠实度,n越大可体现流畅度,值越高可读性越好,考虑到译文的忠实度和流畅度的权重,可以选择n=4,即选择4-gram进行评价。

步2)由n-gram在参考译文中出现的最大匹配次数,可求得n-gram的匹配准确率。

n-gram的匹配准确率可由下述计算得到:

其中,pn为n-gram的匹配准确率,c为机器译文,countclip(n-gram)为n-gram在参考译文中出现的最大匹配次数,count(n-gram)为n-gram在机器译文中出现的次数。

s3、利用所述翻译约束损失系数,对所述匹配准确率进行惩罚,得到机器译文评分。

具体的,上一步骤基于n-gram的匹配准确率计算,没有考虑到漏译文、多译和子句间的连贯性。如果一个漏翻译的句子,翻译的词语都比较可靠准确,按照上面的计算也会算出高匹配准确率,对于每个子句间也无法去判断是否有关联,所以仅考虑n-gram的匹配准确率是不够的。

本步骤中,利用前述得到的约束翻译损失系数对匹配准确率进行惩罚,得到机器译文评分:

其中,score为机器译文评分,其取值在0-1之间,值越大表达译文翻译效果越好,也即译文质量越高,n为n元文法的最大阶数,wn为权重系数,wn=1/n。

本实施例中,通过使用约束翻译损失系数对匹配准确率进行惩罚,由于约束翻译损失系数是对待翻译文本中各子句的翻译约束成功情况进行统计的结果,因此该约束翻译损失系数可以从句子层级更加精细的进行惩罚,对于漏译、多译和子句间的连贯性都能够进行惩罚,因此最终得到的评分更加准确、可靠。

下面对本申请实施例提供的机器翻译效果评测装置进行描述,下文描述的机器翻译效果评测装置与上文描述的机器翻译效果评测方法可相互对应参照。

参见图3,图3为本申请实施例公开的一种机器翻译效果评测装置结构示意图。

如图3所示,该装置可以包括:

译文获取单元11,用于获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;

约束处理单元12,用于对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;

翻译约束损失确定单元13,用于将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;

评分单元14,用于基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

可选的,本申请的装置还可以包括:

子句划分单元,用于在执行译文获取单元之前,对待翻译文本进行子句划分,得到待翻译文本包含的每一子句。

可选的,上述子句划分单元对待翻译文本进行子句划分的过程,可以包括:

以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句;

或,

遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。

可选的,上述约束处理单元对每一子句的机器译文进行长度约束的过程,可以包括:

确定每一子句的长度约束量,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度;

基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。

可选的,上述约束处理单元确定每一子句的长度约束量的过程,可以包括:

按照每一子句的划分方式,确定与所述划分方式对应的长度约束量,以得到每一子句的长度约束量。

可选的,若子句是按照标点划分得到,则对应的长度约束量可以为第一设定长度;

若子句是按照遍历文本达到设定长度后划分得到,则对应的长度约束量可以为第二设定长度,所述第二设定长度大于所述第一设定长度。

可选的,上述约束处理单元,基于每一子句的长度约束量,对每一子句的机器译文进行长度约束的过程,可以包括:

基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,所述若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译结果;

或,

基于每一子句的长度约束量,删除每一子句的机器译文中末尾所述长度约束量个分词。

可选的,上述翻译约束损失确定单元将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失的过程,可以包括:

判断每一子句的约束后机器译文,是否存在于下一相邻子句的机器译文中;若存在,则确定所述子句约束成功,否则,确定所述子句约束失败;

基于所述待翻译文本中各子句的约束成功和失败情况,确定所述待翻译文本的机器译文的翻译约束损失。

可选的,上述评分单元基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分的过程,可以包括:

基于所述翻译约束损失及所述参考译文包含的子句数量,确定所述待翻译文本的机器译文的翻译约束损失系数;

将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率;

利用所述翻译约束损失系数,对所述匹配准确率进行惩罚,得到机器译文评分。

可选的,上述评分单元将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率的过程,可以包括:

确定所述待翻译文本的机器译文与所述参考译文的n元文法匹配准确率。

本申请实施例提供的机器翻译效果评测装置可应用于机器翻译效果评测设备,如终端:手机、电脑等。可选的,图4示出了机器翻译效果评测设备的硬件结构框图,参照图4,机器翻译效果评测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;

对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;

将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;

基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;

对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;

将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;

基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1