一种机器翻译文本的译后编辑方法及装置与流程

文档序号:17442867发布日期:2019-04-17 05:01阅读:716来源:国知局
一种机器翻译文本的译后编辑方法及装置与流程

本发明涉及文本自动翻译技术领域,更具体地说,涉及一种机器翻译文本的译后编辑方法、装置、设备及可读存储介质。



背景技术:

机器翻译又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。相应的,机器翻译文本指利用计算机对一种语言文本进行翻译,得到的另一种语言文本。译后编辑指对机器生成的翻译文本进行完善的过程,使得机器翻译文本更加符合人类语言风格。

在现有技术中,一般基于循环神经网络实现译后编辑的自动处理。需要说明的是,循环神经网络提取到的语言文本的特征不够精细,其中利用对数线性组合来处理源文本和机器翻译文本,也无法关联源文本和机器翻译文本之间的特征,导致对源文本和机器翻译文本的表征能力不足,从而降低了译后编辑的准确率,使得译后编辑得到的译后编辑文本的准确性有所降低。其中,译后编辑文本即为对机器翻译文本进行译后编辑处理后,得到的文本。

因此,如何提高译后编辑的准确率,是本领域技术人员需要解决的问题。



技术实现要素:

本发明的目的在于提供一种机器翻译文本的译后编辑方法、装置、设备及可读存储介质,以提高译后编辑的准确率。

为实现上述目的,本发明实施例提供了如下技术方案:

一种机器翻译文本的译后编辑方法,包括:

获取源文本和所述源文本的机器翻译文本;

通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量;

通过自注意力机制提取所述机器翻译文本的第二文本特征,通过对所述第一向量使用注意力机制优化所述第二文本特征;利用前馈神经网络对优化后的所述第二文本特征进行处理,得到表示所述机器翻译文本的第二向量;

根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本。

其中,所述通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量,包括:

通过残差神经网络处理所述源文本,得到所述第一向量;

其中,所述残差神经网络中的每个网络层由自注意力机制子层和前馈神经网络子层构成。

其中,所述通过对所述第一向量使用注意力机制优化所述第二文本特征,包括:

按照注意力机制处理公式优化所述第二文本特征,所述注意力机制处理公式为:

其中,q表示所述第二文本特征中的查询项;k,v表示一对键值。

其中,所述根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本,包括:

按照文本生成公式生成所述译后编辑文本,所述文本生成公式为:

其中,x表示所述第一向量,m表示所述第二向量,y表示所述译后编辑文本,p(y|m,x)表示生成所述译后编辑文本的条件概率;所述译后编辑文本中的任意一个单词生成的条件概率为:p(yt|y<t,m,x)=softmax(wo·zt+bo),yt表示t时刻生成的单词,wo和bo为生成参数,zt表示经过网络层后的输出结果。

其中,所述根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本之后,还包括:

计算所述译后编辑文本与所述源文本的标准翻译文本的交叉熵损失函数值;

判断所述交叉熵损失函数值是否小于预设的阈值;

若否,则根据所述交叉熵损失函数值更新生成参数,携带更新后的生成参数执行所述根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本的步骤。

其中,所述计算所述译后编辑文本与所述源文本的标准翻译文本的交叉熵损失函数值,包括:

获取所述标准翻译文本,通过带掩码的自注意力机制提取所述标准翻译文本的第三文本特征;

通过对所述第一向量使用注意力机制优化所述第三文本特征,并通过对所述第二向量使用注意力机制第二次优化所述第三文本特征;

利用前馈神经网络对第二次优化后的所述第三文本特征进行处理,得到表示所述标准翻译文本的第三向量;

将所述译后编辑文本向量化为第四向量,并计算所述第四向量与所述第三向量的交叉熵损失函数值。

一种机器翻译文本的译后编辑装置,包括:

获取模块,用于获取源文本和所述源文本的机器翻译文本;

第一处理模块,用于通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量;

第二处理模块,用于通过自注意力机制提取所述机器翻译文本的第二文本特征,通过对所述第一向量使用注意力机制优化所述第二文本特征;利用前馈神经网络对优化后的所述第二文本特征进行处理,得到表示所述机器翻译文本的第二向量;

生成模块,用于根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本。

其中,还包括:

计算模块,用于计算所述译后编辑文本与所述源文本的标准翻译文本的交叉熵损失函数值;

判断模块,用于判断所述交叉熵损失函数值是否小于预设的阈值;

执行模块,用于当所述概率值不小于预设的阈值时,根据所述交叉熵损失函数值更新生成参数,携带更新后的生成参数执行所述生成模块中的步骤。

一种机器翻译文本的译后编辑设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任意一项所述的机器翻译文本的译后编辑方法的步骤。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的机器翻译文本的译后编辑方法的步骤。

通过以上方案可知,本发明实施例提供的一种机器翻译文本的译后编辑方法,包括:获取源文本和所述源文本的机器翻译文本;通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量;通过自注意力机制提取所述机器翻译文本的第二文本特征,通过对所述第一向量使用注意力机制优化所述第二文本特征;利用前馈神经网络对优化后的所述第二文本特征进行处理,得到表示所述机器翻译文本的第二向量;根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本。

可见,所述方法通过自注意力机制提取源文本和机器翻译文本的文本特征,能够捕获源文本和机器翻译文本的内部结构,使得提取出的文本特征更为具体和精细,从而可提高机器翻译文本的译后编辑的准确率;同时,通过对源文本的第一向量使用注意力机制优化机器翻译文本的第二文本特征,从而关联了源文本和机器翻译文本之间的特征,可提高译后编辑的泛化能力;前馈神经网络可以结合不同位置的表征信息,进一步提高对于句子的信息表征能力。因此该方法能够提高译后编辑的处理效率和准确率,使得处理得到的译后编辑文本的准确性更佳。

相应地,本发明实施例提供的一种机器翻译文本的译后编辑装置、设备及可读存储介质,也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种机器翻译文本的译后编辑方法流程图;

图2为本发明实施例公开的另一种机器翻译文本的译后编辑方法流程图;

图3为本发明实施例公开的一种机器翻译文本的译后编辑装置示意图;

图4为本发明实施例公开的一种机器翻译文本的译后编辑设备示意图;

图5为本发明实施例公开的一种译后编辑网络模型框架示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种机器翻译文本的译后编辑方法、装置、设备及可读存储介质,以提高译后编辑的准确率。

参见图1,本发明实施例提供的一种机器翻译文本的译后编辑方法,包括:

s101、获取源文本和源文本的机器翻译文本;

具体的,源文本的机器翻译文本即为对源文本进行机器翻译后,得到的文本。

s102、通过自注意力机制提取源文本的第一文本特征,并利用前馈神经网络对第一文本特征进行处理,得到表示源文本的第一向量;

s103、通过自注意力机制提取机器翻译文本的第二文本特征,通过对第一向量使用注意力机制优化第二文本特征;利用前馈神经网络对优化后的第二文本特征进行处理,得到表示机器翻译文本的第二向量;

s104、根据第一向量和第二向量从左至右逐词生成机器翻译文本的译后编辑文本。

需要说明的是,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务。自注意力机制能够学习句子自身内部不同位置之间的依赖关系。

注意力机制一般用于处理机器翻译任务,而在本申请中,将注意力机制用于处理译后编辑处理任务,并结合自注意力机制抓取源文本和机器翻译文本的文本特征,不仅能够提取出具体且精细文本特征,而且可以提高译后编辑的处理效率。

可见,本实施例提供了一种机器翻译文本的译后编辑方法,所述方法通过自注意力机制提取源文本和机器翻译文本的文本特征,能够捕获源文本和机器翻译文本的内部结构,使得提取出的文本特征更为具体和精细,从而可提高机器翻译文本的译后编辑的准确率;同时,通过对源文本的第一向量使用注意力机制优化机器翻译文本的第二文本特征,从而关联了源文本和机器翻译文本之间的特征,可提高译后编辑的泛化能力;前馈神经网络可以结合不同位置的表征信息,进一步提高对于句子的信息表征能力。因此该方法能够提高译后编辑的处理效率和准确率,使得处理得到的译后编辑文本的准确性更佳。

本发明实施例公开了另一种机器翻译文本的译后编辑方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。

参见图2,本发明实施例提供的另一种机器翻译文本的译后编辑方法,包括:

s201、获取源文本和源文本的机器翻译文本;

s202、通过自注意力机制提取源文本的第一文本特征,并利用前馈神经网络对第一文本特征进行处理,得到表示源文本的第一向量;

s203、通过自注意力机制提取机器翻译文本的第二文本特征,通过对第一向量使用注意力机制优化第二文本特征;利用前馈神经网络对优化后的第二文本特征进行处理,得到表示机器翻译文本的第二向量;

s204、根据第一向量和第二向量从左至右逐词生成机器翻译文本的译后编辑文本;

205、计算译后编辑文本与源文本的标准翻译文本的交叉熵损失函数值;

具体的,源文本的标准翻译文本为:对源文本进行机器翻译得到的机器翻译文本进行译后编辑后,得到的符合人类语言风格的最终文本。计算译后编辑文本与标准翻译文本的交叉熵损失函数值可以理解为:判断译后编辑文本与标准翻译文本的相似度。

当译后编辑文本与标准翻译文本的交叉熵损失函数值较大时,表明译后编辑文本与标准翻译文本的相似度越小,可认为二者不相同,译后编辑文本还需要进一步优化和处理;当译后编辑文本与标准翻译文本的交叉熵损失函数值较小时,表明译后编辑文本与标准翻译文本的相似度越大,在一定程度上可以认为二者是相同的。

本实施例将句子级别的损失函数考虑进来,能够为译后编辑文本的生成提供更好的优化依据。

206、判断交叉熵损失函数值是否小于预设的阈值;若是,则执行s208;若否,则执行s207;

s207、根据所述交叉熵损失函数值更新生成参数,携带更新后的生成参数执行s204;

具体的,译后编辑文本的损失可以认为是译后编辑文本与标准翻译文本的差异,一般用两个文本的编辑距离来表示。若两个文本的编辑距离越小,则表明这两个文本越相似。

s208、将生成的译后编辑文本确定为机器翻译文本的标准翻译结果。

其中,所述计算所述译后编辑文本与所述源文本的标准翻译文本的交叉熵损失函数值,包括:

获取所述标准翻译文本,通过带掩码的自注意力机制提取所述标准翻译文本的第三文本特征;

通过对所述第一向量使用注意力机制优化所述第三文本特征,并通过对所述第二向量使用注意力机制第二次优化所述第三文本特征;

利用前馈神经网络对第二次优化后的所述第三文本特征进行处理,得到表示所述标准翻译文本的第三向量;

将所述译后编辑文本向量化为第四向量,并计算所述第四向量与所述第三向量的交叉熵损失函数值。

可见,本实施例提供了另一种机器翻译文本的译后编辑方法,所述方法通过自注意力机制提取源文本和机器翻译文本的文本特征,能够捕获源文本和机器翻译文本的内部结构,使得提取出的文本特征更为具体和精细,从而可提高机器翻译文本的译后编辑的准确率;同时,通过对源文本的第一向量使用注意力机制优化机器翻译文本的第二文本特征,从而关联了源文本和机器翻译文本之间的特征,可提高译后编辑的泛化能力;前馈神经网络可以结合不同位置的表征信息,进一步提高对于句子的信息表征能力。因此该方法能够提高译后编辑的处理效率和准确率,使得处理得到的译后编辑文本的准确性更佳。

基于上述任意实施例,需要说明的是,所述通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量,包括:

通过残差神经网络处理所述源文本,得到所述第一向量;

其中,所述残差神经网络中的每个网络层由自注意力机制子层和前馈神经网络子层构成。

基于上述任意实施例,需要说明的是,所述通过对所述第一向量使用注意力机制优化所述第二文本特征,包括:

按照注意力机制处理公式优化所述第二文本特征,所述注意力机制处理公式为:

其中,q表示所述第二文本特征中的查询项;k,v表示一对键值。

基于上述任意实施例,需要说明的是,所述根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本,包括:

按照文本生成公式生成所述译后编辑文本,所述文本生成公式为:

其中,x表示所述第一向量,m表示所述第二向量,y表示所述译后编辑文本,p(y|m,x)表示生成所述译后编辑文本的条件概率;所述译后编辑文本中的任意一个单词生成的条件概率为:p(yt|y<t,m,x)=softmax(wo·zt+bo),yt表示t时刻生成的单词,wo和bo为生成参数,zt表示经过网络层后的输出结果。

其中,若按照本发明提供的译后编辑方法构建译后编辑处理模型,则所述网络层即为整个译后编辑处理模型的最后层。

下面对本发明实施例提供的一种机器翻译文本的译后编辑装置进行介绍,下文描述的一种机器翻译文本的译后编辑装置与上文描述的一种机器翻译文本的译后编辑方法可以相互参照。

参见图3,本发明实施例提供的一种机器翻译文本的译后编辑装置,包括:

获取模块301,用于获取源文本和所述源文本的机器翻译文本;

第一处理模块302,用于通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量;

第二处理模块303,用于通过自注意力机制提取所述机器翻译文本的第二文本特征,通过对所述第一向量使用注意力机制优化所述第二文本特征;利用前馈神经网络对优化后的所述第二文本特征进行处理,得到表示所述机器翻译文本的第二向量;

生成模块304,用于根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本。

其中,还包括:

计算模块,用于计算所述译后编辑文本与所述源文本的标准翻译文本的交叉熵损失函数值;

判断模块,用于判断所述交叉熵损失函数值是否小于预设的阈值;

执行模块,用于当所述概率值不小于预设的阈值时,根据所述交叉熵损失函数值更新生成参数,携带更新后的生成参数执行所述生成模块中的步骤。

其中,所述计算模块包括:

获取单元,用于获取所述标准翻译文本,通过带掩码的自注意力机制提取所述标准翻译文本的第三文本特征;

第一优化单元,用于通过对所述第一向量使用注意力机制优化所述第三文本特征,并通过对所述第二向量使用注意力机制第二次优化所述第三文本特征;

第二优化单元,用于利用前馈神经网络对第二次优化后的所述第三文本特征进行处理,得到表示所述标准翻译文本的第三向量;

计算单元,用于将所述译后编辑文本向量化为第四向量,并计算所述第四向量与所述第三向量的交叉熵损失函数值。

其中,所述第一处理模块具体用于:

通过残差神经网络处理所述源文本,得到所述第一向量;

其中,所述残差神经网络中的每个网络层由自注意力机制子层和前馈神经网络子层构成。

其中,所述第二处理模块具体用于:

按照注意力机制处理公式优化所述第二文本特征,所述注意力机制处理公式为:

其中,q表示所述第二文本特征中的查询项;k,v表示一对键值。

其中,所述生成模块具体用于:

按照文本生成公式生成所述译后编辑文本,所述文本生成公式为:

其中,x表示所述第一向量,m表示所述第二向量,y表示所述译后编辑文本,p(y|m,x)表示生成所述译后编辑文本的条件概率;所述译后编辑文本中的任意一个单词生成的条件概率为:p(yt|y<t,m,x)=softmax(wo·zt+bo),yt表示t时刻生成的单词,wo和bo为生成参数,zt表示经过网络层后的输出结果。

可见,本实施例提供了一种机器翻译文本的译后编辑装置,包括:获取模块、第一处理模块、第二处理模块以及生成模块。首先由获取模块获取源文本和所述源文本的机器翻译文本;然后第一处理模块通过自注意力机制提取所述源文本的第一文本特征,并利用前馈神经网络对所述第一文本特征进行处理,得到表示所述源文本的第一向量;进而第二处理模块通过自注意力机制提取所述机器翻译文本的第二文本特征,通过对所述第一向量使用注意力机制优化所述第二文本特征;利用前馈神经网络对优化后的所述第二文本特征进行处理,得到表示所述机器翻译文本的第二向量;最后生成模块根据所述第一向量和所述第二向量从左至右逐词生成所述机器翻译文本的译后编辑文本。如此各个模块之间分工合作,各司其职,从而提高了译后编辑的处理效率和准确率,使得处理得到的译后编辑文本的准确性更佳。

下面对本发明实施例提供的一种机器翻译文本的译后编辑设备进行介绍,下文描述的一种机器翻译文本的译后编辑设备与上文描述的一种机器翻译文本的译后编辑方法及装置可以相互参照。

参见图4,本发明实施例提供的一种机器翻译文本的译后编辑设备,包括:

存储器401,用于存储计算机程序;

处理器402,用于执行所述计算机程序时实现上述任意实施例所述的机器翻译文本的译后编辑方法的步骤。

其中,处理器可以为中央处理器(cpu)或图形处理器(gpu)。gpu在处理大规模数据时,具有良好的优势。

下面对本发明实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种机器翻译文本的译后编辑方法、装置及设备可以相互参照。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的机器翻译文本的译后编辑方法的步骤。

按照本发明提供的译后编辑方法可构建如图5所示的译后编辑网络模型,该模型包括源文本处理网络,机器翻译文本处理网络和标准翻译文本处理网络,其中源文本处理网络,机器翻译文本处理网络和标准翻译文本处理网络均为残差网络。

源文本处理网络为n层,每一层由自注意力机制子层和前馈神经网络子层构成。机器翻译文本处理网络为n层,每一层由自注意力机制子层、注意力机制子层和前馈神经网络子层构成,机器翻译文本处理网络中的注意力机制子层表示对源文本使用注意力机制。标准翻译文本处理网络为n层,每一层由带掩码的自注意力机制子层、注意力机制子层和前馈神经网络子层构成,标准翻译文本处理网络中的注意力机制子层包括:对源文本使用注意力机制和对机器翻译文本使用注意力机制。

其中,注意力机制通过一个映射查询(query)和一组键值对(key-values)计算查询项q(query)对所有键k(key)值的点乘后,除以进行缩放,最后运用一个softmax函数获得键值k(values)的权重分布。具体可以用如下公式描述:

多头注意力机制允许模型联合注意来自不同表征子空间在不同位置的信息,可用如下公式表示:

multihead(q,k,v)=concat(head1,...,headh)wo

whereheadi=attention(qwiq,kwik,vwiv)

其中,

前馈神经网络包含两个线性变化,线性变换之间用relu激活函数,其可以用以下公式表示:

ffn(x)=max(0,xw1+b1)w2+b2

其中,w1、w2、b1、b2均为可训练参数。

图5中的discriminator即为译后编辑网络模型中的判别器,该判别器采用的是采用循环神经网络,选择采用双向(gatedrecurrentunit,简称gru)结构来表征句子。判别器读入译后编辑文本和标准翻译文本,用双向的gru来表征两个句子的词嵌入后得到内容向量,给定损失函数,损失函数目标是对生成文本与参考文本之间进行判别,使得判别的越来越准。

判别器判别译后编辑文本和标准翻译文本的交叉熵损失的计算公式为:

p(y,r)=sigmoid(wd·||hy-hr||+bd)

判别器的损失函数用如下公式表示:

l(hy,hr)=-log(sigmoid(wd·||hy-hr||+bd))

其中,||hy-hr||表示译后编辑文本和标准翻译文本的内容向量之间的欧氏距离,wd和bd均为可训练参数。

当判别器输出的判别结果不满足预设的输出条件时,计算译后编辑文本的损失,并将该损失进行反馈,以优化译后编辑网络模型的网络参数,使生成更精准的译后编辑文本。

其中,生成译后编辑文本的目标函数的最大化期望值设置为:

对生成的译后编辑文本进行采样,并计算梯度

生成器的参数更新函数为:

当训练译后编辑网络模型中的判别器时,冻结生成器参数,并最小化判别器的损失函数。具体的,每进行4个epoch的训练生成器,再使用一个epoch训练判别器,依次迭代训练,直到模型的生成器和判别器均收敛后停止训练。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1