机器翻译模型的训练方法、装置与电子设备与流程

文档序号:18834938发布日期:2019-10-09 04:55阅读:217来源:国知局
机器翻译模型的训练方法、装置与电子设备与流程

本发明涉及机器翻译技术领域,更具体地,涉及一种机器翻译模型的训练方法、装置与电子设备。



背景技术:

在语言翻译领域,为了实现自动的机器翻译,目前的技术通常采用基于神经网络的方法,此方法需要收集大规模高质量的平行语料以训练可靠的神经网络模型。然而,高质量的平行语料常常只存在于少量的几种语言之间,并且往往受限于某些特定的领域,比如政府文件、新闻等。

目前,随着数据库和互联网等关键技术的发展,各种语言各个领域的电子文献日益丰富,为机器翻译提供了丰富的单语语料,从而也为解决上述问题提供了很大的便利。因此,如何利用单语语料来提升翻译系统的性能受到越来越多的关注。

back-translation是一种目前被广泛使用的利用单语语料的方法,其核心思想是使用机器翻译系统将单语数据翻译为平行语料库,进而扩大平行语料库的规模,以期望在大的平行语料库上训练得到更好的翻译模型。

然而,大的平行语料库并不能消除机器翻译本身可能出现的错误,当机器翻译本身出现错误时,将导致得到的翻译结果是有噪声的,影响翻译结果的精准性,不能达到期望的效果。



技术实现要素:

为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种机器翻译模型的训练方法、装置与电子设备,用以在即使存在噪声干扰时,也能更精准的训练翻译模型,保证翻译模型的精确性。

第一方面,本发明实施例提供一种机器翻译模型的训练方法,包括:

利用第一平行语料库,初步训练目标端到源端的翻译模型;

利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;

利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;

基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。

第二方面,本发明实施例提供一种机器翻译模型的训练装置,包括:

第一训练模块,用于利用第一平行语料库,初步训练目标端到源端的翻译模型;

合成模块,用于利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;

评估模块,用于利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;

第二训练模块,用于基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的机器翻译模型的训练方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被计算机执行时,实现如上第一方面所述的机器翻译模型的训练方法的步骤。

本发明实施例提供的机器翻译模型的训练方法、装置与电子设备,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的机器翻译模型的训练方法的流程示意图;

图2为本发明实施例提供的机器翻译模型的训练装置的结构示意图;

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。

本发明实施例针对现有技术中当存在噪声干扰时训练出的翻译模型翻译不精准的问题,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。

图1为本发明实施例提供的机器翻译模型的训练方法的流程示意图,如图1所示,该方法包括:

s101,利用第一平行语料库,初步训练目标端到源端的翻译模型。

具体而言,本发明实施例首先利用有限的平行语料库,也即第一平行语料库,对目标端到源端的翻译模型进行初步训练,得到训练后的目标端到源端的翻译模型,以据此对初步翻译结果进行可信度评估。如,在有限平行语料库上,可以初步训练目标端到源端的翻译模型得到训练后的目标端到源端的翻译模型。其中,平行语料库(parallelcorpus)是由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度可能有词级、句级和段级等几种。

s102,利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库。

可以理解为,为了打破有限平行语料库的作用限制,本发明实施例利用现有单语语料库来扩充有限的平行语料库。具体而言,对于待利用的单语语料库也即给定单语语料库,将其中的每一句单语语料利用上述步骤得到的训练后的目标端到源端的翻译模型进行翻译,得到这些单语语料对应的译文语料库称作合成语料库。之后,将合成语料库与原始的给定单语语料库进行拼接,得到一个合成的平行语料库,称作第二平行语料库。

其中可选的,假设上述给定单语语料库为翻译后获取合成语料库为的基础上,将合成语料库与给定单语语料库拼接,获取第二平行语料库的步骤具体可以包括:按如下形式拼接合成语料库与给定单语语料库,获取第二平行语料库:

式中,即表示第二平行语料库。

s103,利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度。

可以理解为,在利用上述训练后的目标端到源端的翻译模型对训练样本进行翻译得到翻译结果之后,可以通过对该翻译结果的可信度评估来进一步指导训练过程,从而训练出可信度更高的翻译模型。也即,本发明实施例提供了一种信心评估机制,自动评估机器翻译模型对翻译结果的信心或者称为可信度,从而在训练时可以考虑有噪声数据的信心,以期望达到更好的翻译效果。具体而言,为消除有限平行语料库的限制带来的过拟合问题,采用蒙特·卡罗随机失活算法,来对上述翻译结果进行可信度评估,得到评估结果,即可信度。

s104,基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。

可以理解为,在根据上述步骤得到评估结果即可信度之后,将上述第一平行语料库与第二平行语料库进行整合,成为一个完整的训练样本库,也即整体语料库,再在该整体语料库上来对源端到目标端的翻译模型进行训练,以使训练出的翻译模型更精准、更可靠。则进一步的,可利用该训练出的翻译模型对待翻译文档进行翻译,得到更精准、更可靠的翻译译文。

本发明实施例提供的机器翻译模型的训练方法,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。

在实际应用中,语料库中的语料通常可能出现乱码、字符不统一等问题,导致数据处理过程较为复杂。为此,在利用第一平行语料库,初步训练目标端到源端的翻译模型的步骤之前,本发明实施例的机器翻译模型的训练方法还可以包括:对第一平行语料库中的数据依次进行乱码过滤处理、中文半角字符转全角处理、中文分词处理和英文语料小写化处理,建立对应的词表;相应的,基于该词表,初步训练目标端到源端的翻译模型。

可以理解为,本发明实施例可在应用数据前对所有数据进行预处理,包括乱码过滤、中文半角字符转全角、中文分词、英文语料小写化和建立词表等步骤。此处所有数据可以包括第一平行语料库中的所有数据和/或给定单语语料库中的数据等。

其中,根据上述各实施例可选的,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度的步骤具体包括:

利用蒙特·卡罗随机失活算法,随机选取训练后的目标端到源端的翻译模型的部分权重;利用部分权重,计算翻译结果中每一个词级别的后验概率;针对翻译结果,重复执行随机选取至计算的步骤,直至达到给定次数,获取对翻译结果中所有词的后验概率集合;基于后验概率集合,计算概率均值和概率方差,并基于概率均值和概率方差,求解翻译结果中词级别的可信度和句子级别的可信度。

具体而言,为了描述方便,本发明实施例根据上述各实施例,假设目标端到源端的翻译模型对目标端句子y翻译得到的翻译结果为则:

步骤1,使用dropout随机挑选模型的部分权重得到

步骤2,使用计算中每一个词级别的概率

步骤3,循环执行步骤1至步骤2的操作k次,对中每一个词得到:

步骤4,根据概率集合计算均值和方差其中i=1,...,i;

步骤5,定义的信心计算公式为:

其中i=1,...,i。

则利用上式计算的信心

类似的,可以定义整句的信心中每一个词,都执行上述步骤1至步骤5的操作,计算得到对每句话的信心和每个词的信心。

在基于上述各实施例计算得到每个句子的可信度和每个词的可信度的基础上,可分别利用每个句子的可信度和每个词的可信度来训练源端到目标端的翻译模型,具体应用时,对词级信心的利用和句级信心的利用有所差异。

其中可选的,对于句子级别的可信度,基于可信度,训练源端到目标端的翻译模型的步骤具体包括:

基于句子级别的可信度,通过修改对源端到目标端的翻译模型的训练准则,训练源端到目标端的翻译模型,其中,修改训练过程的目标函数如下:

确定采用极大似然法的训练方式如下:

式中,db表示第一平行语料库,表示第二平行语料库,θx→y表示源端到目标端的翻译模型的参数,m、n分别表示第一平行语料库和第二平行语料库的规模,x(m)、y(m)表示第一平行语料库中的一个平行句对,y(n)表示第二平行语料库中的一个平行句对,表示训练后的目标端到源端的翻译模型的参数。

其中可选的,对于词级别的可信度,基于可信度,训练源端到目标端的翻译模型的步骤具体包括:

基于词级别的可信度,通过修改对源端到目标端的翻译模型的注意力机制,训练源端到目标端的翻译模型,其中,假设源端到目标端的翻译模型的原始注意力机制为:

将词级别的可信度的向量表示整合到注意力机制中,获取新的注意力机制:

基于新的注意力机制,训练源端到目标端的翻译模型。

也就是说,其一,通过修改对翻译模型的训练准则,来利用句子级别的信心:

其中训练方式为极大似然法:

其二,通过修改注意力机制来利用词级别的信心,假设使用的翻译模型中的原始注意力机制为:

将词级别的信心向量整合到注意力机制中,得:

通过利用词级别和句级别的信心,期望模型θx→y可以在有噪声的平行语料库上获得更好的效果。

另外,在上述各实施例的基础上,在训练源端到目标端的翻译模型的步骤之后,本发明实施例的机器翻译模型的训练方法还可以包括:利用训练完成的源端到目标端的翻译模型,翻译待翻译文件。

为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下具体的处理流程,但不对本发明实施例的保护范围进行限制。

本发明实施例的目的在于能够在使用单语数据生成的有噪声平行语料库上更好地训练神经网络翻译模型,具体在有噪声数据上训练翻译模型的方法可包括以下步骤:

首先,在有限平行语料库上训练目标端到源端的翻译模型

其次,使用对单语语料库中每句话进行翻译,得到合成语料库将合成语料库与单语语料库拼接,得到合成平行语料库

再次,使用蒙特·卡罗随机失活(montecarlodropout,mcdropout)算法,评估对翻译结果的信心;

最后,使用上一步骤中得到的信心,指导翻译模型上的训练过程,以期望达到更好的翻译效果。

本发明实施例基于mcdropout计算得到的不确定度,来对机器翻译结果进行信心评估,与现有质量评估技术相比是一种无监督的方法,因而有更加广泛的使用情境。本发明实施例基于back-translation的方法,是一种利用信心的训练方法,可以让模型在有噪声的数据上有针对性的减弱噪声带来的影响。实验证明,相比于朴素的back-translation的方法,本发明实施例的方法可以有效提升译文的质量。

基于相同的构思,本发明实施例根据上述各实施例还提供一种机器翻译模型的训练装置,该装置用于在上述各实施例中实现机器翻译模型的训练。因此,在上述各实施例的机器翻译模型的训练方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。

根据本发明实施例的一个实施例,机器翻译模型的训练装置的结构如图2所示,为本发明实施例提供的机器翻译模型的训练装置的结构示意图,该装置可以用于实现上述各方法实施例中机器翻译模型的训练,该装置包括:第一训练模块201、合成模块202、评估模块203和第二训练模块204。其中:

第一训练模块201用于利用第一平行语料库,初步训练目标端到源端的翻译模型;合成模块202用于利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;评估模块203用于利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;第二训练模块204用于基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。

具体而言,第一训练模块201利用有限的平行语料库,也即第一平行语料库,对目标端到源端的翻译模型进行初步训练,得到训练后的目标端到源端的翻译模型,以据此对初步翻译结果进行可信度评估。其中,平行语料库(parallelcorpus)是由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度可能有词级、句级和段级等几种。

之后,为了打破有限平行语料库的作用限制,合成模块202利用现有单语语料库来扩充有限的平行语料库。具体而言,对于待利用的单语语料库也即给定单语语料库,合成模块202将其中的每一句单语语料利用上述步骤得到的训练后的目标端到源端的翻译模型进行翻译,得到这些单语语料对应的译文语料库称作合成语料库。之后,合成模块202将合成语料库与原始的给定单语语料库进行拼接,得到一个合成的平行语料库,称作第二平行语料库。

再之后,在利用上述训练后的目标端到源端的翻译模型对训练样本进行翻译得到翻译结果之后,评估模块203可以通过对该翻译结果的可信度评估来进一步指导训练过程,从而训练出可信度更高的翻译模型。也即,评估模块203利用一种信心评估机制,自动评估机器翻译模型对翻译结果的信心或者称为可信度,从而在训练时可以考虑有噪声数据的信心,以期望达到更好的翻译效果。具体而言,为消除有限平行语料库的限制带来的过拟合问题,评估模块203采用蒙特·卡罗随机失活算法,来对上述翻译结果进行可信度评估,得到评估结果,即可信度。

最后,第二训练模块204在得到评估结果即可信度之后,将上述第一平行语料库与第二平行语料库进行整合,成为一个完整的训练样本库,也即整体语料库,再在该整体语料库上来对源端到目标端的翻译模型进行训练,以使训练出的翻译模型更精准、更可靠。则进一步的,可利用该训练出的翻译模型对待翻译文档进行翻译,得到更精准、更可靠的翻译译文。

本发明实施例提供的机器翻译模型的训练装置,通过设置相应的执行模块,处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。

可以理解的是,本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的机器翻译模型的训练装置利用上述各程序模块,能够实现上述各方法实施例的机器翻译模型的训练流程,在用于实现上述各方法实施例中机器翻译模型的训练时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。

作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤。

进一步的,本发明实施例的电子设备还可以包括通信接口和总线。参考图3,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器301、至少一个处理器302、通信接口303和总线304。

其中,存储器301、处理器302和通信接口303通过总线304完成相互间的通信,通信接口303用于该电子设备与翻译模型设备之间的信息传输;存储器301中存储有可在处理器302上运行的计算机程序,处理器302执行该计算机程序时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤。

可以理解为,该电子设备中至少包含存储器301、处理器302、通信接口303和总线304,且存储器301、处理器302和通信接口303通过总线304形成相互间的通信连接,并可完成相互间的通信,如处理器302从存储器301中读取机器翻译模型的训练方法的程序指令等。另外,通信接口303还可以实现该电子设备与翻译模型设备之间的通信连接,并可完成相互间信息传输,如通过通信接口303实现机器翻译模型的训练等。

电子设备运行时,处理器302调用存储器301中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型等。

上述的存储器301中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被计算机执行时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤,例如包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型等。

本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的机器翻译模型的训练方法,处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。

可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如u盘、移动硬盘、rom、ram、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。

最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1