一种数据处理方法、装置、计算机设备及存储介质

文档序号:30171325发布日期:2022-05-26 10:32阅读:63来源:国知局
一种数据处理方法、装置、计算机设备及存储介质

1.本技术涉及人工智能中的自然语言处理技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。


背景技术:

2.随着计算机技术的快速发展,人工智能技术在很多领域得到了应用。其中,人工智能技术中的深度神经网络的应用也越来越广泛,比如语音识别技术,计算机视觉技术,自然语言处理技术等领域,并且深度神经网络模型在多种任务中表现出色,特别是机器翻译任务。在机器翻译中所利用的神经网络机器翻译(neural machine translation,nmt)模型进行训练时,通常会出现训练数据中单词不均衡的问题,使得最后训练得到的翻译模型的性能不能达到较佳效果。


技术实现要素:

3.本技术实施例提供了一种数据处理方法、装置、计算机设备以及存储介质,可以提高翻译模型的翻译效果,使得文本翻译更准确,提高数据处理准确性。
4.本技术实施例第一方面公开了一种数据处理方法,所述方法包括:
5.获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括j个数据,j为正整数;
6.根据所述第一样本语句和所述第二样本语句中的前j-1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,j];
[0007]
根据所述第二样本语句中的前j-1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0008]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0009]
获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0010]
本技术实施例第二方面公开了一种数据处理装置,所述装置包括:
[0011]
获取单元,用于获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括j个数据,j为正整数;
[0012]
第一确定单元,用于根据所述第一样本语句和所述第二样本语句中的前j-1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,j];
[0013]
第二确定单元,用于根据所述第二样本语句中的前j-1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0014]
训练单元,用于根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0015]
翻译单元,用于获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0016]
本技术实施例第三方面公开了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
[0017]
本技术实施例第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0018]
本技术实施例第五方面公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述第一方面的方法。
[0019]
在本技术实施例中,可以获取包括至少一个目标样本语料对的样本语料集,其中,任一目标样本语料对可以包括第一样本语句以及该第一样本语句翻译后的第二样本语句,第二样本语句中可以包括j个数据。在获取到样本语料集之后,即可以根据第一样本语句和第二样本语句中的前j-1个数据对第二样本语句中的第j个数据进行概率预测处理,以得到第j个数据的第一预测概率;也可以根据第二样本语句中的前j-1个数据对第二样本语句的第j个数据进行概率预测处理,以得到第j个数据的第二预测概率。从而,可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型,而该目标模型则可以用于根据输入语句生成翻译后的输出语句。通过实施上述方法,可以通过融合目标端上下文信息的单词评估指标动态调整模型训练过程中对于每个单词样本的关注度,从而使模型在训练中更加关注一些重要的单词,进而可用于改进线上翻译系统,可以使得文本翻译更准确,提高数据处理准确性。
附图说明
[0020]
为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]
图1是本技术实施例提供的一种数据处理系统的架构示意图;
[0022]
图2是本技术实施例提供的一种数据处理方法的流程示意图;
[0023]
图3是本技术实施例提供的一种训练初始模型的结构示意图;
[0024]
图4是本技术实施例提供的另一种数据处理方法的流程示意图;
[0025]
图5是本技术实施例提供的另一种训练初始模型的结构示意图;
[0026]
图6是本技术实施例提供的一种数据处理装置的结构示意图;
[0027]
图7是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0028]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0029]
人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0030]
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0031]
自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0032]
机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0033]
基于上述人工智能技术中所提及的自然语言处理技术和机器学习等技术,本技术实施例提出了一种数据处理方案,该数据处理方案具体可以是对初始模型进行训练的实施方案,而对初始模型进行训练所得到的目标模型可以应用在翻译场景中,如可以针对一个待翻译语句输出对应的译文。
[0034]
具体的,该数据处理方案大致原理如下:可以获取包括至少一个目标样本语料对的样本语料集,其中,任一目标样本语料对可以包括第一样本语句以及该第一样本语句翻译后的第二样本语句,第二样本语句中可以包括j个数据。在获取到样本语料集之后,即可以根据第一样本语句,以及第二样本语句中的前j-1个数据对第二样本语句中的第j个数据进行概率预测处理,以得到第j个数据的第一预测概率,其中,j小于或等于j;也可以根据第二样本语句中的前j-1个数据对第二样本语句的第j个数据进行概率预测处理,以得到第j个数据的第二预测概率。可选的,第j个数据的第一预测概率可以通过初始模型中翻译网络(或称之为翻译模块或翻译模型等等)所得到,第j个数据的第二预测概率可以通过初始模型中语言网络(或称之为语言模块或语言模型等等)所得到。
[0035]
在得到第二样本语句中第j个数据的第一预测概率和第二预测概率之后,即可以基于第一预测概率和第二预测概率对初始模型进行训练,以得到目标模型。该目标模型可以是指初始模型中的翻译网络,而该目标模型则可以用于根据输入语句生成翻译后的输出语句。
[0036]
可选的,本技术实施例进行数据处理方法所得到的目标模型可以应用在翻译设备(或翻译系统、翻译平台等)中。在具体的翻译场景中,该翻译设备可以获取输入语句,如输入语句为“我的名字是皮特”。可选的,该翻译设备可供用户输入需要翻译的语句,即输入语句,该输入语句可以是以语音输入的方式或文本输入的方式或其他输入方式,本技术不做限定。进一步地,翻译设备在获取到该输入语句之后,可以生成该输入语句的译文,如上述的输入语句的译文可以是“my name is peter”。可选的,该译文可以以文本的方式显示在翻译设备的设备屏幕上,或以语音方式输出。
[0037]
通过实施上述方法,可以利用单词级的自适应训练方法解决样本语料集中单词不均衡的问题,具体可以通过融合目标端上下文信息的单词评估指标动态调整模型训练过程中对于每个单词样本的关注度,从而使模型在训练中更加关注一些重要的单词,以提升翻译模型的翻译效果,进而可用于改进线上翻译系统,使得文本翻译更准确,提高数据处理准确性。
[0038]
在具体实现中,上述所提及的数据处理方案的执行主体可以是计算机设备,该计算机设备包括但不限于终端或服务器。换句话说,计算机设备可以是服务器或终端,也可以是服务器和终端组成的系统。其中,以上所提及的终端可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid)等。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0039]
需要说明的是,当计算机设备为服务器时,本技术实施例提供了一种数据处理系统,如图1所示,该数据处理系统包括至少一个终端和至少一个服务器;终端可以获取样本语料集,并将获取到的样本语料集上传至服务器(即计算机设备),以使计算机设备可以获取到该样本语料集,并根据该样本语料集对初始模型进行训练,以得到目标模型。可选的,在得到目标模型之后,该目标模型可以进一步应用在翻译场景中,例如,可以获取待翻译的输入语句,并将该输入语句输入目标模型,以得到该输入语句翻译后的输出语句。
[0040]
基于上述所提供的数据处理方案,本技术实施例提供了一种数据处理方法,该数据处理方法可由上述所提及的计算机设备执行。请参阅图2,该数据处理方法包括但不限于以下步骤:
[0041]
s201,获取样本语料集,样本语料集包括至少一个目标样本语料对,目标样本语料对包括第一样本语句和第二样本语句。
[0042]
其中,样本语料集可以包括一个或多个目标样本语料对,每一个目标样本语料对
可以包括第一样本语句和第二样本语句,其中,第二样本语句是第一样本语句翻译后的语句,即第一样本语句和第二样本语句是两种不同语言类型的语句。例如,第一样本语句和第二样本语句可以是中文、英文、德文、韩文、日文或其他语言类型中的任意两个不同语言类型的语句。如第一样本语句和第二样本语句可以分别为中文和英文;又如,第一样本语句和第二样本语句可以分别为英文和德文。第二样本语句中可以包括j个数据,第二样本语句中所包括的j个数据可以是指该第二样本语句中所包括的单词。例如,第一样本语句为“我的名字是皮特”,则对应的第二样本语句可以为“my name is peter”,其中,该第二样本语句中包括以下4个数据(单词):my、name、is、peter。
[0043]
在一种实现方式中,计算机设备可以从终端获取样本语料集,也可以从存储有文本数据的文本数据库中获取样本语料集,还可以从其他路径获取样本语料集。其中,样本语料集可以包括各种领域的文本数据,例如,体育领域的文本数据、医学领域的文本数据等等。可以理解的是,在本技术的具体实施方式中,若样本语料集涉及到用户信息等相关的数据,则计算机设备获取到的样本语料集为用户授权后的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0044]
s202,根据第一样本语句和第二样本语句中的前j-1个数据对第二样本语句中的第j个数据进行概率预测处理,得到第j个数据的第一预测概率。
[0045]
s203,根据第二样本语句中的前j-1个数据对第二样本语句的第j个数据进行概率预测处理,得到第j个数据的第二预测概率。
[0046]
其中,j∈[1,j],j为正整数,即j可以是指第二样本语句中所包括的j个数据中的任一数据。
[0047]
在步骤s202和步骤s203中,计算机设备可以确定第j个数据的第一预测概率和第二预测概率。可选的,计算机设备可以通过初始模型包括的翻译网络得到第j个数据的第一预测概率,并通过初始模型包括的语言网络得到第j个数据的第二预测概率。
[0048]
在一种实现方式中,如图3所述为本技术实施例提供的一种对初始模型进行训练的结构示意图,如图3所示,初始模型包括翻译网络和语言网络。其中,计算机设备可以通过如图3所示的翻译网络得到第j个数据的第一预测概率,具体实现中,可以将第一样本语句和第二样本语句中的前j-1个数据输入翻译网路,以实现对第二样本语句中的第j个数据进行概率预测处理,从而得到第j个数据的第一预测概率。并可以通过如图3所示的语言网络得到第j个数据的第二预测概率,具体实现中,可以将第二样本语句中的前j-1个数据输入语言网路,以实现对第二样本语句中的第j个数据进行概率预测处理,从而得到第j个数据的第二预测概率。其中,第一预测概率可以理解为通过翻译网络预测的该第二样本语句中第j个位置所在的数据为该第j个数据的概率;同理,第二预测概率可以理解为通过语言网络预测的该第二样本语句中第j个位置所在的数据为该第j个数据的概率。
[0049]
举例来说,假设第一样本语句为“我的名字是皮特”,第二样本语句为“my name is peter”,且j=4,则第二样本语句中的前j-1个数据包括:my name is。那么,翻译网络的输入为“我的名字是皮特”以及“my name is”,该翻译网络可以预测到第4个数据为“peter”的概率,即上述的第一预测概率;语言网络的输入为“my name is”,该语言网络可以预测到第4个数据为“peter”的概率,即上述的第二预测概率。
[0050]
其中,该翻译网络可以是神经网络机器翻译(neural machine translation,nmt)网络。例如,翻译网络可以是rnnsearch网络(一种基于循环神经网络(recurrent neural network,rnn)的编码器-解码器框架的网络模型)或lightconv网络(一种基于卷积神经网络(convolutional neural network,cnn)的编码器-解码器框架的网络模型)或transformer网络(一种基于自关注神经网络(self-attention network,san)的编码器-解码器框架的网络模型)等等。语言网络可以是与翻译网络中的解码器相同的架构,也可以替换为其他架构的语言网络,如可以是长短期记忆网络(long short-term memory,lstm)或门控循环单元(gate recurrent unit,gru)网络等等。其中,gru是lstm的一种效果较好的变体网络。
[0051]
s204,根据第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型。
[0052]
在一种实现方式中,该初始模型可以是指上述描述中的翻译网络和语言网络所构建的模型。在对初始模型进行训练得到的目标模型可以是指经过训练后的翻译网络,该目标模型可以用于根据输入语句生成翻译后的输出语句。
[0053]
在一种实现方式中,可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,以得到目标模型。例如,可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率,确定第j个数据在训练过程中的训练权重,该训练权重可以用来表征在初始模型的训练过程中,第二样本语句中所包括的数据的关注度,或者说该训练权重可以用来评价每个数据在训练过程中的重要程度,其中,训练权重与关注度可以呈正相关,即当某一数据的训练权重越大,则对应的关注度也就越高,当某一数据的训练权重越小,则对应的关注度也就越低。而在得到该第j个数据的训练权重之后,即可以该训练权重对初始模型进行训练,从而得到目标模型。
[0054]
可选的,可以获取初始模型对应的目标损失函数,以利用第j个数据的训练权重和该目标损失函数对初始模型进行训练,得到目标模型。如可以根据第j个数据的训练权重和该目标损失函数计算目标损失值,以基于目标损失值对初始模型进行训练,从而得到目标模型。
[0055]
s205,获取待翻译的输入语句,将输入语句输入目标模型,生成翻译后的输出语句。
[0056]
在一种实现方式中,在得到该目标模型之后,该目标模型即可以应用在翻译场景中,例如,可以获取待翻译的输入语句,并在获取到该输入语句之后,可以将该输入语句输入目标模型,以生成翻译后的输入语句,该翻译后的输入语句可以称之为输出语句。
[0057]
在本技术实施例中,计算机设备可以获取包括至少一个目标样本语料对的样本语料集,其中,任一目标样本语料对可以包括第一样本语句以及该第一样本语句翻译后的第二样本语句,第二样本语句中可以包括j个数据。在获取到样本语料集之后,即可以根据第一样本语句和第二样本语句中的前j-1个数据对第二样本语句中的第j个数据进行概率预测处理,以得到第j个数据的第一预测概率;也可以根据第二样本语句中的前j-1个数据对第二样本语句的第j个数据进行概率预测处理,以得到第j个数据的第二预测概率。从而,可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型,而该目标模型则可以用于根据输入语句生成翻译后的输出语句。通过实施
上述方法,可以通过融合目标端上下文信息的单词评估指标动态调整模型训练过程中对于每个单词样本的关注度,从而使模型在训练中更加关注一些重要的单词,进而可用于改进线上翻译系统,可以使得文本翻译更准确,提高数据处理准确性。
[0058]
基于上述描述,本技术实施例进一步提出了另一种数据处理方法;在本技术实施例中,主要以计算机设备执行该数据处理方法为例进行说明,本实施例侧重于描述训练初始模型的过程。如图4所示,该数据处理方法包括但不限于以下步骤:
[0059]
s401,获取样本语料集,样本语料集包括至少一个目标样本语料对,目标样本语料对包括第一样本语句和第二样本语句。
[0060]
s402,根据第一样本语句和第二样本语句中的前j-1个数据对第二样本语句中的第j个数据进行概率预测处理,得到第j个数据的第一预测概率。
[0061]
s403,根据第二样本语句中的前j-1个数据对第二样本语句的第j个数据进行概率预测处理,得到第j个数据的第二预测概率。
[0062]
其中,步骤s401-s403的具体实施方式可以参见上述实施例步骤s201-s203的具体描述,此处不再赘述。
[0063]
s404,根据第二样本语句中第j个数据的第一预测概率和第二预测概率,确定第j个数据的训练权重。
[0064]
在一种实现方式中,在确定第二样本语句中第j个数据的第一预测概率和第二预测概率之后,可以基于这两个预测概率确定在初始模型训练过程中,该第j个数据的关注度(或重要程度),该关注度可以是用本技术提及的训练权重来表征。其中,训练权重与关注度可以呈正相关,即当某一数据的训练权重越大,则对应的关注度也就越高,当某一数据的训练权重越小,则对应的关注度也就越低。
[0065]
在一种实现方式中,考虑到确定第二样本语句中的每个数据的训练权重的方式均是一样的,则本技术以第二样本语句中的一个数据为例对确定该数据的训练权重进行相关阐述,下述主要以第二样本语句中的第j个数据为例进行说明,该第j个数据可以是第二样本语句中所包括的任一数据。同时,需要说明的是,针对样本语料集中的任一目标样本语料对,本技术所提供的模型对任一目标样本语料对的处理是一样的。
[0066]
在一种实现方式中,在确定第j个数据的训练权重时,可以利用该第j个数据针对单词级别的训练权重以及针对句子级别的训练权重来共同确定,即在确定每个数据的训练权重时,可以基于两个粒度(单词级别以及句子级别)的特征确定数据的关注度,以提高模型的模型效果。可选的,确定第j个数据的训练权重的具体实施方式可以为如下描述:可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率,确定第j个数据针对单词级别的训练权重,可以将该训练权重称之为第一训练权重;还可以根据第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率,确定第j个数据所在的第二样本语句针对句子级别的训练权重,可以将该训练权重称之为第二训练权重。而在得到第j个数据针对单词级别的第一训练权重、及第j个数据所在的第二样本语句针对句子级别的第二训练权重之后,即可以根据第一训练权重和第二训练权重确定第j个数据的训练权重。如可以将第一训练权重与第二训练权重之间的乘积结果作为第j个数据的训练权重。
[0067]
举例来说,第j个数据的训练权重可以为如下公式(1)所示:
[0068]
[0069]
其中,wj表示第j个数据的训练权重,表示第j个数据针对单词级别的第一训练权重,ws表示第j个数据所在的第二样本语句针对句子级别的第二训练权重。
[0070]
在一种实现方式中,为了在训练过程中融合目标端上下文的信息,以提升训练后模型的翻译效果,本技术提出一种基于条件双语互信息(conditional bilingual mutual information,cbmi)的机器翻译自适应训练方法,即利用条件双语互信息作为单词难度评估指标来进行单词级机器翻译自适应训练。可选的,在本技术中,可以利用多粒度条件双语互信息进行自适应权重计算的训练,即利用单词级别的条件双语互信息确定单词级别的第一训练权重,并利用句子级别的条件双语互信息确定句子级别的第二训练权重。
[0071]
经分析表明,针对单词级别的条件双语互信息(可简称为单词级cbmi)可由源端句子(可理解为翻译前的语句,如第一样本语句)与目标端句子(可理解为翻译后的语句,如第二样本语句)中的单词之间的条件互信息的公式推导得到,具体计算过程可以如下公式(2)所示:
[0072][0073]
其中,x表示第一样本语句,yj表示第二样本语句中的第j个数据(单词),y
《j
表示第二样本语句中的前j-1个数据(单词);cbmi
t
(x;yj)表示第j个数据的第一条件双语互信息,p
nmt
(yj)表示第j个数据的第一预测概率,p
lm
(yj)表示第j个数据的第二预测概率。
[0074]
通过上述公式(2)推导可知,通过将条件联合分布进行分解可以将公式(2)中的初始公式进行化简,最终可以将单词级cbmi表示为翻译模型对应的预测概率(即翻译网络输出的第一预测概率)与语言模型对应的预测概率(即语言网络输出的第二预测概率)的对数商的形式。
[0075]
同样,经分析表明,针对句子级别的条件双语互信息(可简称为句子级cbmi)可以由源端句子与目标端句子的互信息公式推导得到,具体计算过程可以如下公式(3)所示:
[0076][0077]
其中,y表示第二样本语句,cbmis(x;y)表示第二样本语句针对句子级别的第二条件双语互信息,|y|表示第二样本语句中所包括的数据的数据数量,|y|=j。
[0078]
通过上述公式(3)推导可知,通过条件概率公式可以将公式(3)中的初始公式中的条件概率进行分解,可以将句子级cbmi最终表示为句子内所有单词级cbmi的算术平均值。
[0079]
从上述描述也可知,可以通过翻译模型和语言模型计算条件双语互信息,则可以构建如图3所示的初始模型来对翻译模型进行训练,以实现利用多粒度的条件双语互信息进行自适应权重计算的训练方法。
[0080]
基于上述分析可知,确定第j个数据针对单词级别的第一训练权重、及第j个数据所在的第二样本语句针对句子级别的第一训练权重的具体实施方式可以为如下描述:
[0081]
(1)确定第j个数据针对单词级别的第一训练权重的具体实施方式可以包括:可以计算第二样本语句中第j个数据的第一预测概率和第二预测概率之间的比值,以利用该比值确定第j个数据针对单词级别的第一训练权重。如可以将该比值进行取对数处理,以得到第j个数据针对单词级别的第一条件双语互信息(可以简称为单词级cbmi)。例如,第j个数据的第一条件双语互信息可以为如下公式(4)所示:
[0082][0083]
而在得到第一条件双语互信息之后,可以再利用该第一条件双语互信息确定第j个数据针对单词级别的第一训练权重。
[0084]
可选的,可以将该第一条件双语互信息确定为第j个数据针对单词级别的第一训练权重,即
[0085]
可选的,考虑到在第二样本语句中各个数据的第一条件双语互信息之间的波动可能较大,如第二样本语句中某些数据的第一条件双语互信息可能较大,而有些数据的第一
条件双语互信息可能较小,为了减小各个数据的第一条件双语互信息的波动性,可以对各个数据的第一条件双语互信息进行归一化处理。其中,各个数据的第一条件双语互信息针对单词级别的归一化处理是一致的,下述以第二样本语句中第j个数据的归一化处理为例进行说明:可以先将第一条件双语互信息进行归一化处理,以将归一化处理后的第一条件双语互信息确定为第j个数据针对单词级别的第一训练权重,即其中,表示第j个数据的第一条件双语互信息进行归一化后的第一条件双语互信息。可选的,归一化处理的具体实现可以利用如线性函数归一化方法、0均值归一化方法等来实现,在本技术不做具体限定。
[0086]
例如,线性函数归一化方法是利用线性函数将原始数据利用线性化的方法转换为[0 1]的范围内。其中,在本技术中,为实现单词级cbmi进行句子内部的归一化操作,利用线性函数归一化方法进行归一化对应的归一化公式可以如公式(5)所示:
[0087][0088]
其中,表示第二样本语句的所有数据对应的第一条件双语互信息中最小的第一条件双语互信息,表示第二样本语句的所有数据对应的第一条件双语互信息中最大的第一条件双语互信息。例如,第二样本语句为“my name is peter”,该第二样本语句中的所有数据包括:my、name、is、peter,其中,各个数据分别对应的第一条件双语互信息分别为:p1、p2、p3、p4,且p1》p2》p3》p4,则针对该第二样本语句中的最大第一条件双语互信息为p1,最小第一条件双语互信息为p4。
[0089]
又如,0均值归一化方法是将原始数据集归一化为均值为0、方差1的数据集。通过0均值归一化方法可以减小一个语句中所包括的各个单词的单词级cbmi之间的差距,以保持各个单词的单词级cbmi之间的稳定分布。其中,在本技术中,为实现单词级cbmi进行句子内部的归一化操作,利用0均值归一化方法进行归一化对应的归一化公式可以如公式(6)所示:
[0090][0091]
其中,μ
t
和σ
t
分别表示第二样本语句中所有数据对应的第一条件双语互信息的均值和方差。可以理解的是,数据可以理解为单词,换言之,μ
t
和σ
t
分别表示第二样本语句中所有单词对应的单词级cbmi的均值和方差。例如,第二样本语句为“my name is peter”,该第二样本语句中的所有单词包括:my、name、is、peter,其中,各个单词分别对应的第一条件双语互信息分别为:p1、p2、p3、p4,则可以根据这四个单词分别对应的第一条件双语互信息确定均值μ
t
和方差σ
t
,如均值μ
t
=(p1+p2+p3+p4)/4。如
[0092]
可选的,可以在对第一条件双语互信息进行归一化处理之后,再进行缩放处理,以控制第一条件双语互信息对模型训练的影响,最后,可以将经过上述两次处理所得到的第一条件双语互信息确定为第j个数据针对单词级别的第一训练权重。具体实现中,可以对第一条件双语互信息进行归一化,以得到第j个数据针对单词级别的第一初始训练权重,在得
到该第一初始训练权重之后,再对该第一初始训练权重进行缩放处理,从而得到第j个数据针对单词级别的第一训练权重。
[0093]
举例来说,第j个数据针对单词级别的第一训练权重可以为如下公式(7)所示:
[0094][0095]
其中,scale
t
表示单词级缩放超参数,以控制单词级cbmi对模型的影响,该取值不做具体限定,例如,可以是0.1、0.15、0.3等数值,经实验表明,scale
t
设置为0.1时,模型效果较好。通过0均值归一化操作和缩放操作之后,最后可以将单词级的训练权重可以被限制在均值为1的有限范围内。
[0096]
(2)确定第二样本语句针对句子级别的第二训练权重的具体实施方式可以包括:首先,可以确定j个数据中各个数据针对单词级别的第一条件双语互信息,其中,各个数据针对单词级别的第一条件双语互信息的确定方式可以参考上述确定第j个数据针对单词级别的第一条件双语互信息,在此处不再赘述。在确定了各个数据对应的第一条件双语互信息之后,即可以根据这些数据分别对应的第一条件双语互信息确定第二样本语句针对句子级别的第二训练权重。
[0097]
在一种实现方式中,首先,可以根据各个数据对应的第一条件双语互信息确定第二样本语句针对句子级别的第二条件双语互信息。例如,可以计算各个数据针对单词级别的第一条件双语互信息之间的和值,以根据该和值确定第二样本语句针对句子级别的第二条件双语互信息,如可以将该和值和该第二样本语句中所包括的数据的数据数量之间的比值作为该第二样本语句针对句子级别的第二条件双语互信息,其中,该数据数量也就是上述提及的j。
[0098]
举例来说,第二样本语句针对句子级别的第二条件双语互信息可以如下公式(8)所示:
[0099][0100]
然后,在确定第二条件双语互信息之后,可以再根据该第二条件双语互信息确定第二样本语句针对句子级别的第二训练权重。其中,根据该第二条件双语互信息确定第二样本语句针对句子级别的第二训练权重的确定方式可以与根据该第一条件双语互信息确定第j个数据针对句子级别的第一训练权重的确定方式相似,如确定第二训练权重的实施方式可以为如下描述:
[0101]
可选的,可以将该第二条件双语互信息确定为第二样本语句针对句子级别的第二训练权重,即ws=cbmis(x;y)。
[0102]
可选的,考虑到在样本语料集中所包括的各个第二样本语句对应的第二条件双语互信息之间的波动可能较大,如某些第二样本语句的第二条件双语互信息可能较大,而某些第二样本语句的第二条件双语互信息可能较小,为了减小各个第二样本语句的第二条件双语互信息的波动性,可以对各个第二样本语句的第二条件双语互信息进行归一化处理。其中,各个第二样本语句的第二条件双语互信息针对句子级别的归一化处理是一致的,下述以一个第二样本语句中的归一化处理为例进行说明:可以先将第二条件双语互信息进行归一化处理,以将归一化处理后的第二条件双语互信息确定为第二样本语句针对句子级别
的第二训练权重,即其中,表示第二条件双语互信息进行归一化后的第二条件双语互信息。可选的,归一化处理的具体实现可以利用例如可以是线性函数归一化方法、0均值归一化方法等等,在本技术不做具体限定。
[0103]
例如,在本技术中,为实现句子级cbmi进行句子间的归一化操作,利用线性函数归一化方法进行归一化对应的归一化公式可以如公式(9)所示:
[0104][0105]
其中,表示在初始模型的训练过程中,当前批次中所包括的所有第二样本语句中对应的第二条件双语互信息中最小的第二条件双语互信息,表示所有第二样本语句中对应的第二条件双语互信息中最大的第二条件双语互信息。
[0106]
需要说明的是,在训练过程中,如果当前批次所利用的目标样本语料对为样本语料集中的全部,则当前批次中所包括的第二样本语句包括:样本语料集中每个目标样本语料对的第二样本语句;如果当前批次所利用的目标样本语料对为样本语料集中的部分,则当前批次中所包括的第二样本语句包括:样本语料集中该部分目标样本语料对的第二样本语句。例如,如果样本语料集包括7个目标样本语料对,且假设当前批次包括该7个目标样本语料对,则是指该7个目标样本语料对所对应的7个第二样本语句的第二条件双语互信息中最小的第二条件双语互信息。又如,假设当前批次包括4个目标样本语料对,则是指该4个目标样本语料对所对应的4个第二样本语句的第二条件双语互信息中最小的第二条件双语互信息。对应的,可以参考的确定方式。
[0107]
又如,在本技术中,也可以利用0均值归一化方法实现句子级cbmi进行句子间的归一化操作,通过0均值归一化方法可以减小当前批次中所包括的各个第二样本语句的句子级cbmi之间的差距,以保持各个第二样本语句的句子级cbmi之间的稳定分布。其中,利用0均值归一化方法进行归一化对应的归一化公式可以如公式(10)所示:
[0108][0109]
其中,μs和σs分别表示在初始模型的训练过程中,当前批次中所包括的所有第二样本语句中对应的第二条件双语互信息的均值和方差,即μ
t
和σ
t
分别表示当前批次中所有目标端句子对应的句子级的cbmi的均值和方差。例如,当前批次包括5个第二样本语句,其中,各个第二样本语句分别对应的第二条件双语互信息分别为:q1、q2、q3、q4、q5,则可以根据这5个第二样本语句对应的第二条件双语互信息确定μs和σs,如μs=(q1+q2+q3+q4+q5)/5。
[0110]
可选的,可以在对第二条件双语互信息进行归一化处理之后,再进行缩放处理,以控制第二条件双语互信息对模型训练的影响,最后,可以将经过上述两次处理所得到的第二条件双语互信息确定为第二样本语句针对句子级别的第二训练权重。具体实现中,可以对第二条件双语互信息进行归一化,以得到第二样本语句针对句子级别的第二初始训练权重,在得到该第二初始训练权重之后,再对该第二初始训练权重进行缩放处理,从而得到第二样本语句针对句子级别的第二训练权重。
[0111]
举例来说,第二样本语句针对句子级别的第二训练权重可以为如下公式(11)所示:
[0112][0113]
其中,scales表示句子级的缩放超参数,以控制句子级cbmi对模型的影响,该取值不做具体限定,例如,可以是0.1、0.15、0.3等数值,经实验表明,scales设置为0.1时,模型效果较好。通过0均值归一化操作和缩放操作之后,最后可以将句子级的训练权重可以被限制在均值为1的有限范围内。
[0114]
s405,获取初始模型的目标损失函数,利用第j个数据的训练权重和目标损失函数,计算目标损失值。
[0115]
s406,基于目标损失值对初始模型进行训练,得到目标模型。
[0116]
在步骤s405和步骤s406中,计算机设备可以获取初始模型对应的目标损失函数,以利用第j个数据的训练权重和该目标损失函数对初始模型进行训练,得到目标模型。
[0117]
例如,该目标损失函数可以如下公式(12)所示:
[0118][0119]
其中,θ表示初始模型中翻译网络对应的模型参数。
[0120]
可选的,可以利用第j个数据的训练权重和目标损失函数,计算目标损失值,以基于目标损失值对初始模型进行训练,从而得到目标模型。如公式(12)所示,可以将第j个数据的训练权重与该第j个数据对应的损失相乘,得到该第j个数据最终的自适应损失,再进行反向传播,从而训练初始模型。
[0121]
为更好的理解本技术实施例所提供的数据处理方法,下面结合图5所示的对训练初始模型的结构示意图进行进一步说明,如图5所示,该图中所示的流程可以是本技术所提出的一种基于条件双语互信息的自适应训练过程。其中,两个实线矩阵分别表示神经机器翻译模型(即上述提及的翻译网络),以及目标端的神经语言模型(即上述提及的语言网络);两个实线圆角矩形框分别代表本技术提出的单词级的条件双语互信息和句子级的条件双语互信息;虚线圆角矩形框表示经过自适应调整的翻译模型的损失,用于更新翻译模型的模型参数。
[0122]
基于图5的结构图,本技术所提出的数据处理方式可以包括以下步骤:
[0123]
1、将源端句子x(即上述的第一样本语句)与目标端句子部分前缀y
《j
(即上述的第二样本语句中的前j-1个数据)输入到翻译模型中,同时将目标端句子部分前缀输入到目标端语言模型中,二者分别输出各自对当前词yj的预测概率(即上述的第一预测概率和第二预测概率);
[0124]
2、根据两个模型输出的预测概率计算对应的单词级cbmi;
[0125]
3、根据目标端整句中所有单词对应的单词级cbmi求平均,计算出句子级cbmi;
[0126]
4、两个级别的cbmi分别在各自的粒度上进行归一化和缩放,组成各自粒度上的训练权重,最后将两个训练权重相乘得到最终单词的训练权重,再将其乘到单词对应的损失上进行反向传播,以实现对翻译模型的训练。
[0127]
可以看出,本技术所提供的数据处理方法可以大概理解为一种利用条件双语互信
息的自适应训练方法,该方法具体可以是一种基于条件双语互信息的机器翻译单词重要度度量方法,即根据条件双语互信息来度量单词在训练过程中的重要度,以提高翻译模型的模型效果。可选的,条件双语互信息可以通过本技术所提供的在训练过程中所涉及的翻译模型和语言模型来确定。
[0128]
在本技术实施例中,可以基于上下文相关的条件双语互信息的机器翻译自适应训练方法来实现对翻译模型的训练,其中,在训练过程中的单词评估指标即条件双语互信息可以很好的融合目标端上下文信息,同时,该指标可以实现在训练过程中通过模型实时计算,以降低引入上下文信息的计算和存储成本;通过融合目标端上下文信息的单词评估指标也可以动态调整模型训练过程中对于每个单词样本的关注度,从而使模型在训练中更加关注一些重要的单词,进而可用于改进线上翻译系统,可以使得文本翻译更准确,提高数据处理准确性。
[0129]
在一种实现方式中,为了证明利用本技术所提供的数据处理方法所得到的目标模型的模型效果(如翻译效果),还可以对该目标模型进行测试。例如,可以将本技术所得到的目标模型的翻译效果与其他的翻译模型的翻译效果进行对比分析。如表1所示中的数据可以是在不同训练方式所得到的翻译模型的翻译效果。
[0130]
表1:
[0131]
模型wmt14 en-dewmt19 zh-entransformer28.0224.94transformer+词频128.28(+0.26)24.76(-0.18)transformer+词频228.24(+0.22)25.08(+0.14)transformer+bmi28.46(+0.44)25.24(+0.30)transformer+本技术28.90(+0.88)25.65(+0.69)
[0132]
在一种实现方式中,测试数据为第14届国际机器翻译大赛(14th-conference on machine translation,wmt14)的英德(en-de)数据集以及第19届国际机器翻译大赛(19th-conference on machine translation,wmt19)的中英(zh-en)数据集。翻译效果可以用双语评价替补(bilingual evaluation understudy,bleu)来进行评测,如表1中的第2列和第3列中所示的数据即是bleu指标,bleu是一种衡量文本之间相似度的方法,常用来评测译文质量;换言之,bleu表示的可以是翻译评测指标,该指标通常是机器翻译评测的标准方法,bleu值越高表示翻译效果越好。
[0133]
在一种实现方式中,在翻译效果的测试中,所利用到的翻译模型均是transformer模型,不同之处在于训练方式该翻译模型的训练方式不同。如表1中的“transformer”表示基于传统训练方式锁得到的transformer模型;“transformer+词频1”和“transformer+词频2”表示基于词频的机器翻译自适应训练方法所得到的transformer模型,这两种模型是使用目标端单词的词频信息作为单词难度衡量指标来进行单词级机器翻译自适应训练。“transformer+词频1”表示根据词频1调整训练权重的方式进行训练得到的transformer模型;“transformer+词频2”表示根据词频2调整训练权重的方式进行训练得到的transformer模型。
[0134]
如“transformer+词频1”在训练过程中的训练权重可以是指数型权重,其具体形式可以如下公式(13)所示:
[0135][0136]
如“transformer+词频2”在训练过程中的训练权重可以是卡方型权重,其具体形式可以如下公式(14)所示:
[0137][0138]
在公式(13)和公式(14)中,a和t均为超参数,count()是计数函数,yk表示目标端句子中的第k个单词。
[0139]
在一种实现方式中,表1中的“transformer+bmi”表示基于双语互信息(bilingual mutual information,bmi)的机器翻译自适应训练方法所得到的transformer模型,这种训练方式可以使用双语互信息(bmi)作为单词难度评估指标来进行单词级机器翻译自适应训练。在训练过程中的训练权重可以是bmi型权重,即训练权重为bmi,其中,bmi具体的计算方式可以如下公式(15)所示:
[0140][0141]
其中,x和xi表示双语句对中的源端句子和源端句子中的第i个单词,yj表示目标端句子的第j个单词,f()是计数函数,k表示双语句对总数。
[0142]
在一种实现方式中,表1中的“transformer+本技术”表示基于本技术的数据处理方法(即基于条件双语互信息的机器翻译自适应训练方法)训练得到的transformer模型。
[0143]
从表1中可以看出,利用本技术所提供的训练方式所得到的transformer模型的相比于表1中其他训练方式所得到的transformer模型的翻译效果有显著的改进,即本技术较之传统的transformer模型以及常用的单词级自适应训练方法所得到的transformer模型表现出更好的翻译效果,这也证明了在本技术中利用条件双语互信息的方式所训练得到的翻译模型的有效性。
[0144]
通过上述描述可知,“transformer+词频1”和“transformer+词频2”相比于“transformer”能够有效提升目标端低频词的翻译效果,“transformer+bmi”相比于“transformer+词频1”以及“transformer+词频2”可以进一步考虑到双语的信息,相比于前3种训练方式所得到的transformer模型,也更加适合作为翻译任务的单词评估指标。但是,这些方式在翻译模型的训练过程中所应用的指标均缺少目标端的上下文信息,即所应用到的指标是基于上下文无关的单词统计指标,难以对目标端句子中的每个单词进行准确的评估。如果上述其他训练方式所得到的翻译模型进行上下文相关的统计计算,则会引入大量的计算和存储代价,使得在实际使用中难以实现。而本技术所提出的基于条件双语互信息的机器翻译单词级自适应训练方法中的单词评估指标(条件双语互信息)能在训练过程中进行高效的上下文相关的计算,使其能够融合目标端上下文信息,可以实现在训练过程中通过模型实时计算,从而降低了引入上下文信息的计算和存储成本,也可以提升了机器翻译的效果,最终使得本技术能够在两个wmt机器翻译评测任务上优于现有的单词级自适应训练方法。
[0145]
请参阅图6,图6是本技术实施例提供的一种数据处理装置的结构示意图。本实施
例中所描述的数据处理装置,包括:
[0146]
获取单元601,用于获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括j个数据,j为正整数;
[0147]
第一确定单元602,用于根据所述第一样本语句和所述第二样本语句中的前j-1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,j];
[0148]
第二确定单元603,用于根据所述第二样本语句中的前j-1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0149]
训练单元604,用于根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0150]
翻译单元605,用于获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0151]
在一种实现方式中,所述训练单元604,具体用于:
[0152]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据的训练权重;
[0153]
获取所述初始模型的目标损失函数,利用所述第j个数据的训练权重和所述目标损失函数,计算目标损失值;
[0154]
基于所述目标损失值对初始模型进行训练,得到目标模型。
[0155]
在一种实现方式中,所述训练单元604,具体用于:
[0156]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据针对单词级别的第一训练权重;
[0157]
根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率,确定所述第二样本语句针对句子级别的第二训练权重;
[0158]
根据所述第一训练权重和所述第二训练权重确定所述第j个数据的训练权重。
[0159]
在一种实现方式中,所述训练单元604,具体用于:
[0160]
计算所述第二样本语句中第j个数据的第一预测概率和第二预测概率之间的比值;
[0161]
将所述比值进行取对数处理,得到所述第j个数据针对单词级别的第一条件双语互信息;
[0162]
利用所述第一条件双语互信息确定所述第j个数据针对单词级别的第一训练权重。
[0163]
在一种实现方式中,所述训练单元604,具体用于:
[0164]
确定所述j个数据中各个数据针对单词级别的第一条件双语互信息,并计算所述各个数据针对单词级别的第一条件双语互信息之间的和值;
[0165]
根据所述和值确定所述第二样本语句针对句子级别的第二条件双语互信息;
[0166]
利用所述第二条件双语互信息确定所述第二样本语句针对句子级别的第二训练权重。
[0167]
在一种实现方式中,所述训练单元604,具体用于:
[0168]
对所述第一条件双语互信息进行归一化,得到所述第j个数据针对单词级别的第一初始训练权重;
[0169]
对所述第一初始训练权重进行缩放处理,得到所述第j个数据针对所述单词级别的第一训练权重。
[0170]
在一种实现方式中,所述第一预测概率是通过初始模型中的翻译网络对所述第二样本语句中的第j个数据进行概率预测处理得到的;第二预测概率是通过初始模型中的语言网络对所述第二样本语句中的第j个数据进行概率预测处理得到的;所述目标模型包括训练后的初始模型中的翻译网络。
[0171]
可以理解,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本技术实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0172]
请参阅图7,图7是本技术实施例提供的一种计算机设备的结构示意图。该计算机设备包括:处理器701、存储器702。可选的,该计算机设备还可包括网络接口703。上述处理器701、存储器702以及网络接口703之间可以交互数据。
[0173]
上述处理器701可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0174]
上述存储器702可以包括只读存储器和随机存取存储器,并向处理器701提供程序指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。其中,所述处理器701调用所述程序指令时用于执行:
[0175]
获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括j个数据,j为正整数;
[0176]
根据所述第一样本语句和所述第二样本语句中的前j-1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,j];
[0177]
根据所述第二样本语句中的前j-1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0178]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0179]
获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0180]
在一种实现方式中,所述处理器701,具体用于:
[0181]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据的训练权重;
[0182]
获取所述初始模型的目标损失函数,利用所述第j个数据的训练权重和所述目标
损失函数,计算目标损失值;
[0183]
基于所述目标损失值对初始模型进行训练,得到目标模型。
[0184]
在一种实现方式中,所述处理器701,具体用于:
[0185]
根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据针对单词级别的第一训练权重;
[0186]
根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率,确定所述第二样本语句针对句子级别的第二训练权重;
[0187]
根据所述第一训练权重和所述第二训练权重确定所述第j个数据的训练权重。
[0188]
在一种实现方式中,所述处理器701,具体用于:
[0189]
计算所述第二样本语句中第j个数据的第一预测概率和第二预测概率之间的比值;
[0190]
将所述比值进行取对数处理,得到所述第j个数据针对单词级别的第一条件双语互信息;
[0191]
利用所述第一条件双语互信息确定所述第j个数据针对单词级别的第一训练权重。
[0192]
在一种实现方式中,所述处理器701,具体用于:
[0193]
确定所述j个数据中各个数据针对单词级别的第一条件双语互信息,并计算所述各个数据针对单词级别的第一条件双语互信息之间的和值;
[0194]
根据所述和值确定所述第二样本语句针对句子级别的第二条件双语互信息;
[0195]
利用所述第二条件双语互信息确定所述第二样本语句针对句子级别的第二训练权重。
[0196]
在一种实现方式中,所述处理器701,具体用于:
[0197]
对所述第一条件双语互信息进行归一化,得到所述第j个数据针对单词级别的第一初始训练权重;
[0198]
对所述第一初始训练权重进行缩放处理,得到所述第j个数据针对所述单词级别的第一训练权重。
[0199]
在一种实现方式中,所述第一预测概率是通过初始模型中的翻译网络对所述第二样本语句中的第j个数据进行概率预测处理得到的;第二预测概率是通过初始模型中的语言网络对所述第二样本语句中的第j个数据进行概率预测处理得到的;所述目标模型包括训练后的初始模型中的翻译网络。
[0200]
本技术实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,所述程序执行时可包括如图2或者图4对应实施例中的数据处理方法的部分或全部步骤。
[0201]
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0202]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可
以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0203]
本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
[0204]
以上对本技术实施例所提供的一种数据处理方法、装置、计算机设备以及存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1