翻译方法、装置、可读介质及电子设备与流程

文档序号:33192385发布日期:2023-02-04 09:08阅读:40来源:国知局
翻译方法、装置、可读介质及电子设备与流程

1.本公开涉及计算机技术领域,具体地,涉及一种翻译方法、装置、可读介质及电子设备。


背景技术:

2.随着计算机技术的进步,机器翻译成为自然语言文本处理中的一个重要研究课题。机器翻译是指通过计算机或其他电子设备,将源语言的文本翻译到与之语义等价的目标语言文本的过程。自然语言文本可以用不同的词汇和句法写成各种风格,而不同风格的语义学保持不变。语言风格在许多语言中起着重要的交流作用,例如英语中有美式英语风格和英式英语风格,韩语中有敬语风格和非敬语风格,等等。
3.但是,在相关技术中,机器翻译无法针对性的实现翻译后的语言风格,需要在翻译完成后再人工对语言进行调整,影响机器翻译的翻译效果和翻译效率。


技术实现要素:

4.提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
5.根据本公开实施例的第一方面,提供一种翻译方法,所述方法包括:
6.确定待翻译的源文本和目标语言风格;
7.根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;
8.将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
9.根据本公开实施例的第二方面,提供一种翻译装置,所述装置包括:
10.第一确定模块,用于确定待翻译的源文本和目标语言风格;
11.第二确定模块,用于根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;
12.翻译模块,用于将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
13.根据本公开实施例的第三方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理装置执行时实现本公开第一方面所述方法的步骤。
14.根据本公开实施例的第四方面,提供一种电子设备,包括:
15.存储装置,其上存储有计算机程序;
16.处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
17.采用上述技术方案,确定待翻译的源文本和目标语言风格;根据源文本,从目标语言风格对应的多个风格文本中确定待定风格文本;将源文本和待定风格文本输入预先生成的文本翻译模型,得到文本翻译模型输出的目标翻译文本,目标翻译文本的语言风格为目标语言风格。这样,可以通过待定风格文本对文本翻译模型的翻译过程进行辅助,使得该文本翻译模型可以无需大量风格化双语文本进行训练就可以实现准确的风格化翻译,既降低了文本翻译模型训练的复杂度,又提高了文本翻译模型进行风格化翻译的准确度。
18.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
19.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
20.图1是根据一示例性实施例示出的一种翻译方法的流程图。
21.图2是根据图1所示实施例示出的一种s102步骤的流程图。
22.图3是根据一示例性实施例示出的一种翻译方法的示意图。
23.图4是根据一示例性实施例示出的一种生成目标风格文本集的方法的流程图。
24.图5是根据一示例性实施例示出的一种翻译装置的框图。
25.图6是根据一示例性实施例示出的另一种翻译装置的框图。
26.图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
27.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
28.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
29.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
30.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
31.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。在本公开的描述中,除非另有说明,“多个”是指两个或多于两个,其它量词与之类似;“至少一项(个)”、“一项(个)或多项(个)”或其类似表达,是指的这些项(个)中的任意组合,包括单项
(个)或复数项(个)的任意组合。例如,至少一项(个)a,可以表示任意数目个a;再例如,a,b和c中的一项(个)或多项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个;“和/或”是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。
32.在本公开实施例中尽管在附图中以特定的顺序描述操作或步骤,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作或步骤,或是要求执行全部所示的操作或步骤以得到期望的结果。在本公开的实施例中,可以串行执行这些操作或步骤;也可以并行执行这些操作或步骤;也可以执行这些操作或步骤中的一部分。
33.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
34.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
35.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
36.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
37.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
38.同时,可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
39.下面结合具体实施例对本公开进行说明。
40.首先,对本公开的应用场景进行说明。本公开可以应用于语言翻译场景,特别是风格化语言翻译场景,例如,在将中文翻译为美式英语的场景,或者,将英文翻译为韩语的敬语风格的场景。
41.为了使得机器翻译模型能够实现风格化翻译,可以收集大量的风格化的双语文本(例如中文文本和美式英语文本的文本对,英文文本和韩语敬语风格文本的文本对),对机器翻译模型进行训练,以得到风格化的翻译模型。但是,使用该方法,需要收集大量的风格化双语文本,而由于风格化的双语文本语料有限,导致训练后的模型翻译准确度不高。
42.图1是根据一示例性实施例示出的一种翻译方法的流程图。该方法可以应用于电子设备,该电子设备可以包括终端设备,例如智能手机、智能可穿戴设备、智能音箱、智能平板、pda(personal digital assistant,个人数字助理)、cpe(customer premise equipment,客户终端设备)、个人计算机、车载终端等;该电子设备也可以包括服务器,例如本地服务器或云服务器。如图1所示,该方法可以包括:
43.s101、确定待翻译的源文本和目标语言风格。
44.其中,该目标语言风格可以是对源文本翻译后预期的语言风格;该源文本可以是词语、句子、段落或文章,本公开对此不作限定。
45.该源文本对应的语言可以称为源语言,待翻译后预期的语言可以称为目标语言,翻译后预期的语言风格可以称为目标语言风格。示例地,若用户输入的源文本为中文文本,则源语言为中文,翻译后预期的目标语言可以是英文,翻译后预期的目标语言风格可以是美式英语。
46.其中,翻译后的目标语言和目标语言风格可以由用户指定,也可以由电子设备自动检测确定。
47.在一些实施例中,可以将用户输入的待翻译文本作为源文本,将用户输入的语言风格作为目标语言风格。
48.示例地,可以向用户提供语言风格选择框,用户可以通过该语音风格选择框,选择相应的语言风格作为该目标语言风格。
49.在另一些实施例中,可以将用户输入的待翻译文本作为源文本,根据用户输入该源文本使用的电子设备的状态参数,自动确定目标语言风格。
50.其中,该状态参数可以包括电子设备的当前时区参数、国家和语言参数等。
51.s102、根据该源文本,从该目标语言风格对应的多个风格文本中确定待定风格文本。
52.其中,该目标语言风格对应的多个风格文本可以是预先生成的单语风格文本。示例地,若该目标语言风格为美式英语风格,则该多个风格文本均为美式英语风格的文本;若该目标语言风格为韩语敬语风格,则该多个风格文本均为韩语敬语风格的文本。
53.在一些实施例中,可以将多个风格文本中与该源文本最接近的文本作为该待定风格文本。例如,可以通过预先生成的文本编码模型,对风格文本和源文本分别进行编码并计算源文本和每个风格文本的相似度,将相似度最高的风格文本作为该待定风格文本。
54.在另一些实施例中,可以从多个风格文本中随机选择一个风格文本作为该待定风格文本。
55.s103、将该源文本和待定风格文本输入预先生成的文本翻译模型,得到文本翻译模型输出的目标翻译文本。
56.其中,该目标翻译文本的语言风格可以为目标语言风格。
57.在一些实施例中,可以将源文本和待定风格文本进行拼接后,得到目标拼接文本,并将目标拼接文本输入文本翻译模型,得到目标翻译文本。
58.示例地,可以根据预设关键词将源文本和待定风格文本进行拼接,可以拼接为待定风格文本+预设关键词+源文本,或者,也可以拼接为源文本+预设关键词+待定风格文本。
59.例如,该预设关键词可以是《token》,若该源文本为“我不知道,他也不会告诉我”,该待定风格文本为“i tell thee,kate,'twas burnt and dried away”,拼接后得到的目标拼接文本可以是“i tell thee,kate,'twas burnt and dried away《token》我不知道,他也不会告诉我”,也可以是“我不知道,他也不会告诉我《token》i tell thee,kate,'twas burnt and dried away”。
60.在另外一些实施例中,可以将源文本和待定风格文本分别输入上述文本翻译模
型,得到目标翻译文本。
61.在一些实施例中,该待定风格文本可以作为源文本对应的提示单语,用于对文本翻译模型进行提示,使得翻译后的目标翻译文本中保留该风格文本或该风格文本对应的目标语言风格,也就是使输出的目标翻译文本的语言风格为目标语言风格。
62.在另一些实施例中,该文本翻译模型可以根据该待定风格文本确定目标语言风格,使得在翻译后的目标翻译文本的语音风格与该目标语言风格相同或相似。
63.需要说明的是,上述文本翻译模型可以采用相关技术中的机器翻译模型,例如,transformer模型或bert模型,本公开对此不作限定。
64.采用上述方法,确定待翻译的源文本和目标语言风格;根据源文本,从目标语言风格对应的多个风格文本中确定待定风格文本;将源文本和待定风格文本输入预先生成的文本翻译模型,得到文本翻译模型输出的目标翻译文本,目标翻译文本的语言风格为目标语言风格。这样,可以通过待定风格文本对文本翻译模型的翻译过程进行辅助,使得该文本翻译模型可以无需大量风格化双语文本进行训练就可以实现准确的风格化翻译,既降低了文本翻译模型训练的复杂度,又提高了文本翻译模型进行风格化翻译的准确度。
65.图2是根据图1所示实施例示出的一种s102步骤的流程图。如图2所示,上述s102步骤可以包括以下子步骤:
66.s1021、确定目标语言风格对应的目标风格文本集。
67.其中,该目标风格文本集可以是预先生成的文本集,该目标风格文本集中可以包括多个风格文本,以及每个风格文本对应的第一向量,不同的语言风格可以对应不同的风格文本集,同一风格文本集中的风格文本对应的语言风格可以相同。
68.示例地,在目标语言风格为美式英语的情况下,该目标风格文本集可以是美式英语风格文本集。
69.s1022、将源文本输入预先生成的多语言编码模型中,得到多语言编码模型输出的第二向量。
70.需要说明的是,该多语言编码模型可以是基于xlm-roberta基础上进行开发的,但本实施例不限定于xlm-roberta的模型网络结构,也可以是其它神经网络结构。其中,xlm-roberta是一种典型的多语言预训练模型,是基于转换器的语言模型,其依赖于掩码语言模型为目标,能够处理100多种不同语言的文本。
71.在一些实施例中,该第二向量可以是512维或768维的向量。
72.在一些实施例中,上述第一向量也可以是通过相同的多语言编码模型对风格文本进行编码后得到的向量。
73.s1023、根据第二向量和第一向量,从目标风格文本集中确定待定风格文本。
74.在一些实施例中,可以从目标风格文本集的第一向量中,确定与第二向量的向量距离最小(也就是相似度最高)的第三向量;并将第三向量对应的风格文本作为待定风格文本。
75.在另一些实施例中,可以从目标风格文本集的第一向量中,确定与第二向量的向量距离最小的第三向量;在该第三向量与第二向量的向量距离小于或等于预设距离阈值的情况下,将第三向量对应的风格文本作为待定风格文本。该预设距离阈值可以是预先设定的阈值。
76.这样,可以根据源文本从目标语言风格对应的多个风格文本中确定待定风格文本。
77.这样,可以通过多语言编码模型,进行跨语言检索,得到源文本对应的待定风格文本,并将检索出的待定风格文本与源文本拼接,从而可以干预文本翻译模型输出的目标翻译文本的语言风格。
78.图3是根据一示例性实施例示出的一种翻译方法的示意图。在图3中以三个源文本为例给出了该翻译方法的数据流示意。
79.首先,确定待翻译的源文本。
80.以图3为例,该三个源文本可以包括:源文本case1为“我不知道,他也不会告诉我。”,源文本case2为“一个比我爱的人更美丽的女人?”,源文本case3为“现在我告诉你,这样你就不用问了。”。
81.其次,将该三个源文本输入预先生成的多语言编码模型中,得到多语言编码模型针对每个源文本输出的第二向量。
82.示例地,源文本case1对应的第二向量为[0.01,0.02,-0.03,

,0.05,0.37];源文本case2对应的第二向量为[0.09,0.04,-0.01,

,0.17,0.07];源文本case3对应的第二向量为[-0.01,0.07,0.05,

,0.23,0.02]。
[0083]
再次,针对每个源文本,根据第二向量,从目标风格文本集中确定该源文本对应的待定风格文本。
[0084]
其中,该待定风格文本对应的第一向量与第二向量的向量距离最小(也就是相似度最高)。
[0085]
示例地,源文本case1与top1近邻向量的向量距离为20;源文本case1对应的待定风格文本1为“i tell thee,kate,'twas burnt and dried away.”;源文本case2与top1近邻向量的向量距离为40;源文本case2对应的待定风格文本2为“and i the king shall love thee.”;源文本case3与top1近邻向量的向量距离为30;源文本case3对应的待定风格文本3为“now let me see if i can conster it.”。
[0086]
然后,将待定风格文本与源文本进行拼接,得到目标拼接文本。
[0087]
示例地,源文本case1对应的目标拼接文本1为:“i tell thee,kate,'twas burnt and dried away.《token》我不知道,他也不会告诉我。”;源文本case2对应的目标拼接文本2为:“and i the king shall love thee.《token》一个比我爱的人更美丽的女人?”;源文本case3对应的目标拼接文本3为:“now let me see if i can conster it.《token》现在我告诉你,这样你就不用问了。”[0088]
最后,将目标拼接文本输入文本翻译模型,得到该文本翻译模型输出的目标翻译文本。
[0089]
这样,可以通过待定风格文本与源文本拼接,干预文本翻译模型输出的目标翻译文本的语言风格,实现准确的风格化翻译。
[0090]
在本公开的一些实施例中,上述目标风格文本集可以是预先生成的文本集。图4是根据一示例性实施例示出的一种生成目标风格文本集的方法的流程图。如图4所示,该目标风格文本集可以通过以下方式预先生成:
[0091]
s301、获取目标语言风格对应的多个风格文本。
[0092]
在本步骤中,可以人工收集目标语言风格的多个风格文本,也可以从网络上搜索得到目标语言风格对应的多个风格文本。
[0093]
s302、针对每个风格文本,将该风格文本输入多语言编码模型中,得到该多语言编码模型输出的第一向量。
[0094]
同样地,该多语言编码模型可以是基于xlm-roberta基础上进行开发的模型,该第一向量也可以是512维或768维的向量。
[0095]
在一些实施例中,该第一向量的维数与第二向量的维数可以相同,例如,均为768维。
[0096]
s303、根据风格文本和第一向量,生成目标风格文本集。
[0097]
在一些实施例中,可以根据风格文本和第一向量,基于预设检索算法生成目标风格文本集。该预设检索算法可以实现对文本向量的检索,例如,可以是ann(approximate nearest neighbor,近似最近邻)算法,也可以是相关技术中的文本向量检索引擎,本公开对此不作限定。
[0098]
示例地,可以根据上述每个风格文本和该风格文本对应的第一向量生成检索对(pair),例如,该检索对可以是(风格文本、第一向量),或者,该检索对也可以是(第一向量、风格文本)。可以将该检索对输入文本向量检索引擎,通过ann(approximate nearest neighbor,近似最近邻)算法进行训练,从而生成目标风格文本集。该目标风格文本集可以是一种检索库,可以将风格文本作为该检索库的数据(value),将第一向量作为该检索库的检索关键字(key)。
[0099]
这样,通过该方式可以预先生成上述目标风格文本集。
[0100]
在本公开的一些实施例中,可以将上述目标风格文本集用于对文本翻译模型的训练,示例地,该文本翻译模型为通过以下方式预先生成的:
[0101]
首先,获取翻译训练样本。
[0102]
其中,该翻译训练样本包括多个源样本文本,以及每个源样本文本对应的目标样本文本。
[0103]
其次,根据源样本文本,从目标风格文本集中确定该源样本文本对应的风格样本文本。
[0104]
在一些实施例中,可以将源样本文本输入上述多语言编码模型中,得到该多语言编码模型输出的第三向量;根据第三向量和目标风格文本集中的第一向量,从目标风格文本集中确定风格样本文本。
[0105]
最后,根据该风格样本文本、源样本文本和目标样本文本,对预设翻译模型进行训练,得到文本翻译模型。
[0106]
示例地,可以将风格样本文本和源样本文本进行拼接后得到拼接源样本文本,并将拼接源样本文本和目标样本文本作为新的翻译训练样本,对预设翻译模型进行训练,得到目标翻译模型。
[0107]
这样,可以根据目标风格文本集对文本翻译模型进行训练,从而进一步提高文本翻译模型的准确性。
[0108]
在本公开的一些实施例中提供的翻译方法可以分为离线和在线两个阶段,示例地,可以首先离线生成上述目标风格文本集和上述文本翻译模型;然后根据该目标风格文
本集和文本翻译模型进行在线翻译,这样,可以减少在线翻译阶段的延迟,提高翻译效率。
[0109]
进一步地,采用本公开实施例中的方式,在有新的语言风格产生时,可以离线生成该语言风格对应的风格文本集,就可以干预文本翻译模型的翻译风格,而文本翻译模型可以无需再次收集大量样本进行训练,从而实现了零样本学习的能力。
[0110]
图4是根据一示例性实施例示出的一种翻译装置400的框图,如图4所示,该装置400可以包括:
[0111]
第一确定模块401,用于确定待翻译的源文本和目标语言风格;
[0112]
第二确定模块402,用于根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;
[0113]
翻译模块403,用于将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
[0114]
根据本公开的一个或多个实施例,所述第二确定模块402,用于确定所述目标语言风格对应的目标风格文本集;所述目标风格文本集为预先生成的文本集,所述目标风格文本集中包括多个所述风格文本,以及每个所述风格文本对应的第一向量;不同的语言风格对应不同的风格文本集,同一风格文本集中的风格文本对应的语言风格相同;将所述源文本输入预先生成的多语言编码模型中,得到所述多语言编码模型输出的第二向量;根据所述第二向量和所述第一向量,从所述目标风格文本集中确定待定风格文本。
[0115]
根据本公开的一个或多个实施例,所述第二确定模块402,用于从所述目标风格文本集的第一向量中,确定与所述第二向量的向量距离最小的第三向量;将所述第三向量对应的风格文本作为所述待定风格文本。
[0116]
图5是根据一示例性实施例示出的另一种翻译装置的框图,如图5所示,该装置400可以包括:
[0117]
生成模块404,用于获取所述目标语言风格对应的多个所述风格文本;针对每个所述风格文本,将所述风格文本输入所述多语言编码模型中,得到所述多语言编码模型输出的第一向量;根据所述风格文本和所述第一向量,生成所述目标风格文本集。
[0118]
根据本公开的一个或多个实施例,所述生成模块404,用于根据所述风格文本和所述第一向量,基于预设检索算法生成所述目标风格文本集。
[0119]
根据本公开的一个或多个实施例,所述生成模块404,还用于获取翻译训练样本;所述翻译训练样本包括多个源样本文本,以及每个源样本文本对应的目标样本文本;根据所述源样本文本,从所述目标风格文本集中确定所述源样本文本对应的风格样本文本;根据所述风格样本文本、所述源样本文本和所述目标样本文本,对预设翻译模型进行训练,得到所述文本翻译模型。
[0120]
根据本公开的一个或多个实施例,所述翻译模块403,用于将所述源文本和所述待定风格文本进行拼接后,得到目标拼接文本;将所述目标拼接文本输入所述文本翻译模型,得到所述目标翻译文本。
[0121]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0122]
下面参考图6,其示出了适于用来实现本公开实施例的电子设备2000(例如终端设
protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0128]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0129]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定待翻译的源文本和目标语言风格;根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
[0130]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0131]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0132]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一确定模块还可以被描述为“确定待翻译的源文本和目标语言风格的模块”。
[0133]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0134]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0135]
根据本公开的一个或多个实施例,提供了一种翻译方法,所述方法包括:
[0136]
确定待翻译的源文本和目标语言风格;
[0137]
根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;
[0138]
将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
[0139]
根据本公开的一个或多个实施例,所述根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本包括:
[0140]
确定所述目标语言风格对应的目标风格文本集;所述目标风格文本集为预先生成的文本集,所述目标风格文本集中包括多个所述风格文本,以及每个所述风格文本对应的第一向量;不同的语言风格对应不同的风格文本集,同一风格文本集中的风格文本对应的语言风格相同;
[0141]
将所述源文本输入预先生成的多语言编码模型中,得到所述多语言编码模型输出的第二向量;
[0142]
根据所述第二向量和所述第一向量,从所述目标风格文本集中确定待定风格文本。
[0143]
根据本公开的一个或多个实施例,所述根据所述第二向量和所述第一向量,从所述目标风格文本集中确定待定风格文本包括:
[0144]
从所述目标风格文本集的第一向量中,确定与所述第二向量的向量距离最小的第三向量;
[0145]
将所述第三向量对应的风格文本作为所述待定风格文本。
[0146]
根据本公开的一个或多个实施例,所述目标风格文本集为通过以下方式预先生成的:
[0147]
获取所述目标语言风格对应的多个所述风格文本;
[0148]
针对每个所述风格文本,将所述风格文本输入所述多语言编码模型中,得到所述多语言编码模型输出的第一向量;
[0149]
根据所述风格文本和所述第一向量,生成所述目标风格文本集。
[0150]
根据本公开的一个或多个实施例,所述根据所述风格文本和所述第一向量,生成所述目标风格文本集包括:
[0151]
根据所述风格文本和所述第一向量,基于预设检索算法生成所述目标风格文本集。
[0152]
根据本公开的一个或多个实施例,所述文本翻译模型为通过以下方式预先生成的:
[0153]
获取翻译训练样本;所述翻译训练样本包括多个源样本文本,以及每个源样本文本对应的目标样本文本;
[0154]
根据所述源样本文本,从所述目标风格文本集中确定所述源样本文本对应的风格样本文本;
[0155]
根据所述风格样本文本、所述源样本文本和所述目标样本文本,对预设翻译模型进行训练,得到所述文本翻译模型。
[0156]
根据本公开的一个或多个实施例,所述将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本包括:
[0157]
将所述源文本和所述待定风格文本进行拼接后,得到目标拼接文本;
[0158]
将所述目标拼接文本输入所述文本翻译模型,得到所述目标翻译文本。
[0159]
根据本公开的一个或多个实施例,提供了一种翻译装置,所述装置包括:
[0160]
第一确定模块,用于确定待翻译的源文本和目标语言风格;
[0161]
第二确定模块,用于根据所述源文本,从所述目标语言风格对应的多个风格文本中确定待定风格文本;
[0162]
翻译模块,用于将所述源文本和所述待定风格文本输入预先生成的文本翻译模型,得到所述文本翻译模型输出的目标翻译文本,所述目标翻译文本的语言风格为所述目标语言风格。
[0163]
根据本公开的一个或多个实施例,所述第二确定模块,用于确定所述目标语言风格对应的目标风格文本集;所述目标风格文本集为预先生成的文本集,所述目标风格文本集中包括多个所述风格文本,以及每个所述风格文本对应的第一向量;不同的语言风格对应不同的风格文本集,同一风格文本集中的风格文本对应的语言风格相同;将所述源文本输入预先生成的多语言编码模型中,得到所述多语言编码模型输出的第二向量;根据所述第二向量和所述第一向量,从所述目标风格文本集中确定待定风格文本。
[0164]
根据本公开的一个或多个实施例,所述第二确定模块,用于从所述目标风格文本集的第一向量中,确定与所述第二向量的向量距离最小的第三向量;将所述第三向量对应的风格文本作为所述待定风格文本。
[0165]
根据本公开的一个或多个实施例,所述装置还包括:
[0166]
生成模块,用于获取所述目标语言风格对应的多个所述风格文本;针对每个所述风格文本,将所述风格文本输入所述多语言编码模型中,得到所述多语言编码模型输出的第一向量;根据所述风格文本和所述第一向量,生成所述目标风格文本集。
[0167]
根据本公开的一个或多个实施例,所述生成模块,用于根据所述风格文本和所述第一向量,基于预设检索算法生成所述目标风格文本集。
[0168]
根据本公开的一个或多个实施例,所述生成模块,还用于获取翻译训练样本;所述翻译训练样本包括多个源样本文本,以及每个源样本文本对应的目标样本文本;根据所述源样本文本,从所述目标风格文本集中确定所述源样本文本对应的风格样本文本;根据所述风格样本文本、所述源样本文本和所述目标样本文本,对预设翻译模型进行训练,得到所述文本翻译模型。
[0169]
根据本公开的一个或多个实施例,所述翻译模块,用于将所述源文本和所述待定风格文本进行拼接后,得到目标拼接文本;将所述目标拼接文本输入所述文本翻译模型,得到所述目标翻译文本。
[0170]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人
员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0171]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0172]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1