文档翻译方法、装置、电子设备及存储介质与流程

文档序号:24619227发布日期:2021-04-09 20:23阅读:36来源:国知局
文档翻译方法、装置、电子设备及存储介质与流程

本申请涉及计算机技术领域,尤其涉及一种文档翻译方法、装置、电子设备及存储介质。



背景技术:

在文档翻译项目中,特别是具备大量格式化内容或具备大量相同内容的连贯性翻译项目中,主要依靠人工翻译的方式,翻译时间长,翻译效率低,并且不同的翻译人员翻译出的文档不一致,导致相同内容的翻译结果不一致。



技术实现要素:

本申请提供一种文档翻译方法、装置、电子设备及存储介质,用以解决现有技术中文档的翻译时间长,翻译效率低的问题。

本申请提供一种文档翻译方法,包括:

确定文档中的多个待翻译片段;

将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段;所述翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;

基于每一待翻译片段的译文片段,确定所述文档的翻译结果。

根据本申请提供的文档翻译方法,所述将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段,包括:

将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定与所述任一待翻译片段相匹配的多个原文片段;

基于所述任一待翻译片段,所述多个原文片段以及每一原文片段的译文片段,确定所述任一待翻译片段的译文片段。

根据本申请提供的文档翻译方法,所述基于所述任一待翻译片段,所述多个原文片段以及每一原文片段的译文片段,确定所述任一待翻译片段的译文片段,包括:

基于所述任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,确定所述任一待翻译片段的候选原文片段;

将所述候选原文片段对应的译文片段作为所述任一待翻译片段的译文片段。

根据本申请提供的文档翻译方法,所述任一待翻译片段的关联片段为所述任一待翻译片段在所述文档中的上下文片段。

根据本申请提供的文档翻译方法,所述确定文档中的多个待翻译片段,包括:

对所述文档进行片段划分,确定所述文档的所有片段;

基于所述文档中散列值相同的片段的关联片段之间的语义相似度,对所述散列值相同的片段进行聚类,得到多个语义相似类,并将每一语义相似类中的任一片段作为每一语义相似类对应的待翻译片段;

基于所述多个语义相似类以及每一语义相似类对应的待翻译片段,确定所述文档中的多个待翻译片段。

根据本申请提供的文档翻译方法,所述基于每一待翻译片段的译文片段,确定所述文档的翻译结果,包括:

基于每一语义相似类中任一片段的译文片段,确定所述每一语义相似类中所有片段的译文片段基于所述文档中的所有片段的译文片段,确定所述文档的翻译结果。

根据本申请提供的文档翻译方法,所述对所述文档进行片段划分,确定所述文档的所有片段,包括:

基于所述文档中的段落标识符和/或标点符号,对所述文档进行片段划分,确定所述文档的所有片段。

本申请提供一种文档翻译装置,包括:

片段确定单元,用于确定文档中的多个待翻译片段;

片段翻译单元,用于将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定所述任一待翻译片段的译文片段;所述翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;

结果输出单元,用于基于每一待翻译片段的译文片段,确定所述文档的翻译结果。

本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文档翻译方法的步骤。

本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文档翻译方法的步骤。

本申请提供的文档翻译方法、装置、电子设备及存储介质,将文档中的任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段,根据每一待翻译片段的译文片段,确定文档的翻译结果,翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段,利用了已有的历史翻译数据,减少了翻译人员的工作量,实现了文档翻译自动化,提高了文档翻译效率,同时,避免了不同的翻译人员针对同一片段翻译出的结果不一致,保证了翻译结果的一致性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的文档翻译方法的流程示意图;

图2为本申请提供的文档翻译装置的结构示意图;

图3为本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请提供的文档翻译方法的流程示意图,如图1所示,该方法包括:

步骤110,确定文档中的多个待翻译片段。

具体地,文档为需要翻译的文本,文档的语言种类可以为中文,也可以为英文、日文、法文、德文和阿拉伯文等。片段为组成文档的一个基本单位,可以为一个自然段或者一个句子。一篇待翻译的文档可以划分为多个待翻译片段。

例如,对于待翻译的文档,可以对其进行片段划分,得到多个待翻译片段,可以用集合表示为:

s={s1,s2,…,sn}

式中,s为待翻译的文档,si为第i个待翻译片段,n为待翻译片段的数量,1≤i≤n。

步骤120,将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定该待翻译片段的译文片段;翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段。

具体地,将任意长度的片段通过散列算法变换成固定长度的输出,该输出就是散列值。散列值通常用一个短的随机字母和数字组成的字符串来代表。散列算法实现了数据压缩,使得数据量变小,并将数据的格式固定下来。散列算法又称哈希算法,包括md5(messagedigestalgorithm)、sha-1(securehashalgorithm1)和sha-256(securehashalgorithm256)等。

翻译语料库为根据历史翻译数据建立的由原文片段和原文片段对应的译文片段组成的双语对照平行语料库。原文片段为历史数据中需要翻译的文本,译文片段为对原文片段进行翻译后得到的文本。翻译语料库中还包括原文片段和译文片段对应的散列值。此处,原文片段和译文片段是相对而言的,即翻译语料库的任一片段可以为原文片段或者译文片段,相应地,该片段对应的翻译文本为译文片段或者原文片段。

翻译语料库中原文片段和译文片段对应的散列值的计算方法和翻译过程中待翻译的文档中待翻译片段的散列值的计算方法相同。翻译语料库可以根据历史翻译数据不断地进行更新和扩充。

根据任一待翻译片段的散列值,在翻译语料库中查找相匹配的原文片段,即将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配。

例如,对于片段集合s={s1,s2,…,sn},利用哈希算法对每个待翻译片段si进行散列化处理,得到每个待翻译片段对应的唯一的数字散列值hi及其所构成的散列值集合h,可以表示为

h={h1,h2,…,hn}

对于h中的每个元素hi,在翻译语料库中进行散列值查找,得到散列值与hi相同的所有原文片段。

当该待翻译片段的散列值与翻译语料库中的原文片段的散列值相同时,可以认为待翻译片段和查找到的原文片段为同一片段,可以将该原文片段的译文片段作为该待翻译片段的译文结果。

步骤130,基于每一待翻译片段的译文片段,确定该文档的翻译结果。

具体地,该文档的翻译结果为该文档的翻译对照文本。文档中的待翻译片段与翻译结果中的译文片段一一对应。

根据每一待翻译片段的译文片段,按照文档中各个待翻译片段的片段顺序整理译文片段,可以得到该文档的翻译结果。例如,对于待翻译的文档s中的每一待翻译片段si,其对应的译文片段为yi,则{s1,s2,…,sn}对应的译文集合为{y1,y2,…,yn}。按照待翻译片段si的顺序排列译文片段yi,得到待翻译的文档s的翻译结果y。

本申请提供的文档翻译方法,将文档中的任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段,根据每一待翻译片段的译文片段,确定文档的翻译结果,翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段,利用了已有的历史翻译数据,减少了翻译人员的工作量,实现了文档翻译自动化,提高了文档翻译效率,同时,避免了不同的翻译人员针对同一片段翻译出的结果不一致,保证了翻译结果的一致性。

基于上述实施例,步骤120包括:

将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定与该待翻译片段相匹配的多个原文片段;

基于该待翻译片段,多个原文片段以及每一原文片段的译文片段,确定该待翻译片段的译文片段。

具体地,根据任一待翻译片段的散列值,在翻译语料库中查找到的原文片段时,很有可能查找到的多个原文片段。当在翻译语料库中查找到的原文片段为多个时,可以对查找到的多个原文片段进行筛选。

例如,可以将待翻译片段和每一原文片段进行语义相似度比较,或者对待翻译片段和每一原文片段进行词频统计,根据语义相似度比较结果或者词频统计结果确定待翻译片段对应的原文片段。

又例如,可以将待翻译片段的上下文片段和每一原文片段的上下文片段进行语义相似度比较,或者对待翻译片段的上下文片段和每一原文片段的上下文片段进行词频统计,根据语义相似度比较结果或者词频统计结果确定待翻译片段对应的原文片段。

基于上述任一实施例,基于任一待翻译片段,多个原文片段以及每一原文片段的译文片段,确定任一待翻译片段的译文片段,包括:

基于任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,确定任一待翻译片段的候选原文片段;

将候选原文片段对应的译文片段作为任一待翻译片段的译文片段。

具体地,任一待翻译片段的关联片段为与该待翻译片段在语义上存在关联的片段,关联片段可以包括该待翻译片段本身在内。此外,任一待翻译片段的关联片段还可以包括该待翻译片段在文档中的上下文片段,或者该待翻译片段在文档中的上文片段,或者该待翻译片段在文档中的下文片段,或者该待翻译片段所在文档中的起始片段,例如第一段或者最后一段。

例如,对于待翻译片段si,获取该片段在文档中的上下文片段si-1和si+1,将待翻译片段si、上文片段si-1和下文片段si+1一起组成的片段待翻译片段si的关联片段,用ri表示,即ri={si-1、si、si+1}。

计算任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,得到多个语义相似度值。可以设置阈值,阈值用于作为基准,对多个语义相似度值进行筛选。例如,设置阈值为60,若语义相似度值小于60,表明该原文片段的关联片段与该待翻译片段的关联片段的语义相似度均较低。若语义相似度值大于60,表明该原文片段的关联片段与该待翻译片段的关联片段的语义相似度均较高,则该原文片段与该待翻译片段在上下文语义上相似。

语义相似度计算方法包括基于向量空间模型的计算方法、基于汉明距离的计算方法和基于语义理解的计算方法等。

将语义相似度值最高且大于阈值的原文片段作为该待翻译片段的候选原文片段。候选原文片段为与待翻译片段在上下文语义上相似的原文片段。候选原文片段对应的译文片段可以作为该待翻译片段的译文片段。

本申请提供的文档翻译方法,根据任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,确定任一待翻译片段的候选原文片段,将候选原文片段对应的译文片段作为任一待翻译片段的译文片段,使得在翻译语料库查找得到的原文片段能够与待翻译片段在语义上高度相似,提高了翻译结果的准确性。

基于上述任一实施例,任一待翻译片段的关联片段为任一待翻译片段在文档中的上下文片段。

具体地,任一待翻译片段的关联片段,优选为该待翻译片段以及该待翻译片段在待翻译的文档中的上下文片段。相应地,翻译语料库中任一原文片段的关联片段为该原文片段以及该原文片段在已翻译的文档中的上下文片段。

翻译语料库在保存原文片段及其译文片段时,可以按照已翻译的文档中的片段顺序进行保存,并对已翻译的文档及其对应的翻译结果进行对齐处理。对齐处理可以包括句句对齐或者段段对齐。

该待翻译片段在文档中的上下文片段,可以为文档中待翻译片段在文档中的上文中的一个片段或者多个片段,可以为文档中待翻译片段在文档中的下文中的一个片段或者多个片段,片段的选择数量可以根据实际情况确定,本申请实施例对此不作具体限定。

基于上述任一实施例,步骤110包括:

对文档进行片段划分,确定该文档的所有片段;

基于该文档中散列值相同的片段的关联片段之间的语义相似度,对散列值相同的片段进行聚类,得到多个语义相似类,并将每一语义相似类中的任一片段作为每一语义相似类对应的待翻译片段;

基于多个语义相似类以及每一语义相似类对应的待翻译片段,确定该文档中的多个待翻译片段。

具体地,对于待翻译的文档,进行片段划分后可以得到该文档的所有片段组成的集合s。由于某些片段散列值是相同的,则可以将其组合为同一个片段集合e={se1,se2,…,sem}。其中,片段sei和片段sej的散列值相同,i∈[1,m],j∈[1,m],i≠j,m为集合中片段的数量。

可以对片段集合e中的片段及其相应的关联文档进行聚类,聚类方法可以采用k-means算法,聚类后将片段集合e中的片段分为若干个类,对于每个类中的若干个片段,可以认为是同一个待翻译片段。

本申请实施例提供一种基于关联片段的语义相似度的聚类方法,该方法的步骤为:

步骤一、确定片段集合e={se1,se2,…,sem}和语义相似度的给定阈值;

步骤二、以se1为基准,计算se1的关联片段与片段集合e中其余片段的关联片段的语义相似度,将所有语义相似度大于给定阈值的片段筛选出来,与se1构成第一个语义相似类es1;

步骤三,在片段集合e中除es1中之外的所有剩余片段中,按照步骤二中的方法,得到第二个语义相似类es2;

步骤四,重复步骤二和步骤三中的方法,直到片段集合e中所有的片段都被划分到对应的语义相似类,最后得到多个语义相似类。

例如,对于e={se1,se2,se3,se4},聚类后得到es1={se1,se4}和es2={se2,se3}。

如果语义相似类中所有的片段均未得到翻译,则可以将该语义相似类中所有的片段作为一个待翻译片段进行翻译,也就是说,该语义相似类中任一片段均可以作为该语义相似类中的代表,可以将其译文片段作为该语义相似类中所有片段的译文片段。得到多个语义相似类以及每一语义相似类对应的待翻译片段,也就得到了该文档中的多个待翻译片段。

本申请实施例提供的文档翻译方法,根据每一片段的关联片段与其他片段的关联片段之间的语义相似度,对文档的所有片段进行聚类,得到多个语义相似类,根据多个语义相似类,确定文档中的多个待翻译片段,由于对文档中的片段进行了聚类分析,减少了翻译工作量,提高了文档翻译效率,保证了翻译结果的一致性。

基于上述任一实施例,基于每一待翻译片段的译文片段,确定文档的翻译结果,包括:

基于每一语义相似类中任一片段的译文片段,确定所述每一语义相似类中所有片段的译文片段;

基于文档中的所有片段的译文片段,确定文档的翻译结果。

具体地,对于每个语义相似类,如果其中某个待翻译片段已经通过上述实施例中的文档翻译方法得到译文片段,则可以将该译文片段作为该语义相似类中所有的待翻译片段的译文片段。也就是说,每一语义相似类中任一片段的译文片段可以作为该语义相似类中所有片段的译文片段。

将文档中的待翻译片段聚类为多个语义相似类,按照上述实施例中的方法得到每个语义相似类中所有片段的译文片段,也即得到了文档中的所有片段的译文片段,按照片段在文档中的顺序进行组合,得到该文档的翻译结果。

基于上述任一实施例,对文档进行片段划分,确定文档的所有片段,包括:

基于文档中的段落标识符和/或标点符号,对文档进行片段划分,确定文档的所有片段。

具体地,对文档进行片段划分时,可以按照自然段进行划分,也可以按照句子进行划分,还可以按照自然段和句子进行划分。

若按照自然段的划分方式,则划分依据可以选择为段落标识符。若按照句子的划分方式,则划分依据可以选择标点符号。此处的标点符号为能够表征一个完整语句结束的标点符号。例如句号、问号、感叹号和回车符等。

本申请实施例提供的文档翻译方法,根据文档中的段落标识符和/或标点符号,对文档进行片段划分,确定文档的所有片段,简单易行,减少了翻译人员的工作量,实现了文档翻译自动化,提高了文档翻译效率。

下面对本申请提供的文档翻译装置进行描述,下文描述的文档翻译装置与上文描述的文档翻译方法可相互对应参照。

基于上述任一实施例,图2为本申请提供的文档翻译装置的结构示意图,如图2所示,该装置包括:

片段确定单元210,用于确定文档中的多个待翻译片段;

片段翻译单元220,用于将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段;翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;

结果输出单元230,用于基于每一待翻译片段的译文片段,确定文档的翻译结果。

具体地,片段确定单元210用于确定文档中的多个待翻译片段。片段翻译单元220用于将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段。结果输出单元230用于确定文档的翻译结果。

本申请提供的文档翻译装置,将文档中的任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段,根据每一待翻译片段的译文片段,确定文档的翻译结果,翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段,利用了已有的历史翻译数据,减少了翻译人员的工作量,实现了文档翻译自动化,提高了文档翻译效率,同时,避免了不同的翻译人员针对同一片段翻译出的结果不一致,保证了翻译结果的一致性。

基于上述任一实施例,片段翻译单元220包括:

匹配子单元,用于将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定与该待翻译片段相匹配的多个原文片段;

翻译子单元,用于基于该待翻译片段,多个原文片段以及每一原文片段的译文片段,确定该待翻译片段的译文片段。

基于上述任一实施例,翻译子单元包括:

相似度比较模块,用于基于任一待翻译片段的关联片段与每一原文片段的关联片段之间的语义相似度,确定该待翻译片段的候选原文片段;

译文片段确定模块,用于将候选原文片段对应的译文片段作为该待翻译片段的译文片段。

基于上述任一实施例,任一待翻译片段的关联片段为该待翻译片段在文档中的上下文片段。

基于上述任一实施例,片段确定单元210包括:

片段划分子单元,用于对文档进行片段划分,确定文档的所有片段;

聚类子单元,用于基于所述文档中散列值相同的片段的关联片段之间的语义相似度,对所述散列值相同的片段进行聚类,得到多个语义相似类,并将每一语义相似类中的任一片段作为每一语义相似类对应的待翻译片段;

待翻译片段确定子单元,用于基于所述多个语义相似类以及每一语义相似类对应的待翻译片段,确定所述文档中的多个待翻译片段。

基于上述任一实施例,结果输出单元具体用于:

基于每一语义相似类中任一片段的译文片段,确定所述每一语义相似类中所有片段的译文片段;

基于文档中的所有片段的译文片段,确定文档的翻译结果。

基于上述任一实施例,片段划分子单元具体用于:

基于文档中的段落标识符和/或标点符号,对文档进行片段划分,确定文档的所有片段。

基于上述任一实施例,图3为本申请提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线(communicationsbus)340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑命令,以执行上述各实施例提供的方法,该方法包括:

确定文档中的多个待翻译片段;将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段;翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;基于每一待翻译片段的译文片段,确定文档的翻译结果。

此外,上述的存储器330中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述文档翻译方法,其具体的实施方式与方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。

本申请还提供一种非暂态计算机可读存储介质,下面对本申请提供的非暂态计算机可读存储介质进行描述,下文描述的非暂态计算机可读存储介质与上文描述的文档翻译方法可相互对应参照。

本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,该方法包括:

确定文档中的多个待翻译片段;将任一待翻译片段与翻译语料库中的所有原文片段进行散列值匹配,确定任一待翻译片段的译文片段;翻译语料库包括多个原文片段以及每一原文片段对应的散列值和译文片段;基于每一待翻译片段的译文片段,确定文档的翻译结果。

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述文档翻译方法,其具体的实施方式与方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1