翻译方法、装置及计算机可读存储介质与流程

文档序号:31869854发布日期:2022-10-21 18:40阅读:43来源:国知局
翻译方法、装置及计算机可读存储介质与流程

1.本发明涉及机器翻译领域,尤其涉及一种翻译方法、装置及计算机可读存储介质。


背景技术:

2.随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
3.在相关技术中,机器翻译往往被用来翻译大型项目文件。有的项目文件为专业性较强的长篇文章,文章内容晦涩难懂,存在词汇抽象、语句复杂、篇幅太长等情况。机器翻译在翻译项目文件时,容易出现前后矛盾、用词不一等问题,因此,翻译项目文件的准确性不高。
4.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

5.本发明的主要目的在于提供一种翻译方法、装置及计算机可读存储介质,旨在达成提高翻译项目文件的准确性。
6.为实现上述目的,本发明提供一种翻译方法,所述翻译方法包括:
7.确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;
8.基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;
9.获取所述专业领域关联的语料数据;
10.基于所述语料数据生成所述第二子内容对应的翻译结果。
11.可选地,所述基于所述语料数据生成所述第二子内容对应的翻译结果的步骤包括:
12.将所述语料数据作为机器翻译模型的训练数据,对所述机器翻译模型进行增量训练,得到训练后的机器翻译模型;
13.将所述第二子内容输入训练后的所述机器翻译模型,通过训练后的所述机器翻译模型确定所述第二子内容对应的翻译结果。
14.可选地,所述基于所述语料数据生成所述第二子内容对应的翻译结果的步骤包括:
15.根据所述篇章分析结果确定所述第一子内容的写作习惯信息;
16.根据所述写作习惯信息和所述语料数据生成所述第二子内容对应的翻译结果。
17.可选地,所述基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域的步骤包括:
18.根据所述篇章分析结果确定所述第一子内容的实义词句;
19.根据所述实义词句确定所述专业领域。
20.可选地,所述根据所述实义词句确定所述专业领域的步骤之前,还包括:
21.确定所述实义词句的难度等级;
22.当所述难度等级大于或等于预设等级时,执行所述根据所述实义词句确定所述专业领域的步骤;
23.当所述难度等级小于预设等级时,直接对所述第一子内容和所述第二子内容进行翻译。
24.可选地,所述实义词句包括实义词汇和/或实义句,所述获取所述专业领域关联的语料数据的步骤包括:
25.在记忆库中匹配所述专业领域内的句子语料作为所述语料数据;和/或
26.或术语库中匹配所述专业领域内的词汇语料作为所述语料数据。
27.可选地,所述确定项目文件的第一子内容和第二子内容的步骤包括:
28.获取预设划分规则;
29.根据所述预设划分规则确定所述项目文件的所述第一子内容和所述第二子内容。
30.可选地,所述基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域的步骤之前,还包括:
31.确定所述第一子内容和第二内容的总字符数;
32.当所述总字符数大于或等于预设阀值时,执行所述基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域的步骤;
33.当所述总字符数小于预设阀值时,直接对所述第一子内容和所述第二子内容进行翻译。
34.此外,为实现上述目的,本发明还提供一种翻译装置,所述翻译装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的翻译程序,所述翻译程序被所述处理器执行时实现如上所述的翻译方法的步骤。
35.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有翻译程序,所述翻译程序被处理器执行时实现如上所述的翻译方法的步骤。
36.本发明实施例提出的一种翻译方法、装置及计算机可读存储介质,确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;获取所述专业领域关联的语料数据;基于所述语料数据生成所述第二子内容对应的翻译结果。这样在翻译篇幅较长、专业性较强的项目文件时,对第一子内容进行篇章分析,确定项目文件的第一子内容的专业技术领域,以获取在专业领域内的语料数据,基于语料数据对第二子内容进行翻译,避免了专业性太强的文章在翻译时的难度高的问题,从而可以提高翻译项目文件的准确性。
附图说明
37.图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
38.图2为本发明翻译方法的一实施例的流程示意图;
39.图3为本发明翻译方法的另一实施例的流程示意图。
40.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
41.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.由于在相关技术中,机器翻译往往被用来翻译大型项目文件。有的项目文件为专业性较强的长篇文章,文章内容晦涩难懂,存在词汇抽象、语句复杂、篇幅太长等情况。机器翻译在翻译项目文件时,容易出现前后矛盾、用词不一等问题,因此,翻译项目文件的准确性不高。
43.为了提高翻译项目文件的准确性,本发明实施例提出一种翻译方法、装置及计算机可读存储介质,其中,所述方法的主要步骤包括:
44.确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;
45.基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;
46.获取所述专业领域关联的语料数据;
47.基于所述语料数据生成所述第二子内容对应的翻译结果。
48.这样在翻译篇幅较长、专业性较强的项目文件时,对第一子内容进行篇章分析,确定项目文件的第一子内容的专业技术领域,基于同一专业领域内的语料数据对第二子内容进行翻译,减少了专业性太强的文章在翻译时的难度,从而可以提高翻译项目文件的准确性。
49.以下结合附图对本发明权利要求要求保护的内容进行详细说明。
50.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
51.本发明实施例终端可以是翻译装置。
52.如图1所示,该终端可以包括:处理器1001,例如cpu,存储器1003,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
53.本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
54.如图1所示,作为一种计算机存储介质的存储器1003中可以包括操作系统以及翻译程序。
55.在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的翻译程序,并执行以下操作:
56.确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;
57.基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;
58.获取所述专业领域关联的语料数据;
59.基于所述语料数据生成所述第二子内容对应的翻译结果。
60.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
61.将所述语料数据作为机器翻译模型的训练数据,对所述机器翻译模型进行增量训
练,得到训练后的机器翻译模型;
62.将所述第二子内容输入训练后的所述机器翻译模型,通过训练后的所述机器翻译模型确定所述第二子内容对应的翻译结果。
63.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
64.根据所述篇章分析结果确定所述第一子内容的写作习惯信息;
65.根据所述写作习惯信息和所述语料数据生成所述第二子内容对应的翻译结果。
66.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
67.根据所述篇章分析结果确定所述第一子内容的实义词句;
68.根据所述实义词句确定所述专业领域。
69.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
70.确定所述实义词句的难度等级;
71.当所述难度等级大于或等于预设等级时,执行所述根据所述实义词句确定所述专业领域的步骤;
72.当所述难度等级小于预设等级时,直接对所述第一子内容和所述第二子内容进行翻译。
73.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
74.在记忆库中匹配所述专业领域内的句子语料作为所述语料数据;和/或
75.或术语库中匹配所述专业领域内的词汇语料作为所述语料数据。
76.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
77.获取预设划分规则;
78.根据所述预设划分规则确定所述项目文件的所述第一子内容和所述第二子内容。
79.进一步地,处理器1001可以调用存储器1003中存储的翻译程序,还执行以下操作:
80.确定所述第一子内容和第二内容的总字符数;
81.当所述总字符数大于或等于预设阀值时,执行所述基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域的步骤;
82.当所述总字符数小于预设阀值时,直接对所述第一子内容和所述第二子内容进行翻译。
83.随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
84.在相关技术中,机器翻译往往被用来翻译大型项目文件。有的项目文件为专业性较强的长篇文章,文章内容晦涩难懂,存在词汇抽象、语句复杂、篇幅太长等情况。因此机器翻译在翻译项目文件时,容易出现前后矛盾、用词不一等问题,从而导致了翻译项目文件的准确性不高。
85.由此可见,在相关翻译方法中,存在上述缺陷。本发明实施例为解决上述缺陷,提出一种翻译方法,旨在达成通过在同一技术领域的语料数据对项目文件的第二内容进行翻译,提高翻译项目文件的准确性的效果。
86.以下,通过具体示例性方案对本发明权利要求要求保护的内容,进行解释说明,以便本领域技术人员更好地理解本发明权利要求的保护范围。可以理解的是,以下示例性方
案不对本发明的保护范围进行限定,仅用于解释本发明。
87.示例性地,参照图2,在本发明翻译方法的一实施例中,所述翻译方法包括以下步骤:
88.步骤s10、确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;
89.在本实施例中,项目文件是需要进行翻译的源端文件,项目文件的篇幅长,总字符数大于预设阀值,项目文件可以包括一个或多个关联的文档,项目文件的专业性高,篇幅较长,例如学术论文、研究报告等。
90.在本实施例的一可选实施方案中,获取预设划分规则;根据所述预设划分规则确定所述项目文件的所述第一子内容和所述第二子内容。
91.对项目文件进行内容划分时,可以根据预设划分规则将项目文件分为第一子内容和第二内容,在划分后第一子内容和第二子内容不重合,例如,将项目文件中第一段文本作为第一子内容,将第二段文本作为第二子内容。
92.可选地,确定所述第一子内容总字符数;当所述总字符数大于或等于预设阀值时,执行所述基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域的步骤;当所述总字符数小于预设阀值时,直接对所述第一子内容和所述第二子内容进行翻译。
93.在划分好了第一内容和第二内容后,需要确定第一内容和第二内容的总字符数,若总字符数大于等于预设阀值,则继续对第一子内容进行篇章分析,确定第一子内容所属的专业领域,通过该专业领域的语料数据对第二子内容进行翻译,从而确定第二子内容的翻译结果,若总字符数没有大于预设阀值时,第一内容和第二内容所含信息量不足,从第一内容中难以准确的确定技术领域,基于此,对第二内容进行翻译准确性不高,对整个项目文件的翻译准确性的提高意义不大。因此若总字符数没有小于预设阀值,则直接对第一文件和第二文件进行篇章分析,得到翻译结果,这样可以节约成本。
94.在本实施例的一可选实施方案中,还可以对项目文件依次进行翻译,在翻译量大于预设值时,将翻译过的文本内容作为第一子内容,将未翻译的文本内容作为第二子内容。
95.需要注意的是,第一子内容与第二子内容不重合,第一子内容和第二子内容不一定是项目文件的全部内容。
96.步骤s20、基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;
97.在本实施例中,对项目文件的第一子内容进行篇章分析,篇章分析有两个作用,第一个是与记忆库进行匹配判重,重复的优先使用记忆库结果,同时非重复内容让引擎学习,然后引擎学习并修正,最后给出正确的翻译结果,即对项目文件进行篇章分析后,可以得出第一子内容的翻译结果。第二个是对第一子内容进行分析,得出第一子内容中的实义词句等信息,进而确定第一子内容所在的专业领域,在划分时,第一子内容与第二子内容在项目文件中的位置可以相邻,第一子内容的专业领域与第二子内容的专业领域相同,与项目文件的专业领域也相同。
98.步骤s30、获取所述专业领域关联的语料数据;
99.在本实施例中,可以根据不同的专业领域对语料库中的语料专业进行类别划分,当第一子内容的专业领域属于某一种专业领域时,语料库中属于该专业领域的语料数据都
可以作为语料数据。语料数据至少是双语数据,包括与项目文件同语种的原文,和原文对应的、与翻译后项目文件同语种的译文。
100.步骤s40、基于所述语料数据生成所述第二子内容对应的翻译结果。
101.在本实施例中,基于语料数据对第二子内容进行翻译,得到第二子内容的翻译结果,语料数据与是第一子内容在同一技术领域的语料,对于第二子内容具有可参考性。
102.需要注意的是,基于语料数据生成第二子内容对应的翻译结果的之前,对第一子内容进行篇章分析,还可以得到第一子内容对应的翻译结果,因为,在执行完本实施例的翻译方法后,可以依次得到项目文件的第一子内容与第二子内容的翻译结果。
103.可选地,将所述语料数据作为机器翻译模型的训练数据,对所述机器翻译模型进行增量训练,得到训练后的机器翻译模型;将所述第二子内容输入训练后的所述机器翻译模型,通过训练后的所述机器翻译模型确定所述第二子内容对应的翻译结果。
104.执行本实施例翻译方法的主体可以机器翻译模型,机器翻译模型对第一子内容进行篇章分析后,以根据第一子内容确定语料数据,做为训练数据,输入机器翻译模型中,完成增量训练,使得机器翻译模型与项目文件适配性更高,可以提高翻译第二子内容的准确性,从而翻译提高项目文件的准确性。
105.可选地,根据所述篇章分析结果确定所述第一子内容的写作习惯信息;根据所述写作习惯信息和所述语料数据生成所述第二子内容对应的翻译结果。
106.在根据篇章翻译结果确定项目文件的第一子内容所述的专业领域,确定专业领域的语料数据之外,还可以根据第一子内容的篇章翻译结果确定第一子内容的写作习惯信息。写作习惯信息包括常用词汇、常用句式、笔误、错别字等。第一子内容是项目文件的一部分,也是与第二子内容关联的内容,第一子内容的写作习惯信息与第二子内容相关联。基于第一子内容的写作习惯信息和语料数据对第二子内容进行翻译,可以得到更准确的第二子内容的翻译结果,从而提高翻译项目文件的准确性。
107.可选地,第二子内容为第一子内容的相邻后文内容,在基于用第一子内容确定语料数据对第二子内容的进行翻译后,确定与第二子内容之后的相邻项目文件的内容为新的第一子内容,确定新的第一子内容之后的相邻项目文件的内容为新的第二子内容,再执行步骤s20,直到第二子内容包括项目文件最后结尾的内容,从而完成整篇项目文件的翻译,在翻译过程中不断基于第一子内容匹配其专业领域的词汇,对机器翻译模型做增量训练,逐渐提高机器翻译模型与项目文件的适配性,从而提高翻译项目文件的准确性。
108.在本实施例公开的技术方案中,确定项目文件的第一子内容和第二子内容,其中,所述第一子内容与所述第二子内容不重合;基于所述第一子内容的篇章分析结果,确定所述第一子内容所属的专业领域;获取所述专业领域关联的语料数据;基于所述语料数据生成所述第二子内容对应的翻译结果。这样在翻译篇幅较长、专业性较强的项目文件时,对第一子内容进行篇章分析,确定项目文件的第一子内容的专业技术领域,以获取在专业领域内的语料数据,基于语料数据对第二子内容进行翻译,避免了专业性太强的文章在翻译时的难度高的问题,从而可以提高翻译项目文件的准确性。
109.可选地,参照图3,基于上述任一实施例,在本发明翻译方法的另一实施例中,所述翻译还方法包括:
110.步骤s11、根据所述篇章分析结果确定所述第一子内容的实义词句;
111.步骤s12、根据所述实义词句确定所述专业领域。
112.在本实施中,对第一子内容进行篇章分析,一方面对第一子内容进行翻译,得到第一字内容的翻译结果,另一方面,对第一内容中的词汇和句子进行筛选,确定第一内容中的实义词句,实义词句中包括有实际含义的词汇和/或句子。
113.可选地,在根据实义词句确定专业领域的步骤之前,还包括:在分化确定所述实义词句的难度等级;当所述难度等级大于或等于预设等级时,执行所述根据所述实义词句确定所述专业领域的步骤;当所述难度等级小于预设等级时,直接对所述第一子内容和所述第二子内容进行翻译。
114.根据机器翻译模型的历史翻译记录中确定实义词句出现的频率,根据频率确定实义词句的难度等级,频率越高,难度等级越低,频率越低,难度等级越高,当实义词句的最大难度等级小于预设等级时,机器翻译模型对项目文件进行翻译的难度不高,可以直接对所述第一子内容和所述第二子内容进行篇章分析,得到翻译结果。而当实义词句的最大难度等级大于预设等级时,则执行步骤s21,这样可以节约翻译成本,翻译结果的准确性也有保证。
115.可选地,实义词句包括实义词汇和/或实义句,在记忆库中匹配所述专业领域内的句子语料作为所述语料数据;和/或术语库中匹配所述专业领域内的词汇语料作为所述语料数据。记忆库是存储大量句子语料数据的数据库,而术语库是存储大量词汇语料数据的数据库,记忆库和术语库中都是具有双语数据的语料库,这样更便于获取第一子内容所在专业领域的语料数据,提高翻译效率。
116.在本实施例公开的技术方案中,根据所述篇章分析结果确定所述第一子内容的实义词句;根据所述实义词句确定所述专业领域。这样通过实义词句可以确定第一子内容的主要含义,从而更快、更准确地确定第一子内容的专业领域,这样可以提高翻译效率和准确性。
117.此外,本发明实施例还提出一种翻译装置,所述翻译装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的翻译程序,所述翻译程序被所述处理器执行时实现如上各个实施例所述的翻译方法的步骤。
118.此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有翻译程序,所述翻译程序被处理器执行时实现如上各个实施例所述的翻译方法的步骤。
119.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
120.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
121.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个
存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得翻译装置执行本发明各个实施例所述的方法。
122.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1