基于模板的多语言翻译方法及翻译系统与流程

文档序号:12063657阅读:252来源:国知局
基于模板的多语言翻译方法及翻译系统与流程

本发明涉及语言翻译领域,具体涉及一种基于模板的多语言翻译方法及翻译系统。



背景技术:

近年来,自然语言处理技术取得了飞速的发展,为机器翻译提供了良好的技术支持,提高了机器翻译的质量和效率。但是面对翻译质量要求极高的场景下,使用通用机器翻译工具较难达到翻译质量要求。而采用人工翻译,则会产生巨大的工作量并重复劳作,翻译成本较高。本发明通过机器学习人工翻译结果,记忆并运用翻译模板,在限定领域的机器翻译方面取得了良好效果。



技术实现要素:

本发明的目的在于为了解决现有技术中机器翻译质量较低、采用人工翻译成本较高等问题的出现;提供一种基于模板的多语言翻译方法及翻译系统。

为了达到上述目的,本发明通过以下技术方案实现:

一种基于模板的多语言翻译方法,所述多语言翻译方法包含:

解析待翻译文件是否包含至少一个特征变量;每个所述特征变量为所述待翻译文件对应语言库中的一个特征词,每个所述特征词为名词、量词、习惯用语以及短语中的任意一种词语;

当包含时,将所述待翻译文件以及至少一个所述特征变量进行模板化处理及翻译;

将所述待翻译文件进行完整翻译。

较佳地,在解析待翻译文件是否包含至少一个特征变量的步骤之前,还包含:

根据译文的语言习惯,将所述待翻译文件进行符号统一、格式规范化的处理,生成可识别的所述待翻译文件。

优选地,在解析所述待翻译文件是否包含至少一个特征变量的步骤中,具体包含:

将所述待翻译文件进行单句拆分;

解析每个所述单句是否包含与对应所述语言库相匹配的至少一个所述特征变量;其中,每种所述语言库包含对应语言的多个所述特征词。

可选地,在当包含时,将所述待翻译文件以及至少一个所述特征变量进行模板化处理及翻译的步骤中,具体包含:

识别所述待翻译文件的所有所述特征变量,识别所述待翻译文件其他部分;将每个所述特征变量根据对应译文进行模板化翻译,将所述待翻译文件其他部分进行模板化翻译。

较优地,将所述待翻译文件进行完整翻译的步骤,具体包含:

将每个所述单句进行人工翻译调整,完成所述待翻译文件的完整翻译。

较佳地,所述多语言翻译方法还包含:

解析采用所述人工翻译的所述待翻译文件中是否包含至少一个所述特征词,当包含时,将至少一个所述特征词及对应译文进行保存。

一种基于模板的多语言翻译系统,所述多语言翻译系统包含:

特征词生成模块,解析待翻译文件是否包含至少一个特征变量;每个所述特征变量为所述待翻译文件对应语言库中的一个特征词,每个所述特征词为名词、量词、习惯用语以及短语中的任意一种词语;

模板生成模块,当包含时,将所述待翻译文件以及至少一个所述特征变量进行模板化处理及翻译;

翻译模块,将所述待翻译文件进行完整翻译。

可选地,所述特征词生成模块包含多种语言库,每种所述语言库包含对应语言的多个所述特征词;

所述特征词生成模块将所述待翻译文件进行单句拆分;解析每个所述单句是否包含与对应的所述语言库相匹配的至少一个所述特征变量;

所述特征词生成模块还用于判断任意两个所述语言库中所述特征词的总数量是否相等,当不相等时,在其中一个所述语言库查找至少一个区别特征词,并在另一个所述语言库中添加所述区别特征词对应语言的特征词。

优选地,所述模板生成模块用于根据所述特征词生成模块内的任一所述语言库内所有所述特征词形成多个第一类型模板,并将多个历史翻译任务以及对应的译文形成相应的多个第二类型模板;每个所述第一类型模板包含一个所述特征词、与所述特征词对应的一种译文语言的特征词作为所述特征词的译文;

所述模板生成模块识别所述待翻译文件的所有所述特征变量,识别所述待翻译文件其他部分;将每个所述特征变量根据对应所述第一类型模板进行模板化翻译,将所述待翻译文件其他部分根据对应所述第二类型模板进行模板化翻译。

较佳地,在特征词生成模块解析所述待翻译文件是否包含至少一个特征变量之前,所述翻译模块根据译文的语言习惯,将所述待翻译文件进行符号统一、格式规范化的处理,生成可识别的所述待翻译文件;

在模板生成模块将至少一个所述特征变量进行模板化处理及翻译之后,所述翻译模块将每个所述单句中不包含所述特征变量的部分进行人工翻译,完成所述可识别的待翻译文件的完整翻译;

所述翻译模块还用于判断利用人工翻译的所述待翻译文件中是否包含至少一个所述特征词,当包含时,将至少一个所述特征词及对应译文保存至所述特征词生成模块。

在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。

本发明的积极进步效果在于:

本发明公开的一种基于模板的多语言翻译方法及翻译系统;翻译系统包含特征词生成模块、模板生成模块及翻译模块组建成翻译系统。首先,判断待翻译文件是否包含至少一个特征变量;其次,将待翻译文件以及至少一个特征变量进行模板化处理及翻译;最后,将待翻译文件进行完整翻译。本发明能够应用于在原文与译文有较为统一翻译习惯的场景中,得到高质量翻译结果,并能够节约人力资源耗费。

附图说明

图1为本发明基于模板的多语言翻译方法的整体流程示意图。

图2为本发明基于模板的多语言翻译系统的整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,一种基于模板的多语言翻译方法,多语言翻译方法包含:

S1,解析待翻译文件是否包含至少一个特征变量;每个特征变量为待翻译文件对应语言库中的一个特征词,每个特征词为名词、量词、习惯用语以及短语中的任意一种词语。

该步骤中,优先解析待翻译文件是否含有量词类特征变量,从而能够优先识别出量词中含有的小数点,避免造成翻译失误。

如图1所示,如果待翻译文件不包含特征变量时,直接执行步骤S3。

S2,当包含时,将待翻译文件以及至少一个特征变量进行模板化处理及翻译。

S3,将待翻译文件进行完整翻译。该步骤中,采用人工翻译完成待翻译文件的完整翻译。

具体实施例如下:

待翻译文件:“仅可免费携带一件重量不超过5公斤、尺寸不超过40CM×30CM×20CM的非托运行李。需在马尔代夫机场离境时用现金或信用卡支付USD25.00元的机场建设费(两岁以下的儿童除外)。”

首先,识别上述待翻译文件中包含的量词类特征变量:25.00,40,30,20,5。

其次,识别上述待翻译文件中包含的其他特征变量:马尔代夫机场、非托运行李、机场建设费、儿童。

再次,将上述变量进行模板化处理,具体如下:

(1)仅可免费携带一件重量不超过${D1}公斤、尺寸不超过${D2}CM×${D3}CM×${D4}CM的${P1}。

(2)需在${P2}离境时用现金或信用卡支付USD${D5}元的${P3}(两岁以下的${N1}除外)。

然后,依据模板将上述待翻译文件中的特征变量翻译成英文:

(3)仅可免费携带一件重量不超过5公斤、尺寸不超过${40CM×30CM×20CM的carry-on baggage。

(4)需在Male International Airport离境时用现金或信用卡支付USD$25.00元的an airport construction fee(两岁以下的child除外)。

最后,人工将待翻译文件的其他部分进行完整翻译:

(5)5kg free carry-on baggage allowed(one piece only,no bigger than 40x30x20cm in size).

(6)An airport construction fee(equivalent to USD 25.00)must be paid by cash or credit card at Male International Airport upon leaving the country(excluding child below 2years old).

本实施例公开的基于模板的多语言翻译方法,通过解析待翻译文件是否包含至少一个特征变量;当包含时,将至少一个特征变量进行模板化处理及翻译;将待翻译文件进行完整翻译。能够实现在原文与译文有较为统一翻译习惯的场景中,实现高质量翻译结果,并能够节约人力资源耗费。

实施例2

如图1所示,一种基于模板的多语言翻译方法,多语言翻译方法包含:

S0,根据译文的语言习惯,将待翻译文件进行符号统一、格式规范化的处理,生成可识别的待翻译文件。

S1,解析待翻译文件是否包含至少一个特征变量;每个特征变量为待翻译文件对应语言库中的一个特征词,每个特征词为名词、量词、习惯用语以及短语中的任意一种词语。步骤S1具体包含:

S1.1,将待翻译文件进行单句拆分。

S1.2,解析每个单句是否包含与对应的语言库相匹配的至少一个特征变量;其中,每种语言库包含对应语言的多个特征词。

该步骤中,优先解析待翻译文件是否含有量词类特征变量,从而能够优先识别出量词中含有的小数点,避免造成翻译失误。

如果待翻译文件不包含特征变量时,直接执行步骤S3。

S2,当包含时,将待翻译文件以及至少一个特征变量进行模板化处理及翻译。步骤S2具体包含:

S2.1,识别待翻译文件的所有特征变量,识别待翻译文件其他部分。

S2.2,将每个特征变量根据对应译文进行模板化翻译,将待翻译文件其他部分进行模板化翻译。

S3,将待翻译文件进行完整翻译。该步骤中,采用人工翻译完成待翻译文件的完整翻译。该步骤具体包含:

将每个单句中不包含特征变量的部分进行人工翻译,进行可识别的待翻译文件的完整翻译。

本实施例还包含:S4,解析利用人工翻译的待翻译文件中是否包含至少一个特征词,当包含时,将至少一个特征词及对应译文进行保存。

具体实施例如下:

待翻译文件:“北京-香港:无免费托运行李,只允许携带一件机舱行李,大小不得超过56厘米x36厘米x23厘米,重量不得大于7公斤。上海-香港:1件行李,每件23KG。”

首先,根据译文的语言习惯,将待翻译文件进行符号统一、格式规范化的处理,生成可识别的待翻译文件。

本实施例中,将待翻译文件中不必要的空格去掉,当译文要求为日语时,将符号统一为日语格式的符号。具体如下:

“北京-香港:无免费托运行李,只允许携带一件机舱行李,大小不得超过56厘米x36厘米x23厘米,重量不得大于7公斤。上海-香港:1件行李,每件23KG。”

其次,识别上述待翻译文件中包含的量词类特征变量:56,36,23,7,1,23。

识别上述待翻译文件中包含的其他特征变量:北京、香港、免费托运行李、机舱行李、上海、行李。

再次,将上述变量进行模板化处理,具体如下:

(I)${S1}-${S2}:无免费托运行李,只允许携带一件机舱行李,大小

不得超过${D1}厘米x${D2}厘米x${D3}厘米,重量不得大于${D4}公斤。

(II)${S2}-${S3}:${D5}件行李,每件${D6}KG。

然后,依据模板将上述待翻译文件翻译成日文:

(III)北京-香港:無料受託手荷物許容量なし。無料機内持込手荷物は

一個のみ(7kg、最大56㎝x36㎝x23㎝)。

(IV)上海-香港:1個、23kg/個。

本实施例公开的基于模板的多语言翻译方法,首先,根据译文的语言习惯,将待翻译文件进行符号统一、格式规范化的处理,生成可识别的待翻译文件;通过解析待翻译文件是否包含至少一个特征变量;将待翻译文件以及至少一个特征变量进行模板化处理及翻译;将待翻译文件进行完整翻译;最后,解析利用人工翻译的待翻译文件中是否包含至少一个特征词,当包含时,将至少一个特征词及对应译文进行保存。能够实现在原文与译文有较为统一翻译习惯的场景中,实现高质量翻译结果,并能够节约人力资源耗费。

实施例3

如图2所示,一种基于模板的多语言翻译系统,多语言翻译系统包含:特征词生成模块1、模板生成模块2以及翻译模块3。

其中,特征词生成模块1用于解析待翻译文件是否包含至少一个特征变量。当包含时,模板生成模块2用于将待翻译文件以及至少一个特征变量进行模板化处理及翻译。翻译模块3用于将待翻译文件进行完整翻译。

如图1所示,本实施例公开的基于模板的多语言翻译系统,具体工作原理如下:

S1,特征词生成模块1解析待翻译文件是否包含至少一个特征变量。

本实施例中,每个特征变量为待翻译文件对应语言库中的一个特征词,每个特征词为名词、量词、习惯用语以及短语中的任意一种词语。

该步骤中,特征词生成模块1优先解析待翻译文件是否含有量词类特征变量,从而能够优先识别出量词中含有的小数点,避免造成翻译失误。

如果待翻译文件不包含特征变量时,特征词生成模块1直接控制翻译模块3执行步骤S3。

S2,当包含时,模板生成模块2将待翻译文件以及至少一个特征变量进行模板化处理及翻译。

S3,翻译模块3将待翻译文件进行完整翻译。该步骤中,采用人工翻译完成待翻译文件的完整翻译。

本实施例公开的基于模板的多语言翻译系统,采用特征词生成模块、模板生成模块及翻译模块组建成翻译系统。首先,解析待翻译文件是否包含至少一个特征变量;其次,将待翻译文件以及至少一个特征变量进行模板化处理及翻译;最后,将待翻译文件进行完整翻译。本发明能够实现在原文与译文有较为统一翻译习惯的场景中,实现高质量翻译结果,并能够节约人力资源耗费。

实施例4

如图2所示,一种基于模板的多语言翻译系统,具体包含:特征词生成模块1、模板生成模块2以及翻译模块3。

其中,特征词生成模块1用于解析待翻译文件是否包含至少一个特征变量。当包含时,模板生成模块2用于将待翻译文件以及至少一个特征变量进行模板化处理及翻译。翻译模块3用于将待翻译文件进行完整翻译。

本实施例中,特征词生成模块1包含多种语言库,每种语言库包含对应语言的多个特征词。特征词生成模块1还能够将待翻译文件进行单句拆分,并且解析每个单句是否包含与对应的语言库相匹配的至少一个特征变量。

特征词生成模块1还用于判断任意两个语言库中特征词的总数量是否相等,当不相等时,在其中一个语言库查找至少一个区别特征词,并在另一个语言库中添加区别特征词对应语言的特征词。

本实施例中,模板生成模块2用于根据特征词生成模块1内任一语言库内所有特征词形成多个第一类型模板,并将多个历史翻译任务以及对应的译文形成相应的多个第二类型模板;每个第一类型模板包含一个特征词、与特征词对应的一种译文语言的特征词作为特征词的译文。

例如,特征词生成模块1包含中文语言库、英文语言库、日文语言库。则模板生成模块2包含的第一类型模板分别包括中文-英文第一类型模板、中文-日文第一类型模板、英文-日文第一类型模板。

例如,翻译模块3完成的历史翻译任务之一为将任一段不包含特征词的中文文字翻译为英文,则完成翻译后,该段中文与对应的英文形成第二类型模板。

模板生成模块2识别待翻译文件的所有特征变量,识别待翻译文件其他部分;将每个特征变量根据对应第一类型模板进行模板化翻译,将待翻译文件其他部分根据对应第二类型模板进行模板化翻译。

本实施例中,在特征词生成模块1判断待翻译文件是否包含至少一个特征变量之前,翻译模块3根据译文的语言习惯,将待翻译文件进行符号统一、格式规范化的处理,生成可识别的待翻译文件。

在模板生成模块2将至少一个特征变量进行模板化处理及翻译之后,翻译模块3将每个单句中不包含特征变量的部分进行人工翻译,完成可识别的待翻译文件的完整翻译。

翻译模块3还用于解析利用人工翻译的待翻译文件中是否包含至少一个特征词,当包含时,将至少一个特征词及对应译文保存至特征词生成模块1。

例如,中文语言库、英文语言库等。当中文语言库比英文语言库多三个特征词时,将这三个特征词分别进行对应的英文翻译,则在英文语言库中添加上述三个特征词对应的英文特征词。同时,模板生成模块2增加相应的上述三个中文-英文第一类模板。

本实施例公开的基于模板的多语言翻译系统,采用特征词生成模块、模板生成模块及翻译模块组建成翻译系统。首先,解析待翻译文件是否包含至少一个特征变量;其次,将待翻译文件以及至少一个特征变量进行模板化处理及翻译;最后,将待翻译文件进行完整翻译。本发明能够实现在原文与译文有较为统一翻译习惯的场景中,实现高质量翻译结果,并能够节约人力资源耗费。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1