一种翻译系统及翻译方法

文档序号:6538530阅读:155来源:国知局
一种翻译系统及翻译方法
【专利摘要】本发明公开了一种翻译系统及翻译方法,其中,一种翻译方法,其特征在于,包括:用户端输入需要翻译的原文,用户端将需要翻译的原文传输给服务器,服务器根据原文字数是否超过数量阀值判断是否需要切割,进行标点切割及一级标记,再一次判断,进行连词切割及二级标记,将切割后的碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端,检索不到匹配的译文,转接到人工翻译,进行拼接,将拼接后的译文传递给用户端。提高了语料库的匹配效率,进一步减少了人工成本。
【专利说明】一种翻译系统及翻译方法
【技术领域】
[0001]本发明涉及一种用于各类电脑设备、嵌入式系统、便携式系统、系统芯片、手机设备或移动电子装置中的翻译系统及翻译方法,特别是涉及一种翻译系统及翻译方法。
【背景技术】
[0002]随着经济的发展,对外交流的增多,人们越来越需要有一种准确、使用方便且费用低廉的语言及时翻译工具。而由于语言的复杂性,在现有的技术条件下完全通过机器实现这一目标并不可行,采用人工翻译结合翻译软件并通过互联网及移动(固定)电话网络传播是在现阶段较为经济、可行的办法。如何利用翻译软件在不同语言间实现合理而准确的翻译,这在目前还是一个世界性难题。现有的翻译软件大多在词汇翻译上有所建树,而对不同语言的语法转换都做的勉强,更不用说对不同语言丰富语境的表达了。因此,在今后很长一段时间里,人工翻译还是人们在不同语言之间进行沟通的主要方式。
[0003]人工翻译准确率高,但是减少其人工成本、时间成本提高效率更是迫在眉睫。
[0004]申请号位00109861.6,98110927.6的发明专利,完全采用机器翻译,虽然翻译成本低,但翻译的准确性差。因为现有的完全凭借机器翻译,虽然现有的翻译软件大多在词汇翻译上有所建树,而对不同语言的语法转换都做的勉强,更不用说对不同语言丰富语境的表达了。因此,翻译的准确度差,对有些内容的翻译或表达混乱,或意思相差很大,很难满足需要。
[0005]申请号为201110009593.4的专利,采用数据库和人工翻译端相结合,但是不够详细,没有公开如何拆分翻译原文和如何将翻译片段在语料库中进行匹配和推送,没有切割条件库和匹配模块,本专利是在此基础上的精进。

【发明内容】

[0006]现有人工翻译在流程上比较复杂,设有众多的角色,在反应速度上相对较慢,而且,每一份需要翻译的内容(文本、图片、语音)都需要经过译员来翻译,如果翻译的内容是重复的,就意味着要做很多重复的工作,因此,为了减少人工翻译工作量,避免重复翻译,进而提高现有翻译后台的响应速度,提升用户体验,提出了此发明。
[0007]本发明公开了一种翻译方法,其特征在于,包括:
用户端输入需要翻译的原文,
用户端将需要翻译的原文传输给服务器;
服务器判断原文字数是否超过数量阀值,如果超过,则进行标点切割:将原文按照标点库进行切割,切割后,对原文碎片进行一级标记,记录编号和对应的标点;
再次判断一级标记的原文碎片是否超过数量阀值,如果超过,则进行连词切割:服务器将一级标记的原文碎片按照连词库进行切割,切割后,对原文碎片进行二级标记,记录编号和相应的连词;
将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端; 检索不到匹配的译文,转到人工翻译;
根据原文碎片的二级标记,对译文进行排序,排序后,进行连词拼接;
根据原文碎片的一级标记,对译文进行排序,排序后,进行标点拼接;
将拼接后的译文传递给用户端;
所述标点库,用于储存适合切割原文的标点,可不断更新;
所述连词库,用于储存适合切割原文的连词,可不断更新。
[0008]进一步,将人工翻译的译文返回到语料库进行存储。
[0009]进一步,所述匹配分为若干个级别,默认是一级匹配:原文碎片和在语料库中检索到的原文从字面100%匹配;
还可以选择二级匹配:原文碎片和在语料库中检索到的原文从字面90%匹配;
还可以选择三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配; 还可以手动输入自定义匹配比例。
[0010]进一步,如果是一级匹配,将一条以上相同的匹配译文去重;一条以上不同的匹配译文,转到人工翻译端。
[0011]进一步,所述数量阀值默认为是10,用户可以手动输入自定义的数量。
[0012]本发明还公开了一种翻译系统,包括一个或一个以上的用户端,与用户端信号连接的服务器、人工翻译端,其特征在于服务器还包括文本切割模块和文本组合模块;
用户端包括:
用户端输入模块,用于输入用户端翻译请求并将其传输到服务器,所述翻译请求包括需翻译的原文、翻译语种;
人工翻译端,用于人工翻译从服务器反馈的翻译需求、判断译文是否正确并进行修改替换,所述翻译请求包括需翻译的原文碎片、翻译语种;
服务器包括:
文本切割模块,所述文本切割模块包括标点库和连词库、判断模块、标记模块,用于当原文字数超过数量阀值时根据标点库将需翻译的原文切割为若干个原文碎片,对原文碎片进行一级标记,记录编号和对应的标点,当一级标记的原文碎片仍超过数量阀值时,根据连词库将需翻译的原文碎片进一步切割,对原文碎片进行二级标记,记录编号和相应的连词;
所述标点库,用于储存适合切割原文的标点,可不断更新;
所述连词库,用于储存适合切割原文碎片的连词,可不断更新;
所述判断模块,用于判断原文或者原文碎片是否超过数量阀值;
所述标记模块,用于对原文碎片进行标记、记录编号、标点、连词;
服务器还包括语料库,用于储存建立服务器数据库时由人工录入的原文及对应的译文资料;
服务器还包括检索模块,用于从将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端,检索不到匹配的译文,转接到人工翻译端;
还包括文本组合模块,用于根据原文碎片的二级标记,对译文进行排序,连词拼接,还用于根据原文碎片的一级标记,对译文进行排序,标点拼接;
还包括译文推送模块,用于将拼接后的译文传递给用户端。[0013]优选地,服务器还包括更新模块,用于将人工翻译端的译文转移储存到语料库中,同时用于更新维护服务器中的翻译检索应用程序。
[0014]优选地,服务器还包括匹配模块,用于将原文碎片在语料库中默认进行一级匹配或选择进行二级匹配或三级匹配或自定义匹配,
一级匹配:输入的原文碎片和在语料库中检索到的原文从字面100%匹配;
二级匹配:输入的原文碎片和在语料库中检索到的原文从字面90%匹配;
三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配。
[0015]优选地,服务器还包括去重模块,用于将一条以上相同的匹配译文去重,将一条以上不同的匹配译文转到人工翻译端。
[0016]本发明中的翻译系统,具有以下优点:
1、通过语料库的利用,提高了人工翻译的效率,节省了人力成本;
2、通过标点切割和连词切割将原文切割成碎片,提高了语料库的匹配效率;
3、通过可选择及可自定义的匹配模块,有利于用户根据经验值选择更合理的匹配。
【专利附图】

【附图说明】
[0017]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1示出了翻译方法的流程图。
[0018]图2示出了翻译系统的结构图。
【具体实施方式】
[0019]下面将参考附图并结合实施例,来详细说明本发明。
[0020]实施例1:本发明公开了一种翻译方法,参考附图1,其特征在于,包括:
用户端输入需要翻译的原文,
用户端将需要翻译的原文传输给服务器;
服务器判断原文字数是否超过10个字,如果超过,则进行标点切割:
将原文按照标点库进行切割,切割后,对原文碎片进行一级标记,记录编号和对应的标
占.再次判断一级标记的原文碎片是否超过10个字,如果超过,则进行连词切割:
服务器将一级标记的原文碎片按照连词库进行切割,切割后,对原文碎片进行二级标记,记录编号和相应的连词;
将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端;
检索不到匹配的译文,转到人工翻译;
根据原文碎片的二级标记,对译文进行排序,排序后,进行连词拼接;
根据原文碎片的一级标记,对译文进行排序,排序后,进行标点拼接;
将拼接后的译文传递给用户端;
所述标点库,用于储存适合切割原文的标点,可不断更新;
所述连词库,用于储存适合切割原文的连词,可不断更新。
[0021]进一步,将人工翻译的译文返回到语料库进行存储。[0022]进一步,所述匹配分为若干个级别,默认是一级匹配:原文碎片和在语料库中检索到的原文从字面100%匹配;
还可以选择二级匹配:原文碎片和在语料库中检索到的原文从字面90%匹配;
还可以选择三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配; 还可以手动输入自定义匹配比例。
[0023]进一步,如果是一级匹配,将一条以上相同的匹配译文去重;一条以上不同的匹配译文,转到人工翻译端。
[0024]实施例2:本发明还公开了一种翻译系统,参考附图2,包括一个或一个以上的用户端,与用户端信号连接的服务器、人工翻译端,其特征在于服务器还包括文本切割模块和文本组合模块;
用户端包括:
用户端输入模块,用于输入用户端翻译请求并将其传输到服务器,所述翻译请求包括需翻译的原文、翻译语种;
人工翻译端,用于人工翻译从服务器反馈的翻译需求、判断译文是否正确并进行修改替换,所述翻译请求包括需翻译的原文碎片、翻译语种;
服务器包括:
文本切割模块,所述文本切割模块包括标点库和连词库、判断模块、标记模块,用于当原文字数超过10个字时根据标点库将需翻译的原文切割为若干个原文碎片,对原文碎片进行一级标记,记录编号和对应的标点,当一级标记的原文碎片仍超过10个字时,根据连词库将需翻译的原文碎片进一步切割,对原文碎片进行二级标记,记录编号和相应的连词;
所述标点库,用于储存适合切割原文的标点,可不断更新;
所述连词库,用于储存适合切割原文碎片的连词,可不断更新;
所述判断模块,用于判断原文或者原文碎片是否超过数量阀值;
所述标记模块,用于对原文碎片进行标记、记录编号、标点、连词;
服务器还包括语料库,用于储存建立服务器数据库时由人工录入的原文及对应的译文资料;
服务器还包括检索模块,用于从将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端,检索不到匹配的译文,转接到人工翻译端;
还包括文本组合模块,用于根据原文碎片的二级标记,对译文进行排序,连词拼接,还用于根据原文碎片的一级标记,对译文进行排序,标点拼接;
还包括译文推送模块,用于将拼接后的译文传递给用户端。
[0025]优选地,服务器还包括更新模块,用于将人工翻译端的译文转移储存到语料库中,同时用于更新维护服务器中的翻译检索应用程序。
[0026]优选地,服务器还包括匹配模块,用于将原文碎片在语料库中默认进行一级匹配或选择进行二级匹配或三级匹配或自定义匹配,
一级匹配:输入的原文碎片和在语料库中检索到的原文从字面100%匹配;
二级匹配:输入的原文碎片和在语料库中检索到的原文从字面90%匹配;
三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配。[0027]优选地,服务器还包括去重模块,用于将一条以上相同的匹配译文去重,将一条以上不同的匹配译文转到人工翻译端。
[0028]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种翻译方法,其特征在于,包括: 用户端输入需要翻译的原文, 用户端将需要翻译的原文传输给服务器; 服务器判断原文字数是否超过数量阀值,如果超过,则进行标点切割:将原文按照标点库进行切割,切割后,对原文碎片进行一级标记,记录编号和对应的标点; 再次判断一级标记的原文碎片是否超过数量阀值,如果超过,则进行连词切割:服务器将一级标记的原文碎片按照连词库进行切割,切割后,对原文碎片进行二级标记,记录编号和相应的连词; 将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端; 检索不到匹配的译文,转到人工翻译; 根据原文碎片的二级标记,对译文进行排序,排序后,进行连词拼接; 根据原文碎片的一级标记,对译文进行排序,排序后,进行标点拼接; 将拼接后的译文传递给用户端; 所述标点库,用于储存适合切割原文的标点,可不断更新; 所述连词库,用于储存适合切割原文的连词,可不断更新。
2.根据权利要求1所述的一种翻译方法,其特征在于,将人工翻译的译文返回到语料库进行存储。
3.根据权利要求1所述的一种翻译方法,其特征在于,所述匹配分为若干个级别,默认是一级匹配:原文碎片和在语料库中检索到的原文从字面100%匹配; 还可以选择二级匹配:原文碎片和在语料库中检索到的原文从字面90%匹配; 还可以选择三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配; 还可以手动输入自定义匹配比例。
4.根据权利要求1所述的一种翻译方法,其特征在于,如果是一级匹配,将一条以上相同的匹配译文去重;一条以上不同的匹配译文,转到人工翻译端。
5.根据权利要求1所述的一种翻译方法,其特征在于,所述数量阀值默认为是10,用户可以手动输入自定义的数量。
6.一种翻译系统,包括一个或一个以上的用户端,与用户端信号连接的服务器、人工翻译端,其特征在于服务器还包括文本切割模块和文本组合模块; 用户端包括: 用户端输入模块,用于输入用户端翻译请求并将其传输到服务器,所述翻译请求包括需翻译的原文、翻译语种; 人工翻译端,用于人工翻译从服务器反馈的翻译需求、判断译文是否正确并进行修改替换,所述翻译请求包括需翻译的原文碎片、翻译语种; 服务器包括: 文本切割模块,所述文本切割模块包括标点库和连词库、判断模块、标记模块,用于当原文字数超过数量阀值时根据标点库将需翻译的原文切割为若干个原文碎片,对原文碎片进行一级标记,记录编号和对应的标点,当一级标记的原文碎片仍超过数量阀值时,根据连词库将需翻译的原文碎片进一步切割,对原文碎片进行二级标记,记录编号和相应的连词;所述标点库,用于储存适合切割原文的标点,可不断更新; 所述连词库,用于储存适合切割原文碎片的连词,可不断更新; 所述判断模块,用于判断原文或者原文碎片是否超过数量阀值; 所述标记模块,用于对原文碎片进行标记、记录编号、标点、连词; 服务器还包括语料库,用于储存建立服务器数据库时由人工录入的原文及对应的译文资料; 服务器还包括检索模块,用于从将原文碎片在语料库中检索,检索到匹配的译文,将译文返回到用户端,检索不到匹配的译文,转接到人工翻译端; 还包括文本组合模块,用于根据原文碎片的二级标记,对译文进行排序,连词拼接,还用于根据原文碎片的一级标记,对译文进行排序,标点拼接; 还包括译文推送模块,用于将拼接后的译文传递给用户端。
7.根据权利要求6所述的一种翻译系统,其特征在于,服务器还包括更新模块,用于将人工翻译端的译文转移储存到语料库中,同时用于更新维护服务器中的翻译检索应用程序。
8.根据权利要求6所述的一种翻译系统,其特征在于,服务器还包括匹配模块,用于将原文碎片在语料库中默认进行一级匹配或选择进行二级匹配或三级匹配或自定义匹配, 所述一级匹配:输入的原文碎片和在语料库中检索到的原文从字面100%匹配; 所述二级匹配:输入的原文碎片和在语料库中检索到的原文从字面90%匹配; 所述三级匹配:输入的原文碎片和在语料库中检索到的原文从字面80%匹配。
9.根据权利要求6所述的一种翻译系统,其特征在于,服务器还包括去重模块,用于将一条以上相同的匹配译文去重,将一条以上不同的匹配译文转到人工翻译端。
【文档编号】G06F17/28GK103838718SQ201410061459
【公开日】2014年6月4日 申请日期:2014年2月24日 优先权日:2014年2月24日
【发明者】江潮, 何战涛, 赖超 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1