动态生成多语言行业标准格式的海量语言资产的方法

文档序号:6489744阅读:196来源:国知局
动态生成多语言行业标准格式的海量语言资产的方法
【专利摘要】本发明为一种动态生成多语言行业标准格式的海量语言资产的方法,包括:通过开发解析器将TMX、TBX等基于XML的标准格式的语料库、术语库中的内容读取出并导入到指定的数据库中;在导入的同时,将自动匹配和放置相同内容不同语言对的数据库表,自动生成一句源文,多句匹配的目标语言的多语言数据库;在用户使用时,根据用户指定的语言对,自动将搜索到的结果以翻译记忆的形式反馈给用户,以特定的格式呈现给最终用户进行重用;当增加、更新多语言数据库时,将自动更新多语言的相关内容,从而保证语言资产在动态更新之后,可以继续让用户获取更新后的翻译记忆内容。直接重用文本数据库格式保存的语言资产,数据不易损坏丢失,提升了资产安全性。
【专利说明】动态生成多语言行业标准格式的海量语言资产的方法
【技术领域】
[0001]本发明涉及一种动态生成多语言行业标准格式的海量语言资产的方法,用于CAT软件或者多语言翻译系统中的TM模块的开发和应用,属多语言机器翻译【技术领域】。
【背景技术】
[0002]TM (Translation Memory翻译记忆)是计算机辅助翻译(CAT)领域广泛采用的技术之一,借助TM技术可以显著提高翻译效率,保证内容一致性。由于采用TM技术开发的CAT软件种类繁多,TM内容的存储格式千差万别,为了便于翻译机构以及CAT工具之间的TM数据交换,一种称为TMX(Translation Memory eXchange)的开放标准已经成功应用到本地化和翻译行业。
[0003]在软件和网站本地化翻译的过程中,需要处理的数据文件内容重复性比较大,另外由于内容更新频繁,且都是基于上一版本的更新,只是增加了少量新内容或者对原来的内容进行了少量修正,所以很有必要充分利用以前版本已经翻译的内容,而不需要重新翻译。
[0004]TM技术有效地重复利用这些已经翻译的内容,它采用片断(Segment)和TM库的方式提高翻译的效率,翻译数据库以“翻译单元(Translation Unit) ”为数据单位,将源语言的各个句子与目标语言的句子建立对应链接关系。翻译人员采用TM的CAT工具翻译内容时,CAT工具不断将最新翻译的内容存储到TM库,对于要翻译的内容(如单词、短语、句子、段落),它先在TM库中搜索该内容是否有匹配的内容,并且自动提供最接近的译法,翻译人员可方便地插入最匹配的译文。
[0005]随着翻译内容的不断丰富,TM库的容量不断增加,翻译人员不必为相同内容的再次重新翻译而苦恼,只需要专注于需要翻译的新内容即可,而且TM的准确性也能保证相同内容翻译的一致性。这是采用TM技术追求的目标。
[0006]然而,随着经济全球化的不断深入,软件/网站的本地化和全球化行业迅速发展,与此相呼应,各个采用T M技术开发的本地化工具和TM工具越来越多,但是这些工具是不同的厂家开发的,每家都有各自的文件数据存储格式。另外,对于一个本地化服务机构来说,经常为不同客户或相同客户的不同项目提供本地化翻译服务,由于不同客户和不同项目需要使用不同的本地化工具,经常由于各个本地化工具文件数据缺乏可以交换的标准格式,因此,很难重复使用以前积累的TM库资源。显然,TM库的标准格式亟待统一。
[0007]综上所述,随着经济全球化的不断深入,软件/网站的本地化和全球化行业迅速发展,除了对现有存储的TMX及TBX格式的语言资产(TM与术语资源)进行重用有助于提升产出与质量,降低成本。通常TMX或者TBX都是以一个语言对形式出现,如英文到中文,英文到德文等。然而,业界的技术还是停留在单一语言对格式进行支持的情况,还没有从现有的单一语言对里的相同内容自动生成多语言语言对的技术。
[0008]现有技术的缺点:1)现有的语言资产存储架构是二维的、单向的,源语种与各个目标语种间的对应关系无法打通;2)无法从海量单一语言TMX或TBX文件中相同内容自动获取多语言(多维度)、多向的语言对,造成资源的极大浪费,如需获取,势必造成巨大人工成本。

【发明内容】

[0009]为解决上述问题,本发明旨在提供一种动态生成多语言行业标准格式的海量语言资产的方法。本发明的技术方案如下:
[0010]一种动态生成多语言行业标准格式的海量语言资产的方法,包括以下步骤:
[0011]1、通过开发解析器将TMX、TBX等基于XML的标准格式的语料库、术语库中的内容读取出并导入到指定的数据库中;
[0012]2、在导入的同时,将自动匹配和放置相同内容不同语言对的数据库表,自动生成一句源文,多句匹配的目标语言的多语言数据库;
[0013]3、在用户使用时,根据用户指定的语言对,自动将搜索到的结果以翻译记忆的形式反馈给用户,以特定的格式呈现给最终用户进行重用;
[0014]4、当增加、更新多语言数据库时,将自动更新多语言的相关内容,保证语言资产在动态更新之后,可以继续让用户获取更新后的翻译记忆内容。
[0015]以上所述的动态生成多语言行业标准格式的海量语言资产的方法,作为优选方案:还包括:
[0016]采用λ语料解析模块,提供行业标准格式TMX和TBX的解析,将语料信息(包括源语言、目标语言等)读入内存,转换为二进制对象;
[0017]采用λ语料适配模块,提供对中间语言语料的匹配功能,并将相应目标语言语料存储到多语言语料矩阵正确位置;
[0018]采用λ语料生成模块,提供读取多语言语料矩阵内语料信息,并将其按照行业标准输出为TMX或TBX格式文件,方便归档备份语料或供其他兼容TMX或TBX的工具使用。
[0019]本发明的动态生成多语言行业标准格式的海量语言资产的方法,其有益效果是:以多语言数据库形式存在的语言资产是物理上独立于以TMX和TBX格式存在的语言资产的,即使多语言数据库被删除,也不会影响到原始的语言资产,从而保证了资产的安全性;而且,资产是以文本形式的XML (TMX与TBX均基于XML)保存在存储介质上,不同于被CAT工具频繁读取存储的二进制数据库文件,其安全性可以得到保障,不会意外丢失。
[0020]直接对TMX与TBX两种行业标准格式的处理,可带来以下有益效果:
[0021]I)直接重用文本数据库格式保存的语言资产,数据不易损坏丢失,提升了资产安全性。
[0022]2)无需手动转换格式,自动导入行业标准格式,实现语言资产的重用。
[0023]3)自动获取多语言多维度的语言对和术语对,比如原来有3个语言对的语料,通过应该用发明,可实现资产的额外增值,额外获得9个语言对的语料,从而发挥语言资产的最大效能,对企业的产品全球化和国际化,保持了全球化过程中语言表达的一致性,直接带来效率和质量的提升,节约巨大的多语言生产成本,缩短企业产品全球化布局的时间周期。
[0024]4)支持对海量多语言资产的高速查询/重用。
【专利附图】

【附图说明】[0025]图1.动态生成多语言行业标准格式的海量语言资产的方法的系统框图。
具体实施方案
[0026]缩略语和关键术语定义:
[0027]MTMM Multilingual Translation Memory Matrix 多语翻译记忆矩阵技术
[0028]TM Translation Memory翻译记忆
[0029]TU Translation Unit翻译单兀
[0030]TMX Translation Memory eXchange翻译记忆交换格式
[0031]TBX Term Base eXchange术语库交换格式
[0032]CAT Computer Aided Translation计算机辅助翻译
[0033]LISA Localization Industry Standards Association 本地化行业标准协会
[0034]OSCAR Open Standards for Container/Content Allowing Re-use 可重用容器/内容开放标准
[0035]具体实施例如下:
[0036]动态生成多语言行业标准格式的海量语言资产的方法,包括以下步骤:
[0037]I)通过开发解析器将TMX、TBX等基于XML的标准格式的语料库、术语库中的内容读取出并导入到指定的数据库中;
[0038]2)在导入的同时,将自动匹配和放置相同内容不同语言对的数据库表,自动生成一句源文,多句匹配的目标语言的多语言数据库;
[0039]3)在用户使用时,根据用户指定的语言对,自动将搜索到的结果以翻译记忆的形式反馈给用户,以特定的格式呈现给最终用户进行重用;
[0040]4)当增加、更新多语言数据库时,将自动更新多语言的相关内容,从而保证语言资产在动态更新之后,可以继续让用户获取更新后的翻译记忆内容。
[0041]动态生成多语言行业标准格式的海量语言资产的方法,具体还包括:
[0042]采用λ语料解析模块,提供行业标准格式TMX和TBX的解析,将语料信息(包括源语言、目标语言等)读入内存,转换为二进制对象;
[0043]采用λ语料适配模块,提供对中间语言语料的匹配功能,并将相应目标语言语料存储到多语言语料矩阵正确位置;
[0044]采用λ语料生成模块,提供读取多语言语料矩阵内语料信息,并将其按照行业标准输出为TMX或TBX格式文件,方便归档备份语料或供其他兼容TMX或TBX的工具使用。
[0045]以多语言数据库形式存在的语言资产是物理上独立于以TMX和TBX格式存在的语言资产的,即使多语言数据库被删除,也不会影响到原始的语言资产,从而保证了资产的安全性;而且,资产是以文本形式的XML (TMX与TBX均基于XML)保存在存储介质上,不同于被CAT工具频繁读取存储的二进制数据库文件,其安全性可以得到保障,不会意外丢失。
[0046]本发明的概念例句:
[0047]Α.对翻译记忆(TMX)的概念例如说明:
[0048]普通情况下的单语言对二维TM内容举例:
[0049]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization[0050]中文zh-cn:中华人民共和国是联合国组织的常任理事国
[0051]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization
[0052]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0053]英文 en-us:People’ s Republic of China is a permanent member of theUnited Nations Organization
[0054]德文de_de:Der Volksrepublik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0055]通过本发明技术,将自动获取任意匹配的多语言多维度语言对TM,如:
[0056]中文zh-cn:中华人民共和国是联合国组织的常任理事国
[0057]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0058]中文zh-cn:中华人民共和国是联合国组织的常任理事国
[0059]德文de_de:Der Volksrepublik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0060]法 文 fr-fr:Republique populaire de Chine est membre permanent deI’ Organisation des Nations Unies
[0061]德文de_de:Der Volksrepubl ik China ist standiges Mitglied derOrganisation der Vereinten Nationen
[0062]B.对术语库(TBX)的概念例如说明:
[0063]普通情况下的单语言二维术语内容:
[0064]英文 en-us:Computer-assisted translation
[0065]中文zh-cn:计算机辅助翻译
[0066]英文 en-us:Computer-assisted translation
[0067]法文 fr-fr:Traduction assistee par ordinateur
[0068]英文 en-us:Computer-assisted translation
[0069]德文 de_de:Computerunterstiitzte Obersetzung
[0070]通过本发明技术,将自动获取任意匹配的多语言多维度语言对术语:
[0071]中文zh-cn:计算机辅助翻译
[0072]法文 fr-fr:Traduction assistee par ordinateur
[0073]中文zh-cn:计算机辅助翻译
[0074]德文 de_de:Computerunterstiitzte Ubersetzung
[0075]法文 fr-fr:Traduction assistee par ordinateur
[0076]德文 de_de:Computerunterstiitzte Obersetzung
[0077]直接对TMX与TBX两种行业标准格式的处理,可带来以下有益效果:
[0078]I)直接重用文本数据库格式保存的语言资产,数据不易损坏丢失,提升了资产安全性。
[0079]2)无需手动转换格式,自动导入行业标准格式,实现语言资产的重用。[0080]3)自动获取多语言多维度的语言对和术语对,比如原来有3个语言对的语料,通过应该用发明,可实现资产的额外增值,额外获得9个语言对的语料,从而发挥语言资产的最大效能,对企业的产品全球化和国际化,保持了全球化过程中语言表达的一致性,直接带来效率和质量的提升,节约巨大的多语言生产成本,缩短企业产品全球化布局的时间周期。
[0081]4)支持对海量多语言资产的高速查询/重用。
[0082]每个厂商都希望用户对自身的CAT产品依赖性更大,但从用户的角度考虑,一种支持海量语言资产的从单一语言对的相同内容自动生成多语言对的方法,保证资产安全性,实现资源的最大化应用,将是相当可贵。采用本发明的技术方案,可得到有益结果:除了保证原单语言句对的重用和资产安全性,同时自动为用户获取多语言多维度的语言对,实现了资产的额外增值,发挥语言资产的最大效能。
[0083]以上所述,仅为本发明的较佳实施例而已,本【技术领域】的技术人员围绕该精神所做的任何非创造性改进,皆属于本发明的保护范围。
【权利要求】
1.动态生成多语言行业标准格式的海量语言资产的方法,其特征在于:包括以下步骤:(I)通过开发解析器将TMX、TBX等基于XML的标准格式的语料库、术语库中的内容读取出并导入到指定的数据库中;(2)在导入的同时,将自动匹配和放置相同内容不同语言对的数据库表,自动生成一句源文,多句匹配的目标语言的多语言数据库;(3)在用户使用时,根据用户指定的语言对,自动将搜索到的结果以翻译记忆的形式反馈给用户,以特定的格式呈现给最终用户进行重用;(4)当增加、更新多语言数据库时,将自动更新多语言的相关内容,保证语言资产在动态更新之后,可以继续让用户获取更新后的翻译记忆内容。
2.根据权利要求1所述的动态生成多语言行业标准格式的海量语言资产的方法,其特征在于:还包括以下步骤:采用λ语料解析模块,提供行业标准格式TMX和TBX的解析,将语料信息(包括源语言、目标语言等)读入内存,转换为二进制对象;采用λ语料适配模块,提供对中间语言语料的匹配功能,并将相应目标语言语料存储到多语言语料矩阵正确位置;采用λ语料生成模块,提供读取多语言语料矩阵内语料信息,并将其按照行业标准输出为TMX或TBX格式文件,方便归档备份语料或供其他兼容TMX或TBX的工具使用。
【文档编号】G06F17/30GK103729346SQ201210383201
【公开日】2014年4月16日 申请日期:2012年10月11日 优先权日:2012年10月11日
【发明者】杜金林, 朱懿, 杜勇 申请人:上海勇金懿信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1