一种在自动化翻译处理中精准替换术语及短语的方法

文档序号:6490366阅读:590来源:国知局
一种在自动化翻译处理中精准替换术语及短语的方法
【专利摘要】本发明为一种在自动化翻译处理中精准替换术语及短语的方法,包括:将原文输入分词模块,进行分词,获得以空格分隔的分词结果。将术语/短语表输入分词模块,获得分词后的术语/短语表。将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。用户使用时,除可以精确替换指定的术语及短语,还可指定不翻译的术语及短语,实现定制化。可大幅减少在译后编辑(PE)中工作量,聚焦语言,减少对术语的关注度,提升效率,加快产品上市时间。自动将术语及固定短语精准地替换到译文中,避免PE过程中人为造成表达不一致、术语不准确等情况,有效提升翻译质量,减少后续质量保证成本。
【专利说明】一种在自动化翻译处理中精准替换术语及短语的方法
【技术领域】
[0001]本发明涉及一种在自动化翻译处理中精准替换术语及短语的方法,用于CAT软件或者多语言翻译系统中的开发和应用,属多语言机器翻译【技术领域】。
【背景技术】
[0002]机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
[0003]发展道路
机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家Π.Π.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:
1.开创期(1947-1964)
1954年,美国乔治敦大学(Georgetown University)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。
[0004]2.受挫期(1964-1975)
1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称 ALPAC 委员会),开始了为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。机器翻译步入萧条期。
[0005]3.恢复期(1975-1989)
进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出。中国的“784”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。
[0006]4.新时期(1990?现在)
随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
[0007]5.机器翻译的过程
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
[0008]6.中国机器翻译简史
中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。
[0009]机器翻译的质量问题误差难免
很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的。
[0010]对于“小而专”的【技术领域】,术语的准确使用尤为重要。准确地使用术语能够大幅提升译文的质量,大大减少翻译人员后编辑(PE)过程中的负担。然而,如何获取应对各个行业、精准地道的术语表,避免术语使用的歧义,存在巨大挑战。
[0011]现有技术的缺点:常规的遍历术语/短语列表并替换的方法很可能因句子中用词形似歧义导致术语/短语被错误地替换的问题。

【发明内容】

[0012]为解决上述问题,本发明旨在提供一种在自动化翻译处理中精准替换术语及短语的方法。本发明的技术方案如下:
一种在自动化翻译处理中精准替换术语及短语的方法,包括以下步骤:
I)将原文输入分词模块,进行分词,获得以空格分隔的分词结果。
[0013]2)同时,将术语/短语表输入分词模块,获得分词后的术语/短语表。
[0014]3)将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。
[0015]4)将匹配得到的结果,根据术语/短语表中对应语言的词条进行替换,最终获得术语/短语前处理后的译文。
[0016]以上所述的在自动化翻译处理中精准替换术语及短语的方法,作为优选方案:还包括:
分词模块:提供将源语言文本、术语/短语表条目按照近似真实语义进行划分的功能。
[0017]前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能。
[0018]术语表:提供保存术语/短语在不同语言间的对应信息的功能。
[0019]本发明的在自动化翻译处理中精准替换术语及短语的方法,其有益效果是:减少后编辑时间,提升工作效率,确保翻译术语的统一性,有效节约成本。
[0020]自动化翻译处理中精准替换术语及短语的方法,可带来以下有益效果:
O大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升后编辑效率,减少翻译相关产品的Time-To-Market 时间。
[0021]2)自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。
【专利附图】

【附图说明】
[0022]图1.在自动化翻译处理中精准替换术语及短语的方法的系统框图。
具体实施方案
[0023]缩略语和关键术语定义:
词段数分词后得到词段的数量
AT/MT Automatic Translation/Machine Translation 自动化翻译,又称机器翻译PE Post-Editing译后编辑,指对自动化翻译后的译文进行的人工编辑,以确保翻译质量满足要求 QA Quality assurance质量保证,指对译后编辑的进行再审校,以确保翻译质量的过程。
[0024]具体实施例如下:
在自动化翻译处理中精准替换术语及短语的方法,包括以下步骤:
I)将原文输入分词模块,进行分词,获得以空格分隔的分词结果。
[0025]2)同时,将术语/短语表输入分词模块,获得分词后的术语/短语表。
[0026]3)将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。
[0027]4)将匹配得到的结果,根据术语/短语表中对应语言的词条进行替换,最终获得术语/短语前处理后的译文。
[0028]在自动化翻译处理中精准替换术语及短语的方法,具体还包括:
I)分词模块:提供将源语言文本、术语/短语表条目按照近似真实语义进行划分的功倉泛。
[0029]2)前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能。
[0030]3)术语表:提供保存术语/短语在不同语言间的对应信息的功能。
[0031]通过应用本发明技术,可带来以下有益效果:
O大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升译后编辑(PE)效率,减少翻译相关产品的Time-To-Market时间。
[0032]2)自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。
[0033]每个厂商都希望用户在翻译过程中,确保对准确使用专业术语,而真实的翻译场景是由多个翻译人员或者翻译小组来完成某个产品项目,所以,即使厂商提供了专业的术语,也未必能够使每个译员或者每个翻译小组都能够保持术语的一致性,这样将浪费较多的人力、物力和财力。从用户的角度考虑,一种在自动化翻译处理中精准替换术语及短语的方法,在保证术语一致性的同时,将提升翻译的效率,节约成本,减少后期质量检查的时间,将是相当可贵。采用本发明的技术方案,可得到有益结果:除了 I) 大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升PE效率,减少翻译相关产品的Time-To-Market时间,同时,自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。
[0034]以上所述,仅为本发明的较佳实施例而已,本【技术领域】的技术人员围绕该精神所做的任何非创造性改进,皆属于本发明的保护范围。
【权利要求】
1.在自动化翻译处理中精准替换术语及短语的方法,其特征在于: I)将原文及术语/短语条目进行分词后匹配的方法;2)按照分词后的词段数,由多到少匹配的方法。
2.根据权利要求1所述的在自动化翻译处理中精准替换术语及短语的方法,其特征在于:分词模块:提供将源语言文本、术语/短语表条目按照近似真实语义进行划分的功能;前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能;术语表:提供保存术语/短语在不同语言间的对应信息的功能。
【文档编号】G06F17/28GK103793375SQ201210424472
【公开日】2014年5月14日 申请日期:2012年10月31日 优先权日:2012年10月31日
【发明者】杜金林, 朱懿, 杜勇 申请人:上海勇金懿信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1