计算机辅助翻译系统的制作方法

文档序号:6430876阅读:150来源:国知局
专利名称:计算机辅助翻译系统的制作方法
技术领域
本发明涉及一种计算机技术领域的系统,具体地说,涉及的是一种计算机辅助翻译系统。
背景技术
在当今时代,科学、技术与医学(STM)的发展非常迅猛,我国的科技学者与国际间的交流日益密切和频繁,科技文献需要在中英文之间进行互译,在现实中也形成了一个旺盛的科技文献翻译市场。我国每年的科技文献发表和创作的质量、数量在不断地上升。根据2007年SCI、EI、ISTP统计,我国作者发表在国际主要科技期刊和重要会议上的论文共 20. 8万篇,占世界比例的9.8%。按照国际论文数量排序,我国居世界第2位。特别在临床医学、电子通信与自动控制、计算机科学技术、基础医学、农学、药学、生物学、预防医学与卫生学、中医学、化学等领域我国发表的论文数居于前列。过去10年,我国材料科学发表的论文也占世界该学科论文总数的15. 9%,排在世界第2位,仅次于美国,其被引用次数排在世界第3位。说明我国在STM方面的影响力不断地增强,交流的空间不断地扩大,在不断地推进我国STM的发展。我国科技文献在“走出去”交流过程中,大量的科技工作者由于存在着外语准确、 合理应用表达等方面的障碍,致使许多有创新性的研究科技文献难以在第一时间引起国际上重视和反响,丧失了许多机会,甚至发生了由此引发的研究成果纠纷。如何提高科技工作者的科技文献翻译水平显得尤为重要和迫切。建立标准化的科技文献双语语料库,并基于此语料库上的英汉双语互译平台,提供一种更科学合理的通过语料实证的科技翻译服务, 有助于我国科技人员正确应用外语,提升外语科技文献的写作和交流水平,促进我国科技文献,特别是原创内容更多地走向世界,提升在世界上的影响力。目前已有的计算机辅助翻译系统可以罗列如下TradoS、Catalyst, Transit, Google翻译等。前三者可归为同一类(以Trados为例进行说明),而Google翻译自成一体。 Trados是以翻译记忆(TM)见长的一款软件,其系统中配有翻译记忆库和术语库。翻译时通过句级匹配和术语自动查找来实现翻译。因其记忆库容量相对强大之故,尤其适用于某些专业门类的翻译。以Trados为代表的这类软件均以音符文字为基准编制,它们适用于从音符文字翻译成音符文字或从音符文字翻译成意符文字。Google翻译是一种统计机器翻译, 其基本的工作方法是建立统计模型,制订算法规则,并使用大量高质量的双语平行语料, 即人工翻译的高质量译文来培训翻译系统,使得翻译系统中的语料更加真实地道,更符合人工翻译的规范。Trados软件有其不足之处,即购买软件时翻译记忆库和术语库是空的,需要使用者往库里添加句对和术语。就翻译个体而言,难以形成规模化的记忆库,故该款软件一般适用于团体用户,主要适用于特定项目的翻译。适用于从音符文字翻译成音符文字或从音符文字翻译成意符文字,相对于意符文字的中文而言,翻译成音符文字时存在一定的困难。Google的统计机器翻译系统是以音符文字为基准编制而成的,从实践应用来看,它更适用于音符文字翻译成音符文字,如英德互译可以达到非常好的效果。而汉至英翻译因其算法原因,多数情况下难以满足高品质翻译之需要。

发明内容
本发明的目的在于解决现有技术中的上述不足,提供一种计算机辅助翻译系统, 该系统通过对汉语语句的语块结合式切分与匹配,能实现从意符文字翻译成音符文字,来呈现更为准确的专业翻译效果,满足高品质翻译之需要。为实现上述目的,本发明采用了以下技术方案
本发明提供一种计算机辅助翻译系统,包括输入输出模块、语料库模块、翻译模块,其

所述输入输出模块将原文导入系统,传给翻译模块,并输出翻译模块的翻译结果; 所述语料库模块以数据库形式存在,是一个在语篇级、句级和语块级三个层面上实现对齐的科技文献双语平行语料库,其中的语块分为术语和句式两部分,均已平行对齐,语料库中的数据与翻译模块实现数据链接;
所述翻译模块从输入输出模块接收待译语句并进行翻译处理,翻译时,通过对待译汉语语句的语块结合式切分,并与语料库模块采用最大逆向匹配法进行相应的匹配(其中的句式由诱导词进行诱导匹配),从而提供若干最适匹配状态的译文语句,并将该译文语句经翻译编辑后提供给输入输出模块输出显示。所述语料库模块由语篇库、句对库、句式库、术语库四部分组成,这四个库均已实现英汉平行对齐,其中的语篇库、句对库、句式库均设置有一个相同的字段,表示具体的句对或句式出自哪一语篇,以利于链接检索;其中
语篇库存储已实现段落级英汉对齐的语篇;
句对库存储已实现句级英汉对齐的句对,这些句对均转换自语篇;
句式库存储已实现英汉对齐的句式;
术语库存储英汉对照的专业术语。所述翻译模块由翻译编辑子模块和检索匹配子模块组成,翻译编辑子模块为一个完整的界面窗口,对于导入的原文进行切分,并对待译语句进行匹配操作、翻译编辑;检索匹配子模块按照已切分的术语进行检索,并行句对检索。所述翻译编辑子模块由原文导入和译文输出部分、待译语句选择与操作部分、译文编辑部分三部分组成,待译语句选择与操作部分与相应的检索匹配界面相链接,其中
原文导入和译文输出部分导入原文并实现句级自动切分;存留完成翻译编辑的语
句;
待译语句选择与操作部分一是检索句对库中是否存在与待译语句全额匹配或70%以上匹配的句对;二是将未能发现70%以上匹配的待译语句进行切分,切分单位为术语和通用关键词;三是借助于通用关键词检索句式或句对,或者借助于术语检索句对;
译文编辑部分导入经检索的符合要求的句对或句式,可按光标设置插入术语,可进行文本编辑。所述检索匹配子模块由句对检索界面部分、句式检索界面部分、术语检索界面部分、语篇检索界面部分四部分组成,分别与语料库模块中的句对库、句式库、术语库、语篇库链接,其中
句对检索界面部分显示按要求检索后的所有句对,以关键词对齐;可行二次检索;链接相关语篇,以确定待译语句的语境;
句式检索界面部分显示按要求检索后的所有句式,可行二次检索;链接相关句对; 术语检索界面部分显示按要求检索后的所有术语;链接相关句对; 语篇检索界面部分显示与句对或句式对应的语篇。本发明系统工作时,先通过输入输出模块将原文导入系统,系统将原文切分成以句子为单位的待译语句,然后翻译模块进行翻译匹配等处理
首先,开始全额或70%以上匹配的翻译编辑操作。按顺序选择一个待译语句进入待译语句选择与操作部分。在句对库中检索是否存在全额匹配或70%以上匹配的译文。若是全额匹配,则翻译完毕,将译文导入“原文导入和译文输出部分”即可;若是70%以上与全额之间的匹配,则尚需翻译编辑,由译文编辑部分完成。此时亦可进行术语检索。当然,此处的匹配率可以根据实际的需要进行设定。其次,对待译语句进行切分。按通用关键词检索句式,译文编辑部分导入符合要求的句式。检索术语,在句式中插入术语。进行必要的翻译编辑。再次,按照已切分的术语进行检索,并行句对检索。进行必要的翻译编辑。最后,将全文完成翻译编辑的译文导出系统。从以上技术方案可以看出,本发明系统基于双语平行语料库进行计算机辅助翻译,按照定义进行切分与检索匹配,通过对汉语语句的语块结合式切分与匹配,实现从意符文字至音符文字的计算机辅助翻译,由此呈现更为准确的专业翻译效果。本发明亦可用于专业英语文献写作。


图1为本发明结构框图。
具体实施例方式以下结合附图和实施例对本发明的技术方案作进一步的解释,但是以下的内容不用于限定本发明的保护范围。如图1所示,本实施例提供一种计算机辅助翻译系统,该系统包括输入输出模块、语料库模块、翻译模块,其中
所述输入输出模块将原文导入系统,传给翻译模块,并输出翻译模块的翻译结果; 所述语料库模块以数据库形式存在,是一个在语篇级、句级和语块级三个层面上实现对齐的科技文献双语平行语料库,其中的语块分为术语和句式两部分,均已平行对齐,语料库中的数据与翻译模块实现数据链接;
所述翻译模块从输入输出模块接收待译语句并进行翻译处理,翻译时,通过对待译汉语语句的语块结合式切分,并与语料库模块采用最大逆向匹配法进行相应的匹配(其中的句式由诱导词进行诱导匹配),从而提供若干最适匹配状态的译文语句,并将该译文语句经翻译编辑后提供给输入输出模块输出显示。所述语料库模块由语篇库、句对库、句式库、术语库四部分组成,这四个库均已实现英汉平行对齐,其中的语篇库、句对库、句式库均设置有一个相同的字段,表示具体的句对或句式出自哪一语篇,以利于链接检索;其中 语篇库存储已实现段落级英汉对齐的语篇; 句对库存储已实现句级英汉对齐的句对,这些句对均转换自语篇; 句式库存储已实现英汉对齐的句式; 术语库存储英汉对照的专业术语。所述翻译模块由翻译编辑子模块和检索匹配子模块组成,翻译编辑子模块为一个完整的界面窗口,对于导入的原文进行切分,并对待译语句进行匹配操作、翻译编辑;检索匹配子模块按照已切分的术语进行检索,并行句对检索。所述翻译编辑子模块由原文导入和译文输出部分、待译语句选择与操作部分、译文编辑部分三部分组成,待译语句选择与操作部分与相应的检索匹配界面相链接,其中
原文导入和译文输出部分导入原文并实现句级自动切分;存留完成翻译编辑的语
句;
待译语句选择与操作部分一是检索句对库中是否存在与待译语句全额匹配或70%以上匹配的句对;二是将未能发现70%以上匹配的待译语句进行切分,切分单位为术语和通用关键词;三是借助于通用关键词检索句式或句对,或者借助于术语检索句对;
译文编辑部分导入经检索的符合要求的句对或句式,可按光标设置插入术语,可进行文本编辑;
所述检索匹配子模块由句对检索界面部分、句式检索界面部分、术语检索界面部分、语篇检索界面部分四部分组成,分别与句对库、句式库、术语库、语篇库链接,其中
句对检索界面部分显示按要求检索后的所有句对,以关键词对齐;可行二次检索;链接相关语篇,以确定待译语句的语境;
句式检索界面部分显示按要求检索后的所有句式,可行二次检索;链接相关句对; 术语检索界面部分显示按要求检索后的所有术语;链接相关句对; 语篇检索界面部分显示与句对或句式对应的语篇。下文为待译汉语段落。在此,将该段落作为本发明具体应用的实施例,并结合本发明的系统模块进行说明
“滑膜连结有四个识别特点,即关节腔、关节软骨、滑膜和纤维囊。在滑膜连结中骨的关节面被关节腔隔开,关节腔是一个含有微量滑液的潜在间隙。关节面有薄层关节软骨覆盖。 纤维囊附着在骨端的关节软骨周围,将骨连结在一起。有时纤维囊可局部增厚而形成韧带, 纤维囊的内面覆有滑膜。滑膜抵达软骨边缘。关节囊及其附属韧带对维持相关节的骨的正常关系起着重要作用。关节严重外伤可使韧带撕裂,这是运动中(如足球运动)常见的外伤。”
上述文档经由输入输出模块导入系统,系统自动将其切分成待译句子并显示在翻译模块的原文导入和译文输出部分
“滑膜连结有四个识别特点,即关节腔、关节软骨、滑膜和纤维囊。在滑膜连结中骨的关节面被关节腔隔开,关节腔是一个含有微量滑液的潜在间隙。关节面有薄层关节软骨覆盖。
纤维囊附着在骨端的关节软骨周围,将骨连结在一起。有时纤维囊可局部增厚而形成韧带,纤维囊的内面覆有滑膜。滑膜抵达软骨边缘。关节囊及其附属韧带对维持关节的骨的正常关系起着重要作用。关节严重外伤可使韧带撕裂,这是运动中(如足球运动)常见的外伤。”
将第一句选入待译语句选择和操作部分,与语料库模块采用最大逆向匹配法进行相应的匹配(其中的句式由诱导词进行诱导匹配),确定是否全额匹配 “滑膜连结有四个识别特点,即关节腔、关节软骨、滑膜和纤维囊。” 若是,则在译文编辑部分出现译文
”The four distinguishing features of a synovial joint are that they have a joint cavity, an articular cartilage, a synovial membrane, and a fibrous capsule.,,
若确认译文,则译文返回原文导入和译文输出部分。继续第二句的翻译 “在滑膜连结中骨的关节面被关节腔隔开,关节腔是一个含有微量滑液的潜在间隙。,, 将上述句子进行切分处理,句子中的术语被完全切分。进而先进行术语检索,再按照经检索且被确认的术语进行句对检索,确认是否存在相似的译句。选择相似的句子在译文编辑部分进行翻译编辑
"In a synovial joint the articular surfaces of the bones are separated by a joint cavity which is normally a potential space containing a trace of synovial fluid. ”
若确认译文,则译文返回原文导入和译文输出部分。继续第三句的翻译 “关节面有薄层关节软骨覆盖。,,
对句子行切分后,得出两个术语和一个诱导词。据此诱导词进行句式检索,找出句式“A thin layer of…is covered on”。选中进入译文编辑部分,将光标设置在of之后,插入 “关节软骨”所对应的术语“articular cartilage",以同样方法插入“关节面”所对应的术 Ig-"articular surface’,。
"A thin layer of articular cartilage is covered on the articular surface. ” 确认后,返回原文导入和译文输出部分。继续第四句的翻译 “纤维囊附着在骨端的关节软骨周围,将骨连结在一起。,,
上句切分效果显示,术语有三个、诱导词有两个。据此诱导词进行句式检索,找出句式 "is attached to”和“are held together”。选中并经前后换序进入译文编辑部分,将光标设置在are之前插入The bones,并在together之后插入a fibrous capsule ;继续进行另一个诱导词的翻译编辑,将光标设置在is之前插入which,又将光标设置在to之后插入 the end of bones。最后得出译句
“The bones are held together by a fibrous capsule which is attached to the end of bones surrounding the articular cartilages. ”
确认后,返回原文导入和译文输出部分。继续第五句和第六句的翻译 “有时纤维囊可局部增厚而形成韧带,纤维囊的内面覆有滑膜。,, “滑膜抵汰软骨边缘。”之所以将两句合并,原因在于第六句可作为前一句的从句。句子切分后得到上述效果, 其他操作相同。最后得出译句
“Sometimes the fibrous capsule may be locally thickened and thus forms accessory ligaments. The inner surface of fibrous capsule is lined by synovial membrane which ends at the margin of the articular cartilages.,, 确认后,返回原文导入和译文输出部分。继续第七句的翻译 “关节囊及其附属钿带对维持关节的骨的If常关系起着重要作用。,, 切分后翻译编辑,得到译句
”The joint capsule and its associated ligaments are important in maintaining the normal relationship between the articulating bones.,, 确认后,返回原文导入和译文输出部分。进行最后一句的翻译 “关节严重外伤可俥钿带撕裂,这是运动中(如足球运动)常见的外伤。” 切分后翻译编辑,得到译句
"Severe trauma to a joint results in torn ligaments, a common injury in contact sports such as football.,,
确认后,返回原文导入和译文输出部分。并选择导出译文经输入输出模块将翻译完毕的译文导出系统。上述实施例检索匹配过程中,各部分译文由句对检索界面部分、句式检索界面部分、术语检索界面部分、语篇检索界面部分等对应显示。从以上技术方案可以看出,本实施例通过对汉语语句的语块结合式切分与匹配, 实现从意符文字至音符文字的计算机辅助翻译,由此呈现更为准确的专业翻译效果。本发明亦可用于专业英语文献写作。尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
权利要求
1.一种计算机辅助翻译系统,其特征在于包括输入输出模块、语料库模块、翻译模块, 其中所述输入输出模块将原文导入系统,传给翻译模块,并输出翻译模块的翻译结果;所述语料库模块以数据库形式存在,是一个在语篇级、句级和语块级三个层面上实现对齐的科技文献双语平行语料库,其中的语块分为术语和句式两部分,均已平行对齐,语料库中的数据与翻译模块实现数据链接;所述翻译模块从输入输出模块接收待译语句并进行翻译处理,翻译时,通过对待译汉语语句的语块结合式切分,并与语料库模块采用最大逆向匹配法进行相应的匹配,从而提供多个最适匹配状态的译文语句,并将该译文语句经翻译编辑后提供给输入输出模块输出显不。
2.根据权利要求1所述的计算机辅助翻译系统,其特征在于所述语料库模块由语篇库、句对库、句式库、术语库四部分组成,这四个库均已实现英汉平行对齐,其中的语篇库、 句对库、句式库均设置有一个相同的字段,表示具体的句对或句式出自哪一语篇,以利于链接检索;其中语篇库存储已实现段落级英汉对齐的语篇;句对库存储已实现句级英汉对齐的句对,这些句对均转换自语篇;句式库存储已实现英汉对齐的句式;术语库存储英汉对照的专业术语。
3.根据权利要求1所述的计算机辅助翻译系统,其特征在于所述翻译模块与语料库模块采用最大逆向匹配法进行相应的匹配,其中的句式由诱导词进行诱导匹配。
4.根据权利要求1所述的计算机辅助翻译系统,其特征在于所述翻译模块由翻译编辑子模块和检索匹配子模块组成,翻译编辑子模块为一个完整的界面窗口,对于导入的原文进行切分,并对待译语句进行匹配操作、翻译编辑;检索匹配子模块按照已切分的术语进行检索,并行句对检索。
5.根据权利要求4所述的计算机辅助翻译系统,其特征在于所述翻译编辑子模块由原文导入和译文输出部分、待译语句选择与操作部分、译文编辑部分三部分组成,待译语句选择与操作部分与相应的检索匹配界面相链接,其中原文导入和译文输出部分导入原文并实现句级自动切分;存留完成翻译编辑的语句;待译语句选择与操作部分检索句对库中是否存在与待译语句全额匹配或70%以上匹配的句对;将未能发现70%以上匹配的待译语句进行切分,切分单位为术语和通用关键词; 借助于通用关键词检索句式或句对,或者借助于术语检索句对;译文编辑部分导入经检索的符合要求的句对或句式,可按光标设置插入术语,可进行文本编辑。
6.根据权利要求4所述的计算机辅助翻译系统,其特征在于所述检索匹配子模块由句对检索界面部分、句式检索界面部分、术语检索界面部分、语篇检索界面部分四部分组成,分别与句对库、句式库、术语库、语篇库链接,其中句对检索界面部分显示按要求检索后的所有句对,以关键词对齐;可行二次检索;链接相关语篇,以确定待译语句的语境;句式检索界面部分显示按要求检索后的所有句式,可行二次检索;链接相关句对; 术语检索界面部分显示按要求检索后的所有术语;链接相关句对; 语篇检索界面部分显示与句对或句式对应的语篇。
全文摘要
本发明公开一种计算机辅助翻译系统,包括输入输出模块、语料库模块、翻译模块,其中所述输入输出模块将原文导入系统,传给翻译模块,并输出翻译模块的翻译结果;所述语料库模块以数据库形式存在,是一个在语篇级、句级和语块级三个层面上实现对齐的科技文献双语平行语料库,语料库中的数据与翻译模块实现数据链接;所述翻译模块从输入输出模块接收待译语句并进行翻译处理,翻译时,通过对待译汉语语句的语块结合式切分,并与语料库模块采用最大逆向匹配法进行相应的匹配,其中的句式由诱导词进行诱导匹配,从而提供最适匹配状态的译文语句。本发明通过对汉语语句的语块结合式切分与匹配,呈现更为准确的专业翻译效果。
文档编号G06F17/28GK102270198SQ20111023440
公开日2011年12月7日 申请日期2011年8月16日 优先权日2011年8月16日
发明者管新潮 申请人:上海交通大学出版社有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1