维吾尔文-汉文双向翻译记忆系统的构造方法

文档序号:6493214阅读:562来源:国知局
维吾尔文-汉文双向翻译记忆系统的构造方法
【专利摘要】本发明公开了维吾尔文-汉文双向翻译记忆系统的构造方法,包括①记忆库结构和管理、②维汉句子对齐存储、③翻译记忆检索和④翻译编辑环境。本发明提高翻译效率和翻译质量。
【专利说明】维吾尔文-汉文双向翻译记忆系统的构造方法
【技术领域】
[0001]本发明涉及机器翻译系统中广泛应用的翻译记忆库技术,特别是维吾尔文-汉文双向翻译记忆系统的构造方法。
【背景技术】
[0002]随着信息技术的不断发展,不同语种的人们之间的语言交流障碍在不断地突显。虽然机器翻译技术在这方面起到了很好的作用,但是机器翻译仍面临重重的困难。现阶段机器翻译系统主要采取基于规则(主要是语言学知识方面)和基于语料库(主要是实例方面)等两种方法。
[0003]因为维吾尔语和汉语是不属于同种语系的语言,从语言学的角度来深层次的分析单词切分,形态,结构,歧义词,句子语法结构和语义结构等方面是比较难实现。所以,现在汉维翻译主要是基于语料库的翻译,虽然取得不错的效果,但是建设维汉语料库涉及到很多方面的因素,再说语料库内容覆盖面很难包括全领域,所以翻译质量很难能够保证。虽然机器翻译性能目前不太理想,但是辅助翻译记忆库仍有望成为提高工作效率的有效手段。
[0004]由于基于规则和语料库的翻译技术的不足之处,又考虑到专业领域(科技文献,产品说明书,用户手册等)中词汇或句子比较固定,遇到重复句子的比较多,因此提出了翻译记忆技术。翻译记忆也可看成已有资源的重新利用,翻译新文本是重新利用译者在以前翻译过的译文,再说还可以在翻译过程中译者自身也要参与进来,所以最后的译文质量在一定程度上得以保证 的。翻译记忆技术的应用在国外比较普遍,并出现了大量的像Transit (STAR)、Trados等辅助翻译软件产品。在国内辅助翻译记忆技术也得到了一定的发展,出现了像雅信CAT —样一些辅助翻译软件。因此,为了迎合维吾尔文信息处理的需要,方便维吾尔语作为母语的翻译工作者,提高他们翻译效率和质量,开发一个翻译记忆工具具有非常重要的意义。

【发明内容】

[0005]本发明的目的在于提供一种维吾尔文-汉文双向翻译记忆系统的构造方法,提高翻译效率和翻译质量。
[0006]本发明的目的是这样实现的:一种维吾尔文-汉文双向翻译记忆系统的构造方法,①记忆库结构和管理:各种信息的组织和存储被看做是由很多翻译记忆单元的组合而成,也可以看做是一个平行语料库,记忆库中存储以往翻译过的例句,采用句子句子级别对齐的维汉记忆库;对记忆库进行查找单词,添加句子,删除句子,记忆库导入,导出;②维汉句子对齐存储:维汉记忆库中所收集的所有维汉句子均以XML语言作为编码语言,翻译记忆以“翻译单元”的形式存储,维语句子与汉语句子精确对应,维汉对应的句子通过句子标记对<tu>…<tu>下的id来描述翻译记忆检索:翻译记忆系统中,检索出来的实例越接近待翻译句子,翻译的质量就越好;采用“最短编辑距离方法” (minimum edit distance)来计算待翻译句子与已有句子之间的相似度,通过levenshtein distance (LD)算法获得两个句子之间有几个单词需要进行匹配之后,通过模糊匹配计算公式,得到原句和目标句之间的相似度翻译编辑环境:翻译之前通过内部过滤器(filter)将相应格式(主要是.txt,.doc)的文档中的原文导入,在系统内部完成分句、分词,通过模糊匹配计算句子相似度,通过二分查找方法在已有的词汇表中进行相应的查找并在单词列表中显示单词及相应的译文,再通过翻译后导出为原文档格式的译文。
[0007]针对翻译人员输入的待译句子,在翻译记忆库中查找并返回完全匹配或相似的句子供翻译人员选择、使用。如何在翻译记忆库中查找相似的句子是非常关键本文借用了常在自然语言处理领域中用到的编辑距离来计算输入句子与记忆库中句子的相似度问题。在翻译过程中,翻译记忆系统通过相似度计算来自动搜索记忆库中完全相同或部分相似的句型,并给译者推荐参考译文,让译者自行决定是否接受、编辑或拒绝,同时翻译记忆库也在后台不断的学习和自动储存新句子的原文和译文。
[0008]本发明设计并实现了翻译记忆系统模型,并在记忆库设计中采用维吾尔文和汉文句子以句子精确对齐的方式存储方式,并同时对记忆库进行查询,删除,插入操作。其中关键技术是记忆库中语句相似度,该技术通过自然语言中常用的“编辑距离”(editdistance)来实现,其中大于阈值的句子所对应的句子提供给用户进行翻译参考,结果证明,该双向翻译记忆库系统在翻译中起到了很好的效果。本发明提高翻译效率和翻译质量。
【专利附图】

【附图说明】
[0009]下面将结合附图对本发明作进一步说明。
[0010]图1是维汉翻译记忆系统模型示意图。
【具体实施方式】
[0011]一种维吾尔文-汉文双向翻译记忆系统的构造方法,①记忆库结构和管理。整个记忆库中各种信息的组织和存储可以看做是由很多翻译记忆单元的组合而成,也可以看做是一个平行语料库。记忆库中存储以往翻译过的例句。本文在记忆库设计中采用了句子句子级别对齐的维汉记忆库。记忆库设计好之后,还要对记忆库进行很好的管理,包括对记忆库进行查找单词,添加句子,删除句子,记忆库导入,导出等;②维汉句子对齐存储。维汉记忆库中所收集的所有维汉句子均以XML语言作为编码语言。翻译记忆以“翻译单元”的形式存储,维语句子与汉语句子精确对应。维汉对应的句子通过句子标记对<tu>…<tu>下的id来描述;③翻译记忆检索。翻译记忆系统中,检索出来的实例越接近待翻译句子,翻译的质量就越好。语句相似度的计算在翻译记忆系统中是一个关键技术之一,所以相似度计算直接影响翻译记忆系统的效率和质量。目前翻译记忆技术中常用到基于字符串和基于语言学知识方面的相似度计算方法。考 虑到维汉句子自身在结构,语义,形态等方面的不同和复杂性,文采用“最短编辑距离方法”(minimum edit distance)来计算待翻译句子与已有句子之间的相似度。通过levenshtein distance (LD)算法获得两个句子之间有几个单词需要进行匹配之后,通过模糊匹配计算公式,得到原句和目标句之间的相似度;④翻译编辑环境。翻译编辑环境也可以看作是翻译者进行翻译工作的环境。本系统翻译工作在系统内进行。翻译之前通过内部过滤器(filter)将相应格式(主要是.txt,.doc)的文档中的原文导入,在系统内部完成分句,分词,通过模糊匹配计算句子相似度,通过二分查找的方法在已有的词汇表中进行相应的查找并在单词列表中显示单词及相应的译文,通过翻译后导出为原文档格式的译文。
[0012]如图1所示,待翻译的文本进行分句,然后逐步提取每一个句子根据记忆库计算句子相似度。其中对相似度最高的句子进行人工编辑,然后输出翻译结果。
[0013]如下述表1是记忆库结构表。记忆库设计好之后,还要对记忆库进行很好的管理,包括对记忆库进行查找单词,添加句子,删除句子,记忆库导入,导出等。
表1
【权利要求】
1.一种维吾尔文-汉文双向翻译记忆系统的构造方法,其方法为:①记忆库结构和管理:各种信息的组织和存储被看做是由很多翻译记忆单元的组合而成,也可以看做是一个平行语料库,记忆库中存储以往翻译过的例句,采用句子句子级别对齐的维汉记忆库;对记忆库进行查找单词,添加句子,删除句子,记忆库导入,导出;②维汉句子对齐存储:维汉记忆库中所收集的所有维汉句子均以XML语言作为编码语言,翻译记忆以“翻译单元”的形式存储,维语句子与汉语句子精确对应,维汉对应的句子通过句子标记对<tu>…<tu>下的id来描述翻译记忆检索:翻译记忆系统中,检索出来的实例越接近待翻译句子,翻译的质量就越好;采用最短编辑距离方法来计算待翻译句子与已有句子之间的相似度,通过levenshtein distance算法获得两个句子之间有几个单词需要进行匹配之后,通过模糊匹配计算公式,得到原句和目标句之间的相似度翻译编辑环境:翻译之前通过内部过滤器将相应格式的文档中的原文导入,在系统内部完成分句、分词,通过模糊匹配计算句子相似度,通过二分查找方法在已有的词汇表中进行相应的查找并在单词列表中显示单词及相应的译文,再通过翻译后 导出为原文档格式的译文。
【文档编号】G06F17/28GK103885939SQ201210553917
【公开日】2014年6月25日 申请日期:2012年12月19日 优先权日:2012年12月19日
【发明者】塔拉甫·加盘, 王天军, 邹帅 申请人:新疆信息产业有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1