基于实例的甲骨文释文机器翻译方法

文档序号:6369455阅读:671来源:国知局
专利名称:基于实例的甲骨文释文机器翻译方法
技术领域
本发明涉及ー种自然语言处理技术,特别涉及基于实例的甲骨文机器翻译方法。
背景技术
甲骨文研究面临的首要问题是如何利用现代汉语理解和读懂甲骨文语句,国内外甲骨文专家纷纷指出将甲骨文用白话文释读很有意义。但是从事甲骨文研究的门槛很高,培养一名甲骨文专家需要一二十年甚至更长的时间,而且专家对甲骨文的辨识和翻译依靠长期的学术钻研和经验积累,这种经验知识仅存储在专家的头脑中,并不能实现知识的有效共享。如果能利用计算机技术和信息技术实现甲骨文白话释读,则可以有效共享和重用甲骨文专家的知识,减轻他们的负担,降低甲骨文的研究门槛,为甲骨文的研究和推广、提高甲骨文数字化展示等起到重要的推动作用。利用计算机实现甲骨文的白话释读属于机器翻译的范畴。机器翻译研究主要有三种基于规则的机器翻译(Rule-Based Machine Translation, RBMT)、基于实例的机器翻译(Example-Based Machine Translation,EBMT)和统计机器翻译(Statistical MachineTranslation, SMT)。RBMT是依赖规则的,其“瓶颈”在于通过人工编写的方式获得大規模的语言规则成本太高,在研究上难以取得更大突破,而且甲骨文是迄今为止最早的成系统语言,很多文法规律还处于不确定状态,因此深层次的甲骨文规则的获取和维护比较困难;SMT方法需要大規模的双语平行语料库作为训练各种概率參数的基础,但目前收集的甲骨文资料的规模还远远不够,而且,一片甲骨上的文字最多百余字,最少的只有ー个字,数据稀疏问题严重。而EBMT具有无需编写规则、系统维护容易、产生的译文质量较高、需要的语言知识较少等优点,是ー个很好的选择。而且,甲骨文学习者都是通过已经存在的翻译实例作为知识源,来进行类比翻译和学习的,这与EBMT当初的设计思想十分吻合。由于甲骨文原文是没有句读的,且甲骨字很多都是异体字,而甲骨文释文是经专家考释过的与原文对应的简体或繁体中文(没有考释出来的甲骨字仍然以原始形态出现)。释文已经添加了句读符号,统ー了异体字的表示形式,并且对一些残缺的或错刻的甲骨文字进行了补充,而且,在甲骨文信息处理过程中,主要研究对象为释文,因此本发明选择甲骨文释文作为机器翻译的源语言,现代汉语为目标语言。

发明内容
针对现有技术中存在的不足,本发明的目的在于提供ー种利用计算机的存储和查询优势的基于实例的甲骨文释文机器翻译方法,减轻甲骨文专家的负担,降低甲骨文的研究门槛。本发明的技术方案是这样实现的基于实例的甲骨文释文机器翻译方法,包括如下步骤(a)构建完成甲骨文释文-现代汉语的双语语料库;(b)完成双语语料的句对齐、短语对齐和词对齐,建立翻译实例库;
(c)输入待翻译甲骨文释文;(d)基于步骤(b)中建立的翻译实例库,对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索;若待翻译甲骨文释文存在于翻译实例库中,采用全实例匹配方式,直接输出待翻译甲骨文释文的现代汉语翻译句;若翻译实例库中没有待翻译甲骨文释文,采用部分实例匹配方式,计算待翻译甲骨文释文句子和检索到的实例句的相似度,并选择相似度最大的实例句,对相似度最大的实例句对应的现代汉语翻译句进行替换和调整; (e)将最終的翻译结果通过显示器显示给用户;(f)评价翻译结果,将满足释译要求的待翻译甲骨文释文句子和与之对应的现代汉语组成的双语句对添加至翻译实例库中。上述基于实例的甲骨文释文机器翻译方法,步骤(d)中相似度计算公式如式(I)所示
权利要求
1.基于实例的甲骨文释文机器翻译方法,其特征在于,包括如下步骤 (a)构建完成甲骨文释文-现代汉语的双语语料库; (b)完成双语语料的句对齐、短语对齐和词对齐,建立翻译实例库; (C)输入待翻译甲骨文释文; (d)基于步骤(b)中建立的翻译实例库,对输入的待翻译甲骨文释文进 行全实例匹配或部分实例匹配的检索;若待翻译甲骨文释文存在于翻译实例库中,采用全实例匹配方式,直接输出待翻译甲骨文释文的现代汉语翻译句;若翻译实例库中没有待翻译甲骨文释文,采用部分实例匹配方式,计算待翻译甲骨文释文句子和检索到的实例句的相似度,并选择相似度最大的实例句,对相似度最大的实例句对应的现代汉语翻译句进行替换和调整; (e)将最終的翻译结果通过显示器显示给用户; (f)评价翻译结果,将满足释译要求的待翻译甲骨文释文句子和与之对应的现代汉语组成的双语句对添加至翻译实例库中。
2.如权利要求I所述的基于实例的甲骨文释文机器翻译方法,其特征在于步骤(d)中相似度计算公式如式(I)所示
3.如权利要求2所述的基于实例的甲骨文释文机器翻译方法,其特征在干步骤(d)中,对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索步骤如下 第一歩将输入的待翻译甲骨文释文句子S。进行分词,按照式(2)所示计算待翻译甲骨文释文中各词的信息熵,高频词有着较低的信息熵,设定信息熵最小阈值为D,信息熵低于D的词将不再參与检索,剔除信息熵小于阈值D的词,得到词集合W ; H(ch) = Ig (M/m)式⑵; ch表示一个词,M表示双语语料库中的甲骨文释文句子总数,m表示甲骨文释文中出现ch的句子数; 第二步对每个词& e W,通过词的倒排索引检索出所有包含Wi的实例句,得到句子集合Si ; 第三步求Si的并集得到句子集合S ; 第四部对每个句子Si e S,利用公式⑴求出Sim(S。,Si)并按降序排列; 第五步取Sim(S。,Si)值最大的句子Si作为目标句。
4.如权利要求1-3任一所述的基于实例的甲骨文释文机器翻译方法,其特征在于步骤(a)中的甲骨文释文是经考释过的与甲骨文原文对应的简体中文或繁体中文,没有考释出来的甲骨文原文仍然以原始形态出现;甲骨文释文已经添加了句读符号,统ー了异体字的表示形式,并且对一些残缺的或错刻的甲骨文原文文字进行了补充;甲骨文释文-现代汉语的双语语料均收集来自甲骨文文献的甲骨文释文及其对应的现代汉语翻译句对;双语语料均为考释过的、不存在学术争议的且能进行通读的甲骨文释文及其对应的现代汉语翻译句;在双语语料库预处理阶段,已经筛除了残缺较多、未考释字较多或仅有ー两字等影响通读的句子。
5.如权利要求4所述的基于实例的甲骨文释文机器翻译方法,其特征在干步骤(b)中的双语句对齐为人工实现,词对齐和短语对齐以自动实现为主,辅以人工校对;翻译实例库包含了这三级对齐信息并建立了索引 ;词对齐及短语对齐的自动实现基础为甲骨文分词技术。
6.如权利要求4所述的基于实例的甲骨文释文机器翻译方法,其特征在于翻译实例库最终存储形式为关系数据库,建立索引的目的是为实例捜索提供基础,包括按句子排序的索引和按词排序的索引;在生成的翻译实例库索引中,包含了实例句的源句子、目标句子和对齐信息。
7.如权利要求5所述的甲骨文分词技术,其特征在干甲骨文分词采用基于词典、句法规则和句法分析相结合的办法,首先通过甲骨文词典获得初歩的分词结果,然后根据甲骨文句法规则和句法分析对初步结果进行再次划分,划分的结果通过句法分析排歧后再进行分词序列优化,得到最終的分词结果;通过未登录词识别规则进行检查,将满足未登录词条件的新词加入词库。
8.如权利要求4所述的基于实例的甲骨文释文机器翻译方法,其特征在干步骤(d)中的句子相似度计算,主要考虑匹配组块和编辑距离两个方面。
9.如权利要求4所述的基于实例的甲骨文释文机器翻译方法,其特征在于所述步骤(f)中的翻译结果评价,主要采用人エ评价方法,可通过查阅甲骨文文献资料和咨询甲骨文专家两种方式实现。
全文摘要
本发明基于实例的甲骨文释文机器翻译方法,包括如下步骤(a)构建完成甲骨文释文-现代汉语的双语语料库;(b)完成双语语料的句对齐、短语对齐和词对齐,建立翻译实例库;(c)输入待翻译甲骨文释文;(d)基于步骤(b)中建立的翻译实例库,对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索;(e)将最终的翻译结果通过显示器显示给用户;(f)评价翻译结果,将满足释译要求的双语句对添加至翻译实例库中。本发明利用计算机的存储和查询优势的基于实例的甲骨文释文机器翻译方法,减轻甲骨文专家的负担,降低甲骨文的研究门槛。
文档编号G06F17/28GK102693222SQ201210165360
公开日2012年9月26日 申请日期2012年5月25日 优先权日2012年5月25日
发明者孙华, 熊晶, 王爱民, 王继鹏, 葛彦强, 郭涛, 马辉 申请人:孙华, 熊晶, 王爱民, 郭涛, 马辉
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1