一种面向机器翻译的多策略英文长句分割方法及装置的制造方法

文档序号:9349924阅读:722来源:国知局
一种面向机器翻译的多策略英文长句分割方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种机器翻译译前预处理方法,特别涉及一种面向机器翻译的多策略 英文长句分割方法,属于自然语言处理机器翻译技术领域。
【背景技术】
[0002] 如今,互联网已经非常发达并且遍布全球。借助互联网,来自不同国籍、使用不同 语言的人们能够随时随地分享信息,人们也越来越迫切希望能够快速畅通地获得互联网上 的有用信息。而面对着如今互联网上海量的信息,传统的人工翻译显得力不从心。因此,在 这样的背景之下,机器翻译技术有着极大的市场,各国学者也在这一领域做了许多研究工 作。
[0003] 近年来,机器翻译技术有了长足的发展。现有机器翻译系统主要分为基于规则的 翻译系统、基于统计的机器翻译系统和基于实例的机器翻译系统。基于规则的翻译系统主 要是利用规则,进行源语言到目标语言的转换;基于统计的翻译系统主要是利用双语平行 语料来估计翻译模型的各个参数;基于实例的翻译系统主要是基于句子相似度的,系统在 语料库中寻找与待翻译句子相似的句子来进行翻译。
[0004] 虽然如此,机器翻译系统仍然面临着许多难题和挑战,长句的翻译便是其中之一。 由于不同的原因,以上三种翻译系统在长句的翻译上都面临着很大的困难:随着句子长度 的增加,译文的质量往往会急剧下降。因此如何将长句分割成较短的句子、进而提高机器翻 译的质量,在近年来成为研究的热点之一。
[0005] 许多早先的方法是基于规则的,即使用规则匹配不同的长句句式,进而在某些合 适的位置分割。这些方法普遍存在的问题是手工制定的规则对语言现象的覆盖程度不理 想。近年来学者们转向使用机器学习的方法来分割句子,然而这类方法大多使用句中已有 的逗号,或者一些特定的连词作为候选的分割点。如果原句子含有的逗号数目很少,那么 这类方法的效果就会大打折扣。此外,在英_中翻译方向上,即针对英-中翻译的英文长句 处理方法,研究工作做得并不是很充分。
[0006] 综上所述,目前句子分割对于机器翻译,仍然是亟待解决的问题之一,也是研究的 热点之一。

【发明内容】

[0007] 本发明的目的是为了解决现有基于规则的句子分割方法对语言现象的覆盖程度 太小,而现有基于机器学习的方法只能利用句中已有逗号来进行分割的问题,提出了一种 新颖的面向机器翻译的多策略英文长句分割方法。
[0008] 本发明技术方案的思想是综合利用规则方法和机器学习方法,在英文长句中的合 适位置添加逗号,以此来进行英文长句的分割。基于规则的方法能够准确地识别出某些简 单的语言现象,寻找合适的添加逗号的位置;而机器学习的方法尝试更深层次地挖掘句子 中的潜在逗号位置,补充规则方法的不足,提升句子分割的效果。
[0009] 本发明的目的是通过以下技术方案实现的:
[0010] 一种面向机器翻译的多策略英文长句分割方法,包括训练步骤和实际分割步骤, 训练步骤是基于机器学习方法必不可少的步骤。具体步骤如下:
[0011] 步骤一、准备训练语料并进行预处理:本发明需要准备逗号较丰富的较大量英文 句子作为训练语料。对训练语料进行预处理,主要包括英文断词(Tokenization)、去掉其中 的乱码和特殊符号,得到训练预料C T。
[0012] 步骤二、对训练语料进行特征提取:分别对4中的每一个句子进行特征提取,包括 进行依存句法分析、进行词性标注。这部分工作可以手工进行,也可以使用现有工具。本发 明使用了斯坦福大学开发的句法分析器和词性标注工具。
[0013] 步骤三、对每一个句子进行逗号标注:需要将句中的逗号位置标识出来,具体做 法是将逗号之前的那个词标注为C0M,其余的词标注为NUL。之后再把标注信息与步骤二得 到的特征组合成CRF所要求的数据格式。
[0014] 步骤四、CRF模型训练:创建合适的特征模版,使用特征模版与步骤二得到的语料 特征,训练CRF模型M,将M保存在外存中。CRF模型包含了训练语料中逗号位置的信息。
[0015] 实际分割步骤是本发明的实际使用步骤。具体步骤如下:
[0016] 步骤一、预处理:对于待处理英文长句,首先进行预处理,包括英文断词 (Tokenization)、去掉乱码和特殊符号,得到规范化的英文长句S。
[0017] 步骤二、特征提取:对规范化之后的句子S进行特征提取,这部分与训练步骤中的 特征提取相同,包括依存句法分析、词性标注。本发明使用斯坦福大学开发的句法分析器和 词性标注器进行特征提取。
[0018] 步骤三、使用规则方法的分割:使用事先所制定的规则来识别某些简单的语言现 象,如果句中存在这样的现象,则提取之以得到逗号插入位置集合P1。
[0019] 步骤三、使用CRF方法的分割:将步骤二中的特征与训练步骤得到的CRF模型M, 共同交给CRF算法进行解码,给句子的每个词标注COM或NUL,标注为COM的词即为合适的 逗号插入位置。这一步骤所得到的逗号插入位置集合记为P2。
[0020] 步骤四、合并Pl与P2 :合并Pl与P2,删除重复的位置,最终得到位置集合P,在这 些位置插入逗号,完成句子分割,将分割后的句子交给机器翻译系统翻译。
[0021] -种面向机器翻译的多策略英文长句分割装置,包括预处理模块、特征提取模块、 规则分割模块、CRF分割模块和合并模块,预处理模块与特征提取模块连接,特征提取模块 分别与规则分割模块和CRF分割模块连接,规则分割模块和CRF分割模块分别与合并模块 连接;
[0022] 所述预处理模块用于对待处理英文长句进行英文断词、去乱码和特殊符号等处 理得到规范化的句子S ;
[0023] 所述特征提取模块用于对S进行依存句法分析和词性标注得到依存句法特征和 词性标注特征;
[0024] 所述规则分割模块用于基于简单的语言现象规则及依存句法特征对S进行分割 得到分割位置集合Pl ;
[0025] 所述CRF分割模块用于使用经过训练的CRF模型M对S进行分割得到分割位置集 合P2 ;
[0026] 所述合并模块用于合并Pl与P2,删除重复的位置,最终得到位置集合P,在这些位 置插入逗号,完成句子分割并输出。
[0027] 有益效果
[0028] 对比现有技术,本发明通过结合基于规则的方法与CRF算法,在句中寻找可能的 逗号插入位置,在这些位置上添加逗号,以此分割长句。实验结果证明,该发明能够相互弥 补两种方法各自的不足之处,并且能够挖掘句中潜在的逗号位置信息,能够准确地将长句 分割为多个较短的子句。同时,我们分别在基于规则的翻译引擎与基于统计的翻译引擎上 做了实验,实验结果证明,该发明能够有效提升机器翻译译文的质量。
【附图说明】
[0029] 图1为本发明方法的流程图。 图2为本发明实施例含介词短语句子的依存句法分析示意图。 图3为本发明实施例含副词性从句句子的依存句法分析示意图。 图4为本发明实施例提取逗号插入位置流程示意图。
【具体实施方式】
[0030] 下面结合实施例对本发明做进一步说明。
[0031] 如图1所示,本发明一种面向机器翻译的多策略英文长句分割方法,包括训练步 骤和实际分割步骤,下面分别进行详细描述:
[0032] 首先是训练步骤,其过程如下:
[0033] 步骤一,准备训练语料并对该语料进行预处理。由于需要使用CRF来挖掘语料中 逗号位置的信息,因此需要准备逗号数目较多的英文句子作为训练语料。在实验中,我们 选取了约45万个至少包含两个逗号的英文句子作为训练语料。
[0034] 同时,需要对语料做必要的预处理,如去掉乱码和特殊符号、英文断词 (Tokenization)等。
[0035] 对于乱码和特殊符号的界定:在本发明的开发实验过程中,我们去掉或者替换了 英文句中的所有的非ASCII字符,例如将乱码"命"去掉、将非ASCII字符"一"替换为ASCII 字符在实际使用过程中,可以针对不同的应用领域,选择性的过滤乱码及特殊字符。例 如货币符号、希腊字母、某些语言中带重音的元音字母等,可以酌情予以保留。
[0036] 所谓断词,类似于中文分词,即将英文句子分割成单独的Token,每个token是一 个单词级别的独立单元,它可以是单词,或是标点符号,或是缩写。例如如下的
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1