生成用于基于统计的机器翻译的规则的方法和设备的制作方法

文档序号:6579513阅读:287来源:国知局

专利名称::生成用于基于统计的机器翻译的规则的方法和设备的制作方法
技术领域
:本发明涉及利用计算机将一种自然语言自动翻译为另外一种自然语言的基于统计的机器翻译技术,其特别涉及生成用于基于统计的机器翻译的规则的方法和设备。
背景技术
:机器翻译是指利用计算机将一种自然语言(源语言)翻译为另外一种自然语言(目标语言)。随着国际间交流和合作的日益密切,人们迫切需要优质高效的语言翻译服务。机器翻译有着广阔的应用前景,同时它也是自然语言处理的难点和重要任务。目前,主流的翻译技术是基于统计的机器翻译(统计机器翻译)。它对翻译过程进行数学建模,能够自动地从平行语料库中学习翻译知识,具有语言独立性强、系统开发周期短、鲁棒性高等优点。机器翻译的过程所需要的一个重要的资源是规则表。在统计机器翻译中,使用从平行语料库中获得的规则表。规则表刻画了源语言和目标语言的对应关系。规则表的质量和表达能力直接影响翻译系统的性能。然而,从平行语料库中自动学习到的规则表非常庞大,一方面导致需要巨大的计算机存储空间,另一方面导致翻译效率低。这使得统计机器翻译技术难以应用于手机、PDA等存储空间和计算资源较少的设备。实际上,在翻译过程中,规则表具有很大的冗余。参考文献[1]提出了一种利用双语语料库信息进行规则表过滤的方法,但复杂度较高。参考文献[2]提出了一种利用目标语言依存树信息进行规则表过滤的方法,但为了保证翻译质量不下降,又增加了额外的模型。规则表的规模直接影响翻译效率和翻译质量。如何在不降低或不明显降低翻译质量以及不增加模型复杂度的前提下,减少规则表的规模,提高翻译效率,是实际应用中一个亟待解决的问题。参考文献[1]HowardJohnson,JoelMartin,GeorgeFoster,andRolandKuhn.2007.Improvingtranslationqualitybydiscardingmostofthephrasetable.InProceedingsofthe2007JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning(EMNLPCoNLL),pages967—975,Prague,CzechRepublic,June.参考文献[2]:LibinShen,JinxiXu,andRalphWeischedel.2008.Anewstring-to-dependencymachinetranslationalgorithmwithatargetdependencylanguagemodel.InProceedingsofACL-08:HLT,pages577-585,Columbus,Ohio,June.
发明内容本发明的一个目的在于提供生成用于基于统计的机器翻译的规则的方法和设备,其中对规则表进行过滤,以降低统计机器翻译系统对计算资源的需求。本发明的一个实施例是一种生成用于基于统计的机器翻译的规则的设备,包括规则提取装置,其从平行语料库中提取规则;和规则过滤装置,其从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则。进一步地,上述设备还可以包括短语提取装置,其从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为预定短语。进一步地,在上述设备中,预定短语可以包括连续短语和非连续短语。进一步地,在上述设备中,统计特征可以包括下述特征中的至少之一所提取的短语在相应语料库中出现的次数、所提取的短语的信息熵、所提取的短语的概率和所提取的短语的C-value值。进一步地,在上述设备中,规则过滤装置可以被配置为从所提取的规则中过滤源语言短语不是预定短语的任何一个的规则。本发明的一个实施例是一种生成用于基于统计的机器翻译的规则的方法,包括从平行语料库中提取规则;和从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则。进一步地,上述方法还可以包括从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为所述预定短语。进一步地,在上述方法中,预定短语可以包括连续短语和非连续短语。进一步地,在上述方法中,统计特征可以包括下述特征中的至少之一所提取的短语在相应语料库中出现的次数、所提取的短语的信息熵、所提取的短语的概率和所提取的短语的C-value值。进一步地,在上述方法中,过滤可以是从所提取的规则中过滤源语言短语不是预定短语的任何一个的规则。本发明的一个实施例是一种生成用于基于统计的机器翻译的规则的设备,包括规则提取装置,其从平行语料库中提取规则;规则识别装置,其从所提取的规则中识别单调组合规则,所述单调组合规则能够包含更小的规则,并且其源语言短语的顺序与所述源语言短语的对应目标语言短语的顺序相同;和规则过滤装置,其从所提取的规则中过滤所识别的单调组合规则。进一步地,在上述设备中,更小的规则是所提取的规则中的规则。根据本发明的实施例,使用预定短语对规则提取装置获得的规则进行过滤,从而减少规则表的规模。参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1的框图示出了根据本发明一个实施例的生成用于基于统计的机器翻译的规则的设备的示例性结构;图2的流程图示出了根据本发明一个实施例的生成用于基于统计的机器翻译的规则的方法的示例性过程;图3的框图示出了根据本发明一个优选实施例的生成用于基于统计的机器翻译的规则的设备的示例性结构;图4的流程图示出了根据本发明一个优选实施例的生成用于基于统计的机器翻译的规则的方法的示例性过程;图5的框图示出了根据本发明实施例的设备中短语提取装置的示例性结构;图6的流程图示出了根据本发明实施例的方法中短语提取步骤的示例性过程;图7的框图示出了根据本发明另一个实施例的生成用于基于统计的机器翻译的规则的设备的示例性结构;图8的流程图示出了根据本发明另一个实施例的生成用于基于统计的机器翻译的规则的方法的示例性过程;图9a示出了最小规则的一个例子,图9b示出了复合规则的一个例子,图9c示出了单调复合规则的一个例子,图9d示出了非单调复合规则的一个例子。图10是示出实现本发明实施例的计算机的示例性结构的框图。具体实施例方式下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。为方便下面对本发明的实施例的说明,首先给出有关术语“短语”、“子短语”及“短语长度”的定义。短语一个句子中任意的词串。根据短语中的词语在句子中的位置是否连续,可以分为2类连续短语短语内部的词语在句子中的位置连续;非连续短语短语内部的词语在句子中的位置不连续。假设一个含有J个词的某种语言(例如汉语、英语)的句子C/=C1C2…Q,其中Cjd彡j彡j)是该语言的词,那么权利要求一种生成用于基于统计的机器翻译的规则的设备,其特征在于,包括规则提取装置,其从平行语料库中提取规则;和规则过滤装置,其从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则。2.根据权利要求1所述的设备,其特征在于,还包括短语提取装置,其从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为所述预定短语。3.根据权利要求1所述的设备,其特征在于,所述统计特征包括下述特征中的至少之一所提取的短语在相应语料库中出现的次数、所提取的短语的信息熵、所提取的短语的概率和所提取的短语的C-value值。4.根据权利要求1所述的设备,其特征在于,所述规则过滤装置被配置为从所提取的规则中过滤源语言短语不是所述预定短语的任何一个的规则。5.一种生成用于基于统计的机器翻译的规则的方法,其特征在于,包括从平行语料库中提取规则;和从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则。6.根据权利要求5所述的方法,其特征在于,还包括从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为所述预定短语。7.根据权利要求5所述的方法,其特征在于,所述统计特征包括下述特征中的至少之一所提取的短语在相应语料库中出现的次数、所提取的短语的信息熵、所提取的短语的概率和所提取的短语的C-value值。8.根据权利要求5所述的方法,其特征在于,所述过滤为从所提取的规则中过滤源语言短语不是所述预定短语的任何一个的规则。9.一种生成用于基于统计的机器翻译的规则的设备,其特征在于,包括规则提取装置,其从平行语料库中提取规则;规则识别装置,其从所提取的规则中识别单调组合规则,所述单调组合规则能够包含更小的规则,并且其源语言短语的顺序与所述源语言短语的对应目标语言短语的顺序相同;和规则过滤装置,其从所提取的规则中过滤所识别的单调组合规则。10.如权利要求9所述的设备,其特征在于所识别的单调组合规则的源语言短语不是任何非单调复合规则的源语言短语。全文摘要生成用于基于统计的机器翻译的规则的方法和设备。生成用于基于统计的机器翻译的规则的设备包括规则提取装置,其从平行语料库中提取规则;和规则过滤装置,其从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则。文档编号G06F17/30GK101989287SQ20091016094公开日2011年3月23日申请日期2009年7月31日优先权日2009年7月31日发明者于浩,何中军,孟遥申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1