依存映射方法及系统的制作方法

文档序号:6372779阅读:160来源:国知局
专利名称:依存映射方法及系统的制作方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及依存映射方法。
背景技术
依存文法是自然语言处理领域中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点依存结构具有最好的短语结合性质(phrasalcohesion properties);依存关系边给出语义信息。因此,依存文法是自然语言处理领域中非常具有吸引力的资源。对于一些资源缺乏语言,通常缺乏相应的依存树库,甚至缺乏相应的依存树标准。资源的缺乏给相应的自然语言处理任务带来了一定的困难。此时利用依存映射方法,将资源丰富语言的知识映射到资源贫乏的语言上可以一定程度缓解类似困难。
在现有的依存映射方法(例如参考文献I, Wenbin Jiang and Qun Liu. Dependencyparsing and projection based on word—pair classification. In Proceedings of the48th Annual Meeting of the Association for Computational Linguistics. 2010.)中,首先将源语言端句子进行有监督的依存分析得到源语言句子依存树;再将源语言与目标语言的双语语料库进行词汇对齐;利用词汇对齐及源语言依存树通过一定规则将依存句法信息映射到目标语言端;利用映射后目标语言端的依存句法信息训练映射后的目标语言依存句法分析器。但这样得到的映射依存树不完整,且存在映射错误和映射信息相互冲突的现象。

发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种依存映射方法,缓解依存映射所面临的上述问题,并保证较优的性能。本发明的目的是通过以下技术方案实现的—方面,本发明提供了一种依存映射方法,包括步骤1,在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;步骤2,基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器;其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。上述技术方案中,所述步骤I可包括步骤11)在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息;
步骤12)基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器;上述技术方案中,所述步骤2可包括步骤21)使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树;步骤22)通过特征模板从步骤21)得到的依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合;步骤23)基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型;步骤24)根据步骤24)得到的依存句法分析模型构造优化后目标语言依存句法分析器,然后基于该目标依存句法分析器重新执行步骤21)至步骤24),直到满足终止条件为止。上述技术方案中,所述步骤23)中分类目标函数可以为l(w) = (1-ct) 0 (w)+ a 由(w)其中a为插值,0 (W)和由(W)分别为
权利要求
1.一种依存映射方法,所述方法包括 步骤1,在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器; 步骤2,基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器; 其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
2.根据权利要求I所述的方法,所述步骤I包括 步骤11)在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息; 步骤12)基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器。
3.根据权利要求2所述的方法,所述步骤2包括 步骤21)使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树; 步骤22)通过特征模板从步骤21)得到的依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合; 步骤23)基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型; 步骤24)根据步骤24)得到的依存句法分析模型构造优化后目标语言依存句法分析器,然后基于该目标依存句法分析器重新执行步骤21)至步骤24),直到满足终止条件为止。
4.根据权利要求3所述的方法,所述步骤23)中分类目标函数为 l(w) = (1-a) 9 (w)+ a (J) (w) 其中a为插值,0 (W)和(W)分别为
5.根据权利要求3所述的方法,所述步骤24)中的终止条件为相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化,或步骤重复次数超过预定阈值。
6.—种依存映射系统,包括 依存映射装置,用于在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器; 依存优化装置,用于基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器; 其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
7.根据权利要求6所述的系统,所述依存映射装置包括 用于在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息的装置; 用于基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器的装置。
8.根据权利要求6所述的系统,所述依存优化装置包括 用于使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树的装置; 用于通过特征模板从所述依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合的装置; 用于基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型的装置; 用于从优化后的依存句法分析模型构造优化后目标语言依存句法分析器的装置。
9.一种机器翻译方法,所述方法包括 I)基于第一语言的依存句法树以及第一语言和第二语言的双语语料库,通过如权利要求1-5之一所述的依存映射方法得到第二语言的依存句法分析器;2)接收第二语言的句子,通过所得到的第二语言的依存句法分析器得到该第二语言的句子的依存句法分析树; 3)基于该第二语言的句子的依存句法分析树,通过相应的机器翻译方法将该第二语言的句子翻译为第三语言的句子。
全文摘要
本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。
文档编号G06F17/27GK102760121SQ20121022293
公开日2012年10月31日 申请日期2012年6月28日 优先权日2012年6月28日
发明者刘凯, 刘群, 吕雅娟, 姜文斌 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1