一种将中文短语结构树库转化为依存结构树库的系统和方法

文档序号:6617121阅读:1417来源:国知局
专利名称:一种将中文短语结构树库转化为依存结构树库的系统和方法
技术领域
本发明属于自然语言处理技术领域,具体为一种将中文短语结构树库转换为依存结构树库的系统及其方法。
背景技术
随着自然语言处理的发展,基于规则的研究方法逐渐显示出它的局限性,人们越来越趋向于用基于统计学的方法从真实的语料中获取自然语言的规律。句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。它也是以基于统计学的方法为主流方法。所以语料数据在句法分析中充当了一个重要的角色。语料的准确度的高低与规模的大小从最基础的层面决定着句法分析的性能的好坏,没有大规模、高准度的语料,再好的算法也失去了他的作用。树库作为一种对句子进行了深层句法标注的语料库越来越引起人们的兴趣。目前研究人员在树库研究方面开展了大量的研究和开发工作,也取得了可观的成果。这些树库采用的标注体系差别巨大,按照描述方法大体分为两种,一种是短语结构树,一种是依存树。在世界范围来说,大多数大规模树库是基于短语结构的。关于汉语树库中,基于短语结构标注的树库也占有主要地位,其中最为著名的是宾夕法尼亚大学的中文树库Penn Chinese Treebank0在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。而基于依存句法的汉语树库的匮乏无疑限制了汉语句法分析的发展。由于标注树库需要完善的标注体系和规范的标注流程,来保证标注的质量,这是一件费时费力的工作。研究发现短语结构和依存结构虽然在表现形式上不同,但是它们都是对句子语法结构的描述,因此在结构上存在一致性。而现今短语结构树库是充足的,我们可以根据他们之间的联系可以将短语结构转换成依存结构,得到我们想要的依存树库,从而免去了大量的人工标注工作。目前国内外不少人都尝试了将短语结构树库转化为依存树库。其中最主流的方法是利用核心节点映射表来找到每一层的核心节点,且同一层的其他节点都依赖于这个核心节点,并用递归的方式遍历整棵结构树。树库转换工具PENN2MALT就是利用这一思想的主流转换工具,它提供了 Penn Treebank和Penn Chinese Treebank的核心节点映射表,以及它的可执行文件,现在都已经免费共享。PENN2MALT对于Penn Treebank英文语料的转换达到了很好的效果,不过由于汉语的复杂性,以及PENN2MALT自身的规则的简单性,用PENN2MALT转换的PennChineseTreebank中文语料结果效果并不是很好,如果用他转换后的语料来训练依存句法的话,会影响依存句法最终的性能。所以我们根据汉语的特点,定义了大量的规则,用规则的方法开发了自己的转换工具,用这个转换工具转换后的语料相对于PENN2MALT转换的语料,具有更高的准确性和规范性。

发明内容
本发明目的在于提出一种基于规则的中文树库转换系统和方法,将PennChineseTreeBank中文结构树库转换成更合理更规范的依存树库。本发明提出的一种将中文短语结构树库转化为依存结构树库的方法,其具体步骤如下
I)读入PennChineseTreebank中文树库,并通过拆分器,将树库中的长句拆分为短句。2)确定最终的核心映射表,并利用核心映射表得到每个词的初始依赖头节点。3)通过依赖规则器确定每个词的最终依赖头节点。4) 建立依赖关系类型标注规范,通过依赖关系规范器,确定词与词之间的最终依赖关系,形成最终的依赖树库。本发明主要包括拆分复杂的树结构;建立更准确的核心映射表,并排除标点、语气词、感叹词做核心词的情况;利用规则的方法解决汉语中的特殊语法结构;建立依赖关系类型标注规范;利用规则的方法确定依赖关系类型。下面来--介绍本发明的主要内容。一、拆分复杂的树结构
在Penn Chinese Treebank树库中存在许多长句子,并且这些长句子被标注在一棵结构树中,其结构非常的复杂,这样的结构树中可能存在多个根节点,而且这些根节点相互之间不存在依赖关系,所以如果将这样的长句转换成依存树的话,会大大降低依存树库的准确率。而本发明中采用拆分器将这些长句切割成若干个短句子,每个短句子自身形成一个独立的结构树,从而降低了结构树的复杂度。再将这些重新生成的结构树转换成依赖树,从而得到更高准确率和规范性的依赖树库。其具体规则为根据树结构的特点,在根节点的孩子节点中,将其为逗号或分号的设为拆分点,把长句拆分为短句,且拆分后的树以原来的根节点作为现在的根节点。二、建立更准确的核心映射表,
PENN2MALT转换工具的源代码虽然没有开源,但是它核心映射表已经被公布,本发明通过大量实验,发现用它公布的核心映射表转换的语料并不是很理想,于是通过对PennChinese Treebank树库的研究,建立了自己的核心映射表,如表I所示。 表I
权利要求
1.一种将中文短语结构树库转化为依存结构树库的方法,其特征在于,具体步骤如下 a)读入PennChineseTreebank中文树库,并通过拆分器,将树库中的长句拆分为短句; b)确定最终的核心映射表,并利用核心映射表得到每个词的初始依赖头节点; c)通过依赖规则器确定每个词的最终依赖头节点; d)建立依赖关系类型标注规范,通过依赖关系规范器,确定词与词之间的最终依赖关系,形成最终的依赖树库。
2.根据权利要求1所述的方法,其特征在于步骤a)中所述拆分器根据树结构的特点,在根节点的孩子节点中,将为逗号或分号的设为拆分点,把长句拆分为短句,且拆分后的树以原来的根节点作为现在的根节点。
3.根据权利要求1所述的方法,其特征在于步骤b)中所述核心映射表是仿照PENN2MALT转换工具中公布的核心映射表的格式,根据PennChineseTreebank中文树库的特点和依赖树的特点,确定的更准确的核心映射表,其排除了标点、语气词、感叹词做核心词的情况。
根据权利要求1所述的方法,其特征在于步骤c)中所述依赖规则器,其根据汉语语法的特点以及PennChineseTreebank中文树库的标注特点,对于只用步骤b)中所述核心映射表不能确定的依赖结构,确定具体的规则,来确定每个词的最终依赖头节点;其中所述具体的规则为 a)“把”字结构和“被”字结构的规则“把”字或“被”字节点后紧跟的节点的孩子中,如果是主谓或者主谓宾结构,则主语和谓语都依赖于“把”字或“被”字节点,并作为他们的宾语; b)“得”字结构的规则“得”字节点以他前面的动词为核心词,他后面的宾语以“得”字节点为核心词; c)并列结构的规则让最前面的名词作为核心词,而那些连接并列名词之间的连词依赖到连词后面的名词,如果并列名词是用顿号隔开的话,顿号依赖到它前面的名词; d)特殊的动词短语的规则特殊的动词短语结构的标注包括V⑶、VRD、VSB、VCP、VPT、VNV。通过对这些特殊动词短语结构的研究,得到如下规则表
4.根据权利要求1所述的方法,其特征在于,步骤d)中所述依赖关系类型标注规范, 具体见下表所示
5.根据权利要求1所述的方法,其特征在于步骤d)中所述依赖关系规范器,寻找词与词之间的依赖关系,从两方面入手 I)从PennChineseTreebank中文树库标注中找到他们的依赖关系; 2从词自身的特点以及它的依赖词的特点出发找到他们的依赖关系; 其中所述的第一个方面,其具体规则为 ①PennChineseTreebank中文树库中,节点标记为DVP、ADVP的将其核心词的依赖关系定为状语;节点标记为DNP、DP、ADJP的将其核心词的依赖关系定为定语;②PennChineseTreebank中文树库中,节点标记后缀分别为_SUB、-OBJ、-ADV、-EXT的,将其核心词的依赖关系分别定为主语、宾语、状语、补语; ③PennChineseTreebank中文树库中,节点标记为VRD、VCP、VPT的将其非核心节点的依赖关系定为补语;节点标记为VCD的将其非核心节点的依赖关系定为并列;节点标记为VSB的将其非核心节点的依赖关系定为连动;节点标记为VNV的将其非核心节点的依赖关系定为疑问连动;所述的第二个方面,具体规则见下面的规则表
6.根据权利要求5所述的方法,其特征在于所述第一方面和第二方面的这些规则是存在冲突的,将这些规则定好优先级,具体的优先级由高到低依次为所述第二方面规则中列表列出的依赖类型为根节点、时态、语气、感叹、标点、之字结构、的字结构、得字结构、地字结构的规则,然后是所述第一方面中的规则①、②、③,最后是所述第二方面规则中列表列出的依赖类型为并列、关联、介宾、数量、主语、宾语、定语、状语、补语的规则,严格的按照优先级的先后顺序能得到准确的依赖关系。
7.一种将中文短语结构树库转化为依存结构树库的系统,其特征在于,该系统包括 拆分器,用于将树库中的长句拆分为短句; 核心映射表,用于得到每个词的初始依赖头节点; 依赖规则器,用于确定每个词的最终依赖头节点; 依赖关系规范器,用于确定词与词之间的最终依赖关系,形成最终的依赖树库。
全文摘要
本发明属于自然语言处理技术领域,具体为一种将中文短语结构树库转化为依存结构树库的系统和方法,方法具体包括拆分复杂的树结构;建立更准确的核心映射表;利用规则的方法解决汉语中的复杂结构;建立依赖关系类型标注规范;利用规则的方法确定依赖关系类型。本发明公开的系统包括拆分器,用于将树库中的长句拆分为短句;核心映射表,用于得到每个词的初始依赖头节点;依赖规则器,用于确定每个词的最终依赖头节点;依赖关系规范器,用于确定词与词之间的最终依赖关系,形成最终的依赖树库。本发明将PennChineseTreeBank中文结构树库转换成依存树库,更具准确性和规范性,更合理。
文档编号G06F17/27GK103020148SQ20121047980
公开日2013年4月3日 申请日期2012年11月23日 优先权日2012年11月23日
发明者邱锡鹏, 赵建双 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1