基于中心块的句义成分关系分层识别方法

文档序号:6400144阅读:191来源:国知局
专利名称:基于中心块的句义成分关系分层识别方法
技术领域
本发明涉及一种基于中心块的句义成分关系分层识别方法,属于计算机科学与中文信息处理技术领域。
背景技术
随着信息的爆炸式增长,人们越来越迫切的需要计算机更好的理解自然语言中蕴含的意义,因此,句义分析越来越迫切。汉语作为意合的语言,尤其注重对句义的掌握和分析。句义分析是分析句子的意义,采用形式化的结构反映句义(句子意义),也就是分析句子结构中实词与实词之间的语义关系,根据句子的句法结构和句中每个实词的词义推导出能够反映句义的某种形式化结构(句义结构)。显然,句义分析的核心是表示出句义的形式化结构。句义结构分析是整个语义分析研究中的最主要的内容。目前,自然语言处理一般是以浅层的句义分析为底层技术,对于更深层次的句义分析则鲜有研究。深层次的句义分析需要完成句义类型识别、成分识别、句义结构模型框架提取、成分细节分析。其中,句义结构模型框架提取提供了整个句义结构基本框架,是句义结构分析方法中最为重要的一环,也是整个句义结构分析方法中的难点,然而相关分析发明却是凤毛麟角。在句义结构模型框架的提取方法发明过程中主要存在两个关键问题:(1)实现句法结构信息到句义结构的有效利用,(2)实现将句义结构模型框架的提取问题向分类问题转化。句法结构及句义结构是对一个句子信息不同层次的表现形式,它们有着一定的映射关系,找到并有效的利用这种映射关系对于句义结构模型框架的提取尤为重要,也是进行句义结构分析方法的关键。

发明内容
本发明提出一种针对汉语句义结构模型框架关系的提取方法。本发明的技术方案包括如下内容:提出层次中心块的概念,利用层次中心块能有效的实现句法结构与句义结构的映身寸关系。( I)句法结构树中每层短语结构的中心块识别,中心块的识别即是识别出句法结构树中,构成父节点的各子节点是否为中心节点;(2)语义格识别分为谓词、基本格、一般格的识别;(3)各句义成分间关系识别,各句义成分间关系的识别分为对三类关系的识别:①谓词间关系基本格与谓词间关系一般格与各句义成分间关系。其中的一般格与各句义成分间关系的识别,即是对各句义成分的修饰与被修饰关系的识别,通过中心块的识别可以得到句法树中各短语结构子节点的修饰与被修饰关系,进而得到各句义成分的修饰与被修饰关系——一般格与各句义成分间关系。对三大类关系(如

图1)(谓词间关系,基本格与谓词间关系、一般格与各句义成分的关系)的识别,并很好的实现了句法结构与句义结构的对应。
整体上,本发明分为以下3个模块。步骤I,中心块识别中心块定义:句法结构树中,构成父节点的各子节点中处于被修饰地位的节点为中心块,处于修饰地位的节点为非中心块;若构成父亲节点的几个子节点不存在修饰与被修饰的关系,则各子节点均标为中心块。包含主语、谓语、宾语、表语的短语节点也定义为中心块。若句法结构树的节点在句义结构中处于上下层的关系,则处于上层的是被修饰的,处于下层的充当修饰成分;若在句义结构中处于同一层,则相应的节点不存在修饰与被修饰的关系。中心块识别采用C4.5决策树作为分类算法,包含两个过程(如图2):训练过程,基于中心块定义进行模型训练;识别过程,利用训练模型指导新句子的中心块识别。中心块识别的输入、输出表如下。表I中心块识别输入输出关系表一IPO
权利要求
1.汉语句义结构模型关系提取方法,先逐层提取句法结构树中层次中心块,进而获取短语块间的修饰关系并提取句子主干,其特征是:可分别完成句法结构树中每层短语结构的中心块识别;语义格识别;各句义成分间关系识别。
2.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是中心块定义。内容如下: 中心块定义:句法结构树中,构成父节点的各子节点中处于被修饰地位的节点为中心块,处于修饰地位的节点为非中心块;若构成父亲节点的几个子节点不存在修饰与被修饰的关系,则各子节点均标为中心块。包含主语、谓语、宾语、表语的短语节点也定义为中心块。
3.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是短语块间修饰关系识别规则。内容如下: 若句法结构树的 节点在句义结构中处于上下层的关系,则处于上层的是被修饰的,处于下层的充当修饰成分;若在句义结构中处于同一层,则相应的节点不存在修饰与被修饰的关系。
4.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是识别中心块模块。内容如下: 中心块识别采用C4.5决策树作为分类算法,包含两个过程: 训练过程,基于中心块定义进行模型训练; 识别过程,利用训练模型指导新句子的中心块识别。
5.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是基本格识别规贝U。内容如下: 基本格式别规则:若某个叶子节点为中心块,此叶子节点必为基本格及谓词。当判断了一个叶子节点属于基本格及谓词后结合谓词便可得到此叶子节点是否为基本格。谓词是作为已知条件输入。
6.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是一般格识别规贝U。内容如下: 一般格式别规则:经过统计,叹词(Θ)、语气词(y)、连词(C)、助词(U)、方位词(f)、及介词(P)的大都为非语义格。利用以上这些特征进行非语义格的识别,再通过排除筛选就可识别出一般格。
7.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是谓词间关系识别规则。内容如下: 谓词间关系识别规则: ①谓词“A”、谓词“B”属于同一个述题(Comment)下的两个兄弟节点; ②谓词“A”、谓词“B”属于同一个述题(Comment)下并列关系的两个句子的谓词; ③谓词“A”所在的句子充当谓词“B”所在句子话题(Topic)的基本格; ④谓词“A”所在的句子充当谓词“B”所在句子述题(Comment)的基本格; ⑤谓词“A”、谓词“B”所在的句子分别为构成复合句的两分句。
谓词间关系的识别采用C4.5决策树作为分类算法,包含两个过程: 训练过程,基于谓词间五类关系进行模型训练识别过程,利用训练模型指导新句子谓词间关系识别。
8.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是基本格与谓词间关系识别规则。内容如下: 基本格与谓词间关系识别规则: 根据话题与述题的相关定义,若基本格在句中处于谓词之后,则此基本格为谓词的相关述题。若基本格在句子中处于谓词之前,一般将此基本格判为谓词的相关话题;但是若此基本格所在的短语为介词性短语,且介词不为“和”、“与”、“跟”、“并”,则此基本格仍判为述题,因为此时的基本格充当把字句或是被子句的介词宾语。
9.根据权利要求1所述的汉语句义结构模型关系提取方法,其特征是一般格与各句义成分间关系识别规则。内容如下: 一般格与各句义成分间关系识别规则: 句法结构树中,构成父节点的各子节点中处于被修饰地位的节点为中心块,处于修饰地位的节点为非中心块。用短语结构的中心块节点替换其父亲节点,原来的非中心块则修饰现在的父亲节点;原来中心块节点的子节点则成为了原来非中心块的兄弟节点;且原来的非中心块依旧为其现在兄弟节点的非中心块,原来中心块节点的子节点中的中心块与非中心块关系依旧不变。
如上所述,用短语结构的中心块节点替换其父亲节点,经过多轮替换之后,直到完成句法结构树中所有的中心块替换,那么最终的结构树中各下层节点均修饰其父亲节点。最终得到的是一般格与各句义成分间关系 的树形表现形式。
全文摘要
本发明涉及一种基于中心块的句义成分关系分层识别方法,属于计算机科学与中文信息处理技术领域。本发明基于现代汉语语义学,解决了汉语句义结构模型中汉语句义成分关系识别的问题。本发明首先给出一种“层次中心块”的概念,实现句法结构到句义结构的有效映射;将句义成分关系识别问题划分为三类层次关系识别问题,谓词间关系、基本格与谓词关系、一般格与各句义成分关系;分别提出了中心块识别算法、基本格识别算法、一般格识别算法、谓词间关系识别算法、基本格与谓词间关系识别算法、一般格与各句义成分间关系识别算法,使得计算机能够以较高的准确率及效率分析得到句义成分关系,进一步推进了汉语句义结构模型的研究。
文档编号G06F17/27GK103177089SQ201310074970
公开日2013年6月26日 申请日期2013年3月8日 优先权日2013年3月8日
发明者罗森林, 魏超, 潘丽敏, 韩磊 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1