一种多动词汉语概念复合块的动词层次分类的方法

文档序号:9765938阅读:505来源:国知局
一种多动词汉语概念复合块的动词层次分类的方法
【技术领域】
[0001] 本发明属于中文信息处理技术领域,具体设及一种多动词汉语概念复合块的动词 层次分类的方法。
【背景技术】
[0002] 句法分析是自然语言深层次处理的关键问题,目前汉语句子的完全句法分析仍处 于初级阶段,作为完全句法分析的中间步骤而提出的组块分析成为了现阶段的研究重点。
[0003] 汉语块的研究经历了一个逐步发展的过程,起初侧重于对基本名词、介词短语等 的研究。随着语料库的发展,研究者们提出了各自不同的块描述体系。现阶段的分析与研究 只关注句子中相对较简单、功能相对重要的成分,作为词法分析与完全句法分析的一个中 间步骤,对于汉语句子中的多动词句子,并列句式W及定语从句,同样需要加 W考虑。汉语 句子由充当主语、谓语、宾语、状语、补语等成分的内容构成。多动词句子是指在一个汉语描 述句子中,包含的动词个数不少于两个,对于结构和句式简单的句子,现有的组块分析器的 功能已经可W相对准确的分析出不同成分的词与词之间的关系。但是句子较长,句式结构 复杂,包含内容丰富的汉语句子,现阶段的块分析器对其处理效果并不理想。而在汉语句子 中,包含两个及两个W上动词的句子占了较大比重,对其进行更深层次的分析与处理已成 为句法分析处理的关键。
[0004] 概念复合块是众多组块描述体系中的一种,在对其研究与分析的基础上发现,现 阶段的针对概念复合块的组块分析器在对包含多个动词的句子进行分析处理时,其错误主 要存在于各个成分间的边界识别不准确,如原属于主语部分的词语被划分到谓语或状语成 分中,原属于宾语的内容被划分到谓语部分等,由于运类情况的存在导致了层次分析错误。

【发明内容】

[0005] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的多动词汉语概念复合块的动词层次分类的方法。
[0006] 为了实现上述发明目的,本发明采用的技术方案如下:
[0007] -种多动词汉语概念复合块的动词层次分类的方法,包括W下步骤:
[0008] 步骤1)对汉语句子进行词语切分和词性标记;
[0009] 步骤2) W标点为分割,将所述句子分割为小句;
[0010] 步骤3) W所述小句为单位,根据动词及词类间的特征,将所述小句中的多个动词 进行层次划分;
[0011] 步骤4)确定所述小句中的动词是处于同一层次还是不同层次,从而将动词分为处 于同一层次和处于不同层次的两类动词;
[0012] 步骤5)利用改进的CCC分析器对动词进行分析;
[0013] 步骤6)针对多动词的小句进行分析直到队列元素为空为止。
[0014] 进一步地,所述步骤2)中的标点为句号、问号和感叹号。
[0015] 进一步地,所述小句的定义为:在一个包含句号、问号、感叹号等结点符号的汉语 句子中,由其内部的各个非结点标点符号隔开的句子。
[0016] 进一步地,所述同一层次的定义为:一个包含多动词的句子中,若动词出现在同一 个成分块中,则认为运些动词处于同一层次。
[0017] 进一步地,所述不同层次的定义为:一个包含多动词的句子中,若各个动词处于不 同的成分块中,则认为各个动词属于不同层次。
[0018] 进一步地,所述改进的CCC分析器W基本的"移进-归约"模型为实现概念复合块的 分析器的基础,并将针对于多动词的分析处理模块结合起来形成的。
[0019] 本发明提供的多动词汉语概念复合块的动词层次分类的方法,可W减少因动词的 层次分析错误而导致的句子整体层次错误,从而提高组块分析的准确性,为后续进行复杂 句的句法语义分析打下了很好的基础,可W很好地满足实际应用的需要。
【附图说明】
[0020] 图1为本发明的流程图;
[0021 ]图2为例句的拓扑结构示意图。
【具体实施方式】
[0022] 为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用W解释本发明,并不用 于限定本发明。
[0023] 如图1所示,一种多动词汉语概念复合块的动词层次分类的方法,包括W下步骤:
[0024] 步骤1)对汉语句子进行词语切分和词性标记;
[0025] 步骤2) W标点为分割,将所述句子分割为小句;
[0026] 步骤3) W所述小句为单位,根据动词及词类间的特征,将所述小句中的多个动词 进行层次划分;
[0027] 步骤4)确定所述小句中的动词是处于同一层次还是不同层次,从而将动词分为处 于同一层次和处于不同层次的两类动词;
[00%]步骤5)利用改进的CCC分析器对动词进行分析;
[0029] 步骤6)针对多动词的小句进行分析直到队列元素为空为止。
[0030] 具体地:
[0031 ] 概念复合块(Conc邱t Compound Qiunk,CCC)是由2个或两个W上的词语按照一定 的关联关系组合形成的信息描述单位。CCC的自动分析过程为,输入已经过词语切分和词性 标注的句子,目标是自动分析出其中的不同实义词和功能词组合形成的概念复合块。CCC的 定义与已有的组块分析有较大的区别,每个CCC由成分和关系标记描述其外部句法功能和 内部组合关系,将句子切分成可W充当主、谓、宾语等成分,同时对块的内部给出完整的组 织结构,并W二叉树的形式表示。针对W下的原始句子:中国是多民族国家,中华民族是50 多个民族的总称。
[0032] 按照CCC描述体系,该句子被标注为:
[0033] ?中国/nS 是/v[叩-AH[np-AH 多/a 民族/n]国家/n],/wP[np-AH 中华/nR 民 族/n]是/v[叩-AH[np-CO[叩-AH[mp-AH[mba;r-XX 50/m 多/m]个/qN]民族/n]的/uJDE]总 称/n]a/wE
[0034] 每个CCC由成分和关系类型标记描述其外部句法功能和内部组合关系,为简化描 述,采用二叉结构树标注。CCC的最外层的边界划分将句子分割成可W充当主、谓、宾语成 分,同时对块内部的结构进行了完整表示,上述例句的拓扑结构如图2所示。
[0035] 多动词汉语概念复合块是指句子中包含的动词个数大于1个,其构成规则与一般 的句子也有所不同。例如原始句子:从而遭到来自多方面的砰击。
[0036] 按照CCC描述体系,该句子应标注为:
[0037] ?从而/c遭到/v[吨-A叫吨-C0[vp-肥来自/v[吨-AH多/m方面/n]]的/uJDE]砰 击/vN]o/VE
[0038] 按照CCC描述体系,动词间的组合关系可分为如下几类:
[0039] 类别1:动词+宾语:典型的谓宾结构句式,如"我/rNP是/v[np-AH中国/nS人/ n]d/wE"
[0040] 类别2:名词+动词:构成意思表达完整的句子或小句内容,如"全面/aD贯彻/v[np-AH-EC22[吨-C0[dj-CH 会议/n 提出/v]的AiJDE][吨-AH 各项/rN 任务/n]]"
[0041] 类别3:动词+动词/形容词:构成典型的述结式,述趋式,表达一个动作的结果或者 一个动作的趋向性,如"不/dN是/v因为/c[np-AH[np-C0我/rNP的AiJDE]屯、/n][vp-DJ 变/v 软/a] 了/ye/wE"、"[vp-HA设及/v 到/v][np-AH 许多/m 方面/n]"
[0042] 类别4:动词+宾语+动词+宾语:构成动宾动宾式连续结构,如兼语动词或者连谓表 达形式,由两个动词共同形成动作或者动作发生的顺序。如"[vp-LW[ vp-HC动用/V [吨-AH [np-AH 省长/n 基金/n][mp-AH 200万/m 元/qN]]][vp-FH W/c[vp-HC 解决/v[叩-AH [np-CO[np-AH该/;r项目/n]的/uJDE]急需/vN]]]]。/wE"、"[vp-HC使/v[吨-AH壮丽/a青 春/n][vp-AH得W/vM延续/v]]"W上四个类别涵盖了单个或多个动词的构成规则。
[0043] 在汉语句子中,标点符号对句子的表述起着附加说明W及间隔的作用,同样,在 CCC组块分析中,W标点为分割,将句子分割为小句进行具体分析。
[0044] CCC的分析工作包括CCC边界界定和CCC的成分和关系标记类型识别。与通常的组 块分析方法不同,概念复合块侧重于句子内部的详细信息,需给出块内部的完整结构,常见 的其他类型的组块分析器不能满足对概念复合块的分析需求。与完全句法分析相比,概念 复合块的分析更关注于局部语境,描述性更强,确定性更好,因而本发明W基本的"移进--归约(SMff-Reduce,SRr模型为实现概念复合块的分析器(SR CCC Parser)的基础,并将 针对于多动词的分析处理模块结合起来,形成改进的CCC分析器(ISR CCC化rser),称为 Improve-Shift-Reduce,本发明简称ISR,该模型不但能适应概念复合块的局部语境组合分 析特点,容易训练,且其包含了对复杂句中的多动词类型句子的分析处理模块,适应性更 强,与全局寻优的算法相比,该组合方法分析速度快,更能适应汉语句子复杂应用中的分析 需求。
[0045] SR CCC化rser在对包含多个动词的句子进行分析处理时,其错误主要存在于各 个成分间的边界识别不准确,如原属于主语部分的词语被划分到谓语或状语成分中,原属 于宾语的内容被划分到谓语部分等,并因此导致层次分析错误。在句子成分识别过程中,一 个重要的特征就是小句的动词所处位置的确定,在包含多个动词的小句中,动词所处成分 的位置确定成为了关键所在。如本发明第2节提到的原始句子:从而遭到来自多方面的砰 山O
[0046] SR CCC化rser分析结果为:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1