一种多动词汉语概念复合块的动词层次分类的方法_2

文档序号:9765938阅读:来源:国知局
[0047] ?从而/c遭到A来自/v[叩-AH[叩-CO[叩-AH多/m方面/n]的/uJDE]砰击/ vN]〇/wE
[0048] 其中动词"遭到"是句子的谓语,"来自"是宾语的成分内容,现有的分析器分析结 果,使得动词的所属层次产生了错误。
[0049] 根据目前的汉语概念复合块标注库的规范,在对多动词小句进行分析时发现,包 含多个动词的小句中,有的动词在同一层次上出现,有的动词在不同层次上出现。上文中提 到的小句的概念定义如下:
[0050] 定义1小句:在一个包含句号、问号、感叹号等结点符号的汉语句子中,由其内部的 各个非结点标点符号隔开的句子,称为小句。
[0051] 非结点符号如逗号、冒号、破折号、分号等内容。
[0052] 由此句子的构成为Sen= klausei,clause2,...,clause。},其中Sen表示一个完整 的汉语句子,n表示由非结点标点符号位分割而分隔开的小句数目。
[0053] 动词的层次定义如下:
[0054] 定义2同一层次:一个包含多动词的句子中,若动词出现在同一个成分块中,比如 主语块、状语块、谓语块、宾语块等,那么则认为运些动词处于同一层次。
[0055] 定义3不同层次:一个包含多动词的句子中,若各个动词处于不同的成分块中,比 如包含两个动词A、B;其中,A存在于主语成分块内,而B存在于状语或者谓语中,则认为动词 A、B属于不同层次。
[0056] 对于不同的构成内容,由其内部成分及特点,形成同一层次或不同层次结构。
[0057] 1)充当状语成分的块结构分析
[0058] 在一个汉语句子中,介词(P)通常引导一个状语从句,通过状语成分内容的分析, 将小句的动词层次进行划分。经过试验观察所知,有如下几种类型:
[0059] 类型1:由介词引导,W方位词、时间词、空间词等结尾,构成p+*+f/s/t形式的类型
[0060] 参在/p可W/vM接受/v的/uJDE波动/vN幅度/n和/cC失业/vN水平/n等/ uO条件/n下处得到/v发展/vd/wE
[0061] 此句中,介词引导的状语部分的动词"接受/V'与动词"得到/VV发展/V'处于不 同的成分结构中,认为其处于不同层次。
[0062] 类型2:由介词引导,结尾词不包含明显特征。可根据介词与右临词的词性进行判 定,若右临词为动词词性,且介词左边包含动词,则认为是不同层次的结构,即*+v+*+p+v+* 结构。若介词左边没有动词,且介词右临动词后续内容中包含结构P+v+*+n+v+*
[0063] 参从/p创造 /v财富/n运/rN -/m根本/a问题/n入手/v
[0064] 类型3:由动词与介词构成述结式结构
[0065] ?用A于/p国家机器/n运转A的AiJDE需要/vN"/wE
[0066] 类型4:一些没有介词引导的时间块化、空间块sp,W方位词或时间词结尾的结构
[0067] 2)引导宾语从句的动词成分分析
[0068] 宾语从句是名词性从句的一种。在主从复合句中充当宾语,位于及物动词、介词或 复合谓语之后的从句称为宾语从句。宾语从句分为=类:动词的宾语从句,介词的宾语从句 和形容词的宾语从句。在汉语树库中,宾语从句是句子中由一个启发性动词引导后续内容 形成整个成分内容,通常运类词具有较强的特征分类性,比如:是、即、如、认为、说等词,是 一个说明性或者启发性动词引导后续内容。因而在特征分类中,将该类词作为一个重要的 分类特征。
[0069] 相关实例如下示:
[0070] 参中国/nS古代/t法/n是/v民/n刑/n不/dN分/vd/wE
[0071] 参如/v著/v《/VLB溫热论/nR》/wRB的AiJDE叶天±/nP
[0072] 由实例可W看出,该类动词与后续动词成分处于不同的结构层次中。通过对已标 注的内容进行分析,对可W引导宾语从句的动词进行统计并建立"宾从--动词引导词库", 在分类时,根据词库中的动词来对句子的分类做出评判。
[0073] 3)定语从句的动词成分分析
[0074] 在不包含上述特征的基础上,对包含从句信息的定语从句结构进行判定。一般的 汉语句子中,存在的从句类型有状从、宾从、定从=种类型。将W上两个类型W进行分析,对 于不符合W上特征的句子,先对其中的定语从句筛选出来,筛选规则即根据从句标记"的"、 "之"。对从句标记左右的动词排列结构进行统计分析,分为如下几个类型:
[0075] 类型 l:*+v+的+*
[0076] 类型 2:*+v+的+V+*
[0077] 类型 3:*+的+V+*
[0078] 类型4: *v+的,即W "的"结尾的句子
[0079] 4)其他动词结构分析
[0080] 不包含上述特征且动词个数为2个的小句中,有如下类别:
[0081] 类别1:动词连续出现
[0082] A.若其中某一个动词属于趋向动词,则认为该句动词处于同一层次。
[0083] B.若不属于趋向动词,则判断第二个动词是否与第一个动词构成VP-DJ句式(其中 VP-DJ第二项动词从W往标注库中进行抽取获得),若构成上述形式,则认为属于同一层次。
[0084] 类别2:动词不连续出现,则根据构建的VP-LW库中的动词对动词进行判定;另外根 据已知的明显的"使、让、为"等特征,利用现有的兼语动词表对构成的事件句式进行统计。
[0085] 实际操作过程中的分析处理过程的输入包含两个:1、只经过词语切分和词性标记 的词语序列。2、该句子中包含的动词序列。通过特征的逐层分析处理,最终输出结果是对该 句子中动词所属层次的一个划分结果。
[0086] 例如输入汉语句子:在/p可W/vM接受A的/uJDE波动/vN幅度/n和/cC失 业/vN水平/n等/uO条件/n下/"f得到/v发展/vd/wE
[0087] 其输入为该语句内容W及动词序列List= {接受,得到,发展},对该句子的特征进 行分析后,其动词的层次分类结果为:
[00则同一层次动词集合Sam= {得到構:展}
[0089] 不同层次的动词集合Dif= {接受的寻到,接受#发展}
[0090] 由此可知,动词"得到/V'和"发展/V'处于同一成分中,而动词"接受/V'则与其处 于不同层次,通过运种所属关系,对组块分析中块边界的确定提供分析依据。
的第i个节点,Qi为队列(Q)中的第i个节点,采用的特征模板如表2所示。
[0099] 表2 ISR CCC化rser特征模板
[0101] 本发明提供的多动词汉语概念复合块的动词层次分类的方法,可W减少因动词的 层次分析错误而导致的句子整体层次错误,从而提高组块分析的准确性,为后续进行复杂 句的句法语义分析打下了很好的基础,可W很好地满足实际应用的需要。
[0102] W上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可W做出若干变形和改进,运些都属于本发明的保护范 围。因此,本发明专利的保护范围应W所附权利要求为准。
【主权项】
1. 一种多动词汉语概念复合块的动词层次分类的方法,其特征在于,包括以下步骤: 步骤1)对汉语句子进行词语切分和词性标记。 步骤2)以标点为分割,将所述句子分割为小句。 步骤3)以所述小句为单位,根据动词及词类间的特征,将所述小句中的多个动词进行 层次划分。 步骤4)确定所述小句中的动词是处于同一层次还是不同层次,从而将动词分为处于同 一层次和处于不同层次的两类动词。 步骤5)利用改进的CCC分析器对动词进行分析。 步骤6)针对多动词的小句进行分析直到队列元素为空为止。2. 根据权利要求1所述的多动词汉语概念复合块的层次分类的方法,其特征在于,所述 步骤2)中的标点为句号、问号和感叹号。3. 根据权利要求1所述的多动词汉语概念复合块的层次分类的方法,其特征在于,所述 小句的定义为:在一个包含句号、问号、感叹号等结点符号的汉语句子中,由其内部的各个 非结点标点符号隔开的句子。4. 根据权利要求2所述的多动词汉语概念复合块的动词分类的方法,其特征在于,所述 同一层次的定义为:一个包含多动词的句子中,若动词出现在同一个成分块中,则认为这些 动词处于同一层次。5. 根据权利要求3所述的多动词汉语概念复合块的层次分类的方法,其特征在于,所述 不同层次的定义为:一个包含多动词的句子中,若各个动词处于不同的成分块中,则认为各 个动词属于不同层次。6. 根据权利要求1所述的多动词汉语概念复合块的动词层次分类的方法,其特征在于, 所述改进的CCC分析器以基本的"移进-归约"模型为实现概念复合块的分析器的基础,并将 针对于多动词的分析处理模块结合起来形成的。
【专利摘要】本发明涉及一种多动词汉语概念复合块的动词层次分类的方法,包括以下步骤:步骤1)对汉语句子进行词语切分和词性标记;步骤2)将所述句子分割为小句;步骤3)将所述小句中的多个动词进行层次划分;步骤4)将动词分为两类;步骤5)利用改进的CCC分析器对动词进行分析;步骤6)针对多动词的小句进行分析直到队列元素为空。本发明可以减少因动词的层次分析错误而导致的句子整体层次错误,从而提高组块分析的准确性,为后续进行复杂句的句法语义分析打下了很好的基础,可以很好地满足实际应用的需要。
【IPC分类】G06F17/27
【公开号】CN105528340
【申请号】CN201510863564
【发明人】吕学强, 周强, 董志安, 仵永栩
【申请人】北京信息科技大学, 清华大学
【公开日】2016年4月27日
【申请日】2015年12月2日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1