一种汉语概念复合块标注库规范化处理方法

文档序号:9687417阅读:284来源:国知局
一种汉语概念复合块标注库规范化处理方法
【技术领域】
[0001] 本发明属于计算机科学与自然语言处理的句法分析技术领域,具体设及一种汉语 概念复合块标注库规范化处理方法。
【背景技术】
[0002] 自然语言是人类交流的主要方式,其不同于如编程语言等为计算机而设的"人造" 语言。随着计算机和互联网的广泛应用,计算机需要处理的自然语言文本内容迅速膨胀,面 向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然 语言处理研究受到广泛关注。
[0003] 句法分析是自然语言理解的一个核屯、组成部分,是对自然语言进行深层分析的基 础技术。句法分析根据一定的语法规则,自动地识别出句子的语法结构及语法关系,将一个 线性序列的句子转换成一个结构化的语法树。随着自然语言处理技术应用的日益广泛,句 法分析的作用愈加突出,它几乎成为众多自然语言处理应用的关键技术,如机器翻译、信息 抽取、问答系统、检索系统等。句法标注则是对语料库中的语料文本进行句法分析和标注, W形成树库语料。目前语料标注的研究成为计算语言学领域的一个重要的研究方向。现在, 很多人的研究集中在标注语料资源的开发和构建标准的语料库标注体系上,例如,清华大 学TCT语料库在语料标注上采用双标注集的原则,并提出汉语概念复合块,来描述复杂句的 句法?胃息。
[0004] TCT语料库采用完整的树形层次结构描述框架,采用双标注集原则,对每个句法树 上的非终结结点给出成分标记和关系标记,W尽可能多而详尽地描述汉语句子蕴含的复 杂、多变、有组合特性的句法信息。此外,在句法信息描述方面,提出了概念复合块(Concept Compound化unk,CCC)运一概念,来中和词语层和小句层的距离。
[000引概念复合块是由2个或2个W上的词语按照一定的关联关系组合形成的信息描述 单位。在经过词语切分和词性标注处理之后,通过句法分析,把句子中不同实意词和功能词 组合形成的概念复合块标注出来。并通过确定运些CCC的外部成分和内部关系标记,形成了 大规模的汉语真实文本概念复合块标注库CCC Bank。
[0006] 然而目前的标注过程中仍有W下问题:
[0007] (1)由于目前标注工具的限制,对一些在标注过程中发现的词类标注错误,无法进 行手工调整,只是在相应的CCC成分标记上有所体现。
[0008] (2)为了保证概念复合块描述体系的完整性,需要对CCC块中嵌套的事件句式添加 内部特征标记。在现有标注版本中,对运些有明显特征的子类标记进行了缺省处理,W提高 人工校对效率。
[0009] (3)在语料库标注工作中,由于多人多轮校对流程的限制,且不同校对者认识上有 差异,导致对时间块和空间块标注不一致的情况。
[0010] 语料标注是一个庞大的工程,需要消耗大量的人力、物力,且标注质量不一定能够 达到人们的要求,尤其是复杂句,较简单句而言,结构复杂,逻辑层次多,并列成分多,因此 当前汉语语料库标注块的正确率和规范性还远远不够,不能满足需求。

【发明内容】

[0011] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的汉语概念复合块标注库规范化处理方法。
[0012] 为了实现上述发明目的,本发明采用的技术方案如下:
[0013] -种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动 补充事件句式内部特征标记;时间块和空间块标记一致化处理。
[0014] 进一步地,所述自动调整错误词类标记的过程包括W下四个步骤:
[0015] 步骤1)对CCC块构建句法二叉树,将句子W二叉树结构表示;
[0016] 步骤2)捜索所述句法二叉树,确定核屯、词位置;
[0017] 步骤3)确定所述核屯、词的词类;
[001引步骤4)判断所述核屯、词的词类的标记的正误,纠正错误标记。
[0019] 进一步地,所述自动补充事件句式内部特征标记的过程包括W下Ξ个步骤:
[0020] 步骤A:对CCC块构建句法二叉树,将句子W二叉树结构表示;
[0021 ]步骤B:遍历所述句法二叉树,判断该事件句式的结构,确定其内部特征标记类型;
[0022] 步骤C:对符合条件的CCC块自动添加相应的内部特征标记。
[0023] 进一步地,所述时间块和空间块标记一致化处理的过程包括W下Ξ个步骤:
[0024] 步骤一:对CCC块构建句法二叉树,将句子W二叉树结构表示;
[0025] 步骤二:遍历所述句法二叉树,判断时间块标记类型和空间块标记类型的正误;
[0026] 步骤Ξ:纠正错误的标记类型。
[0027] 进一步地,所述步骤4)中纠正错误标记的算法为:先将需处理语料中的CCC块抽 出,对每个CCC块构建二叉树,由关系标记定位到实义核屯、词,再由CCC成分标记判定实义核 屯、词词类标记是否正确,对错误的标记进行相应的纠正。
[0028] 进一步地,所述步骤2)捜索所述句法二叉树,确定核屯、词位置所依据的捜索规则 如下表所示:
[0029]
[0030] 进一步地,所述步骤3)确定所述核屯、词的词类所依据的实义核屯、词词类标记与概 念复合块成分标记之间的映射关系表如下表所示:
[0031]
[0032] Ο
[0033] 本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机 器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,可W进一 步提高汉语语料库标注块的正确率和规范性,从而保证和提高了语料库的加工质量;解决 了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果, 进一步提高语料库的准确性,可W很好地满足实际应用的需要。
【附图说明】
[0034] 图1为本发明提供的汉语概念复合块标注库规范化处理方法的框图;
[0035] 图2为一个句子句法二叉树的表现形式示意图;
[0036] 图3为示例一的句子的句法二叉树示意图;
[0037] 图4为示例二的句子的句法二叉树示意图。
【具体实施方式】
[0038] 为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用W解释本发明,并不用 于限定本发明。
[0039] 如图1所示,一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词 类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。CCC块采用二 叉树结构表示(CCC为Concept Compound Chunk的缩写,即概念复合块)。在本发明中,提取 CCC标注库中的CCC标注实例,对各CCC块分别构建句法二叉树。遍历二叉树,分析提取实例, 对CCC块进行规范化处理。
[0040] 所述自动调整错误词类标记的过程包括W下四个步骤:
[0041 ]步骤1)对ccc块构建句法二叉树,将句子w二叉树结构表示;
[0042] 步骤2)捜索所述句法二叉树,确定核屯、词位置;
[0043] 其中;
[0044] 在CCC的词法分析阶段存在一些核屯、词的词类标记错误,在经过自动标注和人工 校对工作后得到成分标记和关系标记准确的CCC标注块,产生了 CCC块核屯、词词类标记与 CCC成分标记或关系标记不一致的问题。本发明中,利用准确的CCC成分标记和关系标记,纠 正核屯、词的词类标记错误,W达到词类属性的一致性。词类标记调整方法是,先利用CCC的 关系标记,确定核屯、词的位置,再根据CCC的成分标记与核屯、词词类标记的映射关系,判断 核屯、词词类标记正误,对错误的词类标记进行纠正。
[004引对于CCC块核屯、词的位置,主要根据其内部关系标记的语义核屯、化ead)来确定。表 1列出概念复合块所用的主要成分标记和关系标记集合。
[0046] 表1:概念复合块的成分标记和关系标记描述
[0047]
[0048] 在CCC块中,概念复合块的语义主要落实在核屯、词上。块内的其他成分或者直接依 存于该核屯、,起修饰和补充描述作用,成为概念复合块的附加体(Adjunct);或者与该核屯、 不发生依存联系,直接体现出不同的句法功能,成为概念复合块的内部附加功能成分 (F^mctional Consti1:ution);或者是并列关系的核屯、词。
[0049] 本发明选择构建句法二叉树的方法,将句子W二叉树结构表示。图2展示了一个句 子句法二叉树的表现形式。
[0050] 表2列出了 CCC炔基于关系标记通过对句法二叉树查找确定CCC块核屯、词的捜索规 则。
[0051 ]表2: CCC核屯、词捜索规则
[0052]
[005引由此,可W很快确定CCC块中的核屯、词。
[0054] 步骤3)确定所述核屯、词的词类;
[0055] 按照汉语概念复合块标注规范,通过概念复合块成分标记与实义核屯、词词类标记 之间的映射关系确定该核屯、词相应的词类标记。
[0056] 表3列出了目前常用的实义词词类标记与CCC成分标记之间的映射关系。
[0057] 表3:实义核屯、词词类标记与概念复合块成分标记之间的映射关系表
[005引
[0059] 由CCC块成分标记确定核屯、词的词类后,即可对错误的词类标记进行纠正。
[0060] 步骤4)判断所述核屯、词的词类的标记的正误,纠正错误标记;
[0061] 错误词类标记自动纠正的算法即为:先将需处理语料中的CCC块抽出,对每个CCC 块构建二叉树,由关系标记定位到实义核屯、词,再由CCC成分标记判定实义核屯、词词类标记 是否正确,对错误的标记进行相应的纠正。
[0062] 下面,通过一些具体实例对词类标记的纠正算法做更进一步的解释说明:
[0063] 示例一 :[np-AH 记录/nS 工作/v]
[0064] 如图3所示为该句的句法二叉树。按照关系标记AH,捜索右孩子节点,定位到核屯、 词"工作/V'。其中CCC块的成分标记为np,所W该CCC块为名词块,则该CCC块的核屯、词词类 应该为名词,即词类标记为/n,/rN,/vN,/iN,/rNP。按照该块的成分标记,"工作"的词性应 当为名词,则纠正错误标记为"工作/vN"。
[006引示例二:[np-HA能力/η强/a]
[0066] 其句法二叉树如图4所示。因关系标记HA,捜索左孩子节点,得到核屯、词"能力/η", 又因其CCC块的成分标记为ηρ,则该词性标记正确无误。
[0067] 在概念复合块标注过程中,需要对CCC块中嵌套的各种事件句式(Event Construct ion, EC)结构,增加合适的内部特殊标记进行显示标注,便于进行后续的分类分 析处理。
[0068] 在CCC标注过程中,由于事件句式化C)内部特征标记特征明显,易自动处理,为提 高人工校对效率,将CCC中事件句式内部特征标记进行了缺省处理。考虑到运些特征标记在 事件描述小句巧vent Description Clause,邸C)内容分
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1