一种基于依存分析的中文兼类词处理方法

文档序号:9287737阅读:430来源:国知局
一种基于依存分析的中文兼类词处理方法
【技术领域】
[0001]本发明涉及自然语言处理领域,确切地说,涉及中文信息处理的词性一致性检查和中文兼类词处理。
【背景技术】
[0002]兼类词是指某个词在不同上下文中具有两类或多类语法功能,即该词汇在不同上下文中具有不同的词性。具体说来,兼类词具有相同的读音和相同的符号形式,而且词汇意义存在一定的联系,即同音,同形,意义不完全相同但密切相关。兼类词是中文特有的语法现象,英文中词根相同但词性不同的单词通常具有不同的词形,而中文语境下,一词多词性的词性兼类现象则较为常见。
[0003]常见的中文兼类词有三种类型。一种是名词与动词的兼类现象,例如在“奥巴马赢得总统选举”,“公民通过投票选举出总统”的语境下“选举”分别是名词和动词;另一种是名词与形容词的兼类现象,例如在“他正在进行秘密的实验”,“我知道你的秘密”的语境下“秘密”分别是形容词和名词;还有一种是形容词与动词的兼类词,例如在“阅读丰富我的生活”,“他的经验很丰富”的语境下“丰富”分别是动词和形容词。常见的词性标注工具如Stanford NLP、LTP和Zpar等并未对中文兼类词现象进行专门考虑,因此对兼类词的词性识别准确率较低。
[0004]由于中文词性兼类现象的普遍性,因此兼类词的处理能够有效提高文本预处理阶段词性标注准确度,可广泛应用于各种中文信息处理系统。

【发明内容】

[0005]本发明的目的是提供一种提高兼类词词性识别准确度的方法,在使用词法、句法和语境规则库识别兼类词词性的基础上进一步使用语义角色统计规则识别兼类词词性。
[0006]为实现上述目的,本发明实施例公开了一种基于依存分析语义角色统计规则的中文兼类词处理方法。其特征在于,包括如下三个主要的功能模块:
[0007]兼类词语义角色统计规则抽取模块:构建大量包含兼类词的语句作为训练语料,通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;
[0008]词法、句法和语境规则库兼类词处理模块:对待处理文本进行自然语言预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;
[0009]语义角色统计规则兼类词处理模块:采用预先得到的兼类词语义角色统计规则,通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。
[0010]本发明的发明目的是这样实现的:本发明首先通过统计获得高覆盖率和高准确率的兼类词依存分析语义规则,然后在使用词法、句法、语境规则识别兼类词词性的基础上结合使用依存分析语义规则进一步识别兼类词词性。与现有技术相比,本发明的有益效果是通过在词法、句法和语境特征的基础上引入语义特征,提高了兼类词词性识别准确度,因此进一步提高了词性标注的准确度。
【附图说明】
[0011]图1为基于依存分析的中文兼类词处理方法流程图。
【具体实施方式】
[0012]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0013]图1为本发明一实施例提供的基于依存分析的兼类词处理方法流程图,具体包括如下步骤:首先构建大量包含兼类词的语句作为训练语料并通过分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;然后对待处理文本进行自然语言预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;最后使用兼类词语义角色统计规则进一步准确识别兼类词在不同上下文环境下的词性。本方法通过结合词法、句法、语境规则库和语义角色统计规则提高了兼类词词性识别准确度。
[0014]为便于理解,首先对下文中使用的英文符号和术语进行说明:
[0015](I)词性标注标签表示动词,nr表示人名,η表示名词,ns表示地名,p表示介
Τ.κ| ο
[0016](2)依存分析标签:V0B(direct object)表示直接宾语,POB(preposit1nalobject)表示介词宾语,1B (indirect object)表示间接宾语,ATT (attribute)表示属性。
[0017](3)依存分析:指利用依存语法将句子分析为描述各词语间依赖关系的依存句法树,即表明了词语间的句法搭配关系,这种搭配关系是与语义相关联的。
[0018]步骤101、兼类词语义角色统计规则获取
[0019]首先,利用自然语言处理工具对大规模文本语料进行预处理。通过比较现有自然语言处理工具并选择其中准确率和效率相对较高的工具(如Zpar)对输入文本中的语句进行分词、词性标注、依存分析一系列自然语言预处理。然后,通过人工统计语料中兼类词依存分析结果,得到如下中文兼类词语义角色统计规则。
[0020](I)兼类词语义角色规则1:若一个词语的词性标签标记为V,且其依存分析语义角色为ATT,则该词的词性应调整为名词。
[0021](2)兼类词语义角色规则2:若一个词语词性标签为非名词性,且其依存标签为VOB, POB或者Ι0Β,且没有依存标签为V0B,POB或者1B的节点与之直接相连或者通过介词相连,则该词的词性应调整为名词。
[0022]步骤102、词法、句法和语境规则库兼类词词性处理;
[0023]使用步骤101中的自然语言预处理方法对待处理文本语句进行分词、词性标注、依存分析。
[0024]例如语句“奥巴马总统与中国驻美国大使进行会谈”,使用分词、词性标注工具,为其中的兼类词赋予初始的词性,例
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1