汉语语义格分层识别方法

文档序号:6400116阅读:517来源:国知局
专利名称:汉语语义格分层识别方法
技术领域
本发明涉及一种基于词法、句法和句义结构特征的汉语语义格分层识别方法,属于计算机科学与自然语言处理技术领域。
背景技术
汉语语义格是汉语语义学理论中的重要部分,汉语语义学是自然语言处理在语义学层次上分析语言的一个理论,正越来越受到重视。人们通过将各种各样的词语划分为若干个语义格,进而使用分类方法解决识别问题。自然语言处理研究的问题会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。形态学(morphology)研究词的内部结构,包括屈折变化和构词法两个部分;语法学(syntax)研究句子结构成分之间的互相关系和组成句子系列的规则;语义学(semantics)是一门研究意义,特别是语言意义的学科,其关注的重点是语言单元(如词、词组、句子、篇章等)到底说了什么;语用学(pragmatics)是现代语言学用来指从使用者的角度研究语言,关注的重点在于为什么在特定的上下文中要说这句话。形态学和语法学分析问题早已引起人们的广泛关注,并取得了积极的进展;但是却缺乏对语言的深度理解,不能真正实现机器对语言进行正确理解的目的。语义学层次的研究能使计算机进行深层语义的理解,是计算机对语目进行真正理解的关键。汉语语义格识别需要解决2个基本问题:1.如何选取代表性强、区分度高的特征来区分不同的语义格;2.采用何种识别准确率高、速度快的识别方法对不同的语义格进行区分。1.在特征提取方面:(I)词法特征:对汉语的句子进行分词处理,进而提取词法特征,得到词法特征序列。此类特征是形态学这一层上对语言进行分析处理得到的,只能提供词法方面的信息,不能提供更深层次的信息。(2)句法特征:对汉语的句子进行句法处理,进而提取句法特征,得到句法特征序列。此类特征是语法学这一层上对语言进行分析处理得到的,只能提供短语方面的信息。2.在语义格区分方面:(I)支持向量机(SVM)算法:支持向量机(Support Vector Machine, SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。SVM算法在训练时,需要对核函数、核函数参数不断进行调整以进行优化,因此训练过程往往比较复杂,这是该算法使用中的重要不足;另外,SVM算法是一种两分类算法,对于多种类别的识别,需要对算法做进一步的改进。(2) Naive Bayes算法:该算法产生的理论背景是Bayes定理,并没有考虑可能存在的依赖关系,具有运算量小、能够快速生成挖掘模型的特点,适合作为探索算法,但是识别准确率不高。
综上所述,对于汉语语义格识别这一应用场景,现有的特征包括词法和句法特征,存在特征有限、代表性不强、无法表达深层意义等不足;同时,分类算法较多,而汉语语义格识别又是新的领域,需要从众多算法中尝试不同的算法,进而选择速度快、识别准确率高的算法。

发明内容
本发明的目的是为解决语义分析中语义格识别问题,提出一种基于词法、句法和句义结构特征的语义格识别方法。本发明的设计原理为使用词法、句法和句义结构特征和分层次识别的策略实现汉语语义格识别;使用C4.5决策树算·法和最大熵算法相结合的方法提升分层次识别的准确度。句义结构特征:对汉语的句子进行句义处理,进而提取句义结构特征,得到句义结构特征序列。此类特征是语义学这一层次上对语言进行分析处理得到的,能够提供句义方面的信息,相比词法和句法特征,代表性更强。C4.5决策树算法是ID3的后继,是Quinlan于1993年提出的。相比ID3,C4.5有两点较为重要的改进:1)在属性选择上,C4.5使用信息增益率代替了 ID3的信息增益,克服了属性偏倚问题;2)C4.5可以实现对连续值的处理,弥补了 ID3只能处理离散值的不足。决策树比较适合探测式的发现,其构造不需要任何领域知识和参数设置;决策树也可以清晰地反映出较为重要的特征有哪些,进而得到影响汉语语义格识别的主要因素;另外,决策树计算较为简单,速度较快,易于转化为分类规则。分层次识别:根据汉语语义学的理论,汉语句子中的词语可分为三大类:基本格(7种:施事格、遭遇格、主事格、受事格、结果格、说明格、与格)、一般格(范围格、时间格、空间格、工具格、方式格、基准格、根由格、属格、描写格、同位格、否定格、其他格)、非语义格。三个类别中的词语比例大致接近1:1:1,首先进行三个类别的初步识别,可以去除掉大量非语义格,减少待识别词语的数量,达到提高效率的目的;语义格的种类较多,而一般格和基本格的作用和特点都不同,先进行初步识别再进行精确识别有利于调整各自的特征,提高精确识别准确率。本发明的技术方案是通过如下步骤实现的:步骤1,为了进行语义学层次的分析,首先对汉语句子进行标注,形成训练测试集A。训练集A中包含的句子数目用m表示。步骤1.1,使用ICTCLAS对汉语句子进行分词处理,并进行校对,标记句子中的词序X= {O, I, 2,…k},其中k为句子中包含词语数目最多时,词的数目。步骤1.2,在步骤1.1的基础上,对汉语句子进行句法标注,得到比词法更高一级句法单元:短语及短语类型,最终得到树状的句法结构。步骤1.3,在步骤1.2的基础上,依据汉语语义学理论对汉语句子进行句义结构标注,得到比句法更高一级的句义结构。步骤2,获取最小完整语义单元,形成训练测试集B,其中训练测试集B中包含有最小语义单元数目用η表示。首先,给出一个定义。
定义1:各句义结构类型均以简单句义为基础,因此,定义简单句义的句义结构形式为最小完整语义单元,非简单句义可以通过最小完整语义单元扩展而来。句义结构类型即句义类型,根据汉语句义的实际情况,将句义类型划分为简单句义、复杂句义、复合句义和多重句义四种类型。其中,简单句义是结构最简单的类型,只包含一层句义结构,一般表现为一个命题,通常包括一个谓词(或并列谓词)。复杂句义是指某些句义成分本身就是一个句义或引出一个句义的情况,即一个句义中又包含着一个句义,被包含的句义称为成分句义。复杂句义中可能包含有多个成分句义,但是每一个成分句义都是简单句义,即整个复杂句义只含有两层句义结构。复合句义是指两个或两个以上的简单句义,按照某种语义关系紧密地联结在一起,共同表达一个比较复杂的意思,通常具有两个或两个以上的话题。复合句义中的简单句义叫做分句义,它们都是简单句,且处在同一个层次上。多重句义指某个成分句义自身是一个复杂句义或复合句义,并且因此而含有更多层的句义结构。步骤2.1,获取句义结构的顶层句义类型标记Y= {0,1,2,3},其中Y=0、l、2、3分别代表该句子为简单句义、复杂句义、复合句义、多重句义;将简单句义类型的句子直接输出,其他句子进入下一步处理。步骤2.2,对非简单句义类型进行从顶向下搜索,提取出句子中包含的简单句义部分,输出结果,并用一个标示符标记这个简单句义,将其看作一个整体,化简其上层句义结构。步骤2.3,重复步骤2.2,直到本句的句义结构化简为形如简单句义的一层句义结构形式时,结束对该句的最小完整语义单元的提取工作,输出结果形成训练测试集B。步骤3,进行汉语语义格初步识别。步骤3.1,特征选取,具体步骤如下:步骤3.1.1,综合词法、句法和句义结构特征共P维,利用随机森林算法获取基础特征集。将训练测试集B均分为F等份,然后分别采取随机森林算法进行识别,得到特征(包括词法、句法和句义结构特征,共P维)重要程度的排序信息,最后取F等份排序前N维特征的并集作为语义格初步识别的NI维基础特征集。步骤3.1.2,首先,在步骤3.1.1得到的NI维特征基础上逐个增加其他特征进行语义格的初步识别,并记录识别准确率;然后对识别结果进行比较,选择识别准确率提高最大的作为新特征加入到基础特征集中。步骤3.1.3,重复3.1.2直到识别准确率不再提高,最终得到Kl维特征。步骤3.2,根据步骤3.1选取的Kl维特征,利用C4.5决策树算法和训练测试集B进行训练,得到识别模型;利用识别模型进行汉语语义格的初步识别。步骤4,进行汉语语义格中基本格的精确识别。步骤4.1,特征选取,具体步骤如下:步骤4.1.1,综合词法、句法和句义结构特征共P维,利用随机森林算法获取基础特征集。将训练测试集B均分为F等份,然后分别采取随机森林算法进行识别,得到特征(包括词法特征、句法特征和句义结构特征,共P维)重要程度的排序信息,最后取F等份排序前N维特征的并集作为汉语语义格中基本格精确识别的Ν2维基础特征集。
步骤4.1.2,首先,在步骤4.1.1得到的N2维特征基础上逐个增加其他特征进行语义格中基本格的精确识别,并记录识别准确率;然后对识别结果进行比较,选择识别准确率提闻最大的作为新特征加入到基础特征集中。步骤4.1.3,重复4.1.2直到识别准确率不再提高,最终得到K2维特征。步骤4.2,根据步骤4.1选取的K2维特征,采用C4.5决策树算法和最大熵算法和训练测试集B分别进行训练,得到两个识别模型;通过比较识别结果,采用C4.5决策树识别模型和最大熵识别模型相结合的方法进行汉语语义格中基本格的识别。步骤5,汉语语义格中一般格的精确识别。步骤5.1,特征选取,具体步骤如下:步骤5.1.1,综合词法、句法和句义结构特征共P维,利用随机森林算法获取基础特征集。将训练测试集B均分为F等份,然后分别采取随机森林算法进行识别,得到特征(包括词法、句法和句义结构特征,共P维)重要程度的排序信息,最后取F等份排序前N维特征的并集作为汉语语义格中一般格精确识别的N3维基础特征集。步骤5.1.2,首先,在步骤5.1.1得到的N3维特征基础上逐个增加其他特征进行语义格中一般格的精确识别,并记录识别准确率;然后对识别结果进行比较,选择识别准确率提闻最大的作为新特征加入到基础特征集中。步骤5.1.3,重复5.1.2直到识别准确率不再提高,最终得到K3维特征。步骤5.2,根据步骤5.1选取的K3维特征,采用C4.5决策树算法和带有标记的训练测试集B进行训练,得到一般格识别模型;采用一般格识别模型进行汉语语义格中一般格的精确识别。有益效果相比于形态学和语法学只能对语言进行浅层分析,本发明为语义学自动分析提供语义格的自动识别,是语义学自动分析的关键工作,采用的汉语语义格分层次识别方法具有效率高、识别准确率高的特点。与不进行分层次识别而直接进行汉语语义格识别相比,分层次识别策略具有更高的识别准确率,并且在基本格和一般格的精确识别中可以采用并行处理方式,具有更高的效率。


图1为本发明的汉语语义格识别方法原理图;图2为具体实施方式
中汉语语义格初步识别方法的原理图;图3为具体实施方式
中汉语语义格初步识别方法的特征添加实验结果;图4为具体实施方式
中汉语语义格中基本格精确识别方法的原理图;图5为具体实施方式
中汉语语义格中基本格精确识别方法的特征添加实验结果;图6为具体实施方式
中汉语语义格中一般格精确识别方法的原理图;图7为具体实施方式
中汉语语义格中一般格精确识别方法的特征添加实验结果;图8为具体实施方式
中汉语语义格初步识别的准确率;图9为具体实施方式
中汉语语义格中基本格精确识别的准确率;图10为具体实施方式
中汉语语义格中一般格精确识别的准确率。
具体实施例方式为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。以汉语句子为输入,设计并部署I项测试:针对6486个汉语句子的识别测试。下面对上述测试流程进行说明,所有测试流程均在同一台计算机上完成,具体配置为:Intel (R)Core (TM)2Duo CPU(主频 1.97GHz),2.0OGB 内存,Windows XP SP3 操作系统。步骤1,为了进行语义学层次的分析,首先对6486个汉语句子进行标注,形成训练测试集A。 步骤1.1,使用ICTCLAS对汉语句子进行分词处理,并进行校对,标记6486个汉语句子中的词序。步骤1.2,在步骤1.1的基础上,对6486个汉语句子进行句法标注,得到比词法更高一级句法单元:短语及短语类型,最终得到6486个树状的句法结构。步骤1.3,在步骤1.2的基础上,依据汉语语义学对6486个汉语句子进行句义结构标注,得到6486个比句法更高一级的句义结构。步骤2,获取最小完整语义单元,形成训练测试集B。步骤2.1,获取6486个句义结构的顶层句义类型标记,将简单句义类型的句子直接输出,其他句子进入下一步处理。步骤2.2,对非简单句义句子进行从顶向下搜索,提取出句子中包含的简单句义部分,输出结果,并用一个标示符标记这个简单句义,将其看作一个整体,化简其上层句义结构。步骤2.3,重复步骤2.2,直到所有句子的句义结构化简为形如简单句义的一层句义结构形式时,输出结果,并结束对最小完整语义单元的提取工作。通过对6486个汉语句子进行最小完整语义单元的提取工作,共得到包含9045个最小完整语义单元的训练测试集B,其具体句型分布如表I所示。表I获取最小完整语义单元数目
句式类型主谓句非主谓句把字句被字句连动句兼语句总计
原句3363602845799316561 6486
最小立攀
* 4127 S26 I 07 W/ 141 1332 9045 I吾乂单■兀_步骤3,对9045个最小完整语义单元进行汉语语义格初步识别。步骤3.1,特征选取。步骤3.1.1,将9045个最小完整语义单元均分为3等份,然后分别采取随机森林算法进行识别,得到特征(包括词法、句法和句义结构特征,共50维)重要程度的排序信息,最后取3等份排序前20维特征的并集作为汉语语义格初步识别的基础特征集,具体特征如表2所示。
表2汉语语义格初步识别的基础特征集
权利要求
1.一种汉语语义格分层识别方法,其特征在于,所述方法包括以下步骤: 步骤1,为了进行语义分析,首先对大量汉语句子进行标注,形成训练测试集A。
步骤2,获取最小完整语义单元,形成训练测试集B。
步骤3,进行汉语语义格初步识别。
步骤3.1,特征选取。
步骤3.2,根据步骤3.1选取的Kl维特征利用C4.5决策树算法进行汉语语义格的初步识别。
步骤4,进行汉语语义格中基本格的精确识别。
步骤4.1,特征选取。
步骤4.2,根据步骤4.1选取的K2维特征采用C4.5决策树算法和最大熵算法相结合的方法进行汉语语义格中基本格的识别。
步骤5,汉语语义格中一般格的精确识别。
步骤5.1,特征选取。
步骤5.2,根据步骤5.1选取的K3维特征采用C4.5决策树算法进行汉语语义格中一般格的精确识别。
2.根据权利要求1所述的方法,其特征在于,权利要求1中步骤I中采用ICTCLAS方法对文本进行分词,并根据汉语语义学理论进行词法和句法标注,分别得到词法特征、句法特征和句义结构特征信息 。词法特征是分词后得到的;句法特征是进行句法标注后概括得到的;句义结构特征是进行句义结构标注后概括得到的。
3.根据权利要求1所述的方法,其特征在于,权利要求1中步骤2中将所有的汉语句子进行分解,得到形如简单句义句义结构形式的最小完整语义单元,具体步骤包括:步骤1,获取句义结构的顶层句义类型标记Y={0,I, 2,3},其中Y=0、l、2、3分别代表该句子为简单句义、复杂句义、复合句义、多重句义;将简单句义类型的句子直接输出,其他句子进入下一步处理。
步骤2,对非简单句义类型进行从顶向下搜索,提取出句子中包含的简单句义部分,输出结果,并用一个标示符标记这个简单句义,将其看作一个整体,化简其上层句义结构。
步骤3,重复步骤2,直到本句的句义结构化简为形如简单句义的一层句义结构形式时,结束对该句的最小完整语义单元的提取工作,输出结果形成训练测试集B。
4.根据权利要求1所述的方法,其特征在于,步骤3.1、步骤4.1、步骤5.1所述的特征提取都是基于词法特征、句法特征、句义结构特征提取的,但是最后提取出的特征是不一样的,其步骤包括: 步骤1,综合词法、句法和句义结构特征共P维,利用随机森林算法获取基础特征集。将训练测试集B均分为F等份,然后分别采取随机森林算法进行识别,得到特征(包括词法、句法和句义结构特征,共P维)重要程度的排序信息,最后取F等份排序前N维特征的并集作为语义格初步识别的NI维基础特征集。
步骤2,首先,在步骤I得到的NI维特征基础上逐个增加其他特征进行语义格的初步识另O,并记录识别准确率;然后对识别结果进行比较,选择识别准确率提高最大的作为新特征加入到基础特征集中。
步骤3,重复步骤2直到识别准确率不再提高,最终分别得到所需特征。权利要求1中步骤3.1、步骤4.1、步骤5.1分别得到K1、K2、K3维特征。
5.根据权利要求1所述的方法,其特征在于,步骤3、步骤4、步骤5所述的对汉语语义格进行初步识别后,再进行汉语语义格中基本格 和一般格的精确识别方法为:分别提取词法、句法和句义结构特征,选择适合识别任务的特征;使用与识别任务相适应的算法。
全文摘要
本发明涉及一种基于词法、句法和句义结构特征的汉语语义格分层识别方法,属于计算机科学与自然语言处理技术领域。本发明在增加了句义结构特征的基础上,首先获取最小完整语义单元;进而提取词法、句法和句义结构特征并使用C4.5决策树算法进行汉语语义格的初步识别;然后选择词法、句法和句义特征并使用C4.5决策树算法与最大熵算法相结合的方法实现汉语语义格中基本格的精确识别;最后再次选择词法、句法和句义特征并使用C4.5决策树算法实现汉语语义格中一般格的精确识别。与现有语言分析技术相比,本发明为语义学自动分析自然语言提供了汉语语义格的自动识别,是实现自动语义分析的基础。本发明可实现并行处理,能够提高计算机处理效率。
文档编号G06F17/27GK103150303SQ20131007401
公开日2013年6月12日 申请日期2013年3月8日 优先权日2013年3月8日
发明者罗森林, 孟强, 潘丽敏, 魏超, 韩磊 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1