基于多模型优势互补策略的介词短语识别方法与流程

文档序号:13813050阅读:407来源:国知局
本发明涉及一种自然语言处理技术,具体为一种基于多模型优势互补策略的介词短语识别方法。
背景技术
:介词属于虚词,是一个相对封闭的类,在北大俞士汶[1]主编的《现代汉语语法信息词典详解》中列出了一个介词表,表中共有介词85个。介词短语(prepositionphrase,以下简称pp)由两部分构成:前边部分是介词,后边部分是跟介词结合在一起的实词或短语。根据pp的组成,pp的左边边界肯定是介词,所以说对于介词短语识别问题主要集中在右边界确定上。pp的用途主要是在句子里做定语、状语、补语[2],所以pp的正确识别有助于句子框架(主语,谓语,宾语)的识别。由于介词短语所充当的句子成分不同,造成充当不同成分的介词短语右边界词的右临界词有明显的差异(详细分析见本文的第三节)。所以本文对介词短语进行分类,不同类别选取不同特征并采用机器算法训练多个模型,提出多模型优势互补策略对介词短语识别进行融合。目前pp识别的主流方法有两种,一是统计的方法,二是统计与规则相结合的方法。基于统计的方法以机器学习模型为主。于浚涛等采用最大熵(me)对进行pp识别;温苗苗等[4]利用支持向量机模型(svm);朱丹浩等等采用条件随机场模型;张坤丽等等利用《人民日报》为实验语料,分别采用svm、me和条件随机场(crf)这3种统计模型对出现频次高于20次的61个介词进行了pp识别并进行了对比,结果是crf的识别效果比较好。张灵等采用基于搭配的特征对pp识别,在其论文中以crf为识别模型把介词和pp的右边界词共同作为特征并采用反向(对句子从右自左)扫描方法进行识别,该方法使pp的识别结果得到了较大提升。在统计与规则相结合的方法中,规则通常作为统计识别结果的后处理方法以校正统计识别结果的部分错误。奚建清等等提出了一种基于隐马尔可夫模型(hmm)的pp识别,然后利用依存语法知识对hmm自动pp识别的边界结果进行校正。卢朝华等等采用基于me的统计模型,在基于me的pp自动识别后再加入依存语法知识进行错误校正。卢朝华等利用me和汉语pp左右边界词语的依存语法知识相结合的方法,对pp右边界的错误识别进行校正。胡思磊等运用统计和规则相结合的方法,基于提出了一种基于crf层次结构识别pp的方法,实验融合可信搭配关系、候选后界、候选后词、介词多种特征进行统计决策并加入22条规则进行修正。宋贵哲等采用crf进行汉语句子的pp识别研究,提出了基于crfs的分布式策略和双层crf模型相结合的pp识别方法,最后利用pp的语法规则进行后处理。利用机器学习(machinelearning,以下简称ml)模型进行pp识别,特征选择是至关重要的。因为当ml模型相同时,选取不同的特征会得到不同的识别结果。目前所公开的基于机器学习的介词短语识别方法都没有对介词短语按上下文特征进行分类,导致所有类别都采用同样统计模型进行识别。技术实现要素:针对现有技术中基于机器学习的介词短语识别方法都没有对介词短语按上下文特征进行分类,导致所有类别都采用同样统计模型进行识别等不足,本发明要解决的问题是提供一种可进一步提高介词短语的识别效果的基于多模型优势互补策略的介词短语识别方法。为解决上述技术问题,本发明采用的技术方案是:本发明一种基于多模型优势互补策略的介词短语识别方法,包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得到不同类别对应的位置特征;2)针对不同的类别选择不同的位置特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对选择的训练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“v+介词+np”。针对不同的类别选择不同的特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征为:201)针对不同的类别选择不同的特征组合,训练多个pp识别模型,对识别的标注集进行选择;202)根据选择的标注集生成多模型优势互补表,基于优势互补表对多个模型的识别结果进融合;203)根据多模型优势互补表选择介词对应模型的识别结果。步骤204),将语料分为训练集,开发集和测试集。训练集用来训练模型,开发集用来调试参数,测试集用来测试。基于优势互补表对多个模型的识别结果进融合包括以下过程:首先分析不同类型的介词短语的上下文位置特征,然后训练多个模型,再生成多模型优势互补策略,即基于优势互补表对多个模型的识别结果进行优势整合。优势互补表通过以下步骤生成:基于特征组合对训练语料训练3个模型,然后用这3个模型同时在测试集上做测试,再针对3个模型的结果进行分析,并生成优势互补表。本发明具有以下有益效果及优点:1.本发明根据介词及介词短语的特点提出了基于多模型优势互补的介词短语识别策略,通过十折交叉验证方法和对比实验也证明了本方法的有效性和适用性。2.对于汉语句子来说,尤其是介词短语句法作用的多样性及构成的复杂性,采用本发明方法,不仅可以将长句缩短为短句还能将嵌套简化为单层,减少错误累积,同时融合多模型各自的优点,进一步提高了介词短语的识别效果。附图说明图1为本发明方法中多模型优势互补策略系统图。具体实施方式下面结合说明书附图对本发明作进一步阐述。如图1所示,本发明一种基于多模型优势互补策略的介词短语识别方法,在对介词短语(pp)充分分析的基础上,针对介词短语的特点提出基于多模型优势互补策略对pp进行识别。包括以下步骤:1)对介词短语进行分类,根据上下文特征对介词进行分类,介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,得不同类别对应的位置特征;2)针对不同的类别选择不同的特征组合,采用条件随机场模型对介词短语进行识别,选择训练语料特征;3)针对练语料特征训练多个介词短语识别模型,将句子中的各个介词的识别结果进行合并,获得最终结果。本发明采用条件随机场模型(crf)对介词短语进行识别,所以要选择训练语料的特征。本发明对介词短语进行分类,针对不同的类别选择不同的特征组合,然后训练多个介词短语识别模型。首先,根据上下文特征对介词进行分类。介词是一个相对封闭的类,绝对数量有限,但是介词在汉语语法体系中却占有重要的地位。介词的定义方式与其他词类的不同,介词主要是附着于其他词语之前构成介词短语,在汉语句子中充当修饰成分,可以作状语、定语、补语等成分。介词短语充当的成分不同,在句子中的所处位置也会有所不同,并且具有对应的位置特征。对介词短语分类如下:101)介词短语的为状语:当在主语之前时,和主句之间有一个停顿;出现在主语之后和动词之前的介词短语状语,与动词有密切的关系,且紧邻;102)介词短为定语:介词短语充当定语带“的”,作定语的介词短语位于“的”之前;103)介词短语充当补语格式为“v+介词+np”。步骤101)中,介词短语的主要句法功能是作状语。作状语时,不同的介词其在句子中的分布有明显不同,有的可以在主语前后,有的只能在主语和谓语动词之间,还有的只能出现在主语之前,下面分类加以说明:可以出现在主语前后或者只能出现在主语之前的介词短语作状语。介词短语作状语一般都比较复杂,当在主语之前时,通常和主句之间有一个停顿。只能出现在主语之后和动词之前的介词短语状语。这一类的特点是,与动作关系最密切的是施事、受事和受益者,因此这三类介词短语都与动词有密切的关系,而且必须紧邻。步骤102)中,一部分介词短语可以充当定语。总的来说,介词短语充当定语都要带“的”,只有像“pp【对外】工作”这样的做定语的介词短语作定语不加“的”,也就说部分作定语的介词短语一般位于“的”之前。步骤103)中,介词短语充当补语一般格式为“v+介词+np”。根据以上分析,不同的介词短语都有着自己独特的类别特点和位置特点以及有边界的临界词也有相应的特点,其中最突出的如表1所示:表1pp的右边界的右临接词步骤2)中,本发明采用条件随机场模型对介词短语进行识别,所以要选择训练语料的特征。分为以下几个步骤进行:201)针对不同的类别选择不同的特征组合,训练多个pp识别模型,对识别的标注集进行选择;202)根据选择的标注集生成多模型优势互补表,基于优势互补表对多个模型的识别结果进行融合;203)根据多模型优势互补表选择介词对应模型的识别结果。在步骤202)中,生成多模型优势互补表。本发明的多模型优势互补策略是基于优势互补表对多个模型的识别结果进行融合包括以下过程:首先分析不同类型的介词短语的上下文位置特征,然后训练多个模型,再生成多模型优势互补策略,即基于优势互补表对多个模型的识别结果进行优势整合。基于特征组合对训练语料训练3个模型,然后用着3个模型同时在开发集上做测试,再针对3个模型的结果进行分析,并生成优势互补表,分析过程和部分结果如表2所示。表2同一介词不同模型的开发集识别结果对比及最优模型选择结果本实施例根据介词短语的句子成分和位置特性,对介词短语的特点进行分析总结,将介词短语分成三大类:101)介词短语的左右边界自身构成一种搭配关系,例如:“在……上”,“除了……外”,“对于……而言”。102)介词短语中的某词与其前词或后词的类别有关系,例如:一般作定语的介词短语右边界的后词(右边界后面一个词)通常为“的”;一般做状语的介词短语的后词通常词性为动词或是副词修饰动词。103)介词短语的内部结构简单,很容易确定左右边界,例如:“在上海”,“自去年”。在基于crf的短语识别问题中起关键作用的是特征的选择,根据影响短语识别的各种因素,通过对开发集的不断尝试反复试验,本发明选定词、词性信息以及它们的不同组合信息作为短语识别的特征。不同模型选定的特征如表3所示:表3crf特征选择pp类别模型特征1model1o|w,w,p,o2model2o|w,w,p,o,f|b|w,f|b|p3model3w,p,o表3中,w代表当前词,p代表词性,o代表目标词,f代表出现在当前词左边的第一个介词的左临接词,b代表当前词的右临接词。本发明采用的标注集是“oien”。其中“o”表示介词短语之前的搭配,“i”表示介词短语的内部搭配,第一个“i”出现的位置即为介词与所附着短语搭配的开始位置,“e”表示介词所附着短语搭配的结束位置,也就是介词短语的右边界,“n”表示该组合不是介词短语搭配。当介词所附着的是单个词时,就用“e”表示介词短语的搭配。实验证明该标注集优于其它标注集。例句“李鹏/nrpp[对/p韦奇立/nr再次/ad来访/vv]表示/vv欢迎/nn。/pu”标注如表4。表4标注实例本实施例实验语料来自lcd的中文树库chinesetreebank4,该树库由1064个文件,15165个句子组成。选用句子编号14126-15162作为测试集,一共1037句,句子编号13075-14125作为开发集,一共1051句,其他句子作为训练集。表4.7为训练语料、开发语料和测试语料的统计信息。本文对pp进行识别,因此就语料中pp的信息进行了统计。十折交叉实验为了增强实验的准确性和真实性,避免过学习或欠学习状态的发生,采用十折交叉(10foldcrossvalidation)方法进行验证。十折交叉验证方法就是将所有样本集分成10份,每个子集数据做一次验证集,其余9份数据做训练集,这样会得到10个模型,用这10个模型最终的验证集的准确率的平均结果作为整个系统的评价指标。其优点就是每个测试集都用于训练模型,因此最接近原始样本的分布,而且实验过程中没有随机因素影响实验数据这样得到的评估结果也最可靠。为了证明实验的有效性、适用性和一般性,本文采用十折交叉实验的平均值作为实验精度的整体估计。首先将所有的语料分成十份,句子分布如表5所示。然后将其中的一份作测试集,另外九份合并成一份作训练集,这样重复十次,进行测试,测试结果如表6所示。表5测试句子分布表6十折交叉验证实验结果经过十折交叉验证后,从表6中可以看出优势互补法,即根据不同模型的识别结果进行融合方法取得的效果比较好,该方法比最好的单模型model2的识别结果提高0.2个百分点,比model1提高1个百分点,比model3提高2.3个百分点。可以得出结论:根据不同介词选择相应模型的识别结果进行融合的方法是有效的。从表6可以看出不是每一份测试文本的融合结果都是最优的,经过分析由以下几个原因造成:(1)各测试集中的介词短语在类型和数量上差异比较大;(2)开发集中的介词短语类型比较集中,不能覆盖所有的介词类型;(3)根据开发集生成的优势互补表具有一定的局限性。这些问题也将是进一步工作的重点。通过平均值的实验结果可以看出,该方法对介词短语的整体识别有效。本发明根据介词及介词短语的特点提出了基于多模型优势互补的介词短语识别策略,通过十折交叉验证方法和对比实验也证明了本方法的有效性和适用性。对于汉语句子来说,尤其是介词短语句法作用的多样性及构成的复杂性,采用本方法,不仅可以将长句缩短为短句还能将嵌套简化为单层还能减少错误累积,同时融合多模型各自的优点,进一步提高了介词短语的识别效果。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1