一种基于汉语简单名词短语的汉语最长名词短语识别方法与流程

文档序号:13144903阅读:549来源:国知局
技术领域本发明涉及自然语言处理、机器学习等领域,是一种适用于汉语最长名词短语识别的方法。

背景技术:
随着互联网技术的不断发展,世界各国之间的线上经济贸易活动日益频繁,大量文本信息在互联网上以爆炸式速度传播,自然语言处理及其相关方面的研究迫在眉睫。其中,MNP(maximalnounphrase,最长名词短语)的识别是自然语言处理中的一个基本任务。自然语言处理包括词法分析、句法分析、语义分析和语用分析几个层次。目前,词法分析技术已较为成熟,分词和词性标注都已达到较高准确率,而句法的分析结果仍然不理想,为了最终可以达到计算机对自然语言的充分理解,句法分析性能的提高尤为关键。目前的句法分析往往是用先局部后整体的分析方法,先对句子进行浅层句法分析,再构建完全句法树。短语识别属浅层句法分析范畴,是句法分析的基础。短语中,名词短语最为广泛存在。特别地,MNP是指不被其他任何名词短语包含的名词短语,常常担任主语、宾语或定语等重要语法角色,其准确识别不仅有利于简化句子结构,辅助提高机器翻译的质量,而且对信息检索、实体识别以及微博情感对象识别、情感倾向分析等热门领域作用显著。目前,MNP的识别主要包括以下两类:一类是基于规则的方法,语言学家研究短语内部结构的特征和边界特征,并编写大量语法规则,再根据规则定义模式或正则表达式,识别短语。该方法有较高的准确率,但耗费研究者大量时间和脑力,尤其对汉语显然无法得到完备、有效的规则库,因此召回率难以保证。另一类是基于机器学习的方法,该方法将MNP的识别问题看作一个标注或多元分类问题,如使用MaxEnt(MaximumEntropyMdels,最大熵)、CRF(ConditionalRandomField,条件随机场)、SVM(SupportVectorMachine,支持向量机)等模型将一个词归类到短语的内部或外部,其中基于SVM的方法性能和识别效果更好。总的来说,使用机器学习的方法,识别MNP的整体性能明显优于基于规则的方法,且易于移植及广泛应用,但汉语MNP的内部结构过于复杂,携带语义信息过多,长度过长,复杂修饰时无需结构和词形的变化,将机器学习方法直接使用于汉语MNP的识别任务,识别效果并不理想。

技术实现要素:
本发明要解决的技术问题是,使用机器学习方法识别汉语MNP时,因短语长度及语义、结构复杂性带来的识别率过低问题。本发明的技术方案:本发明将汉语MNP的识别分为两阶段,先识别汉语SNP(simplenounphrase,简单名词短语),用其降低汉语MNP的语义和结构复杂度,再构建模型识别MNP。其中,汉语SNP是一种内部不含短句及“的”,由若干词语黏合而成,语义核心为名词性质,并担当独立句法功能的名词短语。一种基于汉语简单名词短语的汉语最长名词短语识别方法,步骤如下:步骤1、确定语料并进行预处理步骤(a):使用中文词法分析工具对训练语料及测试语料进行分词和词性标注;步骤(b):对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签,每个词都有两个分类标签;步骤2、建立基于SVM的汉语SNP识别模型步骤a):对步骤(b)得到的语料中的每个词提取样本,对当前词及其左右各3词共7词的词和词性进行数字化,构成特征向量x,当前词的汉语SNP分类标签设为y,则将得到样本集(xi,yi),i=1,2,…n,n为样本数;步骤b):训练识别模型,使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程,其中x为特征向量,y为分类标签;设所求分类超平面表示为:wTx+b=0其中,w和b都是向量;所求超平面应满足以下约束,且最满足大分类间隔为yi[wTx+b]≥1,i=1,2…n约束最优化问题由拉格朗日函数的鞍点给出,引入拉格朗日算子ai(ai>0),则构造函数表示为:L(w,b,a)=12(w,w)-a(y(wT+b)-1)]]>且鞍点处满足:∂L(w,b,a)∂w=0]]>∂L(w,b,a)∂b=0]]>最终,最优分类函数即为所训练的模型,表示为:f(x)=sgn{Σi=1nai*yi(xi·x)+b*
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1