一种基于汉语简单名词短语的汉语最长名词短语识别方法与流程

文档序号：13144903阅读：549来源：国知局

技术领域本发明涉及自然语言处理、机器学习等领域，是一种适用于汉语最长名词短语识别的方法。

背景技术：
随着互联网技术的不断发展，世界各国之间的线上经济贸易活动日益频繁，大量文本信息在互联网上以爆炸式速度传播，自然语言处理及其相关方面的研究迫在眉睫。其中，MNP(maximalnounphrase，最长名词短语)的识别是自然语言处理中的一个基本任务。自然语言处理包括词法分析、句法分析、语义分析和语用分析几个层次。目前，词法分析技术已较为成熟，分词和词性标注都已达到较高准确率，而句法的分析结果仍然不理想，为了最终可以达到计算机对自然语言的充分理解，句法分析性能的提高尤为关键。目前的句法分析往往是用先局部后整体的分析方法，先对句子进行浅层句法分析，再构建完全句法树。短语识别属浅层句法分析范畴，是句法分析的基础。短语中，名词短语最为广泛存在。特别地，MNP是指不被其他任何名词短语包含的名词短语，常常担任主语、宾语或定语等重要语法角色，其准确识别不仅有利于简化句子结构，辅助提高机器翻译的质量，而且对信息检索、实体识别以及微博情感对象识别、情感倾向分析等热门领域作用显著。目前，MNP的识别主要包括以下两类：一类是基于规则的方法，语言学家研究短语内部结构的特征和边界特征，并编写大量语法规则，再根据规则定义模式或正则表达式，识别短语。该方法有较高的准确率，但耗费研究者大量时间和脑力，尤其对汉语显然无法得到完备、有效的规则库，因此召回率难以保证。另一类是基于机器学习的方法，该方法将MNP的识别问题看作一个标注或多元分类问题，如使用MaxEnt(MaximumEntropyMdels，最大熵)、CRF(ConditionalRandomField，条件随机场)、SVM(SupportVectorMachine，支持向量机)等模型将一个词归类到短语的内部或外部，其中基于SVM的方法性能和识别效果更好。总的来说，使用机器学习的方法，识别MNP的整体性能明显优于基于规则的方法，且易于移植及广泛应用，但汉语MNP的内部结构过于复杂，携带语义信息过多，长度过长，复杂修饰时无需结构和词形的变化，将机器学习方法直接使用于汉语MNP的识别任务，识别效果并不理想。

技术实现要素：
本发明要解决的技术问题是，使用机器学习方法识别汉语MNP时，因短语长度及语义、结构复杂性带来的识别率过低问题。本发明的技术方案：本发明将汉语MNP的识别分为两阶段，先识别汉语SNP(simplenounphrase,简单名词短语)，用其降低汉语MNP的语义和结构复杂度，再构建模型识别MNP。其中，汉语SNP是一种内部不含短句及“的”，由若干词语黏合而成，语义核心为名词性质，并担当独立句法功能的名词短语。一种基于汉语简单名词短语的汉语最长名词短语识别方法，步骤如下：步骤1、确定语料并进行预处理步骤(a)：使用中文词法分析工具对训练语料及测试语料进行分词和词性标注；步骤(b)：对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签，每个词都有两个分类标签；步骤2、建立基于SVM的汉语SNP识别模型步骤a)：对步骤(b)得到的语料中的每个词提取样本，对当前词及其左右各3词共7词的词和词性进行数字化，构成特征向量x，当前词的汉语SNP分类标签设为y，则将得到样本集(xi,yi)，i＝1,2,…n，n为样本数；步骤b)：训练识别模型，使用SVM训练识别模型就是对样本集(xi,yi)求几何间隔最大平面的过程，其中x为特征向量，y为分类标签；设所求分类超平面表示为：wTx+b＝0其中，w和b都是向量；所求超平面应满足以下约束，且最满足大分类间隔为yi[wTx+b]≥1,i＝1,2…n约束最优化问题由拉格朗日函数的鞍点给出，引入拉格朗日算子ai(ai>0)，则构造函数表示为：L(w,b,a)=12(w,w)-a(y(wT+b)-1)]]>且鞍点处满足：∂L(w,b,a)∂w=0]]>∂L(w,b,a)∂b=0]]>最终，最优分类函数即为所训练的模型，表示为：f(x)=sgn{Σi=1nai*yi(xi·x)+b*

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄德根;田雪;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：一种低折射率光学镀膜材料的制作方法
上一篇：扫描驱动电路及具有该电路的平面显示装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。