一种基于条件随机场的中文兼类词识别方法

文档序号：8430810阅读：288来源：国知局

一种基于条件随机场的中文兼类词识别方法
【技术领域】
[0001]本发明属于电商产品文字识别领域，尤其涉及一种电商领域中基于条件随机场的中文兼类词识别方法。
【背景技术】
[0002]随着时代的发展和技术的提升，歧义词(歧义词即同一个词或词语拥有两种或两种以上的含义，歧义产生的原因:词义不明确、句法不固定、层次不分明、指代不明等)大量的涌现已经导致了在很多环境下同一个词或词语由于机器或人不同的理解而出现的困扰。所以对于歧义词识别的性能的精确与否，是否高效影响着对于文字信息的处理的结果。而歧义词又大致分为多音词、同音词、多义词、兼类词与反训词。之前的识别研宄仅限于传统的中文分词，并没有对特定的领域进行研宄，本发明仅仅只针对歧义词中的兼类词(兼类词即一个词或词语具有两种或两种以上的词性)在电商领域的特征，并用条件随机场特征模板以及修改后的新特征模板对语料进行训练和测试，目的在于优化提高条件随机场的模板在电商领域的兼类词的识别的性能。
[0003]对于中文文字识别的方法主要分为以下四大类:
[0004]1.基于规则的方法。
[0005]Ia:字符串匹配法。把需要识别的词或词语与词典(即具有一定规模的训练集)进行匹配。按照匹配方向可以分为正向匹配，反向匹配和双向匹配三种，按照匹配的优先原则又分为最大匹配和最小匹配两种。
[0006]Ib:最短路径算法。米用Di jkstra算法，Floyd算法，k最短路径算法，η最短路径算法等一些图论算法及衍生的变种的算法。
[0007]以上两种方法仅仅是基于规则的方法中的一小部分，基于规则的方法都是按照自己各自设定的规则来进行识别，这种方法依赖于设定的规则是否完备合理，相对主观无法对于任何语料库都适用，对于处理歧义词性能较差，准确率较低。
[0008]2.基于理解的方法。这种方法是句法和语义一起分析，模拟人对于词或词语的理解，通过这样来识别相对应的词或词语。由于中文词或词语以及句法系统较为复杂，这种方法需要大量的数据和信息以及知识。
[0009]3.基于变换的方法。这种方法是找一个已经标注好词性的语料库，从这个语料库中来识别每个词或词语最相符合的词性，之后再用这个作为训练集，再通过现有规则的学习再变换出一种新的规则(也就是在原先某种规则上的变种变换)。
[0010]4.基于统计的方法。这种方法根据词语前后的组成关联以及特征信息，对每个词和词性进行概率统计，从中选择最优的状态转移概率来判定词和词性。最有代表性的三大模型分别是隐马尔科夫模型，最大熵马尔科夫模型，条件随机场。隐马尔科夫模型缺点在于在给定观察序列的条件下，观察值仅仅依赖于状态，这使得每个观察元素都是独立存在的，而在真正的语境下，词往往不是只与前后词相关的，是与更远的词有着某种关联的特征信息，所以仅仅做到了局部最优。最大熵马尔科夫模型虽然考虑到了与当前词更远距离的词之间的关联特征信息，但是在状态转移的时候，由于分支数量不同概率分布不均衡，就导致了在状态转移的时候驻留在了某个状态即标注偏置问题。而条件随机场不像隐马尔科夫模型和最大熵马尔科夫模型的状态转移是有向图，其无向图的特征既避开了最大熵马尔科夫模型的标记偏置问题，同时也考虑到了与当前词更远距离的词之间的相互关联的特征信息，解决了隐马尔科夫仅仅局部归一化而导致的词太过于独立的情况，做到了全局最优化。

【发明内容】

[0011]本发明提出了一种基于条件随机场的中文兼类词识别方法，包括以下步骤:
[0012]步骤1:在电商领域内搜索一中文兼类词，获取与所述兼类词相关的词条，从所述词条中获得具有电商领域特征的语料；
[0013]步骤2:对所述语料进行切分生成语块，同时在所述语块中生成每个文字的语块特征；
[0014]步骤3:对所述文字进行词性标注，获得所述文字的词性特征，利用所述语块特征和所述词性特征标注所述文字；
[0015]步骤4:随机选择一部分语料在条件随机场中进行训练，其余的语料在所述条件随机场中进行测试，得到第一实验结果；
[0016]步骤5:根据所述语料的特征修改所述条件随机场中的特征模板，修改后继续对所述条件随机场中的所述语料进行训练和测试，得到第二实验结果；
[0017]步骤6:对所述第一实验结果和所述第二实验结果进行度量标准的性能比对，提高对于兼类词的识别。
[0018]本发明基于条件随机场的中文兼类词识别方法中，所述步骤I包括如下步骤:
[0019]步骤Ia:在电商领域内，按所述兼类词的名词形式进行搜索，获得与所述名词形式相关的词条，将其中与商品名一致的词条归为语料，把不符合的词条修改成对应的商品名后归为语料；
[0020]步骤Ib:按所述兼类词的形容词形式进行搜索，获得与所述形容词形式相关的词条，将其中与商品名一致的词条归为语料，把不符合的词条修改成对应的商品名后归为语料。
[0021]本发明基于条件随机场的中文兼类词识别方法中，所述步骤2中，根据电商领域内产品所含内容，将所述词条切分成制造商块，产地块，品牌块，商品名块，以及净含量块。
[0022]本发明基于条件随机场的中文兼类词识别方法中，所述步骤2中，若所述语块中包含两个以上文字，则第一个文字的语块特征为初始词，其余文字的语块特征为紧随词；若所述语块包含一个文字，则所述文字的语块特征为独立的块。
[0023]本发明基于条件随机场的中文兼类词识别方法中，所述步骤3，所述词性特征包括名词、动词、形容词。
[0024]本发明基于条件随机场的中文兼类词识别方法中，所述步骤4包括如下步骤:
[0025]步骤4a:从所述语料中随机选择含有一个兼类词的形容词形式或名词形式的语料归入所述条件随机场的训练集进行训练，含有所述兼类词的另一部分形容词形式所述名词形式的语料归入所述条件随机场的测试集进行测试；
[0026]步骤4b:完成训练和测试后，重复执行步骤4a随机选取另一个语料进行训练和测试，直至对所有语料完成训练和测试。
[0027]本发明基于条件随机场的中文兼类词识别方法中，所述步骤5包括如下步骤:
[0028]步骤5a:更改所述条件随机场的特征模板中词性关联的组合特征；
[0029]步骤5b:返回步骤4重新训练每个兼类词的训练集以及测试每个兼类词的测试集，得到第二实验结果。
[0030]本发明基于条件随机场的中文兼类词识别方法中，所述步骤6包括如下步骤:
[0031]步骤6a:用基于Perl脚本语言编写的Conll 2000算法分别对所述第一实验结果和所述第二实验结果进行三个度量标准的性能比对；所述度量标准为精确率、召回率和f值；
[0032]步骤6b:若所述第二实验结果低于所述第一实验结果，则返回步骤5对所述特征模板进行修改并重新得到第二实验结果，直至所述第二实验结果优于所述第一实验结果为止。
[0033]以上
【发明内容】
中，语料的特征包括词性，语义和词与词之间的相互关系等。词性特征包括名词、动词、形容词等。
[0034]本发明的有益效果在于:修改后的特征模板相比crf普适的特征模板在识别电商领域的兼类词时显得更匹配。
【附图说明】
[0035]图1为本发明基于条件随机场的中文兼类词识别方法的流程图。
[0036]图2为步骤I的具体流程图。
[0037]图3为步骤2的具体流程图。
[0038]图4为步骤3的具体流程图。
[0039]图5为步骤4的具体流程图。
[0040]图6为步骤5的具体流程图。
[0041]图7为步骤6的具体流程图。
【具体实施方式】
[0042]结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。
[0043]本发明如图1所示具体包括如下步骤:
[0044]步骤1:在电商领域内搜索一中文兼类词，获取与所述兼类词相关的词条，从所述词条中获得具有电商领域特征的语料；
[0045]步骤2:对所述语料进行切分生成语块，同时在所述语块中生成每个文字的语块特征；
[0046]步骤3:对所述文字进行词性标注，获得所述文字的词性特征，利用所述语块特征和所述词性特征标注所述文字；
[0047]步骤4:随机选择一部分语料在条件随机场中进行训练，其余的语料在所述条件随机场中进行测试，得到第一实验结果；
[0048]步骤5:根据所述语料的词性，语义和词与词之间的相互关系等特征修改所述条件随机场中的特征模板，修改后继续对所述条件随机场中的所述语料进行训练和测试，得到第二实验结果；
[0049]步骤6:对所述实验结果进行度量标准的性能比对，提高对于兼类词的识别。
[0050]以下结合具体实施例对上述各个步骤做详细解释，以说明本发明的技术方案。
[0051]如图2所示，步骤I具体通过如下步骤完成上述:
[0052]步骤Ia:登陆一号店或者淘宝首页，在商品搜索框中按所述兼类词的名词形式进行搜索，获得与所述名词形式相关的词条，与商品包装图片上的商品名一致的词条归为语料，把不符合的词条修改成对应的商品名后归为语料。例如有的词条添加了些多余的并未出现在商品名中的定语修饰:新鲜有机无公害蔬菜露天自然熟不催红正宗番前，而点击进入商品详情页面发现商品包装上只有新鲜有机番茄。
[0053]步骤Ib:然后输入这个兼类词的形容词形式，把形容词形式所有商品词条截取下来，与商品包装图片上的商品名一致的词条直接作为实验语料，把不符合的词条修改成其产品包装上显示的商品名同时也作为实验语料。
[0054]完成获得所需的电商领域特征的语料后，对语料进行切分。图3显示的是步骤2的具体实施流程，主要包括如下各步骤:
[0055]步骤2a:把每个截取下来的商品词条切分为制造商块，产地块，品牌块，商品名块，以及净含量块。例如:北田台湾进口糙米果卷牛奶味儿童饼干150G，需要按照约定方式切分为:北田/制造商，台湾进口 /产地，糙米果卷/品牌，牛奶味儿童饼干/商品名，150G/
净含量。
[0056]步骤2b:把每个单独的语块再划分成文字，单独的语块的第一个文字的语块特征为初始词，用B来标记，之后所有的文字的语块特征为紧随词，用I来标记，若所述语块仅仅包含一个文字，则所述文字的语块特征为独立的块，用O来表示。例如:用B来表示每个块的开始词，用I来表示每个块之后紧随的词，，例如:我们的太阳我们为一个块我标注为B们标注为I而的是单独的块标记为O太阳为一个块太标记为B阳标记为I。
[0057]完成对于语料的切分后。图4显示的是步骤3对于语料进行词性标注的步骤，具体如下:
[0058]步骤3a:把切分好的所有单个词进行词性标注；名词的标记为名词，形容词的标记为形容词，以此类推，具体的词性标注对应如以下所示:
[0059]动词V ￥;包]?;包/箱1 1;包/组11 M ;包/组袋M ;包组M ;味道N;品牌+品类NL ;品牌+品类+商品NLC ;品牌+商品LC ;品牌+商家LJ ；品牌+商家+品类NJL ；品牌+商家+品类+商品NJLC ；品牌+商家+商品NJS ；品牌+颜

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：费凡;徐文超;杨雁峰;刘云鹏;汤俊;杨艳琴;
技术所有人：华东师范大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。