基于CRFs和SVM的产品评论细粒度情感要素提取的制作方法

文档序号：6523746阅读：144来源：国知局

基于CRFs和SVM的产品评论细粒度情感要素提取的制作方法
【专利摘要】本发明公开了一种基于CRFs和SVM的产品评论细粒度情感要素提取，包括如下步骤：a、采用CRFs模型，将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；b、根据提取出的情感对象、情感词和引入的句子结构特征，采用SVM模型对词对进行情感倾向性分析。本发明不仅将评论句中情感对象和情感词一并提取出来，而且提高了情感倾向性分析中的情感分类精度，使得在情感要素抽取与情感判断上得到提高，F值达到76.3%。由于词义代码的引入，词义代码提高了系统的泛化能力和鲁棒性，使得评论结果分析的正确率和召回率均得到了较大提高。
【专利说明】基于CRFs和SVM的产品评论细粒度情感要素提取
【技术领域】
[0001]本发明属于计算机信息挖掘【技术领域】，涉及产品情感要素提取，具体的涉及基于CRFs和SVM的产品评论细粒度情感要素提取。
【背景技术】
[0002]随着互联网用户迅速增长以及线上购物的不断普及，电子商务出现了爆炸式发展，虽然传统购物还无法被取缔，但是网上购物逐渐成为了人们的首选方式，因为在网上购物环境中，用户可以通过网上商品评论，随时获得更多、更全面的购物参考信息，对商品质量有更全面的了解，同时，用户在购买商品后，往往会参与到对商品的评价中，使得商品评论数据变得越来越庞大。相对商家宣传，评论数据往往能够更客观的反映出产品的真实面貌，如质量、外观、用户体验等等。准确而快速的获取和分析这些评论数据，除了可以为用户提供购买决策支持，还能给商家制定销售策略和改进商品提供全面准确的依据。
[0003]在网络交易平台上，评论数据往往较多，尤其是热门商品，在海量的数据面前，对信息的快速获取造成了障碍，而人工处理效率低下的缺点就尤为明显。为了解决这个问题，许多电子商务网站采用了五星制评级方式来量化用户对商品的评价。这种方法在一定程度上简化了评论处理，方便用户获取信息，但是，可能会丢失许多重要的信息。针对普通五星制的缺点，少数网站细化了评价分类，如日本的Kakaku网上商城，针对不同类型的商品，列出大家比较关注的一些主要属性，例如性价比等，让用户对产品的每一个属性分别评论并评分，总体的评分汇总直接提供给用户作为购物参考。这种方式有了明显的改进，但是同时带来了一些弊端，首先是产品属性集合并不是固定不变的，人们关注的属性随时可能发生变化，固定的属性集合随着时间的推移可能会渐渐变的不合理，因而需要随着产品的发展和用户的关注点进行更改。其次是固定的属性集合很有限，无法列举出所有属性。再次，人们喜欢使用自然语言表达观点和情感，固定的属性集合不利于提升用户体验。
[0004]使用自然语言对观点和认知进行表达是人们最自然的表达方式，这种用户评论也给研究者带来了新挑战，要从自然语言评论中自动发现情感要素，因而，使用自然语言处理技术自动处理用户的评论数据是最理想的处理方式。
[0005]单独的情感分类按照粒度的不同可以分为四个级别:词级/短语级、句子级、段落、篇章级。到目前为止，学者们对句子级和篇章级的研究较多，短语级的相对较少。虽然已有不少学者在情感倾向性分析上进行了一些研究，并且取得了不少成果，但在细粒度〈情感对象，情感词 > 词对抽取及情感倾向性分析方面，综合效果距离实用仍有不少差距。

【发明内容】

[0006]为了解决现有技术中的不足，本发明提出了一种基于CRFs和SVM的产品评论细粒度情感要素提取，以同时提取评论句中情感对象和情感词，并对其情感倾向性进行分析。
[0007]为实现上述发明目的，本发明采用如下技术方案:基于CRFs和SVM的产品评论细粒度情感要素提取，包括如下步骤:[0008]a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来，具体步骤包括:将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；
[0009]b、根据提取出的情感对象、情感词和引入的句子结构特征，采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。
[0010]所述的a步骤中评论语句的特征包括:词本身(W)、词性(P0S)、语法树父节点词本身(PW)、语法树父节点词性(PPOSE )、语法树父节点语义角色(PDP )。
[0011]所述的位置标注的符号集合为:BA (位于情感词之前的情感对象)、BB (位于情感对象之前的情感词)、EA (位于情感词之后的情感对象)、EB (位于情感对象之后的情感词)、SA (没有情感词的情感对象)、SB (没有情感对象的情感词)、P (标点符号)、0 (其他)。
[0012]所述的a步骤中的相应规则的伪代码为:设Currfford为当前词，WordLabel为当前词标记，SS为当前情感对象，Sff为当前情感词，SSSet为情感对象集合，WPSet为〈情感对象，情感词 > 词对集合；
[0013]初始化
[0014]如果WordLabel=SA 或者 WordLabel=SB 或者 WordLabel=O:
[0015]不处理
[0016]else if WordLabel=P或者当前词到了句子末尾:
[0017]如果SS已找到:
[0018]将SS 放入 SSSet;
[0019]如果SSSet不为空并且SW已找到:
[0020]将SSSet 和 SW 放入 WPSet ；
[0021]重新初始化
[0022]else if WordLabel=BA:
[0023]如果CurrWord和SS为并列关系:
[0024]将SS 放入 SSSet，SS 设为 CurrWord
[0025]否则:将SS和CurrWord拼接成新的SS
[0026]else if WordLabel=BB:
[0027]Sff设为WordLabel，SS设为未找到；
[0028]else if WordLabel=EA:
[0029]如果CurrWord和SS为并列关系:
[0030]将SS 放入 SSSet，SS 设为 CurrWord
[0031]否则:将SS和CurrWord拼接成新的SS
[0032]else if WordLabel=EB:
[0033]Sff设为CurrWord，再按照当前词标记为P的方式处理。
[0034]所述的b步骤中句子结构特征包括:情感对象词义代码(SSC)、情感词词义代码(SffC),是否存在情感倾向反转词、情感词基本极性。
[0035]所述的词性(POS)包括:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。
[0036]所述的语义角色(DP)包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。
[0037]所述的语法树父节点词本身(PW)是指在语法分析树中，每个词都有一个父节点，每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Worc^Pi/Indexi形式的数组，表示第i个词的父节点为第Indexi个词，他们之间的关系是Pi,形式化为
[0038]
【权利要求】
1.基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:包括如下步骤: a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来，具体步骤包括:将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取； b、根据提取出的情感对象、情感词和引入的句子结构特征，采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。
2.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的a步骤中评论语特征包括:词本身(W)、词性(POS)、语法树父节点词本身(PW)、语法树父节点词性(PPOSE)、语法树父节点语义角色(PDP)。
3.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的位置标注的符号集合为:BA (位于情感词之前的情感对象)、BB (位于情感对象之前的情感词)、EA (位于情感词之后的情感对象)、EB (位于情感对象之后的情感词)、SA (没有情感词的情感对象)、SB (没有情感对象的情感词)、P (标点符号)、0 (其他)。
4.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的a步骤中的相应规则的伪代码为:设CurrWord为当前词,WordLabeI为当前词标记，SS为当前情感对象，Sff为当前情感词，SSSet为情感对象集合，WPSet为〈情感对象，情感词 > 词对集合；初始化
如果 WordLabel=SA 或者 WordLabel=SB 或者 WordLabel=O: 不处理 else if WordLabel=P或者当前词到了句子末尾: 如果SS已找到: 将SS放入SSSet ；如果SSSet不为空并且SW已找到: 将 SSSet 和 SW 放入 WPSet ；重新初始化
else if WordLabel=BA: 如果CurrWord和SS为并列关系: 将 SS 放入 SSSet，SS 设为 CurrWord 否则:将SS和CurrWord拼接成新的SS else if WordLabel=BB: Sff设为WordLabel，SS设为未找到； else if WordLabel=EA: 如果CurrWord和SS为并列关系: 将 SS 放入 SSSet，SS 设为 CurrWord 否则:将SS和CurrWord拼接成新的SS else if WordLabel=EB: Sff设为CurrWord，再按照当前词标记为P的方式处理。
5.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的b步骤中句子结构特征包括:情感对象词义代码(SSC)、情感词词义代码(SWC)、是否存在情感倾向反转词、情感词基本极性。
6.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的词性(POS)包括:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。
7.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的语义角色(DP)包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。
8.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的语法树父节点词本身(PW)是指在语法分析树中，每个词都有一个父节点，每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Wordi/Pi/Indexi形式的数组，表示第i个词的父节点为第Indexi个词，他们之间的关系是Pi,形式化为

9.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的词义代码指的是具有相同或者相近意义的词的集合的编号，意义相同或者相近的词属于同一个集合，拥有相同的词义代码，由于一些词具有多义性，所以同一个词可能同时属于多个集合，拥有多个词义代码；词义代码的获取方法为:将词转化成向量，再使用K-means聚类算法将意义相同或者相近的词聚合成一类，再给每一类分配一个固定的唯一的编号，这个编号就是这一类词的词义代码。
10.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于:所述的情感词基本极性判断方式为:基本的情感词极性通过《中国知网》情感词典查得，词典中没有的词使用SO-PMI算法计算极性，互信息(PMI)计算如下式:
【文档编号】G06F17/30GK103646088SQ201310686738
【公开日】2014年3月19日申请日期:2013年12月13日优先权日:2013年12月13日
【发明者】孙晓, 唐陈意, 叶嘉麒, 李承程, 任福继申请人:合肥工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晓;唐陈意;叶嘉麒;李承程;任福继
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：基于公共交通数据的区域人气聚集指数计算系统及方法
上一篇：MapReduce计算框架下的可迭代式数据处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。