一种改进的抽取中文商品评论中评价对象的方法

文档序号：9350572阅读：922来源：国知局

一种改进的抽取中文商品评论中评价对象的方法
【技术领域】
[0001] 本发明涉及数据抽取技术领域，具体地说是一种实用性强的改进的抽取中文商品评论中评价对象的方法。
【背景技术】
[0002] 随着Internet的发展跟电子商务的普及，越来越多的消费者开始在电子商务相关网站上发表自己对相关商品的评论，并且消费者们也开始习惯在购买商品前查看电子商务网站上他人的相关评论。但由于用户的个人喜好以及个人关注点的不同，其评论往往是有很大差别，而且用户经常会在一条评论中表达出对产品多个属性的观点，另外评论一般都是大量出现的，想要人工从这些评论中找自己关注的内容费时费力。因此在这些非结构化的商品评论中抽取自己想要的观点，尤其是描述产品各属性的观点成为当今较热门的话题。
[0003]以购买手机产品为例，消费者们在购买前往往会参考网络上的评论信息，例如中关村网站上的评论："这款手机样式挺新颖，分辨率高，我很满意，就是容易死机很讨厌"， "联想的手机性价比就是高，但在外观上不如苹果这些高端手机好看，质量还有待测验。"， "n〇te3的像素很高，电池撑得时间也很长的，就是手机容易卡死，这点很让我着急。"。这些评论中每条评论里面都描述了商品的多个属性，如果人工筛选是很容易判断哪些是我们想要的，但是由于评论数量一般都是大量出现，人工筛选并不能满足需要，因此就需要寻找合适的方法来自动抽取需要的观点。
[0004]近年来，国内外主要研究的抽取方法主要分为有监督的方法跟无监督的方法2 种。赵军等在2006年提出了一种基于层级隐马尔可夫模型的产品命名实体识别方法，该方法很好地处理了多尺度嵌套序列问题；Arun等人提出了一种基于生成关系数据库的抽取方法。Mannai等人采用贝叶斯网络的方式实现抽取工作。GamonM等人利用tf-idf得到属性词，并把得到的属性词分类，分为一般属性词与特殊属性词。Qiu等人提出了一种基于少量种子情感词抽取情感词与特征词的方法，然而这种方法并非是基于方面属性的考虑。此外，这种方法没有考虑模板的自动抽取，是人工定义的模板，可扩展性受到很大限制。在抽取与过滤特征词的过程中仅仅考虑了词频，没有考虑特征词与模板的亲密度关系。由于目前产品评论属性词抽取的准确率、覆盖率、可移植性都有待进一步提高，所以有必要进行深入研究。基于此，现提供一种改进的抽取中文商品评论中评价对象的方法。

【发明内容】

[0005]本发明的技术任务是针对以上不足之处，提供一种实用性强、改进的抽取中文商品评论中评价对象的方法。
[0006]一种改进的抽取中文商品评论中评价对象的方法，其具体实现过程为：首先获取网络上的网络评论；将获取的网络评论文本进行预处理；对经过预处理的文本进行文本聚类，人工选取抽取候选评价对象；在候选评价对象中通过Bootstrapping方法抽取评价对象。
[0007] 所述文本预处理是指将收集到的网络评论数据集进行分词、停用词的过滤。
[0008] 所述候选评价对象抽取过程为：选取数据集的候选名词性短语的词性组合规则，将预处理后的评论文本中满足规则的短语提取出来，然后判断候选短语的完整性，并将具有完整性的短语称之为候选对象。
[0009] 所述候选评价对象抽取的具体步骤如下： 1)根据分词后的词性标注，将满足以下10组词性规则的名词性短语作为候选短语：n、n+run+n+run+v>v+rua+run+a>x+run+x>x+n+v; 2 )将得到的候选名词性短语进行完整性判断。
[0010] 所述步骤2)中候选名词性短语的完整性判断规则为：首先在评论A=ala2. . .ai. . .an中，其中ai表示在评论A中的第i个词，且评论A中候选对象B出现在其中的n个不同位置bl,b2,. . .bi. ..，bn; 当至少存在一组<i，k>，其中1彡i〈k<n，使得A中第bi- 1个词和第bk- 1个词不相同时，则将此B称为左完整；当至少存在一组<i，k>，其中1彡i〈k彡n，使得A中第bi+B个词和第bk+B个词不相同时，则将此B称为右完整；当B既是左完整又是右完整时，则将此B称为完整性的评价对象。
[0011] 抽取评价对象的具体步骤如下： A、选取部分符合上述完整性判断规则的候选评价对象作为初始学习数据集； B、对学习数据集中的数据采用评分公式进行评分，该评分公式为：
句中不再包含其他候选评价对象的句子数目；表示模板支持度，即候选评价对象被模板从语料中抽取出来的次数，a指的是系数； C、选取得分高的前m个数据的词性规则加入到学习数据集中； D、从实验数据集中再随机抽出新的词性规则模板，重复步骤B、C操作，直到没有发现新的符合条件的评价对象模板为止； E、将符合模板的短语取出，作为被抽取的最终评价对象。
[0012] 所述步骤B中m取值范围为3彡m彡8,系数a取值为4。
[0013] 所述步骤C中选出的数据的得分必须大于阈值P，该阈值P为200。
[0014] 本发明的一种改进的抽取中文商品评论中评价对象的方法，具有以下优点：本发明提出的一种改进的抽取中文商品评论中评价对象的方法，能够有效避免了人工选择属性词的局限性，提高对中文商品评价中评价对象的准确度，使得评价对象属性词抽取的准确率、覆盖率和可移植性得到提高，实用性强，易于推广。
【附图说明】
[0015] 附图1为本发明的整体实现流程图。
[0016] 附图2为本发明改进的Bootstrapping方法抽取评价对象的流程图。
[0017] 附图3为本发明方法和不采用候选短语完整性调和平均值比较图。
[0018] 附图4为本发明和关键词匹配方法调和平均值比较图。
【具体实施方式】
[0019] 下面结合附图和具体实施例对本发明作进一步说明。
[0020] 本发明主要研究了中文商品评论中的评价对象抽取问题，提出了一种改进的抽取中文商品评论中评价对象的方法，具体为一种基于Bootstrapping的中文商品评价对象抽取的方法，Bootstrapping是一种利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布之新样本的方法。
[0021] 由于Bootstrapping在初始阶段只需要少量学习数据，这样不仅显著降低了对专家的依赖程度，同时也极大地提升了算法的通用性和可移植性，因此本发明选择此种方法来进行对象抽取的研究。提出一种选择候选对象的新方法，并将筛选过的候选名词性短语通过Bootstrapping方法对其进行属性词的扩展，这样就避免了人工选择属性词的局限性。将实验结果计算其准确率、召回率和调和平均值来判断此方法的性能指标。
[0022] 如附图1、图2所示，其具体实现过程为：首先获取网络上的网络评论，一般通过爬虫软件获取；将获取的网络评论文本进行预处理；对经过预处理的文本进行文本聚类，人工选取抽取候选评价对象；在候选评价对象中通过Bootstrapping方法抽取评价对象。
[0023] 所述文本预处理是指将收集到的网络评论数据集进行分词、停用词的过滤。
[0024] 所述候选评价对象抽取过程为：选取数据集的候选名词性短语的词性组合规则，将预处理后的评论文本中满足规则的短语提取出来，然后判断候选短语的完整性，并将具有完整性的短语称之为候选对象。
[0025] 所述候选评价对象抽取的具体步骤如下： 1)根据分词后的词性标注，将满足以下10组词性规则的名词性短语作为候选短语：n、n+ru n+n+ru n+v> v+ru a+ru n+a> x+ru n+x> x+n+v ; 2 )将得到的候选名词性短语进行完整性判断。
[0026] 所述步骤2)中候选名词性短语的完整性判断规则为：首先在评论A=al a2. . . ai. . . an中，其中ai表示在评论A中的第i个词，且评论A中候选对象B出现在其中的n个不同位置bl, b2,. . . bi. . .，bn ; 当至少存在一组<i，k>，其中1彡i〈k<n，使得A中第bi- 1个词和第bk- 1个词不相同时，则将此B称为左完整；当至少存在一组<i，k>，其中1彡i〈k彡n，使得A中第bi+B个词和第bk+B个词不相同时，则将此B称为右完整；当B既是左完整又是右完整时，则将此B称为完整性的评价对象。
[0027] 抽取评价对象的具体步骤如下： A、选取部分符合上述完整性判断规则的候选评价对象作为初始学习数据集； B、对学习数据集中的数据采用评分公式进行评分，该评分公式为： &Ofrpn-xin)Sco>\\^ i?,：> - 5?. ? ；其中，纖論_|?||表示相邻评价词信息，即候选评价对象前后十个

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王新刚;张立说;赵晶;
技术所有人：齐鲁工业大学;
我是此专利的发明人

上一篇：一种互联网环保净化系统及方法
上一篇：基于服务器发送的信息使商家app续用的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。