一种改进的抽取中文商品评论中评价对象的方法

文档序号:9350572阅读:922来源:国知局
一种改进的抽取中文商品评论中评价对象的方法
【技术领域】
[0001] 本发明涉及数据抽取技术领域,具体地说是一种实用性强的改进的抽取中文商品 评论中评价对象的方法。
【背景技术】
[0002] 随着Internet的发展跟电子商务的普及,越来越多的消费者开始在电子商务相 关网站上发表自己对相关商品的评论,并且消费者们也开始习惯在购买商品前查看电子商 务网站上他人的相关评论。但由于用户的个人喜好以及个人关注点的不同,其评论往往是 有很大差别,而且用户经常会在一条评论中表达出对产品多个属性的观点,另外评论一般 都是大量出现的,想要人工从这些评论中找自己关注的内容费时费力。因此在这些非结构 化的商品评论中抽取自己想要的观点,尤其是描述产品各属性的观点成为当今较热门的话 题。
[0003]以购买手机产品为例,消费者们在购买前往往会参考网络上的评论信息,例如中 关村网站上的评论:"这款手机样式挺新颖,分辨率高,我很满意,就是容易死机很讨厌", "联想的手机性价比就是高,但在外观上不如苹果这些高端手机好看,质量还有待测验。", "n〇te3的像素很高,电池撑得时间也很长的,就是手机容易卡死,这点很让我着急。"。这些 评论中每条评论里面都描述了商品的多个属性,如果人工筛选是很容易判断哪些是我们想 要的,但是由于评论数量一般都是大量出现,人工筛选并不能满足需要,因此就需要寻找合 适的方法来自动抽取需要的观点。
[0004]近年来,国内外主要研究的抽取方法主要分为有监督的方法跟无监督的方法2 种。赵军等在2006年提出了一种基于层级隐马尔可夫模型的产品命名实体识别方法,该方 法很好地处理了多尺度嵌套序列问题;Arun等人提出了一种基于生成关系数据库的抽取 方法。Mannai等人采用贝叶斯网络的方式实现抽取工作。GamonM等人利用tf-idf得到 属性词,并把得到的属性词分类,分为一般属性词与特殊属性词。Qiu等人提出了一种基于 少量种子情感词抽取情感词与特征词的方法,然而这种方法并非是基于方面属性的考虑。 此外,这种方法没有考虑模板的自动抽取,是人工定义的模板,可扩展性受到很大限制。在 抽取与过滤特征词的过程中仅仅考虑了词频,没有考虑特征词与模板的亲密度关系。由于 目前产品评论属性词抽取的准确率、覆盖率、可移植性都有待进一步提高,所以有必要进行 深入研究。基于此,现提供一种改进的抽取中文商品评论中评价对象的方法。

【发明内容】

[0005]本发明的技术任务是针对以上不足之处,提供一种实用性强、改进的抽取中文商 品评论中评价对象的方法。
[0006]一种改进的抽取中文商品评论中评价对象的方法,其具体实现过程为: 首先获取网络上的网络评论; 将获取的网络评论文本进行预处理; 对经过预处理的文本进行文本聚类,人工选取抽取候选评价对象; 在候选评价对象中通过Bootstrapping方法抽取评价对象。
[0007] 所述文本预处理是指将收集到的网络评论数据集进行分词、停用词的过滤。
[0008] 所述候选评价对象抽取过程为:选取数据集的候选名词性短语的词性组合规则, 将预处理后的评论文本中满足规则的短语提取出来,然后判断候选短语的完整性,并将具 有完整性的短语称之为候选对象。
[0009] 所述候选评价对象抽取的具体步骤如下: 1)根据分词后的词性标注,将满足以下10组词性规则的名词性短语作为候选短语:n、n+run+n+run+v>v+rua+run+a>x+run+x>x+n+v; 2 )将得到的候选名词性短语进行完整性判断。
[0010] 所述步骤2)中候选名词性短语的完整性判断规则为: 首先在评论A=ala2. . .ai. . .an中,其中ai表示在评论A中的第i个词,且评论A中 候选对象B出现在其中的n个不同位置bl,b2,. . .bi. ..,bn; 当至少存在一组<i,k>,其中1彡i〈k<n,使得A中第bi- 1个词和第bk- 1个词不 相同时,则将此B称为左完整; 当至少存在一组<i,k>,其中1彡i〈k彡n,使得A中第bi+B个词和第bk+B个词不相 同时,则将此B称为右完整; 当B既是左完整又是右完整时,则将此B称为完整性的评价对象。
[0011] 抽取评价对象的具体步骤如下: A、 选取部分符合上述完整性判断规则的候选评价对象作为初始学习数据集; B、 对学习数据集中的数据采用评分公式进行评分,该评分公式为:
句中不再包含其他候选评价对象的句子数目;表示模板支持度,即候选评 价对象被模板从语料中抽取出来的次数,a指的是系数; C、 选取得分高的前m个数据的词性规则加入到学习数据集中; D、 从实验数据集中再随机抽出新的词性规则模板,重复步骤B、C操作,直到没有发现 新的符合条件的评价对象模板为止; E、 将符合模板的短语取出,作为被抽取的最终评价对象。
[0012] 所述步骤B中m取值范围为3彡m彡8,系数a取值为4。
[0013] 所述步骤C中选出的数据的得分必须大于阈值P,该阈值P为200。
[0014] 本发明的一种改进的抽取中文商品评论中评价对象的方法,具有以下优点: 本发明提出的一种改进的抽取中文商品评论中评价对象的方法,能够有效避免了人工 选择属性词的局限性,提高对中文商品评价中评价对象的准确度,使得评价对象属性词抽 取的准确率、覆盖率和可移植性得到提高,实用性强,易于推广。
【附图说明】
[0015] 附图1为本发明的整体实现流程图。
[0016] 附图2为本发明改进的Bootstrapping方法抽取评价对象的流程图。
[0017] 附图3为本发明方法和不采用候选短语完整性调和平均值比较图。
[0018] 附图4为本发明和关键词匹配方法调和平均值比较图。
【具体实施方式】
[0019] 下面结合附图和具体实施例对本发明作进一步说明。
[0020] 本发明主要研究了中文商品评论中的评价对象抽取问题,提出了一种改进的抽取 中文商品评论中评价对象的方法,具体为一种基于Bootstrapping的中文商品评价对象抽 取的方法,Bootstrapping是一种利用有限的样本资料经由多次重复抽样,重新建立起足以 代表母体样本分布之新样本的方法。
[0021] 由于Bootstrapping在初始阶段只需要少量学习数据,这样不仅显著降低了对专 家的依赖程度,同时也极大地提升了算法的通用性和可移植性,因此本发明选择此种方法 来进行对象抽取的研究。提出一种选择候选对象的新方法,并将筛选过的候选名词性短语 通过Bootstrapping方法对其进行属性词的扩展,这样就避免了人工选择属性词的局限 性。将实验结果计算其准确率、召回率和调和平均值来判断此方法的性能指标。
[0022] 如附图1、图2所示,其具体实现过程为: 首先获取网络上的网络评论,一般通过爬虫软件获取; 将获取的网络评论文本进行预处理; 对经过预处理的文本进行文本聚类,人工选取抽取候选评价对象; 在候选评价对象中通过Bootstrapping方法抽取评价对象。
[0023] 所述文本预处理是指将收集到的网络评论数据集进行分词、停用词的过滤。
[0024] 所述候选评价对象抽取过程为:选取数据集的候选名词性短语的词性组合规则, 将预处理后的评论文本中满足规则的短语提取出来,然后判断候选短语的完整性,并将具 有完整性的短语称之为候选对象。
[0025] 所述候选评价对象抽取的具体步骤如下: 1)根据分词后的词性标注,将满足以下10组词性规则的名词性短语作为候选短语:n、n+ru n+n+ru n+v> v+ru a+ru n+a> x+ru n+x> x+n+v ; 2 )将得到的候选名词性短语进行完整性判断。
[0026] 所述步骤2)中候选名词性短语的完整性判断规则为: 首先在评论A=al a2. . . ai. . . an中,其中ai表示在评论A中的第i个词,且评论A中 候选对象B出现在其中的n个不同位置bl, b2,. . . bi. . .,bn ; 当至少存在一组<i,k>,其中1彡i〈k<n,使得A中第bi- 1个词和第bk- 1个词不 相同时,则将此B称为左完整; 当至少存在一组<i,k>,其中1彡i〈k彡n,使得A中第bi+B个词和第bk+B个词不相 同时,则将此B称为右完整; 当B既是左完整又是右完整时,则将此B称为完整性的评价对象。
[0027] 抽取评价对象的具体步骤如下: A、 选取部分符合上述完整性判断规则的候选评价对象作为初始学习数据集; B、 对学习数据集中的数据采用评分公式进行评分,该评分公式为: &Ofrpn-xin)Sco>\\^ i?,:> - 5?. ? ; 其中,纖論_|?||表示相邻评价词信息,即候选评价对象前后十个
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1