基于本体词库的商品评论属性词抽取方法

文档序号：8395969阅读：356来源：国知局

基于本体词库的商品评论属性词抽取方法
【技术领域】
[0001] 本发明涉及互联网电子商务的商品评论，尤其是一种商品评论属性词抽取方法。
【背景技术】
[0002] 2011年的全球互联网数据显示，截止到2011年12月，全球网站数量总数已达到 5. 55亿，全球网民的人数超过了 20亿。互联网普及程度的提高带动了电子商务这一网络活动的发展，越来越多的网络留言遍布着我们的网络平台，而购物网站上的商品评论尤为明显〇
[0003] 2012年，"双^^一"当日支付宝交易额实现飞速增长，达到191亿元，其中包括天猫商城132亿元，淘宝59亿元，订单数达到1.058亿笔；2013年，11月11日阿里巴巴平台总交易额350. 19亿；2014年，11月11日阿里巴巴总成交额571. 1亿，订单总量2. 79亿。（以上数据来自阿里巴巴官方微博）京东官方微博宣布，2014年"双^^一"期间三天（11月10 日至12日）销售额25亿元，三天订单总量超过680万单，是2012年11月11日当天订单量的3倍多。
[0004] 除此两家电商之外，国内还有很多大型的电商如当当网等。加上双^^一之外的网上购物其他三百多天的电商运营数据，事实说明电子商务活动越来越频繁，而且由此产生海量的商品评论。
[0005] 消费者的消费选择会受到消费者之间交换的信息的影响，在过去，人们常认为从亲戚或朋友那里听到的意见是最重要的消费前信息，现在，互联网的技术应用在过去十几年中的发展使得人们获取网络消费前信息的来源不再局限于自己的亲朋好友，而是扩大到了购物网站上的商品评论。实际上，这些评论成为了用户获取商品信息的重要来源。在传统的实体店铺中，顾客可以仔细检查商品的质量和品质，而网店中的商品，顾客看不到实物，必然会担心图片和实物的差距。因此对于网络购物而言，商品的相关评论就非常重要了，这些评论能够帮助顾客了解商品的服务和口碑，帮助他们作出正确的决策，选到自己满意的商品。
[0006] 另外这些商品的生产者和销售者也能够从反馈的信息中有所收益，改进生产和服务，提高商品的质量和品牌的知名度，还能挖掘出潜在的消费者。
[0007] 通过大量观察现行主流的电子商务网站，其中商品评论具有如下特点：
[0008] 1.在商品评论中，大部分的子句都是针对一项属性进行评论的。例如有评论"手机到手用了一天，做工不错，软件和游戏运行都不错，手机是正品，赠送的小东西也都不错"，这句话中，由逗号分割的不同子句评论的对象各不相同。少数地，对一项属性的评论分布在不同的子句中，但是这些子句是相邻的。
[0009] 2.商品评论文本中，对同一项属性的评论和对其他属性的评论是有明显界限的。我们将一条评论文本中，每个由标点或者空白字符分割的部分称作子句。多数子句包含的内容是一个评价对象（商品属性）加上一个评价词。如"做工不错"。也有部分子句没有评价对象，只有评价词，此种情况可以使用默认的评价对象，如评论子句"用了之后才发现真得很好"，可以理解为"质量很好"。
[0010] 3.有些子句中包含多个评价属性，如"手机屏幕色彩饱满"。
[0011] 4.有些子句不是针对商品本身的评论，如"真心建议你们公司不要跟圆通合作了，对这快递公司无语了"是对卖家和物流服务质量的评论。
[0012] 5.对同一件商品，买家们评论的对象之间存在包含关系。例如对一款具体的手机，有些评论中属性词是"屏幕"，有些评论中属性词是"分辨率"。
[0013] 逐日激增的商品评论这让人很难逐条阅读。情感标签由评价对象和评价词组成，包含了用户评论的详细信息，能够有效地体现出用户评论的核心内容，实现互联网电子商务网站的商品评价信息的归纳，尽可能地保留原先针对此商品的海量评论的有效内容，又方便了评论阅读者的快速掌握。
[0014] 情感标签的抽取是近年来文本挖掘的热点问题，先前已经有过大量研宄，但是鲜有针对现行电商商品评论的研宄，使用先前的方法来对这些评论做处理，其效率不高，主要有两个原因：一是使用的词典内容过于宽泛，而且对目前商品评论的词汇包含完全度低，这就造成查询时效率和命中率低；二是在文本表示的时候，之前的研宄大多考虑的是对大型文档进行处理，而目前中文商品评论文本都比较短，表达为向量空间模型时维度很大，很多元素是无效填充值，数据密度低，无论是存储还是查询效率低下。
[0015] 情感标签由评价对象（属性词）和评价词组成，包含了用户评论的详细信息，能够有效地体现出用户评论的核心内容。如"质量很好"，"质量"是评价对象（属性词），"好" 是评价词。属性词的提取是情感标签提取的重要步骤。

【发明内容】

[0016] 本发明的目的在于针对目前主流电子商务网站商品评论的特点，提供一种基于本体词库的商品评论属性词抽取方法，相比于传统的文本处理提取属性词的方法效率更高。本发明采用的技术方案是：
[0017] -种基于本体词库的商品评论属性词抽取方法，包括下述步骤：
[0018] 步骤1，对评论文本预处理：首先将每条评论文本分割为不同的子句；其次，对每条评论的各个子句，结合属性词本体词库，进行分词，然后进行词性标注，去停用词，接着在子句中搜索名词作为该条评论的属性词候选集；
[0019] 步骤2,对属性词候选集中的属性词进行归类：对具体一种商品，遍历与这种商品相关的所有商品评论的属性词候选集，各自对每个属性词候选集中的属性词进行归类操作；归类后，对每个属性词候选集，会生成若干同义词类，每个同义词类是属性词本体词库中某个对应的同义词类的子集；
[0020] 步骤3,在各个属性词候选集中，合并属性词的同义词类：
[0021] 步骤4,经过对属性词候选集中的合并操作之后，将每个同义词类的中心词认定为属性词候选集对应的子句的属性词。
[0022] 进一步地，步骤1中，具体采用正向最大匹配方法进行分词。
[0023] 进一步地，步骤2中，对属性词候选集中的属性词进行归类操作的方法为：查找属性词本体词库，获取并返回词语w所在同义词类的中心词W;将中心词W代表的同义词类确定为词语w的同义词类。
[0024] 进一步地，步骤3中，合并的方法为：属性词候选集中，
[0025] 如果两个同义词类A和B的中心词是属性词本体词库中处于同一层次的词，且具有相同的上一层词语，且同义词类A和B内的词语数量都小于设定阈值，则将同义词类A和 B合并，合并后新的同义词类的中心词是同义词类A和B的中心词在属性词本体词库中上一层的词语；
[0026] 如果两个同义词类A和B的中心词在属性词本体词库的层次关系上是从属关系，且同义词类A和B内的词语数量都小于设定阈值，则将同

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马睿;周晓锋;潘福成;
技术所有人：无锡中科泛在信息技术研发中心有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。