互联网商品评论挖掘本体词库的构建方法

文档序号:8412590阅读:212来源:国知局
互联网商品评论挖掘本体词库的构建方法
【技术领域】
[0001] 本发明涉及互联网商品评论,尤其是一种互联网商品评论挖掘本体词库的构建方 法。
【背景技术】
[0002] 2011年的全球互联网数据显示,截止到2011年12月,全球网站数量总数已达到 5. 55亿,全球网民的人数超过了 20亿。互联网普及程度的提高带动了电子商务这一网络活 动的发展,越来越多的网络留言遍布着我们的网络平台,而购物网站上的商品评论尤为明 显O
[0003] 2012年,"双^^一"当日支付宝交易额实现飞速增长,达到191亿元,其中包括天猫 商城132亿元,淘宝59亿元,订单数达到1.058亿笔;2013年,11月11日阿里巴巴平台总 交易额350. 19亿;2014年,11月11日阿里巴巴总成交额571. 1亿,订单总量2. 79亿。(以 上数据来自阿里巴巴官方微博)京东官方微博宣布,2014年"双^^一"期间三天(11月10 日至12日)销售额25亿元,三天订单总量超过680万单,是2012年11月11日当天订单 量的3倍多。
[0004] 除此两家电商之外,国内还有很多大型的电商如当当网等。加上双^^一之外的网 上购物其他三百多天的电商运营数据,事实说明电子商务活动越来越频繁,而且由此产生 海量的商品评论。
[0005] 消费者的消费选择会受到消费者之间交换的信息的影响,在过去,人们常认为从 亲戚或朋友那里听到的意见是最重要的消费前信息,现在,互联网的技术应用在过去十几 年中的发展使得人们获取网络消费前信息的来源不再局限于自己的亲朋好友,而是扩大到 了购物网站上的商品评论。实际上,这些评论成为了用户获取商品信息的重要来源。在传统 的实体店铺中,顾客可以仔细检查商品的质量和品质,而网店中的商品,顾客看不到实物, 必然会担心图片和实物的差距。因此对于网络购物而言,商品的相关评论就非常重要了,这 些评论能够帮助顾客了解商品的服务和口碑,帮助他们作出正确的决策,选到自己满意的 商品。
[0006] 另外这些商品的生产者和销售者也能够从反馈的信息中有所收益,改进生产和服 务,提高商品的质量和品牌的知名度,还能挖掘出潜在的消费者。
[0007] 通过大量观察现行主流的电子商务网站,其中商品评论具有如下特点:
[0008] 1.在商品评论中,大部分的子句都是针对一项属性进行评论的。例如有评论"手机 到手用了一天,做工不错,软件和游戏运行都不错,手机是正品,赠送的小东西也都不错", 这句话中,由逗号分割的不同子句评论的对象各不相同。少数地,对一项属性的评论分布在 不同的子句中,但是这些子句是相邻的。
[0009] 2.商品评论文本中,对同一项属性的评论和对其他属性的评论是有明显界限的。 我们将一条评论文本中,每个由标点或者空白字符分割的部分称作子句。多数子句包含的 内容是一个评价对象(商品属性)加上一个评价词。如"做工不错"。也有部分子句没有评 价对象,只有评价词,此种情况可以使用默认的评价对象,如评论子句"用了之后才发现真 得很好",可以理解为"质量很好"。
[0010] 3.有些子句中包含多个评价属性,如"手机屏幕色彩饱满"。
[0011] 4.有些子句不是针对商品本身的评论,如"真心建议你们公司不要跟圆通合作了, 对这快递公司无语了"是对卖家和物流服务质量的评论。
[0012] 5.对同一件商品,买家们评论的对象之间存在包含关系。例如对一款具体的手机, 有些评论中属性词是"屏幕",有些评论中属性词是"分辨率"。
[0013] 逐日激增的商品评论这让人很难逐条阅读。情感标签由评价对象和评价词组成, 包含了用户评论的详细信息,能够有效地体现出用户评论的核心内容,实现互联网电子商 务网站的商品评价信息的归纳,尽可能地保留原先针对此商品的海量评论的有效内容,又 方便了评论阅读者的快速掌握。
[0014] 情感标签的抽取是近年来文本挖掘的热点问题,先前已经对基于词典的情感标签 抽取方法有过大量研宄,但是鲜有针对现行电商商品评论的研宄,使用先前的方法来对这 些评论做处理,其效率不高,主要有两个原因:一是使用的词典内容过于宽泛,而且对目前 商品评论的词汇包含完全度低,这就造成查询时效率和命中率低;二是在文本表示的时候, 之前的研宄大多考虑的是对大型文档进行处理,而目前中文商品评论文本都比较短,表达 为向量空间模型时维度很大,很多元素是无效填充值,数据密度低,无论是存储还是查询效 率低下。
[0015] 本体词库的构建是基于词典的情感标签提取技术的重要步骤。

【发明内容】

[0016] 本发明的目的在于针对目前主流电子商务网站商品评论的特点,提供一种商品评 论挖掘本体词库的构建方法。本发明采用的技术方案是:
[0017] 一种互联网商品评论挖掘本体词库的构建方法,包括下述步骤:
[0018] 步骤1,属性词本体词库的构建:获取商品评论,按照商品类别,利用分词方法和 词性标注方法提取名词,形成属性词本体词库;
[0019] 步骤2,评价词本体词库的构建:分别构建褒义词本体词库和贬义词本体词库;
[0020] 步骤3,否定词本体词库的构建:收集否定词,构建否定词本体词库;
[0021] 步骤4,搭配情感词本体词库的构建:根据网上各种基于类别的商品评论,对评论 中的搭配特征词配上相对应的搭配情感词,从而构建搭配情感词本体词库;
[0022] 步骤5,程度副词本体词库的构建:收集程度副词,所述程度副词用于修饰情感 词,并给各程度副词赋予强度级别和强度值;
[0023] 步骤6,停用词本体词库的构建:对获取的商品评论进行分词,对每条评论计算各 个词语的特征频率TF,TF为词语在评论文本中出现的频率,选出TF高的词语;针对每个词 语,计算文档频率DF,DF是评论文本集中含有特征词语的文本个数与总文本数的比值,选 出DF高的词语,在这些词语中人工选出停用词。
[0024] 进一步地,步骤1中,构成的属性词本体词库具有分层结构;在属性词本体词库 中,词条的记录格式为:(词语,父节点,类别中心词)。
[0025] 进一步地,步骤1中,属性词本体词库中的词语还具有同义词,每个同
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1