商品网络评论信息的情感分析与关键词提取系统的制作方法

文档序号:35276732发布日期:2023-08-31 18:34阅读:47来源:国知局
商品网络评论信息的情感分析与关键词提取系统的制作方法

本发明属于数据挖掘和分析,综合覆盖数据分析方法论中的数据清洗、数据处理和数据分析等方面的内容。采用rostcm6工具并结合gensim模块中的lda主题模型对商品网络评论的文本数据进行语义网络的构建和分析,挖掘数据集中的潜在主题,进而提取数据集的特征关键词,进行直观的分析。在数据预处理过程中特别采用一种删除多余短句数据的机械压缩去词的方法。


背景技术:

1、随着互联网的发展,通过网络平台购物,已成为主流的购物方式。cnnic发布的第47 次《中国互联网络发展状况统计报告》中提及,截止2020年12月,我国通过网络进行购物的消费者的规模已经达到了7.82亿,较2020年三月增长了7215万,占网民整体的79.1%。《报告》还指出,2020年全国共新增46个跨境电商综合试验区,增设两种b2b 出口贸易方式,来推动通关便利化。2020年11月签署了目前世界上经济规模最大的自贸协定rcep。这预示着网络购物平台在未来几年会得到更好的发展。

2、消费者在购物同时,会在网络购物平台中对特定的商品进行评论,评论中反应对商品的各方面的评价可以帮助生产商家对商品进行更新和定位,完善自己的服务。

3、从商品网络评论中获得消费者对商品以及服务的情感倾向,提取特征关键词并针对其中暴露的问题进行改进是一个很有价值的工作。面对海量的评论数据,仅靠人工对评论逐条进行分析是一件繁琐且困难的事情。

4、随着计算机理论和技术的发展,自然语言处理是现在非常流行的研究方向,其中最热门的就是文本情感分析,主流的研究方法大致分为基于词典的方法和基于统计的方法两种。目前针对英文文本的情感分析已经有了显著成果。因为中文本身语言结构较复杂,且起步较晚,国内对中文文本的情感输出,主要集中在对文献、商品评论以及社交媒体的文本进行情感分析。


技术实现思路

1、本发明的目的是对网络购物平台上消费者的中文文本评论数据进行内在信息的数据挖掘分析。针对网络购物平台上指定品牌指定商品的消费者的文本评论数据,在对文本进行基本的预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与lda主题模型等多种主题模型的多种数据挖掘模型,实现对文本评论数据的倾向性判断以及隐蔽的信息特征关键词的提取,进行挖掘并分析,得到有价值的潜在内容。

2、具体需要实现的目标:

3、1)分析特定品牌特定商品的用户情感倾向。

4、2)从网络评论文本中挖掘出该品牌该商品的关键词对应出的优点和不足。

5、3)提炼对应品牌对应商品的卖点,并给出优化建议。

6、4)提炼对应品牌对应商品的缺点,并给出改进建议。

7、主要分三个模块,分别是数据采集和抽取、数据探索与预处理、数据挖掘分析及可视化。

8、本发明解决其技术问题是采取以下技术方案实现的:

9、数据采集使用scrapy框架搭建网络爬虫,获取指定品牌指定商品的评论文本数据及商品信息数据,使用pymysql模块将获取的数据保存到mysql数据库中。

10、数据处理中使用pandas模块、os模块、re正则表达式模块和jieba模块完成数据抽取和数据探索以及数据预处理。具体实现文本去重、多余数据短句删除、机械压缩去词、分词处理以及停用词的过滤等功能。

11、数据挖掘分析中,使用snownlp模块的sentiment功能进行机器标注,减少人为工作量;使用rostcm6工具进行情感倾向分析,将评论数据分割为正面,负面和中性3大组,抽取正面和负面两组进行语义网络的构建和分析;通过gensim模块中的lda主题模型挖掘数据集中的潜在主题,分析数据集的集中关注点提取相关特征关键词。

12、利用pyldavis模块对主题模型的结果进行可视化,进行直观的分析。

13、本发明的优点和积极效果是:

14、本发明针对消费者在网络购物平台所购商品的文本评论数据进行预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与lda主题模型等多种主题模型的多种数据挖掘模型,实现对文本评论数据的倾向性判断以及特征关键词提取,进行挖掘并分析,得到有价值的内在内容。

15、由于网络购物平台上各类商品的竞争日渐激烈,商家除了提高商品质量、缩减商品成本压低价格以外,了解更多消费者的心声对于商家来说变得越发必要,其中非常重要的方式就是对消费者购物后的网络文本评论数据进行数据挖掘分析获取内在信息。得到的这些信息,有利于商家自身竞争力的提升。

16、本发明可以通过修改scrapy模块中的spider代码,自主修改其中的start_urls的值以及代码中的cssselector和xpath的值实现商家对任意网络购物平台的指定品牌指定商品的评论数据的获取。借助机械压缩去词获得不完全重复、不使用大量重复词语和内容丰富的评论语料。同时,本发明将数据的获取、数据挖掘分析、数据可视化整合在一个系统中,简单实用,易于操作且安全。

17、具体实施内容:

18、功能及结构描述:

19、商品网络评论信息的情感分析与关键词提取系统采用三层架构设计,分为用户表示层、业务逻辑层和数据访问层。系统功能主要分为三个模块,分别是数据采集和抽取、数据探索与预处理、数据分析及可视化。

20、系统的架构:见图1-系统整体架构图

21、系统模块功能:见图2-系统整体模块功能结构图

22、数据信息采集流程:见图3-数据信息采集流程图

23、数据预处理流程:见图4-数据预处理流程图

24、数据分析及可视化:见图5-数据分析及可视化流程图

25、消极评论主题可视化:见图6-消极评论主题气泡模型图

26、积极评论主题可视化:见图7-积极评论主题气泡模型图

27、消极评论独特主题可视化:见图8-消极评论独特主题气泡模型图



技术特征:

1.一种网络购物平台消费者文本评论数据的情感分析与关键词提取的方法,其特征在于,该方法是依次将scrapy爬取评论数据、使用pymysql将数据保存到mysql数据库、使用pandas完成数据抽取、使用python os模块和re模块完成文本去重、机械压缩去词、多余数据短句删除、使用snownlp的sentiment功能进行机器标注、使用rostcm6工具进行情感倾向分析、使用jieba模块进行分词处理以及停用词的过滤、使用gensim模块中的lda主题模型挖掘潜在主题并提取特征关键词、最后利用pyldavis模块对主题模型的结果进行可视化的组合使用的软件系统。


技术总结
商品网络评论信息的情感分析与关键词提取系统是基于LDA主题模型将网络平台特定商品的评论进行文本挖掘分析,实现一个面向中文评论的情感倾向分析和关键词提取的系统。实现目标如下:1)分析特定品牌特定商品的用户情感倾向。2)从评论文本中挖掘出该品牌该商品的关键词对应出的优点和不足。3)提炼对应品牌对应商品的卖点,并给出优化建议。4)提炼对应品牌对应商品的缺点,并给出改进建议。项目实现主要采用以下技术实现:python内置os库、re模块;pandas模块;scrapy模块;pymysql模块;snownlp模块;gensim库(LDA);jieba模块;pyldavis模块;ROSTCM6等。

技术研发人员:何林奇
受保护的技术使用者:何林奇
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1