一种基于用户评价信息的商品舆情分析方法及系统与流程

文档序号:11865662阅读:来源:国知局

技术特征:

1.一种基于用户评价信息的商品舆情分析系统,其特征在于,包括爬虫模块、数据预处理模块、情感分析模块、词典构造模块和可视化模块;

所述爬虫模块,用于对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;

所述数据预处理模块,用于对商品的评价数据进行预处理,生成可供进一步分析的特征向量;

所述情感分析模块,用于提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;

所述词典构造模块,用于对分词词库进行收集和融合以形成分词词典,从而供数据预处理模块进行分词和标注词性;还用于构建情感词典,从而供情感分析模块标注极性;

可视化模块,用于在Web端对情感分析模块的分析结果进行可视化展示。

2.如权利要求1所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述爬虫模块对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据包括:

爬虫模块从指定的种子站点开始,以宽度优先模式从互联网爬取网页,针对每一个爬取到的网页,分析页面源代码,并进行解析,获取网页内相关的信息:产品特征和用户评价。

3.如权利要求2所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述数据预处理模块对商品的评价数据进行预处理,生成可供进一步分析的特征向量,包括:

数据预处理模块首先基于分词词典对用户的评价数据进行分词处理,在分词结果的基础上,采用关联规则挖掘算法Apriori在评价文本数据库中发现高频名词及名词词组,并将其视为典型特征;对于包含典型特征的评价文本,数据预处理模块在去除该文本中的停用词后,发现文本中离名词或名词词组最近的形容词,进而生成形如[特征,观点]的特征向量。

4.如权利要求3所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述情感分析模块提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪,包括:

对于特征向量中的每一个元素,情感分析模块在情感词典内寻找与典型特征及其观点相对应的极性,并将[评论,特征,观点,极性]写入数据库;

情感分析模块从评价数据库内选择部分数据作为训练数据集,采用支持向量机的方法对总体情感进行分类:

首先,对训练数据集进行标记,并对其中的形容词进行词频统计,提取出现频率较高的形容词作为样本特征;然后,将每个训练样本进行转换,将其转换为如下格式:<标记>特征1:个数特征2:个数……特征n:个数,其中<标记>取值为positive或negtive;最后,将转换后的训练数据输入到LIBSVM库中进行分类训练;训练出的分类结果随后被应用到实际数据中,帮助分析用户评价文本的总体情感。

5.如权利要求4所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述可视化模块在Web端对情感分析模块的分析结果进行可视化展示,展示内容包括:产品的好评/差评率;正面及负面典型特征,并返回与特征相关的原始评论;帮助用户选择不同品牌及该品牌下的产品。

6.一种基于用户评价信息的商品舆情分析方法,其特征在于,包括以下步骤:

a.对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;

b.对商品的评价数据进行预处理,生成可供进一步分析的特征向量;

c.提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;

d.在Web端对情感分析模块的分析结果进行可视化展示。

7.如权利要求6所述的一种基于用户评价信息的商品舆情分析方法,其特征在于,步骤a中,所述对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据的方法是:

爬虫模块从指定的种子站点开始,以宽度优先模式从互联网爬取网页,针对每一个爬取到的网页,分析页面源代码,并进行解析,获取网页内相关的信息:产品特征和用户评价。

8.如权利要求7所述的一种基于用户评价信息的商品舆情分析方法,其特征在于,步骤b中,所述对商品的评价数据进行预处理,生成可供进一步分析的特征向量的方法包括:

数据预处理模块首先基于分词词典对用户的评价数据进行分词处理,在分词结果的基础上,采用关联规则挖掘算法Apriori在评价文本数据库中发现高频名词及名词词组,并将其视为典型特征;对于包含典型特征的评价文本,数据预处理模块在去除该文本中的停用词后,发现文本中离名词或名词词组最近的形容词,进而生成形如[特征,观点]的特征向量。

9.如权利要求8所述的一种基于用户评价信息的商品舆情分析方法,其特征在于,步骤c中,所述提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪的方法包括:

对于特征向量中的每一个元素,情感分析模块在情感词典内寻找与典型特征及其观点相对应的极性,并将[评论,特征,观点,极性]写入数据库;

情感分析模块从评价数据库内选择部分数据作为训练数据集,采用支持向量机的方法对总体情感进行分类:

首先,对训练数据集进行标记,并对其中的形容词进行词频统计,提取出现频率较高的形容词作为样本特征;然后,将每个训练样本进行转换,将其转换为如下格式:<标记>特征1:个数特征2:个数……特征n:个数,其中<标记>取值为positive或negtive;最后,将转换后的训练数据输入到LIBSVM库中进行分类训练;训练出的分类结果随后被应用到实际数据中,帮助分析用户评价文本的总体情感。

10.如权利要求9所述的一种基于用户评价信息的商品舆情分析方法,其特征在于,步骤d中,在Web端对情感分析模块的分析结果进行可视化展示时,所述展示内容包括:

产品的好评/差评率;正面及负面典型特征,并返回与特征相关的原始评论;帮助用户选择不同品牌及该品牌下的产品。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1