舆情监测分析方法与流程

文档序号:11155018阅读:1954来源:国知局

本发明涉及信息技术,特别涉及互联网大数据分析技术。



背景技术:

在大数据时代,以往日常生活里那些无法共享、不可计量的信息都被数据化,人们可以通过互联网获取信息,参与讨论和表达意见,一方面,对于企业的品牌产品等相关信息的意见也纷纷通过互联网信息进行表达和传递,形成网络舆论;另一方面,对于日常生活中接触到的产品,人们也倾向于通过互联网来进行产品信息的查询,包括其他用户的评论、专业网站评估及门户网站的广告等等,与此同时,用户也可以发布对企业或产品的评估。网络信息的快速传播和扩散,可能产生巨大的舆论力量。因此,在身处于大数据时代的企业必须充分利用数据的价值,全面挖掘和监控互联网数据信息,以便于对产品进行改良、创新、更换以及其他企业级的决策,维护品牌形象,扩大品牌影响力,最终促进企业的竞争力。

由于来自互联网海量数据格式的多样性,传统人工采集、处理数据方式已经难以胜任。虽然目前市面上存在很多舆情分析软件系统,但是其都没有利用舆情信息专门深入细致的针对产品、生产商的竞争力作出定量评测。生产商、产品乃至产品属性的口碑、竞争力是隐藏在海量的舆情数据中的非常有价值的信息。产品舆情分析的目标不单单是对相关产品的主题、热点进行解析、跟踪、预测及预警,更重要的是深入的解剖出整个行业市场中每家厂商的每件产品的相对竞争力,并将其量化使得整个行业的产品的优胜劣汰能够定性定量的得到清晰的展现,同时还能标定出产品间的优劣点。



技术实现要素:

本发明的目的是要解决目前舆情分析软件系统都没有利用舆情信息专门深入细致的针对产品、生产商的竞争力作出定量评测的问题,提供了一种舆情监测分析方法。

本发明解决其技术问题,采用的技术方案是,舆情监测分析方法,其特征在于,包括以下步骤:

步骤1、通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储;

步骤2、针对所存储的结构化数据,自动对其进行分类、聚类、生成摘要及名称识别,并进行正负性质预判;

步骤3、输出并根据需求呈现结构化数据。

具体的,步骤2中,所述正负性质预判是指对评论信息进行文本情感分析。

进一步的,所述对评论信息进行文本情感分析的方法为:

步骤201、针对不同的商品类型建立不同的文本情感分析模型;

步骤202、判断该评论信息所属商品的类型,选择该商品类型对应的文本情感分析模型进行分析。

具体的,步骤201中,所述针对不同的商品类型建立不同的文本情感分析模型中,其文本情感分析模型的建立方法为:获取已有的多个针对某一商品类型的评论信息作为训练集,在训练集的评论信息中进行中文分词操作,得到多个候选词,获取每个候选词对应的情感倾向,将候选词作为特征建立文本情感分析模型。

再进一步的,所述获取每个候选词对应的情感倾向的方式为:判断候选词与一般情感基准词词典中各情感基准词之间的语义距离,确定候选词的情感倾向。

具体的,所述获取每个候选词对应的情感倾向的方式为:人工建立标记情感语料库,将候选词与人工建立的标记情感语料库进行匹配,确定候选词的情感倾向。

再进一步的,步骤202中,在分析时,还提取各评论信息中的候选词并进行统计排序,删除文本情感分析模型中低效和/或无效的特征。

具体的,步骤2中,还对所存储的结构化数据进行清洗,所述清洗为对离群数据及明显不合理的数据进行剔除。

本发明的有益效果是,在本发明方案中,通过上述舆情监测分析方法,可对评论信息自动进行分析,从而得出针对产品或生产商的竞争力所作出的定量评测,为生产商或商品开发人员提供参考,提升产品研发效率和针对性。

具体实施方式

下面结合实施例,详细描述本发明的技术方案。

本发明所述舆情监测分析方法为:首先通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储;然后针对所存储的结构化数据,自动对其进行分类、聚类、生成摘要及名称识别,并进行正负性质预判;最后输出并根据需求呈现结构化数据。

实施例

本发明实施例的舆情监测分析方法,其包括以下步骤:

步骤1、通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储。

本步骤中,分布式网络爬虫技术为现有较为通用的一种信息获取技术,此处不再详述。

步骤2、针对所存储的结构化数据,自动对其进行分类、聚类、生成摘要及名称识别,并进行正负性质预判。

本步骤中,正负性质预判是指对评论信息进行文本情感分析,其分析方法可为以下具体步骤:

步骤201、针对不同的商品类型建立不同的文本情感分析模型。

这里,针对不同的商品类型建立不同的文本情感分析模型中,其文本情感分析模型的建立方法可为:获取已有的多个针对某一商品类型的评论信息作为训练集,在训练集的评论信息中进行中文分词操作,得到多个候选词,获取每个候选词对应的情感倾向,将候选词作为特征建立文本情感分析模型。获取每个候选词对应的情感倾向的方式可为:1)判断候选词与一般情感基准词词典中各情感基准词之间的语义距离,确定候选词的情感倾向;2)人工建立标记情感语料库,将候选词与人工建立的标记情感语料库进行匹配,确定候选词的情感倾向。

步骤202、判断该评论信息所属商品的类型,选择该商品类型对应的文本情感分析模型进行分析。

在分析时,还可以提取各评论信息中的候选词并进行统计排序,删除文本情感分析模型中低效和/或无效的特征,即对文本情感分析模型进行更新。

这里,步骤2中,优选还对所存储的结构化数据进行清洗,清洗是指对离群数据及明显不合理的数据进行剔除。

步骤3、输出并根据需求呈现结构化数据。

这里,根据需求呈现结构化数据的方式多种多样,均为现有较为成熟的技术,因此此处不再详述。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1