一种基于大数据的舆情监控与分析系统及方法与流程

文档序号：31637357发布日期：2022-09-24 05:09阅读：69来源：国知局

1.本发明涉及大数据技术领域，特别涉及一种基于大数据的舆情监控与分析系统及方法。

背景技术：

2.随着网络技术的快速发展，互联网已成为公众获取信息、表达观点的重要平台。网络舆情是公众对互联网上传播的热点问题所表现的具有一定影响力和倾向性的意见或言论的状态，它通过互联网对社会问题发表看法，或表达有较强影响力、倾向性的言论和观点。网络的舆情状况可以反映社会状态，有效的舆情监控与分析能够帮助锁定热点话题、快速通晓网民情绪发展、明确舆情现状，同时有助于引导舆情走向，避免舆情危机。
3.将信息采集技术和智能信息处理技术结合起来，对网络上的海量信息进行获取、分类和聚类、检测主题等处理，可以实现对舆论的监控和预警。同时，在舆情监控中通查还会对新闻评论的情感进行判断和分析。目前，已有各种不同的基于舆情主题挖掘、民众情感分析等的研究。例如,应用认知情感评价模型构建情感与主题挖掘协同分析模型、采用隐含狄利克雷分布主题模型对民众诉求主题进行挖掘、基于用户注意力机制的情感分析模型等等。但是这些研究中，一方面没有集数据采集、情感分析、可视化等操作为一体的方法，另一方面对于舆情数据的采集的检索策略灵活性较差，且情感分析模型的准确率不佳。

技术实现要素：

4.针对现有技术中的部分或全部问题，本发明一方面提供一种基于大数据的舆情监控与分析方法，包括：
5.根据待监控主题，确定检索词；
6.根据所述检索词，获取舆情数据并存储，其中，所述舆情数据包括舆情新闻的正文及评论；
7.基于所述舆情数据，提取舆情热词；
8.对所述舆情数据进行情感分类，并进行量化分析；以及
9.根据所述舆情热词及量化分析结果形成分析报告。
10.进一步地，所述检索词的确定包括：
11.根据待监控主题，确定基础检索词；以及
12.基于词向量技术，进行语义相似度分析，以获取与所述基础检索词的词向量相似的新词，并将所述新词作为迭代检索词。
13.进一步地，所述词向量根据如下步骤训练得到：
14.将存储的部分或全部舆情数据作为无监督训练语料；
15.对所述无监督训练语料进行清洗，包括：分词、去除符号及停用词；以及
16.使用词向量模型对清洗后的语料进行训练，得到词向量。
17.进一步地，所述舆情数据通过爬虫技术获取。
18.进一步地，通过爬虫技术获取舆情数据包括每间隔指定时长，执行一次以下动作：
19.在指定网站的热搜榜中检索包含所述检索词的话题；以及
20.选取所述话题下热度最高的舆情新闻，并获取其对应的评论。
21.进一步地，所述舆情热词的提取包括：
22.对所述舆情新闻的标题进行分词；
23.对符合预定词性的关键词进行词频统计，并按照词频从高到低进行排序；以及
24.确定排序前n位的关键词的搜索指数，删除搜索指数低于预设值的关键词，将剩下的关键词作为舆情热词。
25.进一步地，对所述舆情数据进行情感分类包括：根据情感模型确定所述舆情数据的情感分数，进而确定情感分类。
26.进一步地，所述情感模型根据如下步骤训练得到：
27.对训练数据集进行清洗及分词，其中所述训练数据集包括互联网上公开的已标注情感的评论，以及根据检索词获取的舆情数据；
28.基于互联网上公开的评论数据集，采用无监督的词向量模型训练得到词向量，作为第一特征；
29.从互联网获取情感词表，所述情感词表包括积极、消极两个词表，并根据所述情感词表，对训练数据集中的每段文字的情感词进行编码，得到第二特征；以及
30.融合所述第一特征及第二特征，通过深度学习技术得到情感模型。
31.进一步地，对训练数据集的清洗及分词时，保留表情词、带有明确情感的新词汇以及问号、感叹号。
32.进一步地，所述深度学习技术包括：
33.使用bi-lstm对融合后第一特征及第二特征进行特征提取；以及
34.用线性层输出得到情感分数，其中，所述情感分数取值为0到1之间，包含1和0：
35.若某段文字的情感分数大于0.6，则所述文字的情感分类判定为积极；
36.若某段文字的情感分数小于0.4，则所述文字的情感分类判定为消极；
37.若某段文字的情感分数介于0.4到0.6之间，则所述文字的情感分类判定为中性。
38.进一步地，所述情感模型的训练还包括：
39.训练多个情感模型，并将训练得到最优结果的模型作为最终的情感模型。
40.进一步地，所述分析报告包括：
41.舆情热词及其对应的不同情感分类的舆情新闻和/或评论的数量和 /或比例；
42.报告概论，包括所述舆情数据中，消极评论量排名前l位的舆情新闻的标题；以及
43.详细新闻列表，包括所述舆情数据中所有评论量不为0的舆情新闻及其情感分类。
44.进一步地，所述方法还包括：
45.将所述舆情热词及量化分析结果以可视化的方式展示出来。
46.本发明另一方面提供一种基于大数据的舆情监控与分析系统，包括：
47.数据抓取模块，其用于根据检索词获取舆情数据；
48.数据存储模块，其用于存储舆情数据、舆情热词以及量化分析结果；以及
49.数据处理模块，其用于基于所述舆情数据提取舆情热词，对所述舆情数据进行情感分类及量化分析，以及形成分析报告。
50.本发明提供的一种基于大数据的舆情监控与分析系统及方法，其集舆情数据采集、清洗、情感分析、可视化与报告自动生成等功能于一体，相较于现有舆情分析系统仅包含较为单一的功能，其能够实时发现舆情、精准分析舆情、快速出具报告，进而大大提高舆情监管效率以及相关部门的管理决策效率。具体而言，首先，其使用cbow或skip-gram 模型，基于大量与指定主题相关的语料进行词向量模型训练，以精准地迭代舆情检索策略，相比于传统的直接调用获取新词的方法，精准度更高，针对后续舆情能够有更好的适用性，能够有效降低系统迁移、更新与应用成本。其次，其采用了基于bi-lstm模型的深度学习技术对舆情数据进行情感分类，且在舆情数据数据预处理时保留了表情词、特殊新词、标点符号“！”与“？”，以尽可能广泛的保留文本中的情绪信息，同时，在模型训练过程中，基于舆情大数据对模型参数进行了调整、调优，进一步使得训练出的情感分类模型准确性更佳，能为管理者决策提供高质量舆情数据基础。此外，所述系统还可具备显示功能，其可以基于echarts图库，将提取到的舆情热词、情感分析结果等信息自动生成图示并显示，进而有效地增强了信息传递效率，使得监管部门舆情处理更快速，以提升管理效能。
附图说明
51.为进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。
52.图1示出本发明一个实施例的一种基于大数据的舆情监控与分析系统的结构示意图；以及
53.图2示出本发明一个实施例的一种基于大数据的舆情监控与分析方法的流程示意图。
具体实施方式
54.以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法一起实施各实施例。在其它情形中，未示出或未详细描述公知的操作以免模糊本发明的发明点。类似地，为了解释的目的，阐述了特定配置，以便提供对本发明的实施例的全面理解。然而，本发明并不限于这些特定细节。
55.在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
56.需要说明的是，本发明的实施例以特定顺序对操作步骤进行描述，然而这只是为了阐述该具体实施例，而不是限定各步骤的先后顺序。相反，在本发明的不同实施例中，可根据实际需求的调节来调整各步骤的先后顺序。
57.为了能够及时发现舆情并进行精准分析，进而提高舆情监管效率以及管理决策效率，本发明提供一种基于大数据的舆情监控与分析系统及方法，其集舆情数据爬取、治理、存储、情感分析、可视化报告于一体, 通过能够自动迭代的检索策略整合百度、头条、微博
等多个常用平台中指定主题的舆情数据,在数据集上对情感分析模型参数进行调整,提高了模型情感分类的准确率,此外还通过分词技术实现舆情热词的量化统计,最终自动生成网民情绪分布及变化的报告,对舆情监测、分析、引导具有重要意义。下面结合实施例附图，对本发明的方案作进一步描述。
58.图1示出本发明一个实施例的一种基于大数据的舆情监控与分析系统的结构示意图。如图1所示，一种基于大数据的舆情监控与分析系统，包括数据抓取模块101、数据存储模块102以及数据处理模块103，其中，所述数据抓取模块101用于根据检索词获取舆情数据，所述数据存储模块102则用于存储舆情数据、舆情热词以及量化分析结果，以及所述数据处理模块103用于基于所述舆情数据提取舆情热词，对所述舆情数据进行情感分类及量化分析，以及形成分析报告，在本发明的一个实施例中，所述数据处理模块103还能以可视化的形式将舆情热词以及量化分析结果显示出来。
59.在本发明的一个实施例中，所述数据抓取模块101采用爬虫技术对互联网平台中与待监控主题相关的数据进行抓取。具体而言，其是根据检索词，在互联网平台，例如微博热搜榜、头条热搜榜中，检索包含所述检索词的热搜话题，然后在每个话题下选取热度最高的舆情新闻，例如微博或头条文章等，并获取其对应的所有网友评论。在本发明的一个实施例中，所抓取的字段主要包括：舆情新闻的文章链接、文章原始id、来源网站、标题、发布人、正文、发布时间、转发数、回帖数、点赞数、开始爬取时间、数据抽取时间，以及评论的文章原始id、来源网站、回帖用户名、回帖时间、回帖内容、点赞数、开始爬取时间、数据抽取时间。为了提高舆情分析的时效性，在本发明的又一个实施例中，每指定时长重复一次如前所述的抓取过程。
60.接下来，以python技术包为例，进一步说明通过爬虫技术在微博及头条文章中进行数据抓取的过程。
61.对于微博而言，首先需要通过requests包爬取微博热搜榜单，并用网页selector获取元素标签，解析提取包含所述检索词的话题和话题url，接下来，根据所述话题url，找到话题下第一条新闻的微博链接及作者，根据所述微博链接，正则提取出微博字符id，并用字符id，通过接口'https://weibo.com/ajax/statuses/show？id＝{字符id}'，拿到微博的数字id及文章发表时间，由于根据话题url，获取到的微博是不显示全文的，因此还需要进一步地根据所述数字id，通过接口 'https://m.weibo.cn/status/{数字id}'，拿到微博全文、点赞数、评论数、转发数，最后在存储所有微博信息后，通过微博开发平台的api 接口，调用comments/show方法，参数为微博数字id，获取相关微博的评论数据。在本发明的一个实施例中，一次拉取最大评论条数优选为200 条，优选调用频率大于30秒，且调用行为的持续时长优选低于1小时。
62.在头条文章中进行数据抓取与微博类似，首先采用requests包爬取头条热搜榜单，解析提取话题和话题id，根据话题id可同时提取本话题下，头条列为展示项的文章url，然后根据文章url，获取文章摘要、作者、创建时间、点赞数、评论数、转发数、group_id及item_id，并根据group_id和item_id，调用头条移动端文章接口，获取文章对应评论信息。在本发明的一个实施例中，一次拉取最大评论条数优选为20 条，且调用频率优选大于20秒。
63.在本发明的一个实施例中，所述检索词的基础检索词根据待监控主题确定，同时
可基于大数据对检索词进行不断的迭代更新。具体而言，是在累积大量与待监控主题相关的语料后，通过这些语料进行无监督学习训练词向量，并根据训练的词向量，通过词向量相似度，获取与基础检索词的相近的新词，以作为候选的迭代检索词。在本发明的一个实施例中，所述词向量的训练包括：
64.首先，查询获取所述数据存储模块102中存储的舆情新闻及评论，并将其部分或全部作为无监督训练语料，例如可根据实际需求，选取某一指定时间段内抓取的数据作为无监督训练语料；
65.接下来，对所述无监督训练语料进行预处理，包括分词及清洗，其中，所述清洗主要包括去除符号及停用词等；以及
66.最后，对清洗后的语料使用词向量模型进行训练得到词向量，其中，所述词向量模型例如可采用cbow或skip-gram模型等。
67.应当理解的是，在本发明的其他实施例中也可采用其他方法获取词向量相似的词，例如直接调用wv.most_similar。
68.在本发明的一个实施例中，所述数据存储模块102中包括舆情分析表以及舆情回帖表，其中，舆情回帖表中包括所有抓取到的评论及其对应的情感分数及情感分类标签，以及所述舆情分析表中包括所有抓取到的舆情新闻及其对应的不同情感分类的评论的数量。其中，所述情感分数及情感分类标签通过所述数据处理模块103得到。在本发明的一个实施例中，所述情感分类标签包括：积极、消极、中性三种。
69.在本发明的一个实施例中，所述舆情热词的提取包括：
70.首先，对所述舆情新闻的标题进行分词：查询所述数据存储模块102 中存储的舆情新闻的标题，使用例如jieba中文分词等工具，去除标点符号、单字、数字、及在停用词库中的词，其中初始停用词库来源于互联网常用中文停用词，可在使用过程中不断补充停用词；
71.接下来，对符合预定词性的关键词进行词频统计，并按照词频从高到低进行排序：根据jieba内置的tf-idf方法，抽取每条舆情新闻词性为名词、动词、形容词的关键词，再对所有关键词进行词频统计并排序，取排序前n位的关键词，其中，所述n值根据业务需求确定，优选为40；以及
72.最后，确定所述排序前n位的关键词的搜索指数，删除搜索指数低于预设值的关键词，将剩下的关键词作为舆情热词：通过百度指数api，获取所述排序前n位的关键词前一日的搜索指数，并删除搜索指数低于预设值的关键词，以过滤掉一些非重点的词，将剩下的关键词作为舆情热词，在本发明的一个实施例中，可根据需要保留的关键词数量确定搜索指数，例如金保留1/2的关键词作为舆情热词。此外，在本发明的一个实施例中，还可以进一步地根据所述舆情热词与舆情新闻的关联，将舆情新闻的不同情感标签的评论量关联给所述舆情热词，以赋予其情感属性。
73.在本发明的一个实施例中，采用了诸如bi-lstm模型等的深度学习技术对所述舆情数据进行情感分类，并实现舆情数据的量化分析。其中，对所述舆情数据进行情感分类主要是指根据情感模型确定所述舆情数据的情感分数，进而确定情感分类。在情感分类过程中，所述舆情数据主要是指舆情新闻的评论。在本发明的一个实施例中，所述情感模型的输入参数包括第一特征及第二特征，其中，第一特征是指分词、清洗后的舆情数据的词向量，
第二特征则是指对舆情数据中包含的情感词进行编码(encoding)后得到内容。在本发明的又一个实施例中，所述情感分数的取值为0到1之间，包含1和0，且具有如下含义：
74.若舆情数据的情感分数大于0.6，则所述舆情数据的情感分类判定为积极；
75.若舆情数据的情感分数小于0.4，则所述舆情数据的情感分类判定为消极；
76.若舆情数据的情感分数介于0.4到0.6之间，则所述舆情数据的情感分类判定为中性。
77.在本发明的一个实施例中，所述情感模型根据如下步骤训练得到：
78.首先，加载训练数据集。所述训练数据集主要包括两部分：一部分来源于互联网中公开的已标注情感的评论数据集，另一部分为所述数据存储模块102中存储的舆情新闻的评论，所述训练数据集可不断地更新补充中，因此，通常，所述训练数据集的数据量大于100kb，同时，所述训练数据集中所包含的情感分数包括两个取值：1表示积极，0表示消极；
79.接下来，数据预处理。对所述训练数据集进行清洗及分词，由于目前在网络平台上用户的发帖会广泛运用表情来表达情绪与态度，因此在本发明的一个实施例中，进行分词时，对特定平台的表情词做了保留处理，例如[太开心]，[哆啦a梦害怕]等。同时，社交媒体的语料有一个特点，每过一段时间会衍生出一些新词汇，如“芭比q了”，其具有强烈的情感特点，因此，在本发明的又一个实施例中，还会保留这类特殊新词，以避免分词后出现判定偏误。此外，为避免影响模型判断，还可去掉如html标签、用户名、微博话题及标点符号等内容，但由于“？”与“！”会包含一定情绪信息，因此可在模型中保留“？”与“！”；
[0080]
接下来，获取第一特征。训练词向量，在词向量训练过程中，融合公开的互联网上的评论数据集与大量微博与头条等社交媒体平台上的与待监控主题有关话题的评论数据集，使用无监督的词向量模型如 word2vec等，对所述预处理后的数据集进行训练，以获取词向量，作为第一特征；
[0081]
接下来，获取第二特征。加载情感词表，所述情感词表来源于互联网，主要分为积极和消极两个词表，同时也可根据项目需要，动态调整一些情感词，根据所述情感词表，对所述预处理后的数据集中每段文字包含的情感词做编码(encoding)，将编码结果作为第二特征；以及
[0082]
最后,训练模型。融合所述第一特征及第二特征，通过诸如bi-lstm 等深度学习技术进行特征提取，用线性层输出得到分类结果。在本发明的实施例中，输出的情感分数不再局限于0和1两个数值，而是在0到 1之间，包含1和0，且情感分类在消极、积极两大类基础上，进一步增加了中性这一情感分类，具体而言，当样本分值大于0.6时判定为积极，当分值小于0.4时判定为消极，介于0.4到0.6之间为中性。为了提高分类准确率，在本发明的一个实施例中，可训练多个情感模型，并将训练得到最优结果的模型保存下来，作为最终的情感模型，直接用于测试数据和未来新数据的预测。
[0083]
在本发明的一个实施例中，所述分析报告包括：
[0084]
报告热词，其例如可以是最近一次存储的舆情热词中，百度指数和 /或词频最高的若干个词；
[0085]
报告概率，其例如可以使最近一次存储的舆情数据中，消极评论量排名前l位的舆情新闻的标题；以及
[0086]
详细新闻列表，其例如可包括所述舆情数据中所有评论量不为0的舆情新闻。
[0087]
在本发明的其他实施例中，所述分析报告中还可以进一步地包括：
[0088]
报告热词对应的不同情感分类的舆情新闻的数量和/或比例；和/或
[0089]
报告热词对应的不同情感分类的评论的数量和/或比例；和/或
[0090]
详细新闻列表中各个舆情新闻的情感分类等。
[0091]
在本发明的一个实施例中，所述可视化的形式包括：
[0092]
初始化时从接口中获取舆情热词，利用前端echarts图库展示舆情热词气泡以及图表，分别可呈现分散和聚类两种形式，当点击舆情热词，可获取到相应舆情热词的情感分析数据，且可根据echarts画出舆情热词的积极、中性、消极的数量分布柱状图；和/或
[0093]
初始化时从新闻列表接口中获取的舆情新闻数据，在舆情分析页面右侧展示获取到的舆情新闻列表，每则舆情新闻的展示包括时间、排序、新闻详情等；和/或
[0094]
选择前指定个舆情热词中的热词作为关键词，从接口获取数据后，配置echarts属性，得到百度指数最近14天的数据曲线图；和/或
[0095]
初始化时根据不同关注主题获取排名前几位的舆情新闻数据，所述舆情新闻数据的评论的情感分析利用eccharts的饼状图呈现出积极、中性、消极三种分布。
[0096]
基于如前所述的系统，图2示出本发明一个实施例的一种基于大数据的舆情监控与分析方法的流程示意图。如图2所示，一种基于大数据的舆情监控与分析方法，包括：
[0097]
首先，在步骤201，确定检索词。根据待监控主题，确定基础检索词，并基于词向量技术，进行语义相似度分析，以获取与所述基础检索词的词向量相似的新词，并将所述新词作为迭代检索词，以不断更新检索策略；
[0098]
接下来，在步骤202，数据抓取及存储。根据所述检索词，获取舆情数据并存储，其中，所述舆情数据包括舆情新闻的正文及评论，如前所述，可以每间隔指定时长，通过爬虫技术获取舆情数据；
[0099]
接下来，在步骤231，提取舆情热词。基于所述舆情数据，提取舆情热词，如前所示，可基于中文分词库，对舆情数据进行分词处理，进而获取舆情热词；
[0100]
同时，在步骤232，情感分类。对所述舆情数据进行情感分类，并进行量化分析，如前所述，可通过深度学习技术确定情感模型，进而根据所述情感模型确定所述舆情数据的情感分数，以确定情感分类；以及
[0101]
最后，在步骤204，形成分析报告。根据所述舆情热词及量化分析结果形成分析报告，并可进一步进行可视化展示。
[0102]
采用如前所述的系统及方法，可以对不同关注主题进行舆情数据爬取、治理、存储、情感分析，并生成可视化报告。且其能够形成自动迭代的检索策略，同时其整合百度、头条、微博3个平台有关指定舆情数据,在数据集上对情感分析模型参数进行调整,提高了模型情感分类的准确率,此外还通过分词技术实现舆情热词的量化统计,最终自动生成网民情绪分布及变化的报告,对舆情监测、分析、引导具有重要意义。
[0103]
尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王延峰王兴鹏张文宏徐捷石虎伟张昊澄
技术所有人：上海申康医院发展中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。