一种基于大数据的舆情聆听系统的制作方法

文档序号：18740422发布日期：2019-09-21 01:42阅读：196来源：国知局

本发明属于互联网信息处理技术领域，具体涉及为一种基于大数据的舆情聆听系统。

背景技术：

舆情监控，整合互联网信息采集技术及信息智能处理技术，通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪等信息需求，形成简报、报告、图表等分析结果，为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。

现有的舆情监测系统主要实现对舆情事件的获取和分析功能，在对舆情事件进一步处理时，不能对舆情事件的状态进行实时追踪。例如，在食药领域，当舆情事件比较多时，食药监督工作人员通常无法对舆情事件做出及时响应(对负面信息进行澄清、回应、辟谣等)，致使在对舆情进行控制时延误最佳时机。

因此，如何提供一种舆情监控的系统，以使舆情事件得到及时处理，成为现有技术中亟需解决的技术问题。

技术实现要素：

本发明的目的在于克服上述提到的缺陷和不足，而提供一种基于大数据的舆情聆听系统。

本发明实现其目的采用的技术方案如下。

一种基于大数据的舆情聆听系统，其特征在于，包括：

信息采集单元：在大数据的基础上，采用技术手段进行舆情信息的采集，将预设的主题词，从网络平台上筛选出包含主题词的网络页面文本数据；

信息爬取单元：连接信息采集单元，对包含主题词的网络页面文本数据进行分析，使用已有的网络爬虫技术，通过分词技术对网络页面文本数据进行分词处理，获得多个词组；并根据多个网络页面中出现的该词组的频率，将出现频率高的词组确定为与主题词相关联的关键词；

噪声过滤单元：连接信息采集单元并接收从信息采集单元传输过来的关键词的集合信息和主题词的词频，并对关键词进行去噪；

权重分配单元，连接噪声过滤单元并接收从噪声过滤单元传输过来的关键词的集合信息和主题词的词频；根据主题词出现的频率，确定舆情的级别，筛选出成长期的舆情和成熟期的舆情，作为后续监控和分析的“凸显舆情”；同时，根据关键词出现的频率，确定“凸显舆情”的性质；

舆情分析单元，连接权重分配单元，实时接收权重分配单元发送过来的舆情值、关键词的集合信息和主题词的词频；针对成长期和成熟期的舆情的现状进行风险评估，分析主题词和关键词随时间变化的热度，确定舆情的发展脉络，还原事态的发展，并对未来发展态势进行趋势预测，及时发出舆情风险评估；

报警与应对单元，连接舆情分析单元和信息采集单元，针对“凸显舆情”，通过消息推送，将舆情分析内容反馈给客户，还原事态的发展，展现对于该事件的舆情的最主要的关切点，建议采用的应对措施。

所述信息采集单元中的大数据涵盖了传统媒体、微博、微信、各类媒体分发平台、网络讨论区论坛。

所述权重分配单元中，舆情的级别，分为：

1.孵化期：舆情的热度较低，尚未形成规模化的讨论，影响范围仅局限在小范围内，但是有转换为热点舆情的可能；

设定阈值N；阈值N为经验常数；当舆情的主题词出现的频率接近于N时，表示该舆情时间为热点舆情；

孵化期的主题词出现的频率＜N/5；

2.成长期：舆情的热度中等，但是成长速度和传播速度较高，影响到的范围越来越广；

N/5≤成长期的主题词出现的频率＜4N/5；

3.成熟期：舆情的关注度炙热，影响范围非常广，基本上各个平台都有讨论；

成熟期的主题词出现的频率≥4N/5；

4.衰退期：舆情的热度逐步衰减；孵化期、成长期和成熟期都有可能直接进入衰退期。

对针对“凸显舆情”进行研判，是指针对“凸显舆情”中不同的关键词，给予不同的权重：

S1，权重分配单元内设语义分析模块，比对“凸显舆情”关键词，确定关键词类型；关键词类型包括：

1.是事实陈述的关键词；事实陈述的关键词，隶属于以下领域：舆情来源、采集时间、涉及类别、事件名称、事发地点、涉及单位、伤亡人数、发生时间、基本情况、报告人、报告时间；

事实陈述的关键词，仅作为还原事件经过的关键词；

2.语气倾向的关键词，可分为褒义词、中性词和贬义词；

语气倾向的关键词，作为舆情事件的定性内容；

S2，根据关键词的类型、出现热度、倾向，赋予该关键词舆情值；

舆情本身是一种矢量，其基本指标包括热度、倾向；

重点分析语气倾向的关键词；已知该类关键词T的词频Tf，表示其热度；关键词T的词性Tx，表示倾向；正面的积极的关键词T词性Tx为大于1的正数，负面的关键词T性Tx为小于-1的负数，中性的关键词T性Tx为0；词性Tx由系统预设，人为可调整其具体的数值；Tx的绝对值位于[1，3]；

舆情值

其中，A为舆情值，Tif表示第i个关键词的词频，Tix表示第i个关键词的词性，N表示包含主题词的网络页面总数量；

当舆情值A小于报警阈值-B，则表示该舆情事件为负面事件，需要紧急处理；其中，B为大于0的经验常数；

当舆情值A大于报警阈值B，则表示该舆情事件为正面事件；其中，B为大于0的经验常数。

所述舆情分析单元中，舆情分析内容包括：

1.根据事实陈述的关键词，还原舆情事件的概况；

2.根据舆情值，确定舆情事件的性质为正面舆情还是负面舆情；3.根据多个时间点采集的舆情值，还原舆情事件的性质发展历史，并对发展趋势做合理的预测；

4.罗列出现最多的几项关键词。

所述报警与应对单元中，应对措施为：事件澄清、回应、辟谣、资源调度中至少一种。

本方案，统一对大数据中的舆情进行监测和分析，自动获得相应数据，建立有效的舆情风险评估研判机制。本方案，用于捕捉网络舆情信息，在海量数据中实时把握网络舆情导向，有助于客户在第一时间对负面舆情作出应对，防止网络水军对舆情做出误导。

附图说明

图1是本发明的结构示意图；

图2是本发明的原理图；

图中：信息采集单元1、信息爬取单元2、噪声过滤单元3、权重分配单元4、舆情分析单元5、报警与应对单元6。

具体实施方式

下面结合附图，对本发明作进一步详细说明。

一种基于大数据的舆情聆听系统，包括信息采集单元1、信息爬取单元2、噪声过滤单元3、权重分配单元4、舆情分析单元5、报警与应对单元6。

所述信息采集单元1，在大数据的基础上，采用技术手段进行舆情信息的采集，将预设的主题词，从网络平台上筛选包含主题词的网络页面文本数据。

随着互联网的普及，舆情呈现多元化，承载舆情的载体，不仅体现在新闻媒体、社交媒体、境外媒体等传统媒体，还包括微博、微信、各类媒体分发平台(包括新闻网站、新闻客户端等)、网络讨论区论坛。因此，本方案建立在大数据的基础上，大数据涵盖了新闻媒体、社交媒体、境外媒体等传统媒体，还包括微博、微信、各类媒体分发平台(包括新闻网站、新闻客户端等)、网络讨论区论坛。

所述信息爬取单元2，连接信息采集单元1，对包含主题词的网络页面文本数据进行分析，使用已有的网络爬虫技术，通过分词技术对网络页面文本数据进行分词处理，获得多个词组；并根据多个网络页面中出现的该词组的频率，将出现频率高的词组确定为与主题词相关联的关键词。

所述噪声过滤单元3，连接信息采集单元1并接收从信息采集单元1传输过来的关键词的集合信息和主题词的词频，并对关键词进行去噪。例如，在关键词的集合信息中，去除“的”“我”等常见的无事实性内容的词语。

所述权重分配单元4，连接噪声过滤单元3并接收从噪声过滤单元3传输过来的关键词的集合信息和主题词的词频，根据主题词出现的频率，确定舆情的级别，筛选出成长期的舆情和成熟期的舆情，作为后续监控和分析的“凸显舆情”；同时，根据关键词出现的频率，确定“凸显舆情”的性质。

舆情的级别，分为：

1.孵化期：舆情的热度较低，尚未形成规模化的讨论，影响范围仅局限在小范围内，但是有转换为热点舆情的可能。

设定阈值N。阈值N为经验常数。当舆情的主题词出现的频率接近于N时，表示该舆情时间为热点舆情。

孵化期的主题词出现的频率＜N/5。

2.成长期：舆情的热度中等，但是成长速度和传播速度较高，影响到的范围越来越广。

N/5≤成长期的主题词出现的频率＜4N/5。

3.成熟期：舆情的关注度炙热，影响范围非常广，基本上各个平台都有讨论。

成熟期的主题词出现的频率≥4N/5。

4.衰退期：舆情的热度逐步衰减。孵化期、成长期和成熟期都有可能直接进入衰退期。

设置不同级别的舆情，有利于后续处理模块对不同级别的舆情投入不同等级的处置方式。

对针对“凸显舆情”进行研判，针对“凸显舆情”中不同的关键词，给予不同的权重。

首先，权重分配单元4内设语义分析模块，比对“凸显舆情”关键词，确定关键词类型。关键词类型包括：

1.是事实陈述的关键词；事实陈述的关键词，隶属于以下领域：舆情来源、采集时间、涉及类别、事件名称、事发地点、涉及单位、伤亡人数、发生时间、基本情况、报告人、报告时间。

事实陈述的关键词，仅作为还原事件经过的关键词。

2.语气倾向的关键词，可分为褒义词、中性词和贬义词。

语气倾向的关键词，作为舆情事件的定性内容。

其次，根据关键词的类型、出现热度、倾向，赋予该关键词舆情值。

舆情本身是一种矢量，其基本指标包括热度、倾向。

重点分析语气倾向的关键词。已知该类关键词T的词频Tf，表示其热度；关键词T的词性Tx，表示倾向。正面的积极的关键词T词性Tx为大于1的正数，负面的关键词T性Tx为小于-1的负数，中性的关键词T性Tx为0。词性Tx由系统预设，人为可调整其具体的数值。Tx的绝对值位于[1，3]。

舆情值

其中，A为舆情值，Tif表示第i个关键词的词频，Tix表示第i个关键词的词性，N表示包含主题词的网络页面总数量。

当舆情值A小于报警阈值-B，则表示该舆情事件为负面事件，需要紧急处理。其中，B为大于0的经验常数。

当舆情值A大于报警阈值B，则表示该舆情事件为正面事件。其中，B为大于0的经验常数。

定时抓举舆情值，可以得到该舆情的发展历史，并预测后续的发展倾向。

本方案整合所有的主题词和关键词，确定舆情值，从而为舆情定性。

网络舆情涉及多个变量，有些变量是难以进行量化测量的，有些变量对整体影响不大但测量却费事费力。因此，舆情的风险评估指标体系，需要具有一定的可操作性，尤其是在突发事件处理过程中，要求舆情风险评估工作能够迅速把握舆情风险的本质。舆情的指标数量不宜过多，评估方法应当是能够实现快速响应、操作性强。

本方案，只应用舆情的语气倾向的关键词，对舆情的种类性质做定义，并根据陈述事实的关键词，还原舆情事件的历史脉络，有利于使用者在了解舆情事件的概况的同时，知晓该舆情事件的性质，并根据舆情事件发展历史，合理预测发展走向。

所述舆情分析单元5，连接权重分配单元4，实时接收权重分配单元4发送过来的舆情值、关键词的集合信息和主题词的词频；针对成长期和成熟期的舆情的现状进行风险评估，分析主题词和关键词随时间变化的热度，确定舆情的发展脉络，还原事态的发展，并对未来发展态势进行趋势预测，及时发出舆情风险评估，防患于未然。

舆情分析内容包括：

1.根据事实陈述的关键词，还原舆情事件的概况。

2.根据舆情值，确定舆情事件的性质为正面舆情还是负面舆情。

3.根据多个时间点采集的舆情值，还原舆情事件的性质发展历史，并对发展趋势做合理的预测。

4.罗列出现最多的几项关键词。

所述报警与应对单元6，连接舆情分析单元5和信息采集单元1，针对“凸显舆情”，通过消息推送，将舆情分析内容反馈给客户，还原事态的发展，展现对于该事件的舆情的最主要的关切点，建议采用的应对措施。应对措施可以是：事件澄清、回应、辟谣或者资源调度。当发现风险等级较高的舆情时，可以采用后续的联动机制，对舆情进行引导，从而降低舆情的进一步的负面影响。

值得注意的是：越来越多的年轻人不再关注主流媒体的报道，而是通过网上获得信息。因此，对于舆情的应对措施，也应当投入更多的比重在网络上，用年轻人愿意接受的网络语言和方式，开展对于舆情的正对性引导。

舆情对应的事件，本身可能存在一定的模糊性和争议性，容易滋生大量不实信息，甚至出现谣言，导致公众产生愤怒情绪。因此，需要及时回应公众的关切点，官方公布情况通报。公开透明的处理紧急事件，是控制舆情风险进一步发酵的根本保障。

本方案具有以下有益效果：

首先，根据主题词的抓取，引出关键词。根据主题词判断舆情是否属于“凸显舆情”，筛选出“凸显舆情”之后，再根据语气倾向的关键词计算舆情值，判断舆情事件的性质，计算量小。

同时，本方案还能实时计算舆情值，从而能及时反馈舆情的最新状态，方便客户及时采取应对措施。

另外，本方案能计算多时间点的舆情值，从而还原舆情的历史发展，有利于客户在了解舆情事件的概况的同时，知晓该舆情事件的性质，并根据舆情事件发展历史，合理预测发展走向。

并且，本方案还持续追踪舆情后续的发展态势，反馈应对措施的效果，作为改进应对手段的参考。

本发明按照实施例进行了说明，在不脱离本原理的前提下，本装置还可以作出若干变形和改进。应当指出，凡采用等同替换或等效变换等方式所获得的技术方案，均落在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟宪坤;张蕾;刘杰
技术所有人：浙江华坤道威数据科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。