针对网络舆情事件的基于模块化的舆情监测方法及系统与流程

文档序号:17081060发布日期:2019-03-09 00:16阅读:747来源:国知局
针对网络舆情事件的基于模块化的舆情监测方法及系统与流程

本研究属于计算机技术领域,具体属于计算机学科中的机器学习、数据挖掘以及模块化权重的技术领域;涉及一种基于集成方法的舆情预测方法及系统,具体涉及一种针对重大网络舆情事件的基于模块化的舆情监测方法及系统。



背景技术:

机器学习(machinelearning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

数据挖掘(英语:datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:knowledge-discoveryindatabases,简称:kdd)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

模型集成的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"强学习器"。随着集成学习研究的深入,其广义的定义逐渐被学者们所接受,它是指对多个学习器集合采用学习的方式,而不对学习器性质加以区分。根据这一定义,多学习器系统(multi-classifiersystem)、多专家混合(mixtureofexperts)以及基于委员会的学习(committee-basedlearning)等多个领域都可以纳入到集成学习中。但当前仍然以同质分类器的集成学习研究居多。



技术实现要素:

本发明为了解决社交网络特定网络舆情信息难以收集与分析而导致的舆情信息难以监控的问题,开拓性地提出了一种针对重大网络舆情事件的基于模块化的舆情监测方法及系统。

本发明的方法所采用的技术方案是:一种针对网络舆情事件的基于模块化的舆情监测方法,其特征在于,包括以下步骤:

步骤1:将网络社交平台分为若干模块进行监控;

步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;

步骤3:获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;

步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;

步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;

步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。

本发明的系统所采用的技术方案是:一种针对网络舆情事件的基于模块化的舆情监测系统,其特征在于:包括监控模块、舆论信息采集模块、重点舆情列表构建模块、整合模块、舆论信息分析模块、未来该舆情话题走向预测模块;

所述监控模块,用于将网络社交平台分为若干模块进行监控;

所述舆论信息采集模块,用于定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;

所述重点舆情列表构建模块,用于获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;

所述整合模块,用于对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;

所述舆论信息分析模块,用于获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;

所述未来该舆情话题走向预测模块,用于根据获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。

本发明针对各大社交门户网站提出了模块化的概念,并结合集成学习方法。该方法实现了对网络舆情的快速采集、高效分析,结合多个社交平台模块,使得最终得到的预测更加精准可靠。

附图说明

图1为本发明实施例的方法流程图;

图2为本发明实施例系统中社交平台监控模块示意图;

图3为本发明实施例系统中集成模型框架示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

请见图1,本发明提供的一种针对网络舆情事件的基于模块化的舆情监测方法,包括以下步骤:

步骤1:将网络社交平台分为若干模块进行监控;

请见图2,本实施例将网络社交平台分为新浪微博采集模块、知乎采集模块、携程采集模块、房天下采集模块、百度贴吧采集模块、豆瓣采集模块等;

步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并利用分类集成方法预测舆情的舆情主要话题并计算模块话题活跃度;

其中第i个模块话题活跃度ai计算公式为:

步骤3:获取话题活跃度超过界限值(本实施例取30%)的话题整体信息,并列入重点舆情列表;

步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;

步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;

本实施例中,利用聚类分类等方法对每个舆情信息的发表的时间、地理位置、用户年龄、性别、职业进行聚类分类操作,得到基本的舆情分析报告。

步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向;

本实施例的集成模型,构建方法为:分别利用多种弱分类器对微博信息进行情感分析,然后通过集成的方式,对所有弱分类器的分类结果进行集成,最后利用“简单投票法”的集成策略将多个分类模型集成在一起,得到最终分类结果;

设计好聚类器与分类集成器之后,将这两部分连接起来组成完整的舆情信息分析子模型;训练时,先将训练样本的舆情信息数据经过k-means聚类器,从而形成多个簇,然后在每个簇上利用由神经网络、逻辑回归、决策树三种弱分类器组成的分类集成器进行训练,最终得到训练好的集成模型。

请见图3,为本实施例的集成模型框架图,通过集成的方式,对所有单独模型的分类结果进行集成,最后利用“简单投票法”的集成策略将多个分类模型集成在一起,得到最终分类结果。设计好聚类器与分类集成器之后,将这两部分连接起来组成完整的舆情信息分析子模型。训练时,先将训练样本的舆情信息数据经过k-means聚类器,从而形成多个簇,然后在每个簇上利用由神经网络,逻辑回归,决策树三种弱分类器组成的分类集成器进行训练,最终得到训练好的模型。

本实施例还提供了一种针对网络舆情事件的基于模块化的舆情监测系统,包括监控模块、舆论信息采集模块、重点舆情列表构建模块、整合模块、舆论信息分析模块、未来该舆情话题走向预测模块;

监控模块,用于将网络社交平台分为若干模块进行监控;

舆论信息采集模块,用于定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;

重点舆情列表构建模块,用于获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;

整合模块,用于对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;

舆论信息分析模块,用于获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;

未来该舆情话题走向预测模块,用于根据获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。

通过本发明可以在第一时间侦测到重大舆情事件的爆发,得到实时舆情报,预测接下来的舆情走向。为了保证预测结果的精确度,对每个社交平台设置了不同模块,并采用权重的方式进行抽取舆情样本,用以预测舆情走向,使预测的结果更为精确。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1