部署于互联网的舆情监测应用系统及运用方法

文档序号:6524677阅读:343来源:国知局
部署于互联网的舆情监测应用系统及运用方法
【专利摘要】本发明公开了一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统。同时公开了一种监测应用系统的运用方法。对采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。从而达到实时、全面的收集网络信息,从而避免网络谣言的目的。
【专利说明】部署于互联网的舆情监测应用系统及运用方法
【技术领域】
[0001]本发明涉及信息通信领域,具体地,涉及一种部署于互联网的舆情监测应用系统及运用方法。
【背景技术】
[0002]目前,随着互联网应用越来越广泛,人们能够在互联网上表达自己的看法。当网络中的群体针对某一热点事件,集中关注并纷纷发表意见时,很容易形成网络舆情,网络舆情对国家安全、社会稳定和企业个人的声誉都会造成非常严重的影响,因此有效的开展舆情监测技术有着十分广泛的应用需求。然而随着互联网传输媒介的种类呈现多样化的发展趋势,互联网信息发布的源头呈现爆炸式的发展势头,使得在网络上开展实时有效的舆情监测技术难度越来越高,现有技术均不可以实时、全面的收集网络信息。

【发明内容】

[0003]本发明的目的在于,针对上述问题,提出一种部署于互联网的舆情监测应用系统及运用方法,以实现实时、全面的收集网络信息,从而避免网络谣言的优点。
[0004]为实现上述目的,本发明采用的技术方案是:
一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统;
所述数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息;
所述基本数据存储中心:完成系统工作过程中所需要的数据存储功能;
所述数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征;
所述舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。
[0005]根据本发明的优选实施例,所述网络信息至少包括网络上的网页、微博和论坛信
肩、O
[0006]根据本发明的优选实施例,所述数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块;
所述网络爬虫模块,通过将网络爬虫在网络上进行自动的传播和扩散,从而自动的对网络上的网页、微博和论坛进行数据采集;
所述数据去重模块,将由上述网络爬虫采集到的页面原始数据经数据去重处理后,剔除在采集过程中所得到的重复数据; 所述数据过滤模块,根据预先设定的数据过滤规则,将不需要进行处理的页面类型和页面信息进行过滤;
所述数据筛选模块,根据上述舆情监测管理子系统内预先设定的数据采集敏感值,对所采集到的数据进行筛选,提取出有分析价值潜力的页面数据。
[0007]根据本发明的优选实施例,所述舆情监测管理子系统包括用户接口模块、舆情显示模块、热点统计模块、舆情趋势动向显示模块和数据检索模块;
所述用户接口模块、实现系统与用户之间的人机交互;
所述舆情显示模块、对上述数据挖掘子系统输出的各种热点事件和页面的热门评价结果转化成舆情态势显示;
所述热点统计模块、对热点事件进行统计;
所述舆情趋势动向显示模块,对舆情的发展趋势进行记录并显示;
所述数据检索模块、根据用户输入的检索关键词,对相关的页面原始数据进行检索和输出。
[0008]根据本发明的优选实施例,所述舆情显示模块,将其接收到的舆情信息分别在页面中实时的进行记录和显示。
[0009]根据本发明的优选实施例,所述舆情趋势动向显示模块,将在一段时间记录到的热点事件依次进行统计和记录,以曲线图的形式绘制热点事件。
[0010]根据本发明的优选实施例,所述数据挖掘处理子系统具有分词、分词聚类、页面排名统计、回贴数量统计、页面转发次数统计和处理周期设定功能。
[0011]同时本发明的技术方案还公开了一种权利部署于互联网的舆情监测应用系统的运用方法,包括以下步骤:
步骤1、通过舆情监测管理子系统中的用户接口模块,输入监测的敏感事件关键词;步骤2、由数据采集子系统对网络数据进行采集,通过网络爬虫模块在互联网中快速进行传播,对多种信息媒介内容进行采集;
步骤3、将上述采集到的原始数据分别经过数据去重、数据过滤和数据筛选提取出有分析价值的页面数据;
步骤4、将上述步骤2采集到的原始数据送入基本数据存储中心,以通用的数据格式将所采集到的所有数据存储在基本数据存储中心;
步骤5、启动数据挖掘处理子系统中的分词功能,依次从基本数据存储中心提取页面数据,并从中抽取出各分词结果;
步骤6、应用分词聚类功能的分词聚类算法对分词结果进行聚类,给出每一个页面的主体内容描述;
步骤7、启动页面排名统计、页面回贴次数统计和页面转发次数统计功能,按照页面数据的类型分别相应的计入页面的特征参数;
步骤8、应用热点事件评价模型对当前页面的内容、热门程度进行评价;
步骤9、如果事件达到预先设定的热门敏感程序预值,则进行热点事件的报警,将预警结果输出至舆情监测管理子系统;
步骤10、所述舆情监测管理子系统针对所接收到的预警信息,将舆情状况实时的进行显示,同时对累计收到的各种热点事件进行统计,并对舆情发展趋势进行显示。[0012]本发明的技术方案具有以下有益效果:
本发明的技术方案,对采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。从而达到实时、全面的收集网络信息,从而避免网络谣言的目的。
[0013]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【专利附图】

【附图说明】
[0014]图1为本发明实施例所述的部署于互联网的舆情监测应用系统的原理框图;
图2为本发明实施例所述的部署于互联网的舆情监测应用系统的运用流程图。
【具体实施方式】
[0015]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0016]如图1所示,一种部署于互联网的舆情监测应用系统,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统;
数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息;
基本数据存储中心:完成系统工作过程中所需要的数据存储功能;
数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征;
舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。
[0017]其中,网络信息包括网络上的网页、微博和论坛等信息。
[0018]数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块;
网络爬虫模块,通过将网络爬虫在网络上进行自动的传播和扩散,从而自动的对网络上的网页、微博和论坛进行数据采集;
数据去重模块,将由上述网络爬虫采集到的页面原始数据经数据去重处理后,剔除在采集过程中所得到的重复数据;
数据过滤模块,根据预先设定的数据过滤规则,将不需要进行处理的页面类型和页面信息进行过滤;
数据筛选模块,根据上述舆情监测管理子系统内预先设定的数据采集敏感值,对所采集到的数据进行筛选,提取出有分析价值潜力的页面数据。
[0019]舆情监测管理子系统包括用户接口模块、舆情显示模块、热点统计模块、舆情趋势动向显示模块和数据检索模块;
用户接口模块、实现系统与用户之间的人机交互; 舆情显示模块、对上述数据挖掘子系统输出的各种热点事件和页面的热门评价结果转化成舆情态势显示;
热点统计模块、对热点事件进行统计;
舆情趋势动向显示模块,对舆情的发展趋势进行记录并显示;
数据检索模块、根据用户输入的检索关键词,对相关的页面原始数据进行检索和输出。
[0020]舆情显示模块,将其接收到的舆情信息分别在页面中实时的进行记录和显示。
[0021]舆情趋势动向显示模块,将在一段时间记录到的热点事件依次进行统计和记录,以曲线图的形式绘制热点事件。
[0022]数据挖掘处理子系统具有分词、分词聚类、页面排名统计、回贴数量统计、页面转发次数统计和处理周期设定功能。分词、分词聚类、页面排名统计、回贴数量统计、页面转发次数统计和处理周期均有相应的功能模块实现。
[0023]本发明的技术方案还公开了一种权利部署于互联网的舆情监测应用系统的运用方法,如图2所示,包括以下步骤:
步骤1、通过舆情监测管理子系统中的用户接口模块,输入监测的敏感事件关键词;步骤2、由数据采集子系统对网络数据进行采集,通过网络爬虫模块在互联网中快速进行传播,对多种信息媒介内容进行采集;
步骤3、将上述采集到的原始数据分别经过数据去重、数据过滤和数据筛选提取出有分析价值的页面数据;
步骤4、将上述步骤2采集到的原始数据送入基本数据存储中心,以通用的数据格式将所采集到的所有数据存储在基本数据存储中心;
步骤5、启动数据挖掘处理子系统中的分词功能,依次从基本数据存储中心提取页面数据,并从中抽取出各分词结果;
步骤6、应用分词聚类功能的分词聚类算法对分词结果进行聚类,给出每一个页面的主体内容描述;
步骤7、启动页面排名统计、页面回贴次数统计和页面转发次数统计功能,按照页面数据的类型分别相应的计入页面的特征参数;
步骤8、应用热点事件评价模型对当前页面的内容、热门程度进行评价;
步骤9、如果事件达到预先设定的热门敏感程序预值,则进行热点事件的报警,将预警结果输出至舆情监测管理子系统;
步骤10、所述舆情监测管理子系统针对所接收到的预警信息,将舆情状况实时的进行显示,同时对累计收到的各种热点事件进行统计,并对舆情发展趋势进行显示。
[0024]步骤8中的热点事件评价模型为现有的技术,针对不同的应用目的,评价指标并不相同,对于本发明技术方案而言,模型能够根据步骤7统计的参数给出热点事件评价结果即可。(如:页面排名统计进入全球5000名以内即认定为热点事件,则这就是一种热点事件评价模型)。
[0025]当用户确切的查询某个热点事件中具体的原始页面信息,可以通过监测管理子系统中的数据检索模块,通过关键词对基本数据存储中心中的页面数据进行查询。
[0026]部署于互联网的舆情监测应用系统及其运用具体如下:
数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块。通过网络爬虫在网络上进行自动的传播和扩散,能够自动的对网络上的网页、微博和论坛进行数据采集。由网络爬虫采集到的页面原始数据经过数据去重,剔除在采集过程中所得到的重复数据,然后在根据预先设定的数据过滤规则,将一些不需要进行处理的页面类型和页面信息进行过滤,之后再根据舆情监测管理系统,预先设定的数据采集敏感值,对所采集到的数据进行筛选,提取出有分析价值潜力的页面数据。基本数据传输中心主要是完成舆情监测应用系统工作过程中所需要的数据存储功能。数据挖掘处理子系统包括分词模块,分词聚类算法、页面排名统计、回贴数量统计、页面转发次数统计和数据处理周期设定等功能模块。通过预先设定的数据处理周期,对处于当前周期内的所有页面数据,首先进行分词和聚类提取出每个页面的核心内容,之后根据页面的排名回贴数据和转发次数,对页面数据的热门程度进行评价,给出页面数据的热点特征。舆情监测管理子系统包括用户接口模块、舆情显示模块、热点统计模块、舆情趋势动向显示模块和数据检索模块。通过用户接口能够满足舆情监测管理系统与用户之间的人机交互应用需求,对数据挖掘子系统输出的各种热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时也对舆情的发展趋势进行记录。舆情监测管理子系统还能够根据用户希望输入的检索关键词,对相关的页面原始数据进行检索和输出。
[0027]综上所述,本发明技术方案有以下特点:
1、本技术方案的舆情监测系统监测的媒体种类,能够涵盖静态页面、动态页面、微博和论坛等多种信息媒体。
[0028]2、本技术方案的舆情监测系统数据融合能力强,对所采集的多种类型的页面信息能够快速有效的提取数据,能够利用分词模块快速有效的提取出页面的核心内容,并将所提取到的数据融合在一起进行综合处理。
[0029]3、本技术方案的舆情监测系统数据挖掘智能化程度高,通过建立事件热门程度评价模型,能够智能化的挖掘出不同类型的页面对同一事件的关注程度,从而准确的对舆情做出判断。
[0030]4、本技术方案的舆情监测系统实施性强,能够快速的对网络舆情变化情况做出反应。
[0031]最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种部署于互联网的舆情监测应用系统,其特征在于,包括数据采集子系统、基本数据存储中心、数据挖掘处理子系统和舆情监测管理子系统; 所述数据采集子系统:对网络上的信息进行自动采集,从对采集的信息进行去重、过滤、筛选后提取有分析价值潜力的网络信息; 所述基本数据存储中心:完成系统工作过程中所需要的数据存储功能; 所述数据挖掘处理子系统:通过预先设定的数据处理周期,对处于当前周期内的所有网络信息,首先进行分词和聚类提取出每个页面的核心内容,之后根据网络信息的排名回贴数据和转发次数,对网络信息的热门程度进行评价,给出网络信息的热点特征; 所述舆情监测管理子系统:实现人机交互,且对上述数据挖掘子系统输出的网络信息中的热点事件和页面的热门评价结果转化成舆情态势显示,并对热点事件进行统计,同时对舆情的发展趋势进行记录;且根据用户输入的检索关键词,对相关的原始网络信息进行检索和输出。
2.根据权利要求1所述的部署于互联网的舆情监测应用系统,其特征在于,所述网络信息至少包括网络上的网页、微博和论坛信息。
3.根据权利要求2所述的部署于互联网的舆情监测应用系统,其特征在于,所述数据采集子系统包括网络爬虫模块、数据去重模块、数据过滤模块和数据筛选模块; 所述网络爬虫模块,通过将网络爬虫在网络上进行自动的传播和扩散,从而自动的对网络上的网页、微博和论坛进行数据采集;` 所述数据去重模块,将由上述网络爬虫采集到的页面原始数据经数据去重处理后,剔除在采集过程中所得到的重复数据; 所述数据过滤模块,根据预先设定的数据过滤规则,将不需要进行处理的页面类型和页面信息进行过滤; 所述数据筛选模块,根据上述舆情监测管理子系统内预先设定的数据采集敏感值,对所采集到的数据进行筛选,提取出有分析价值潜力的页面数据。
4.根据权利要求2所述的部署于互联网的舆情监测应用系统,其特征在于,所述舆情监测管理子系统包括用户接口模块、舆情显示模块、热点统计模块、舆情趋势动向显示模块和数据检索模块; 所述用户接口模块、实现系统与用户之间的人机交互; 所述舆情显示模块、对上述数据挖掘子系统输出的各种热点事件和页面的热门评价结果转化成舆情态势显示; 所述热点统计模块、对热点事件进行统计; 所述舆情趋势动向显示模块,对舆情的发展趋势进行记录并显示; 所述数据检索模块、根据用户输入的检索关键词,对相关的页面原始数据进行检索和输出。
5.根据权利要求4所述的部署于互联网的舆情监测应用系统,其特征在于,所述舆情显示模块,将其接收到的舆情信息分别在页面中实时的进行记录和显示。
6.根据权利要求4所述的部署于互联网的舆情监测应用系统,其特征在于,所述舆情趋势动向显示模块,将在一段时间记录到的热点事件依次进行统计和记录,以曲线图的形式绘制热点事件。
7.根据权利要求2所述的部署于互联网的舆情监测应用系统,其特征在于,所述数据挖掘处理子系统具有分词、分词聚类、页面排名统计、回贴数量统计、页面转发次数统计和处理周期设定功能。
8.—种权利要求1至7所述的部署于互联网的舆情监测应用系统的运用方法,其特征在于,包括以下步骤: 步骤1、通过舆情监测管理子系统中的用户接口模块,输入监测的敏感事件关键词;步骤2、由数据采集子系统对网络数据进行采集,通过网络爬虫模块在互联网中快速进行传播,对多种信息媒介内容进行采集; 步骤3、将上述采集到的原始数据分别经过数据去重、数据过滤和数据筛选提取出有分析价值的页面数据; 步骤4、将上述步骤2采集到的原始数据送入基本数据存储中心,以通用的数据格式将所采集到的所有数据存储在基本数据存储中心; 步骤5、启动数据挖掘处理子系统中的分词功能,依次从基本数据存储中心提取页面数据,并从中抽取出各分词结果; 步骤6、应用分词聚类功能的分词聚类算法对分词结果进行聚类,给出每一个页面的主体内容描述; 步骤7、启动页面排名统计、页面回贴次数统计和页面转发次数统计功能,按照页面数据的类型分别相应的计入页面的特征参数; 步骤8、应用热点事件评价模型对当前页面的内容、热门程度进行评价; 步骤9、如果事件达到预先设定的热门敏感程序预值,则进行热点事件的报警,将预警结果输出至舆情监测管理子系统; 步骤10、所述舆情监测管理子系统针对所接收到的预警信息,将舆情状况实时的进行显示,同时对累计收到的各种热点事件进行统计,并对舆情发展趋势进行显示。
【文档编号】G06F17/30GK103744877SQ201310707843
【公开日】2014年4月23日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】潘大庆, 刘静姿, 王静, 黄力 申请人:潘大庆
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1