一种互联网舆情信息监测系统及监测方法与流程

文档序号:12007955阅读:302来源:国知局
本发明涉及互联网信息智能分析处理技术领域,具体是一种互联网舆情信息监测系统及监测方法。

背景技术:
近几年来,随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。根据中国互联网络信息中心(CNNIC)最新发布的《中国互联网络发展状况统计报告》显示,截至2011年底,我国的网民规模已经突破5亿,互联网普及率也进一步提升。随着网络普及率的上升和网民规模的持续扩大,互联网平台的信息量大幅度增加。然而,互联网的开放性、及时性和互动性,产生了大量的包含虚假、色情、暴力和反动的垃圾信息和不良信息。在信息类型多、数据量大的互联网平台中,如何获取有效的舆情信息以及如何对获取的舆情信息进行快速精确的分析和处理,是目前亟待解决的重要问题。

技术实现要素:
本发明要解决的技术问题是提供一种能够获取有效的舆情信息并对获取的舆情信息进行快速精确的分析处理的互联网舆情信息监测系统及监测方法。本发明的技术方案为:一种互联网舆情信息监测系统,该系统包括采集模块、数据预处理模块、存储处理模块、服务监控模块与显示模块;所述采集模块的输出端与数据预处理模块的输入端通过有线连接,所述数据预处理模块与存储处理模块通过有线连接,所述服务监控模块与存储处理模块通过有线连接,所述存储处理模块与显示模块通过有线连接;所述采集模块,用于对互联网上的舆情信息进行采集,获取网页数据;所述数据预处理模块,用于对采集模块获取的网页数据进行分词及语义分析预处理并将预处理结果传输至存储处理模块进行存储;所述服务监控模块,用于对存储处理模块存储的预处理结果进行统计,形成统计图表,并将形成的统计图表传输至存储处理模块进行存储,以及对达到预警阈值的信息进行预警通知;所述存储处理模块,用于对数据预处理模块和服务监控模块传输过来的数据进行存储并通过有线传输至显示模块进行结果显示。所述的互联网舆情信息监测系统,所述数据预处理模块包括分词子模块与语义分析子模块;所述分词子模块,用于对采集模块获取的网页数据进行分词处理及词性标注,对词语的倾向性、主题属性进行解析;所述语义分析子模块,用于对分词处理后的网页数据的句法进行分析,对每个网页上的文章热点指数、情感倾向性指数、文章主题进行分析判断。所述的互联网舆情信息监测系统,所述服务监控模块包括计算子模块、统计图表形成子模块、参数设置子模块以及预警子模块;所述计算子模块,用于对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;所述统计图表形成子模块,用于形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;所述参数设置子模块,用于对预警话题以及情感倾向性指数的预警阈值进行预先设置;所述预警子模块,用于对达到预警阈值的信息进行预警通知。所述的互联网舆情信息监测系统,显示模块进一步包括显示端语义分析子模块,所述显示端语义分析子模块用于对用户输入的文本和检索问题进行分析处理,并将分析处理结果传输至存储处理模块。所述的互联网舆情信息监测系统,所述采集模块、数据预处理模块、存储处理模块和服务监控模块运行在服务器上,所述显示模块运行在客户端上。一种互联网舆情信息监测方法,包括以下步骤:1)对互联网上的舆情信息进行采集,获取网页数据;2)对获取的网页数据进行分词及语义分析预处理并将预处理结果进行存储;3)对存储的预处理结果进行统计,形成统计图表,并将形成的统计图表进行存储,以及对达到预警阈值的信息进行预警通知;4)对存储的数据进行结果显示。所述的互联网舆情信息监测方法,步骤1)中,具体采用规则采集与搜索引擎以及蜘蛛爬行相结合的方法对互联网上的舆情信息进行采集。所述的互联网舆情信息监测方法,步骤2)中,对获取的网页数据进行分词及语义分析预处理,具体包括以下步骤:1)采用基于球面四叉树的多级Hash结构的分词机制对获取的网页数据进行分词处理,分词的同时根据词的语法属性、情感属性、词类属性进行词性标注,解析出词语的倾向性、主题属性;2)根据汉语句子的构造原则,对分词处理后的网页数据文本进行句子切分,抽取文本的每一个句子,然后对每个句子进行句法分析,将整个文本的句子的语法形成语法网状规则图;根据语义建立语义规则库,根据语义规则库将语法网状规则图通过点对点映射,转换为语义概念图;根据语义概念图判断每个网页上的文章热点指数、情感倾向性指数,分析文章主题。所述的互联网舆情信息监测方法,步骤3)中,对存储的预处理结果进行统计,形成统计图表,并将形成的统计图表进行存储,以及对达到预警阈值的信息进行预警通知,包括以下步骤:1)对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;2)形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;3)对预警话题以及情感倾向性指数的预警阈值进行预先设置;4)对达到预警阈值的信息通过邮件、短信进行预警通知。所述的互联网舆情信息监测方法,所述基于球面四叉树的多级Hash结构的分词机制的构建包括以下步骤:1)依次对每个字建立Hash索引,构成多级TRIE树;2)所述TRIE树的结点构成Hash桶,将每个Hash桶内存放多个具有相同的前N个字的词,N为正整数;3)用循环算法对建立的每一级Hash桶内的词的个数进行计算,若计算结果大于预先设定的阈值,则以该Hash桶为基础建立下一级的Hash桶,直至每个Hash桶内的词的数量均小于或等于阈值。本发明集信息采集、分析处理、服务监控、存储、显示于一体,自动发现并深入分析互联网信息热点,帮助用户方便快捷地了解舆情事件的来龙去脉。针对互联网海量数据信息具有增长性和变动性的特点,采用规则采集为主,其他采集方式包括爬虫技术、搜索引擎技术相结合的方法对互联网舆情信息进行采集,具有全面性和时效性;采用基于球面四叉树的多级Hash结构的高速分词技术,不仅可以标注常用词语的词法,还能够标注自然语言中关键情感词类与情感程度,其速度比一般的分词技术提高10—100倍;对文章主题、热点指数、情感倾向性指数进行分析计算,达到对舆情的高效管理和正确引导;对预警话题以及情感倾向性指数的预警阈值进行预先设置,对达到预警阈值的信息通过邮件、短信进行预警通知,达到实时监控实时反馈通讯的效果;舆情分析处理的结果以网页的形式呈现给用户,为用户提供决策支持。附图说明图1是本发明具体实施方式提供的一种互联网舆情信息监测系统的模块示意图。具体实施方式下面结合附图及具体实施例进一步说明本发明。如图1所示,一种互联网舆情信息监测系统,其特征在于:该系统包括采集模块1、数据预处理模块2、存储处理模块3、服务监控模块4与显示模块5;所述采集模块1的输出端与数据预处理模块2的输入端通过有线连接,所述数据预处理模块2与存储处理模块3通过有线连接,所述服务监控模块4与存储处理模块3通过有线连接,所述存储处理模块3与显示模块5通过有线连接;所述采集模块1,用于对互联网上的舆情信息进行采集,获取网页数据;所述数据预处理模块2,用于对采集模块1获取的网页数据进行分词及语义分析预处理并将预处理结果传输至存储处理模块3进行存储;所述服务监控模块4,用于对存储处理模块3存储的预处理结果进行统计,形成统计图表,并将形成的统计图表传输至存储处理模块3进行存储,以及对达到预警阈值的信息进行预警通知;所述存储处理模块3,用于对数据预处理模块2和服务监控模块4传输过来的数据进行存储并通过有线传输至显示模块5进行结果显示;所述采集模块1、数据预处理模块2、服务监控模块4和存储处理模块3运行在服务器上,所述显示模块5运行在客户端上。所述预处理模块2包括分词子模块21与语义分析子模块22;所述分词子模块21,用于采用基于球面四叉树的多级Hash结构的分词机制对采集模块1获取的网页数据进行分词处理,分词的同时根据词的语法属性、情感属性、词类属性进行词性标注,解析出词语的倾向性、主题属性;所述语义分析子模块22,用于对分词处理后的网页数据的句法进行分析,形成语法网状规则图,并将语法网状规则图转换为语义概念图,根据语义概念图判断每个网页上的文章热点指数、情感倾向性指数,分析文章主题。基于球面四叉树的多级Hash结构的分词机制:依次对每个字建立Hash索引,构成多级TRIE树,在TRIE树的结点处存放了一系列的词,这些词的共同点在于它们的前N个字是相同的,该一系列的词组成一个Hash桶;对建立的每一级Hash桶内的词的个数进行计算,若计算结果大于预先设定的阈值,则以该Hash桶为基础建立下一级的Hash桶,如此往复下去,直至每个Hash桶内的词的数量均小于或等于阈值。如“一代人”、“一代代”、“一代宗师”这三个词就在一个Hash桶里,因为它们的前两个字都是“一代”,这样使得查找速度大大加快。词性标注分为两项:自然语义词性标注和情感语义词性标注,之间用“.”分隔,自然语义词性指语法上的名词n、动词v、形容词adj、副词adv、转折词t等,而情感语义词性分为四类:情感实词r(包括名词、动词、形容词、副词等)、程度副词d(加深后面词语效果的)、否定词n、转折词t,如非情感语义词,则不做标注。所述服务监控模块4包括计算子模块41、统计图表形成子模块42、参数设置子模块43以及预警子模块44;所述计算子模块41,用于对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;所述统计图表形成子模块42,用于形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;所述参数设置子模块43,用于对预警话题以及情感倾向性指数的预警阈值进行预先设置;所述预警子模块44,用于对达到预警阈值的信息进行预警通知。显示模块5进一步包括显示端语义分析子模块51,所述显示端语义分析子模块51用于对用户输入的文本和检索问题进行分析处理,形成用户输入文本和输入检索问题的语义概念图,并将所述语义概念图传输至存储处理模块3进行概念相似度和概念相关度计算,从而进行匹配。本发明的工作原理:采集模块1采用规则采集与搜索引擎以及蜘蛛爬行相结合的方法对互联网上的舆情信息进行采集,获取网页数据;数据预处理模块2对获取的网页数据进行分词及语义分析预处理并将预处理结果传输至存储处理模块3进行存储:分词子模块21采用基于球面四叉树的多级Hash结构的分词机制对获取的网页数据进行分词处理,分词的同时根据词的语法属性、情感属性、词类属性进行词性标注,解析出词语的倾向性、主题属性;语法分析子模块22根据汉语句子的构造原则,对分词处理后的网页数据文本进行句子切分,抽取文本的每一个句子,然后对每个句子进行句法分析,将整个文本的句子的语法形成语法网状规则图;根据语义建立语义规则库,根据语义规则库将语法网状规则图通过点对点映射,转换为语义概念图;根据语义概念图判断每个网页上的文章热点指数、情感倾向性指数,分析文章主题;服务监控模块4对存储处理模块3存储的预处理结果进行统计,形成统计图表,并将形成的统计图表传输至存储处理模块3进行存储,以及对达到预警阈值的信息进行预警通知:计算子模块41对每个网页上的文章热点指数、情感倾向性指数的判断结果进行汇总计算;统计图表形成子模块42形成文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图;参数设置子模块43对预警话题以及情感倾向性指数的预警阈值进行预先设置;预警子模块44对达到预警阈值的信息进行预警通知;存储处理模块3对数据预处理模块2和服务监控模块4传输过来的数据进行存储并通过有线传输至显示模块5进行结果显示,用户可以通过浏览器浏览,显示模块5提供信息检索功能,根据指定条件,用户可以对热点话题、情感倾向性进行查询,并浏览信息的具体内容,为决策提供支持。结果展示以网页的形式呈现给用户,包括:按照分类,显示最新的数据信息,包括文章热点指数、情感倾向性指数等;检索采集的文章信息,并浏览;形成的各种统计图表,包括文章热度排行报表、预警信息分布报表、舆情站点分布报表、舆情状态统计报表以及舆情趋势走向分析图等。显示端语义分析子模块51对用户输入的文本和检索问题进行分析处理,形成输入文本的语义概念图和输入检索问题的语义概念图,然后将其传输至存储处理模块3,由存储处理模块3进行概念相似度计算和概念相关度计算,从而进行匹配。以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1