一种舆情信息展示系统及方法

文档序号:6372199阅读:141来源:国知局
专利名称:一种舆情信息展示系统及方法
技术领域
本发明涉及网络信息技术领域,特别涉及一种舆情信息展示系统及方法。
背景技术
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟帖、转帖等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。现有技术多对网络舆情完成收集工作,但均无法客观地、直观地反映不同地域的舆情信息。

发明内容
本发明要解决的技术问题是如何客观地、直观地反映不同地域的舆情信息。为解决上述技术问题,本发明提供了一种舆情信息展示系统,所述系统包括网页抓取模块,适于抓取当前网络中包含舆情信息的网页;网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域并对具有相同所属地域的网页进行数量统计;展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。其中,所述系统还包括存储模块,适于将所述正文信息进行数据存储。其中,所述系统还包括格式化模块,适于对所述正文信息进行格式化。其中,所述地域识别模块进一步包括Trie树构建子模块,适于利用行政区域统计表构建双数组Trie树;匹配子模块,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配;地域获得子模块,适于利用所述匹配的结果获得所述正文信息的所属地域。其中,所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名
ο其中,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。其中,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。其中,所述正文信息包括正文内容和/或标题。其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括板块名称。其中,所述网页分析模块中进一步包括多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信息。
其中,所述展示模块进一步包括结果散列子模块,所述结果散列子模块,适于将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。其中,所述展示模块进一步包括放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。其中,所述系统还包括学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。本发明还公开了一种舆情信息展示方法,所述方法包括抓取当前网络中包含舆情信息的网页;对所述网页进行分析,以获得所述网页的正文信息;对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同 所属地域的网页进行数量统计;将所述数量统计的结果通过地图着色的方式进行展示。其中,对所述正文信息进行地域识别之前,将所述正文信息进行数据存储。其中,将所述正文信息进行数据存储之前,对所述正文信息进行格式化。其中,对所述正文信息进行地域识别进一步包括利用行政区域统计表构建双数组Trie树;将所述正文信息中出现的名词与所述双数组Trie树进行匹配;利用所述匹配的结果获得所述正文信息的所属地域。其中,所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名
ο其中,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。其中,采用网络爬虫抓取当前网络中包含舆情信息的网页。其中,所述正文信息包括正文内容和/或标题。其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括板块名称。其中,对所述网页进行分析时,对所述网页进行多维抽取,以获得所述网页的正文信息。其中,将所述数量统计的结果通过地图着色的方式进行展示时,将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。其中,将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。其中,对所述正文信息进行地域识别之前,在大量样本做人工标识和校正后,采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。本发明的系统及方法通过对包含舆情信息的网页进行地域识别,客观地、直观地反映了不同地域的舆情信息,不仅可以有效及时地发现网络中已知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区域进行有效的识别。


图I是按照本发明第一种实施例的舆情信息展示方法的流程图;图2是按照本发明第二种实施例的舆情信息展示方法的流程图;图3是按照本发明第三种实施例的舆情信息展示方法的流程图;图4是图广图3所述的方法中对所述正文信息进行地域识别的流程图;图5是利用地图着色进行展不的不意图;图6是行政级别示意图;图7是按照本发明第一种实施例的舆情信息展示系统的结构框图;图8是按照本发明第二种实施例的舆情信息展示系统的结构框图;
图9是按照本发明第三种实施例的舆情信息展示系统的结构框图;图10是图疒图9的系统中地域识别模块的结构框图。
具体实施例下面结合附图和实施例,对本发明的具体实施例作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。图I是按照本发明第一种实施例的舆情信息展示方法的流程图;参照图1,所述方法包括SlOl :抓取当前网络中包含舆情信息的网页(通常,网页抓取主要分为三个方面
I、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不存在了的网页,并从数据库中删除);优选地,本实施例中,采用网络爬虫抓取当前网络中包含舆情信息的网页。S102 :对所述网页进行分析,以获得所述网页的正文信息;由于网页中所能最大反映地域信息的部分为正文内容,优选地,所述正文信息包括正文内容;同样能够反映地域信息的部分为标题,为提高识别精度,优选地,所述正文信息还包括标题;当所述网页为电子公告板(bbs)或网络日志(blog)的网页时,同样能够反映地域信息的部分为模块名称,为提高识别精度,优选地,所述正文信息包括板块名称。本实施例中,对所述网页进行分析时,对所述网页进行多维抽取,包括标题、正文内容、发表时间、作者、网站名称、针对bbs或blog的正文信息还可以抽取出板块名称、浏览数、回复数等信息,以获得所述网页的正文信息,对网页信息进行多个维度抽取。S103 :对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;本实施例中,数量统计可以单纯按照所属地域,也可以收集在所属地域包含某些特征词的舆情信息两种,如可以展示3月份我国各地网络舆情的分布情况,也可以展示3月份关于江苏省某某话题的网络舆情分布情况等。S104 :参照图5,将所述数量统计的结果通过地图着色的方式进行展示。本实施例中,利用所述数据统计的结果,结合预设的颜色值范围给地图进行着色,用颜色的深浅表达舆情信息的数量多少,但并不限定本发明的保护范围。比如图5中“山西省”的色阶最深,舆情数最多,其次是舆情数非常多的“北京”、“辽宁”和“河南”,接着是舆情数较多的“广西”、“重庆”、“吉林”和“浙江”,之后是舆情数一般的“青海”和“云南”,再接着是舆情数较少的“海南”、“广东”、“湖南”、“安徽”和“内蒙古”,其中“安徽”的舆情数为23004,剩下的地区均为舆情数非常少的地区。颜色的范围可用#000000到来表示由深到浅,六位16进制表示的是RGB三个颜色,前两位表示R (红色),中间两位表示G (绿色),最后两位表示B (蓝色)。例如,把地图染色的主色调定义为红色时,红色的范围是0(Tff共256个色阶,则可以利用地域信息的数据量定义一个散列函数将数据量散列到(Γ256之间(可以采用对数函数或拟合方法计算出一个散列函数)。优选地,步骤S104中将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。例如可以展示3月份我国各地(即行政级别为省)网络舆情的分布情况,也可以展示3月份关于江苏省(即行政级别为市)网络舆
情的分布情况等。图2是按照本发明第二种实施例的舆情信息展示方法的流程图;参照图2,所述方法包括S201 :抓取当前网络中包含舆情信息的网页;S202 :对所述网页进行分析,以获得所述网页的正文信息;S203 :将所述正文信息进行数据存储;本实施例中,数据存储于数据库中,并采用持久化存储方式,以备后续使用;S204 :对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;S205 :将所述数量统计的结果通过地图着色的方式进行展示。图3是按照本发明第三种实施例的舆情信息展示方法的流程图;参照图3,所述方法包括S301 :抓取当前网络中包含舆情信息的网页;S302 :对所述网页进行分析,以获得所述网页的正文信息;S303 :对所述正文信息进行格式化(即将所述正文信息处理成相同的规格、样式);S304 :将所述正文信息进行数据存储;本实施例中,数据存储于数据库中,并采用持久化存储方式;S305 :对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;S306 :将所述数量统计的结果通过地图着色的方式进行展示。在所述实施例广3中,对正文信息进行地域信息识别的处理,整体计算模型是利用分布式系统基础架构(hadoop),具体计算方法是利用双数组Trie树。其整体思想的描述如下利用行政区划统计表构建一棵双数组Trie树,然后用正文内容去匹配,找出正文中所有的地理名词,可能会出现多条路径,再利用地理地名之间的行政关系和出现频度设置不同的权重值,基于倒排索引的原则,对正文信息进行分词、构建索引等操作,并提供按照关键词进行查询的接口。对正文信息进行地域识别基于支持向量机(support vector machine, SVM)的机器学习法,利用国家邮政编码及行政区域统计表对大量样本做人工标注和校正,达到较高的准确率后(一般为95%以上),再对舆情信息进行地域识别,参照图4,对所述正文信息进行地域识别可采用如下方式
S401 :利用行政区域统计表构建双数组Trie树;所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名词;为实现从不同的行政级别来监测舆情的信息量情况,优选地,所述区域统计表包括省、市、县、镇和村五个行政级别的地理名词,并且可以是以左前缀进行归并。如河北省邯郸市永年县南沿村镇南马庄村是包含全五个行政级别的,同时它可以归为向上的行政级别。参照图6,即南沿村镇的舆情信息将归属于永年县的区域内,然后归属于邯郸市区域内,最后归属于河北省的区域内。S402 :将所述正文信息中出现的名词与所述双数组Trie树进行匹配;S403 :利用所述匹配的结果获得所述正文信息的所属地域;优选地,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。图7是按照本发明第一种实施例的舆情信息展示系统的结构框图;参照图7,所述系统包括 网页抓取模块701,适于抓取当前网络中包含舆情信息的网页;网页分析模块702,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块703,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;展示模块704,适于将所述数量统计的结果通过地图着色的方式进行展示。图8是按照本发明第二种实施例的舆情信息展示系统的结构框图;参照图8,在第一种实施例的基础上,所述系统还包括存储模块705,适于将所述正文信息进行数据存储;图9是按照本发明第三种实施例的舆情信息展示系统的结构框图;参照图9,在第~■种实施例的基础上,所述系统还包括格式化模块706,适于对所述正文信息进行格式化;参照图10,所述地域识别模块703具体包括Trie树构建子模块713,适于利用行政区域统计表构建双数组Trie树;匹配子模块723,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配;地域获得子模块733,适于利用所述匹配的结果获得所述正文信息的所属地域。其中,所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名
ο其中,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。其中,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。其中,所述正文信息包括正文内容和/或标题。其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括板块名称。其中,所述网页分析模块中进一步包括多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信息。其中,所述展示模块进一步包括结果散列子模块,所述结果散列子模块,适于将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。其中,所述展示模块进一步包括放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。其中,所述系统还包括学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。以上实施例仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
权利要求
1.一种舆情信息展示系统,其特征在于,所述系统包括 网页抓取模块,适于抓取当前网络中包含舆情信息的网页; 网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息; 地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域并对具有相同所属地域的网页进行数量统计; 展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。
2.如权利要求I所述的系统,其特征在于,所述系统还包括存储模块,适于将所述正文信息进行数据存储。
3.如权利要求I或2所述的系统,其特征在于,所述系统还包括格式化模块,适于对所述正文信息进行格式化。
4.如权利要求I所述的系统,其特征在于,所述地域识别模块进一步包括 Trie树构建子模块,适于利用行政区域统计表构建双数组Trie树; 匹配子模块,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配; 地域获得子模块,适于利用所述匹配的结果获得所述正文信息的所属地域。
5.如权利要求4所述的系统,其特征在于,所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名词。
6.如权利要求4所述的系统,其特征在于,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
7.如权利要求I所述的系统,其特征在于,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。
8.如权利要求I所述的系统,其特征在于,所述正文信息包括正文内容和/或标题。
9.如权利要求I所述的系统,其特征在于,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括板块名称。
10.如权利要求I所述的系统,其特征在于,所述网页分析模块中进一步包括多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信肩、O
11.如权利要求5所述的系统,其特征在于,所述展示模块进一步包括结果散列子模块,所述结果散列子模块,适于将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。
12.如权利要求5所述的系统,其特征在于,所述展示模块进一步包括放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。
13.如权利要求I所述的系统,其特征在于,所述系统还包括学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
14.一种舆情信息展示方法,其特征在于,所述方法包括 抓取当前网络中包含舆情信息的网页; 对所述网页进行分析,以获得所述网页的正文信息; 对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;将所述数量统计的结果通过地图着色的方式进行展示。
15.如权利要求14所述的方法,其特征在于,对所述正文信息进行地域识别之前,将所述正文信息进行数据存储。
16.如权利要求14或15所述的方法,其特征在于,将所述正文信息进行数据存储之前,对所述正文信息进行格式化。
17.如权利要求14所述的方法,其特征在于,对所述正文信息进行地域识别进一步包括 利用行政区域统计表构建双数组Trie树; 将所述正文信息中出现的名词与所述双数组Trie树进行匹配; 利用所述匹配的结果获得所述正文信息的所属地域。
18.如权利要求17所述的方法,其特征在于,所述行政区域统计表包括省、市、县、镇和村中至少一个行政级别的地理名词。
19.如权利要求17所述的方法,其特征在于,所述匹配的结果包括地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
20.如权利要求14所述的方法,其特征在于,采用网络爬虫抓取当前网络中包含舆情信息的网页。
21.如权利要求14所述的方法,其特征在于,所述正文信息包括正文内容和/或标题。
22.如权利要求14所述的方法,其特征在于,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括板块名称。
23.如权利要求14所述的方法,其特征在于,对所述网页进行分析时,对所述网页进行多维抽取,以获得所述网页的正文信息。
24.如权利要求14所述的方法,其特征在于,将所述数量统计的结果通过地图着色的方式进行展示时,将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。
25.如权利要求14所述的方法,其特征在于,将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。
26.如权利要求14所述的方法,其特征在于,对所述正文信息进行地域识别之前,在大量样本做人工标识和校正后,采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
全文摘要
本发明公开了一种舆情信息展示系统及方法,涉及网络信息技术领域,所述系统包括网页抓取模块,适于抓取当前网络中包含舆情信息的网页;网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。本发明的系统及方法通过对包含舆情信息的网页进行地域识别,客观地、直观地反映了不同地域的舆情信息,不仅可以有效及时地发现网络中已知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区域进行有效的识别。
文档编号G06F17/30GK102779174SQ201210216349
公开日2012年11月14日 申请日期2012年6月26日 优先权日2012年6月26日
发明者刘付强 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1