一种多租户网络舆情监控方法及系统的制作方法

文档序号:7994380阅读:192来源:国知局
专利名称:一种多租户网络舆情监控方法及系统的制作方法
一种多租户网络舆情监控方法及系统技术领域
本发明属于网络舆情信息监控技术领域,具体涉及一种多租户网络舆情监控方法及系统。
背景技术
随着国际互联网在全球的迅猛发展,人们能够方便的通过互联网传播和获取各种信息,然而互联网信息的内容庞杂多样,既有大量进步、有益的信息,也有不少谣言、反动的内容。网页内容里包含大量的舆情信息,如果仅以人工方式去甄别这些网页所含的信息并加以分析统计,需要消耗大量的人力和物力。
随着计算机信息智能处理技术的不断提升,目前关于网络舆情监控已可以通过搭建独立的应用系统对互联网信息进行采集、分析和应用,来实现对网络舆情的监测、分析和预警。但是以上做法存在如下缺点:
(I)搭建独立的系统需要耗费大量硬件服务器,大大提高建设成本,且无法快速搭建系统来满足灵活的扩展。
(2)数据监测范围有限,服务器都已满负荷运转,无法对更多网站进行监测。而所采集的网站大部分是相同的重点网站,对于相同的数据需要做多次的数据采集、存储和分析,严重浪费服务器资源。发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种效率高的多租户网络舆情监控方法及系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种多租户网络舆情监控方法,包括以下步骤:
(I)采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;
(2)检索所述元数据和正文;
(3)分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
一种多租户网络舆情监控系统,包括用于采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联的采集装置;
用于检索所述元数据和正文的检索装置;
用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户的分析装置。
本发明的效果在于:统一实现了对数据的采集和存储,建立分布式全文检索系统支持海量数据的检索,灵活建立不同的租户,租户建立各自的业务规则,各租户之间业务规则不可见,根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储,每个租户都可以高效快速的进行网络舆情监控。


图1是具体实施方式
中多租户网络舆情监控系统的结构框图2是具体实施方式
中多租户网络舆情监控系统的总体架构示意图3是具体实施方式
中多租户网络舆情监控方法的流程图4是具体实施方式
中采集网页数据的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式
作进一步的说明。
本实施方式中,通过搭建统一的云平台来实现互联网数据的采集、存储、检索和应用,建立不同的租户,各租户再根据自己的业务需要建立舆情监控规则,系统及时对各租户配置的规则进行处理,根据用户的舆情监控规则将有价值的舆情信息存储到各租户自己所对应的业务库中,租户登录系统后访问舆情信息,实现对网络舆情的监控。
如图1所示,本实施方式中多租户网络舆情监控系统包括采集装置1、检索装置2、分析装置3、建立装置4和配置装置5。采集装置I包括采集单元11、提取单元12、存储单元13和关联单元14。采集单元11包括任务生成器111、任务分发器112和若干采集服务器 113。
采集单元11用于采集网页数据。其中,任务生成器111用于确定需要采集的网站列表并生成采集任务;任务分发器112用于检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器;采集服务器113用于采集网页数据。提取单元12用于提取网页数据中的元数据和正文,存储单元13用于提取网页数据中的元数据和正文,关联单元14用于将存储后的元数据和正文相关联。
检索装置2用于检索元数据和正文。
分析装置3用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
建立装置4用于为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表。
配置装置15用于配置租户信息、租户的舆情监控业务规则及特征词库。
如图2和图3所示,采用图1所示系统实现多租户网络舆情监控的方法,包括以下步骤:
(I)采集单元11采集网页数据,提取单元12和存储单元13提取并存储所述网页数据中的元数据和正文,关联单元14将存储后的所述元数据和所述正文相关联。
网页数据是指事先选择的用于舆情监控的网站所发布的数据。如图4所示,采集单元11采集网页数据的方法如下:
①任务生成器111确定需要采集的网站列表,并生成采集任务。
将需要采集的网站列表放入任务生成器111,任务生成器111生成采集任务。采集任务包括采集网站的名称、链接地址、任务的采集深度和扫描频率等信息。
②任务分发器112检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器。
任务分发器112定期收集各采集服务器的性能指标,包括一段时间内的CPU、内存、磁盘的使用情况,判断各采集服务器的压力,将采集任务均衡地分配到压力较小的采集服务器上。
③采集服务器113采集网页数据。
采集服务器113处理接收到的采集任务,通过网络爬虫对网页中的网络信息进行米集。
提取单元12提取并存储网页数据中的各项元数据和正文。元数据包括了信息的标题、作者、发布时间、来源网站和转载来源等。存储单元13将元数据存储在数据库中,将正文以文件形式存储在分布式文件系统中,形成文本文件。关联单元14通过建立全文检索索引库对元数据及其所对应的正文建立索引,进行关联。通过该索引检索全文检索索引库,能够得到网页数据的元数据及其对应的正文全文。
(2)检索装置2检索所述元数据和正文。
检索装置2利用分布式全文检索技术通过全文检索索引库对存储的元数据及其所对应的正文的全文进行检索。
(3)分析装置3分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
建立装置4为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表。舆情信息数据表包括关注规则表、话题追踪规则表、重点网站监看表等业务规则表,以及关注信息表、话题追踪表等分析数据存储表,每个租户拥有各自完整的一套数据表,互不干扰。舆情监控业务规则包括关注规则、话题追踪样例文本、重点监看网站逻辑表达式和用于做舆情数据分析的规则和训练集等。特征词库由词组成,可以配置任意的特征词,主要用于分析信息内容中是否包含用户所关心的特征词。在对网页数据进行存储时,通过租户的特征词库进行分析来自动过滤和用户相关的舆情信息。租户可以通过配置装置15配置租户信息、租户的舆情监控业务规则及特征词库。
分析装置3根据租户配置的舆情监控业务规则和租户的特征词库周期性分析网页数据中的舆情信息,得到租户所关心的舆情信息,并存储到每个租户相应的舆情信息数据表中。租户登录系统后可以访问已分析形成的舆情信息,并进行相关的分析、统计、研判。周期性分析网页数据时可以采用定时器服务来定时启动租户所需要运行的服务,可以根据需要设定运行的周期。
本实施方式所述系统及方法,可以通过搭建统一的云平台来实现网络数据的采集、存储、检索和应用,系统整体架构能充分利用云计算的特性,将软件系统和数据进行统一管理,节约资源,并且可充分调配空闲的资源来进行计算,提高系统的运算和负载能力。各租户之间的业务数据分库存储可实现租户的灵活扩充,不会导致因租户增加影响其他租户的性能和使用。当需要增加新的采集网站时,只需要将增加的新网站加入到采集网站列表,再放入到采集装置中。当需要增加租户时,只需要为新租户建立账号、租户舆情监控业务规则和特征词库等操作。如果采集数据量较大时只需要通过添加新的采集服务器并关联到任务分发器即可。如果租户较多时,可以增加应用服务器集群的节点数量,实现访问和后台分析负载均衡,提高数据监控的效率。
通过上述实施方式可见:本发明为各租户提供的网络舆情监控系统及方法,可以方便地建立舆情监控的租户账号,租户可以利用系统根据各自的业务需求进行网络舆情监控,降低了网络舆情监控系统建设的成本,且可以快速建立不同的租户账号。并且可以充分利用云平台的服务器资源扩充采集的网站,扩大网络舆情监控的范围。本发明同样适用于多机构的网络舆情监控系统,即每个机构下有多个舆情监测人员。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种多租户网络舆情监控方法,其特征在于,包括以下步骤: (1)采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联; (2)检索所述元数据和正文; (3)分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。
2.如权利要求1所述的多租户网络舆情监控方法,其特征在于,步骤(1)中所述采集网页数据的方法如下: ①确定需要米集的网站列表,生成米集任务; ②检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务分发给压力最小的采集服务器; ③采集服务器采集网页数据。
3.如权利要求2所述的多租户网络舆情监控方法,其特征在于:所述采集任务包括采集网站的名称、链接地址、任务的采集深度和扫描频率信息。
4.如权利要求1所述的多租户网络舆情监控方法,其特征在于:步骤(1)中所述元数据存储在数据库中,所述正文以文件形式存储在分布式文件系统中。
5.如权利要求1所述的多租户网络舆情监控方法,其特征在于:步骤(1)中通过建立全文检索索引库将所述元数据和与其对应的正文相关联。
6.如权利要求5所述的多租户网络舆情监控方法,其特征在于:步骤(2)中利用分布式全文检索技术通过所述全文检索索引库对所述元数据及其对应的正文的全文进行检索。
7.如权利要求1 6中任一项所述的多租户网络舆情监控方法,其特征在于,所述方法还包括以下步骤:为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表,各租户之间的舆情监控业务规则不可见。
8.如权利要求7所述的一种多租户网络舆情监控方法,其特征在于:步骤(3)中,将符合租户舆情监控规则和特征词库的正文存储在该租户的舆情信息数据表中。
9.如权利要求1 6中任一项所述的多租户网络舆情监控方法,其特征在于:步骤(3)中,定时分析所述正文是否符合预先设置的租户舆情监控规则和特征词库。
10.一种多租户网络舆情监控系统,包括用于采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联的采集装置(11); 用于检索所述元数据和正文的检索装置(12); 用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户的分析装置(13)。
11.如权利要求10所述的多租户网络舆情监控系统,其特征在于:所述采集装置(11)包括用于采集网页数据的采集单元(111);用于提取网页数据中的元数据和正文的提取单元(112);用于存储网页数据中的元数据和正文的存储单元(113);用于将存储后的元数据和正文相关联的关联单元(114)。
12.如权利要求11所述的多租户网络舆情监控系统,其特征在于:所述采集单元(111)包括用于确定需要采集的网站列表并生成采集任务的任务生成器(1111);用于检测各采集服务器的使用情况,分析各采集服务器的压力,将采集任务进行分发给压力最小的采集服务器的任务分发器(1112); 用于采集网页数据的采集服务器(1113)。
13.如权利要求10 12中任一项所述的多租户网络舆情监控系统,其特征在于:所述系统还包括用于为不同租户建立不同账号,根据不同租户的租户ID为租户建立不同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表的建立装置(14)。
14.如权利要求10 12中任一项所述的多租户网络舆情监控系统,其特征在于:所述系统还包括用于 配置租户信息、租户的舆情监控业务规则及特征词库的配置装置(15)。
全文摘要
本发明公开了一种多租户网络舆情监控方法及系统,属于网络舆情信息监控技术领域。本发明首先采集网页数据,提取并存储所述网页数据中的元数据和正文,并将存储后的所述元数据和所述正文相关联;然后检索所述元数据和正文;最后分析所述正文是否符合预先设置的租户舆情监控规则和特征词库,如果符合,则将该正文分配给该租户。本发明统一实现了对数据的采集和存储,建立分布式全文检索系统支持海量数据的检索,灵活建立不同的租户,租户建立各自的业务规则,各租户之间业务规则不可见,根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储,每个租户都可以高效快速的进行网络舆情监控。
文档编号H04L29/08GK103139256SQ201110390588
公开日2013年6月5日 申请日期2011年11月30日 优先权日2011年11月30日
发明者张丹, 杨建武, 梁汝峰, 孙红娥, 王松 申请人:北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1