基于云计算的互联网信息监测系统及方法

文档序号:6602568阅读:240来源:国知局
专利名称:基于云计算的互联网信息监测系统及方法
技术领域
本发明涉及一种网络技术,特别涉及一种基于云计算的互联网信息监测系统及方法。
背景技术
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日 常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形 成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部 门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放 大器。为了迎合对互联网上信息快速搜集的需要,因而出现了一种互联网信息实时监测 系统。互联网信息实时监测系统是一种在基础计算硬件和计算资源的基础上,应用特定的 信息采集软件,将互联网上用户感兴趣的内容采集下来,并实现存储和管理的一种系统。系 统可以为实时垂直搜索引擎、互联网舆论监测(舆情监测)、商业品牌评论调研、企事业危 机管理、社会突发公共事件等应用提供解决方案。其可以通过对网页内容的自动采集处理、 敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析的系统,实现对相关网络监督管 理的需要,并最终形成简报、专报、分析报告、移动快报等,为决策层全面掌握信息动态,做 出正确引导,提供分析依据。目前,市场上的互联网信息实时监测系统的设计采用的是传统的软硬件系统思 路。一个厂商会为一个客户提供一套计算硬件、一套搜索软件和一套管理软件,而且整个系 统由该用户独占,和其他用户没有关系。如图1所示,其为现有的一种互联网信息实时监测系统的结构示意图。用户终端 10通过宽带等硬件设施连接到互联网13上,终端10包括有搜索单元11和数据管理单元 12,搜索单元11从互联网站点中采集相关的信息,并传输给数据管理单元12,由数据管理 单元12汇总形成用户指定形式的信息数据。这种互联网信息实时监测系统可以自主地对网络信息进行监测,并按照用户的需 要有针对性地采集信息,可以大大节约用户遍历网络站点所需要的时间。但是,现有的互联 网信息实时监测系统也存在着一些缺陷由于各个用户所使用的系统和计算资源是相互独立的,而单个用户不可能承担实 时遍历整个互联网的硬件投入(实际一套系统一般仅包括若干台服务器,例如3-5台),因 而大大限制了单个用户对信息的采集范围。并且有限的计算资源也使系统对网络站点的遍 历时间过长,导致信息的实时性不高,这就从根本上降低了系统的服务质量。

发明内容
本发明的目的是提出一种基于云计算的互联网信息监测系统,以解决现有的互联 网信息监测系统采集范围小、实时性不高的问题。
3
本发明的另一目的是提出一种基于云计算的互联网信息监测方法,以解决现有的 互联网信息监测系统采集范围小、实时性不高的问题。本发明提出一种基于云计算的互联网信息监测系统,用于对互联网信息进行实时 采集,包括若干用户终端、采集任务协调器和数据协调器。用户终端与互联网相连,用于对 互联网信息进行实时监测和采集,并对采集到的信息进行规划和管理。其中,每个用户终端 又进一步包括搜索单元和数据管理单元。搜索单元用于对互联网站点进行监测和采集。数 据管理单元用于对采集得到的互联网信息进行管理。采集任务协调器与所有的搜索单元相 连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相 应的搜索范围信息分配给各个搜索单元。数据协调器与所有的搜索单元及所有的数据管理 单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传 输到各个数据管理单元中。依照本发明较佳实施例所述的基于云计算的互联网信息监测系统,采集任务协调 器还包括独有采集目标反馈子单元,其与所有的搜索单元相连,用于对各个用户的信息采 集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元,以由搜索单元从 独有采集站点处采集的信息,直接导入本地的数据管理单元中。本发明另提出一种基于云计算的互联网信息监测方法,其包括以下步骤(1)获 取各个用户终端关于互联网站点的采集范围。(2)将所有用户终端的采集范围进行汇总。 (3)将汇总后的采集范围重新划分,并分配给各个用户终端。(4)接收所有用户终端采集的 互联网信息并进行汇总。(5)根据各个用户终端的需要,将相应的互联网信息分配传输给各 个用户终端。依照本发明较佳实施例所述的基于云计算的互联网信息监测方法,在将所有用户 终端的采集范围进行汇总之后,根据各个用户终端的计算资源对采集范围进行重新划分, 并分配给相应的各个用户终端。依照本发明较佳实施例所述的基于云计算的互联网信息监测方法,获取各个用户 终端关于互联网站点的采集范围之后还包括以下步骤(1)对各个用户终端各自的采集范 围进行分析。(2)将各个用户终端独有的互联网站点信息反馈给相应的用户终端,以由用户 终端独自对独有的互联网站点进行采集。相对于现有技术,本发明的有益效果是本发明可以将各个用户的采集计算资 源进行的统一管理,在逻辑上将它们集中起来(在物理上可以是集中的、也可以是分布式 的),实现有效协同工作,共同承担巨大的采集搜索计算任务。从而,从本质上提高系统的实 时性。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。


图1为现有的一种互联网信息实时监测系统的结构示意图;图2为本发明基于云计算的互联网信息监测系统的一种实施例结构图;图3为本发明采集任务协调器的一种实施例结构图;图4为本发明基于云计算的互联网信息监测方法的一种实施例流程图;图5为本发明处理独有的采集目标时的一种实施例流程图。
具体实施例方式本发明所述的云计算(Cloud Computing),是指IT基础设施以及服务的交付和使 用模式,用户通过网络以按需、易扩展的方式获得所需的资源和服务。这种资源和服务一般 是和软件、互联网相关的。在技术本质上,它是并行计算(Parallel Computing)、分布式计 算(Distributed Computing)和网格计算(Grid Computing)的发展。本发明通过云计算的思想,重新设计互联网信息监测系统的底层构架,实现计算 资源的共享,从而提高实际系统的实时性。以下结合附图,具体说明本发明。请参见图2,其为本发明基于云计算的互联网信息监测系统的一种实施例结构图。 其包括若干用户终端20、采集任务协调器24和数据协调器25。用户终端20和互联网23相 连,用于对互联网23信息进行实时监测和采集,并对采集到的信息进行规划和管理。其中, 每个用户终端20又进一步包括搜索单元21和数据管理单元22。搜索单元21用于对互联 网23站点进行监测和采集,数据管理单元22用于对用户需要的互联网23信息进行管理。 采集任务协调器24与所有的搜索单元21相连,用于将各个用户终端20需要遍历的互联网 站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单 元21。数据协调器25与所有的搜索单元21及所有的数据管理单元22相连,用于将所有的 搜索单元21采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单 元22中。采集任务协调器24和数据协调器25是整个系统的运转枢纽,它们的工作都可以 通过互联网远程实现(当然,托管到厂商的集中机房也是可以的)。各个用户终端20的采集范围是由用户指定的互联网站点,例如,论坛、博客和新 闻站点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和 交互性好的特点而成为主要监测目标。用户终端20会事先将各自的采集范围通过互联网 23发送给采集任务协调器24。然后采集任务协调器24会将各个用户终端20的采集范围 进行汇总。汇总后总的采集范围即是所有参与系统协作的用户终端20的采集范围的并集。例如,用户1的采集范围是集合C1,用户2的采集范围的集合C2,那么用户1和用 户2总的采集范围就是C = C1 U C2之后,采集任务协调器24会将总的采集范围进行重新划分,并分配给各个用户终 端20的搜索单元21。值得注意的是,采集任务协调器24向各个用户终端20分配采集任务 时,需要考虑各个用户终端20采集资源的容量(即用户终端20的硬件计算能力、带宽大小 等),从而最终达到计算的均衡性。接着各个用户终端20的搜索单元21根据分配到的采集范围,对相应的互联网站 点进行实时采集,然后将采集到的互联网信息统一传输给数据协调器25。数据协调器25的 功能是将各个搜索单元21采集得到的数据进行汇总,并将相应的数据分配到需要的数据 管理单元22中。最后,由数据管理单元22对接收到的互联网信息进行分析和处理,并形成 图形、分析报告等用户需要的数据。值得注意的是,对于某个用户终端20独有的采集目标,系统具有一定的灵活性。 这里所述的独有的采集目标可以理解为只有该用户终端20进行监测和采集的互联网站
5点,独有的采集目标可以定义为Di = Ci-C1 U C2. . . U Ch U Ci+1 U ... Cn其中,Di为用户i独有的采集目标(为叙述方便,本申请中将某一用户i所使用的 用户终端记为用户i),Ci为用户i的采集范围,N为用户终端的个数。因此,对于来自于某 一用户终端独有的采集目标的数据,可以从搜索单元21的服务器直接导入到数据管理单 元22的服务器中,而不必经过远程的数据协调器25,这样可以节约数据协调器25的计算资 源,从而可以提高数据分配的速度,进而提高了数据采集的实时性。对于这种情况的系统实现方式,如图3所示,在采集任务协调器24中设置有独有 采集目标反馈子单元31。当采集任务协调器24获取各个用户终端20的采集范围之后,由 独有采集目标反馈子单元31对各个采集范围进行分析,并将用户独有的采集站点信息反 馈给相应的搜索单元21,从而使该独有的互联网站点由对应的用户终端20独自采集。系统在服务表现上,可以根据连接关系的不同提供三种类型的服务(1)公共云。如图2所示的系统运行模式。用户终端20服从采集任务协调器24 的调配,由采集任务协调器24分配采集目标。在这种模式下,系统整体上实现了计算资源 最大限度的共享。因此,效率是最高的。(2)私有云。用户终端20和采集任务协调器24切断联系,和数据协调器25也无 联系,采集计算资源由用户终端20私自享用。系统框图如图1所示。这时,和公共云相比, 模型系统结构简单、数据安全性好。但是,最大的问题是计算资源共享程度低。当用户终 端20的采集目标范围很小,或者对系统的实时性要求很低的情况下,私有云模式的应用比 较有价值。当用户终端20 —直工作于私有云状态下,就可以独立实施到用户终端20处,此 时,系统就退化为传统的互联网信息实时监测系统了。(3)混合云。介于公共云和私有云之间的模式,用户终端20可以根据需要在公有 云和私有云之间切换。为便于进一步理解本发明,下面对系统的实时性提高做简要的分析。假设用户i 的采集范围是Ci,其消耗单位计算资源量记为I IciI I ;用户i提供的采集计算资源为Ri,计 算资源可用量记为I IRiI I (I RiI是根据用户i的计算机硬件处理能力决定的)。这样,用 户i若采用私有云服务模式,其系统遍历周期为Ti= I IciI |/| IRiI其中系统遍历周期Ti表示用户i独自遍历互联网站点的速度,也即是数据采集速度。当有N个用户参与到公共云模型中时,则系统的遍历周期变为T = IIC1 U C2... U Ci U ...Cj / Rj I+ R2 ···+ Ri +· · · | Rj其中遍历周期T表示采用公共云模式的情况下,系统整体的数据采集速度。假设在理想情况下(1)各个用户终端采集目标相同。也就是说,总采集目标和各个用户的采集目标相 同,艮口 C1 = C2 =…=Cn(2)各个用户终端的计算资源相同,即计算能力相同,带宽也相同,即R1 = R2 ==R则系统的遍历周期T为
6
T = Ti/N由此可见,采用公共云的模式下,相对于私有云的模式来说,可以大大提高系统整 体的数据采集速度,具有实时性好的优点。当然,在实际应用中,各个用户的采集范围难免 会存在一些差异,但是因为互联网具有聚集效应,大型网络站点是用户普遍关心的,个别用 户关心的站点一般数量少,而且由于关注度不高的网络站点一般规模较小,消耗计算资源 量也小,在周期估计中权重小,因而对系统的遍历周期产生的影响也相对较小。相应于上述的基于云计算的互联网信息监测系统,本发明还提出一种基于云计算 的互联网信息监测方法,请参见图4,其包括以下步骤S401,获取各个用户终端关于互联网站点的采集范围。各个用户终端的采集范围是由用户指定的互联网站点,例如,论坛、博客和新闻站 点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和交互 性好的特点而成为主要监测目标。S402,将所有用户终端的采集范围进行汇总。汇总后总的采集范围即是所有参与 系统协作的用户终端的采集范围的并集。S403,将汇总后的采集范围重新划分,并分配给各个用户终端。分配采集任务时, 需要考虑各个用户终端采集资源的容量(即用户终端20的硬件计算能力、带宽大小等),从 而最终达到计算的均衡性。S404,接收所有用户终端采集的互联网信息并进行汇总。S405,根据各个用户终端的需要,将相应的互联网信息分配传输给各个用户终端。 最后,由用户终端各自对接收到的互联网信息进行分析和处理,并形成图形、分析报告等用 户需要的数据。值得注意的是,对于某个用户终端独有的采集目标,可以采用更为灵活的处理方 式,即在步骤S401之后还可以进一步包括步骤S501,对各个用户终端各自的采集范围进行分析。S502,将各个用户终端独有的互联网站点信息反馈给相应的用户终端,以由用户 终端独自对独有的互联网站点进行采集。本发明可以将各个用户的采集计算资源进行的统一管理,在逻辑上将它们集中起 来(在物理上可以是集中的、也可以是分布式的),实现有效协同工作,共同承担巨大的采 集搜索计算任务。从而,从本质上提高系统的实时性。以上公开的仅为本发明的几个具体实施例,但本发明并非局限于此,任何本领域 的技术人员能思之的变化,都应落在本发明的保护范围内。
权利要求
一种基于云计算的互联网信息监测系统,用于对互联网信息进行实时采集,其特征在于,包括若干用户终端,与互联网相连,用于对互联网信息进行实时监测和采集,并对采集到的信息进行规划和管理,其中,每个用户终端又进一步包括一搜索单元,用于对互联网站点进行监测和采集;一数据管理单元,用于对用户需要的互联网信息进行管理;一采集任务协调器,与所有的搜索单元相连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元;一数据协调器,与所有的搜索单元及所有的数据管理单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元中。
2.如权利要求1所述的基于云计算的互联网信息监测系统,其特征在于,该采集任务 协调器还包括一独有采集目标反馈子单元,与所有的搜索单元相连,用于对各个用户的信 息采集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元,以由该搜索 单元从独有采集站点处采集的信息,直接导入本地的数据管理单元中。
3.一种基于云计算的互联网信息监测方法,其特征在于,包括以下步骤 获取各个用户终端关于互联网站点的采集范围;将所有用户终端的采集范围进行汇总;将汇总后的采集范围重新划分,并分配给各个用户终端;接收所有用户终端采集的互联网信息并进行汇总;根据各个用户终端的需要,将相应的互联网信息分配传输给各个用户终端。
4.如权利要求3所述的基于云计算的互联网信息监测方法,其特征在于,在将所有用 户终端的采集范围进行汇总之后,根据各个用户终端的计算资源对采集范围进行重新划 分,并分配给相应的各个用户终端。
5.如权利要求3所述的基于云计算的互联网信息监测方法,其特征在于,获取各个用 户终端关于互联网站点的采集范围之后还包括以下步骤对各个用户终端各自的采集范围进行分析;将各个用户终端独有的互联网站点信息反馈给相应的用户终端,以由用户终端独自对 独有的互联网站点进行采集。
全文摘要
本发明提出一种基于云计算的互联网信息监测系统及方法,其系统包括若干用户终端、采集任务协调器和数据协调器。用户终端与互联网相连,其中每个用户终端又进一步包括搜索单元和数据管理单元。搜索单元用于对互联网站点进行监测和采集。数据管理单元用于对采集得到的互联网信息进行管理。采集任务协调器与所有的搜索单元相连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元。数据协调器与所有的搜索单元及所有的数据管理单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元中。本发明具有实时性高的优点。
文档编号G06F17/30GK101902497SQ20101017618
公开日2010年12月1日 申请日期2010年5月14日 优先权日2010年5月14日
发明者张长水, 翁时锋 申请人:翁时锋;宁波大象信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1