基于多客户端集群协作的数据下载系统及下载方法

文档序号:9633825阅读:202来源:国知局
基于多客户端集群协作的数据下载系统及下载方法
【技术领域】
[0001]本发明涉及互联网信息采集的技术领域,具体说是一种基于多客户端集群协作的数据下载系统及下载方法。
【背景技术】
[0002]进入21世纪,信息的爆炸式增长带了数据的海量化,面对规模日益庞大的数据量,全球知名咨询公司麦肯锡提出“大数据”时代说,麦肯锡称:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
[0003]而网络信息数据采集是“大数据”战略的基础,搭建采集海量数据的架构体系、做到所见即所得的无阻拦式采集、满足在有限时间内采集更多的数据,都必须使数据得到高效、及时而有效的采集,因而就需要维持一定频率的下载,而一般网站对访问有一定的限制,往往会限制一定时间内单IP的访问次数,如超过规定的访问次数则不再提供有效数据,这样在数据持续高效稳定采集与网站的访问限制之间就会存在矛盾,因而传统的数据访问下载方法不适于维持数据稳定采集。

【发明内容】

[0004]本发明要解决的技术问题是提供一种基于多客户端集群协作的数据下载系统及下载方法。
[0005]本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于多客户端集群协作的数据下载系统,包括任务生成服务器、任务分发服务器及下载客户端;其中任务生成服务器与任务分发服务器通过网络数据连接,将下载任务提供给任务分发服务器;任务分发服务器通过网络同时数据连接多台下载客户端,并将下载任务转发给下载客户端;下载客户端接收任务分发服务器的任务,按下载任务进行下载并将下载结果返回任务分发服务器。
[0006]本发明还可以采用以下技术措施:
所述的同一任务分发服务器连接的多台下载客户端构成下载客户端集群,任务分发服务器根据下载任务协调选择下载客户端。
[0007]所述的下载客户端提供下载频度控制。
[0008]本发明的基于多客户端集群协作的数据下载方法,任务生成服务器将下载任务发送至任务分发服务器;任务分发服务器按照下载任务协调选择下载客户端;下载客户端接收到下载任务后,先判断该下载任务是否为空,再将该任务对应资源进行URL加工处理,然后进行下载,下载完成后判断下载任务是否成功,在下载成功时分析并提取下载到的数据所对应链接,分析下载到的数据中的嵌入式文件,将下载结果返回任务分发服务器,等待下载到的数据被取回;任务分发服务器从各下载客户端取回原下载任务对应的数据。
[0009]本发明具有的优点和积极效果是: 本发明的基于多客户端集群协作的数据下载系统和下载方法中,任务生成服务器向任务分发服务器提供下载任务,任务分发服务器协调具体下载任务并交由多个下载客户端完成下载,而下载客户端功能简单,只需提供基本的网络下载及频度控制功能,资源占用小,可充分利用现有的云计算资源,部署由多台下载客户端组成下载集群提供下载服务,并且可部署在不同区域,不同云,下载客户端可以水平扩展且任意扩展,从而达到最大合理化的利用稀缺的IP资源。
【附图说明】
[0010]图1是本发明的基于多客户端集群协作的数据下载系统的架构示意图;
图2是本发明的基于多客户端集群协作的数据下载方法中下载客户端的工作流程示意图。
【具体实施方式】
[0011]如图1所示,本发明的基于多客户端集群协作的数据下载系统,包括任务生成服务器、任务分发服务器及下载客户端;其中任务生成服务器与任务分发服务器通过网络数据连接,将下载任务提供给任务分发服务器;任务分发服务器通过网络同时数据连接多台下载客户端,并将下载任务转发给下载客户端;下载客户端接收任务分发服务器的任务,按下载任务进行下载并将下载结果返回任务分发服务器。从而通过由多台下载客户端组成的下载客户端集群对要收集数据的网站上的新闻、BBS、BL0G、微博等数据资源进行实时采集,以满足数据采集的高效和及时。
[0012]同一任务分发服务器连接的多台下载客户端构成下载客户端集群,任务分发服务器根据下载任务协调选择下载客户端。
[0013]下载客户端提供下载频度控制,从而避免下载客户端的单一 IP超出网站的访问或下载控制频率,保证数据下载的顺利进行。
[0014]本发明的基于多客户端集群协作的数据下载方法,任务生成服务器将下载任务发送至任务分发服务器;任务分发服务器按照下载任务协调选择下载客户端;如图2所示,下载客户端接收到下载任务后,先判断该下载任务是否为空,当下载任务对应数据为空时,向任务分发服务器返回下载任务为空的信息,如下载任务对应数据不为空,则将该任务对应资源进行URL加工处理,确定资源的位置和然后进行下载,下载完成后判断下载任务是否成功,如下载不成功则向任务分发服务器返回下载任务不成功的信息,如任务对应资源数下载成功,则分析并提取下载到的数据所对应链接,分析下载到的数据中的嵌入式文件,将下载结果返回任务分发服务器,等待下载到的数据被取回;任务分发服务器从各下载客户端取回原下载任务对应的数据。
[0015]以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
【主权项】
1.一种基于多客户端集群协作的数据下载系统,其特征在于:包括任务生成服务器、任务分发服务器及下载客户端;其中任务生成服务器与任务分发服务器通过网络数据连接,将下载任务提供给任务分发服务器;任务分发服务器通过网络同时数据连接多台下载客户端,并将下载任务转发给下载客户端;下载客户端接收任务分发服务器的任务,按下载任务进行下载并将下载结果返回任务分发服务器。2.根据权利要求1所述的基于多客户端集群协作的数据下载系统,其特征在于:同一任务分发服务器连接的多台下载客户端构成下载客户端集群,任务分发服务器根据下载任务协调选择下载客户端。3.根据权利要求1或2所述的基于多客户端集群协作的数据下载系统,其特征在于:下载客户端提供下载频度控制。4.一种基于多客户端集群协作的数据下载方法,其特征在于:任务生成服务器将下载任务发送至任务分发服务器;任务分发服务器按照下载任务协调选择下载客户端集群中的具体下载客户端;下载客户端接收到下载任务后,先判断该下载任务是否为空,再将该任务对应资源进行URL加工处理,然后进行下载,下载完成后判断下载任务是否成功,在下载成功时分析并提取下载到的数据所对应链接,分析下载到的数据中的嵌入式文件,将下载结果返回任务分发服务器,等待下载到的数据被取回;任务分发服务器从各下载客户端取回原下载任务对应的数据。
【专利摘要】一种基于多客户端集群协作的数据下载系统和下载方法中,架构中包括任务生成服务器、任务分发服务器和下载客户端集群,任务生成服务器向任务分发服务器提供下载任务,任务分发服务器协调具体下载任务并交由多个下载客户端完成下载,而下载客户端功能简单,只需提供基本的网络下载及频度控制功能,资源占用小,可充分利用现有的云计算资源,部署由多台下载客户端组成下载集群提供下载服务,并且可部署在不同区域,不同云,下载客户端可以水平扩展且任意扩展,从而达到最大合理化的利用稀缺的IP资源。
【IPC分类】H04L29/08
【公开号】CN105391805
【申请号】CN201510961162
【发明人】李俊, 张作职
【申请人】天津海量信息技术有限公司
【公开日】2016年3月9日
【申请日】2015年12月21日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1