一种分布式的自动化采集的方法

文档序号:8395795阅读:146来源:国知局
一种分布式的自动化采集的方法
【专利说明】一种分布式的自动化采集的方法
[0001]
技术领域
[0002]本发明涉及计算机数据处理技术领域,具体地说是一种分布式的自动化采集的方法。
【背景技术】
[0003]现实中,每时每刻都产生大量的数据,有些需要分析,有些需要存储,所有的这些需要处理的数据数量是庞大,具有相似性的,所以需要对这些大数据进行分析处理,提取需要的数据。
[0004]数据采集需要数据是有相似性的,以便可以根据他们的规律提取相应的数据,采集的数据还要有采集提取的价值或用途。数据采集要具备采集的方法或方案,可以有计划和步骤进行采集,要具备采集的条件,比如设备和技术。
[0005]面对几十台、上百台的服务器,如果采集人员每次都要进入服务器进行配置采集任务,操作采集程序,会面临很多问题:
O维护量大,远程连接、重复性的配置,采集等。
[0006]2)浪费服务器资源,不能充分利用每台服务器资源,由于人工不能及时发现服务器采集是否完成,所以不能及时执行下一步程序。
[0007]3)错误率增加,由于人工需要大量的操作,配置信息的错误率也会增加。
[0008]4)数据量大,采集类型、采集配置各不相同。不同的网站的数据显示方式不同,需要不同的配置方法。
[0009]

【发明内容】

本发明的技术任务是提供一种分布式的自动化采集的方法。
[0010]本发明的技术任务是按以下方式实现的,该方法的步骤如下:
步骤1:将单机采集程序部署到各个服务器上;
步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址; 步骤3:将要采集的地址,放入管理服务器数据库中,进行任务分配;
步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;
步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;
步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。
[0011]所述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。
[0012]所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。
[0013]本发明的一种分布式的自动化采集的方法和现有技术相比,能够平衡每台服务器的采集压力,提高效率。可以避免由于单个节点失效而使整个系统崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器系统,判断子节点的采集情况。
【附图说明】
[0014]附图1为一种分布式的自动化采集的方法的流程框图。
【具体实施方式】
[0015]实施例1:
该方法的步骤如下:
步骤1:将单机采集程序部署到各个服务器上;
步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;步骤3:将要采集的地址,放入管理服务器数据库中,由管理服务器根据各个服务器采集速度,进行任务分配;
步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制;
步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;
步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息通过邮件方式发送给管理员,并将采集任务平均分配到其它空闲服务器。
[0016]实施例2:
每次的采集任务不一样,采集时间不一样,子节点地址的变化;通过以下步骤搭建平台:
I)将单机采集程序部署到子节点上,启动采集程序。
[0017]2)在管理服务器上配置好采集节点的地址,并测试通过。
[0018]3)调用监控服务器系统的接口。
[0019]4)部署数据节点。
[0020]5)配置采集任务,测试通过。
[0021]将部署在多台服务器上的单机采集程序进行统一管理,通过发送/接收消息的方式,分配和接收采集任务。平衡每台服务器的采集压力,将负载由单个节点转移到多个,从而提高效率。可以避免由于单个节点失效而使整个系统崩溃的危险。减少了人力维护,将配置好的采集内容由管理服务器分配任务,并通过监控服务器系统,判断子节点的采集情况。采用观察者模式,通过后台的管理,服务器根据后台设置的方案进行数据采集任务,并反馈给后台服务器的状态,实现对服务器的管理。
[0022]通过上面【具体实施方式】,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【主权项】
1.一种分布式的自动化采集的方法,其特征在于,该方法的步骤如下: 步骤1:将单机采集程序部署到各个服务器上; 步骤2:将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址; 步骤3:将要采集的地址,放入管理服务器数据库中,进行任务分配; 步骤4:管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,什么时候采集,什么时候结束,都由管理服务器进行控制; 步骤5:将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务; 步骤6:通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。
2.述的步骤3中,进行任务分配是通过管理服务器根据各个服务器的采集速度决定的。
3.根据权利要求1所述的一种分布式的自动化采集的方法,其特征在于,所述的步骤6中将非正常采集的服务器信息通过邮件方式发送给管理员。
【专利摘要】本发明公开了一种分布式的自动化采集的方法,该方法的步骤如下:将单机采集程序部署到各个服务器上;将其中一台服务器做为控制其它服务器的管理服务器,配置其它服务器地址;将要采集的地址,放入管理服务器数据库中,进行任务分配;管理服务器通过爬虫技术操作采集服务器的采集程序,采集什么类型的数据,都由管理服务器进行控制;将每月固定时间采集的工作,配置到管理服务器的数据库中,并设置定时任务;通过监控服务器系统,判断服务器的采集情况,将非正常采集的服务器信息发送给管理员,并将采集任务平均分配到其它空闲服务器。本发明可以避免整个系统崩溃的危险;减少了人力维护,并通过监控服务器系统,判断子节点的采集情况。
【IPC分类】G06F11-30
【公开号】CN104714875
【申请号】CN201510106013
【发明人】孙海峰, 王传超, 徐宏伟
【申请人】浪潮集团有限公司
【公开日】2015年6月17日
【申请日】2015年3月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1