一种基于网络爬虫的自动化采集方法

文档序号:8543753阅读:632来源:国知局
一种基于网络爬虫的自动化采集方法
【技术领域】
[0001]本发明涉及计算机网络爬虫技术领域,具体地说是一种基于网络爬虫的自动化采集方法。
【背景技术】
[0002]近年来,随着信息技术和互联网的不断迅速发展,互联网信息在社会和生活中的地位越来越显著。
[0003]互联网作为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
[0004]目前,有数百台服务器每天进行互联网采集,这就需要大量的人工进入到每台服务器进行配置与采集,这无疑增加了采集的难度与消耗。

【发明内容】

[0005]本发明的技术任务是提供一种基于网络爬虫的自动化采集方法。
[0006]本发明的技术任务是按以下方式实现的,该自动化采集方法是利用聚焦网络爬虫抓取没采集服务器的采集功能地址,将服务器采集的功能地址加入到管理节点进行统一采集与配置管理;每台采集节点服务器中部署相应的采集程序,程序中的采集项会根据平台的差异,采集项也会对应改变,通过http访问资源的功能,获取到子节点的采集项,并对其操作。
[0007]所述的采集程序为网页版操作程序。
[0008]所述的自动化采集方法的步骤如下:
[0009]步骤1:确定采集节点地址与采集项的功能地址;
[0010]步骤2:在管理节点数据中确定合适的采集节点地址与功能地址;
[0011]步骤3:通过聚焦网络爬虫获取采集节点的功能页面并加载到管理节点;
[0012]步骤4:对加载到管理节点的各采集页面进行采集配置;
[0013]步骤5:对所有采集节点进行一键采集。
[0014]所述的步骤I中,首先开启所有采集节点的采集服务,之后确定采集节点地址与采集项的功能地址。
[0015]本发明的一种基于网络爬虫的自动化采集方法和现有技术相比,通过采用聚焦爬虫技术,不需要大量的人工进入到每台服务器进行配置与采集,不但大大减少了技术人员的工作量,有效的提高了工作效率,而且能方便采集管理,有效地提取并利用信息。
【附图说明】
[0016]附图1为一种基于网络爬虫的自动化采集方法的架构图。
【具体实施方式】
[0017]实施例1:
[0018]该自动化采集方法是利用聚焦网络爬虫抓取没采集服务器的采集功能地址,将服务器采集的功能地址加入到管理节点进行统一采集与配置管理;每台采集节点服务器中部署相应的采集程序,程序中的采集项会根据平台的差异,采集项也会对应改变,通过http访问资源的功能,获取到子节点的采集项,并对其操作。
[0019]所述的自动化采集方法的步骤如下:
[0020]步骤1:确定采集节点地址与采集项的功能地址;
[0021]步骤2:在管理节点数据中确定合适的采集节点地址与功能地址;
[0022]步骤3:通过聚焦网络爬虫获取采集节点的功能页面并加载到管理节点;
[0023]步骤4:对加载到管理节点的各采集页面进行采集配置;
[0024]步骤5:对所有采集节点进行一键采集。
[0025]实施例2:
[0026]该自动化采集方法是利用聚焦网络爬虫抓取没采集服务器的采集功能地址,将服务器采集的功能地址加入到管理节点进行统一采集与配置管理;每台采集节点服务器中部署相应的采集程序,采集程序为网页版操作程序,程序中的采集项会根据平台的差异,采集项也会对应改变,通过http访问资源的功能,获取到子节点的采集项,并对其操作。
[0027]所述的自动化采集方法的步骤如下:
[0028]步骤1:首先开启所有采集节点的采集服务,之后确定采集节点地址与采集项的功能地址;
[0029]步骤2:在管理节点数据中确定合适的采集节点地址与功能地址;
[0030]步骤3:通过聚焦网络爬虫获取采集节点的功能页面并加载到管理节点;
[0031]步骤4:对加载到管理节点的各采集页面进行采集配置;
[0032]步骤5:启动一键采集,对所有采集节点进行一键采集。
[0033]实施例3:
[0034]对数百台服务器每天进行互联网采集:
[0035]首先开启所有服务器的采集节点的采集服务,之后确定采集节点地址与采集项的功能地址;在管理节点数据中确定各服务器合适的采集节点地址与功能地址;然后将确定的合适的各采集页面进行采集配置,最后启动一键采集,对所有服务器的采集节点进行一键米集。
[0036]通过上面【具体实施方式】,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【主权项】
1.一种基于网络爬虫的自动化采集方法,其特征在于,该自动化采集方法是利用聚焦网络爬虫抓取没采集服务器的采集功能地址,将服务器采集的功能地址加入到管理节点进行统一采集与配置管理;每台采集节点服务器中部署相应的采集程序,程序中的采集项会根据平台的差异,采集项也会对应改变,通过http访问资源的功能,获取到子节点的采集项,并对其操作。
2.根据权利要求1所述的一种基于网络爬虫的自动化采集方法,其特征在于,所述的采集程序为网页版操作程序。
3.根据权利要求1所述的一种基于网络爬虫的自动化采集方法,其特征在于,所述的自动化采集方法的步骤如下: 步骤1:确定采集节点地址与采集项的功能地址; 步骤2:在管理节点数据中确定合适的采集节点地址与功能地址; 步骤3:通过聚焦网络爬虫获取采集节点的功能页面并加载到管理节点; 步骤4:对加载到管理节点的各采集页面进行采集配置; 步骤5:对所有采集节点进行一键采集。
4.根据权利要求1所述的一种基于网络爬虫的自动化采集方法,其特征在于,所述的步骤I中,首先开启所有采集节点的采集服务,之后确定采集节点地址与采集项的功能地址。
【专利摘要】本发明公开了一种基于网络爬虫的自动化采集方法,属于计算机网络爬虫技术领域,该自动化采集方法是利用聚焦网络爬虫抓取没采集服务器的采集功能地址,将服务器采集的功能地址加入到管理节点进行统一采集与配置管理;每台采集节点服务器中部署相应的采集程序,程序中的采集项会根据平台的差异,采集项也会对应改变,通过http访问资源的功能,获取到子节点的采集项,并对其操作。本发明的一种基于网络爬虫的自动化采集方法和现有技术相比,通过采用聚焦爬虫技术,不需要大量的人工进入到每台服务器进行配置与采集,不但大大减少了技术人员的工作量,有效的提高了工作效率,而且能方便采集管理,有效地提取并利用信息。
【IPC分类】G06F17-30
【公开号】CN104866555
【申请号】CN201510248866
【发明人】邱继钊, 王传超, 徐宏伟
【申请人】浪潮软件集团有限公司
【公开日】2015年8月26日
【申请日】2015年5月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1