通过对网络资源调度提高网络爬虫抓取效率的方法和装置的制造方法

文档序号:9914564阅读:617来源:国知局
通过对网络资源调度提高网络爬虫抓取效率的方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机网络技术领域,特别是涉及一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置。
【背景技术】
[0002]因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的GoogleJahoo,微软必应,百度等等,几乎每个大型门户网站都有自己的搜索引擎,现在的爬虫工具特别多,已知的开源爬虫框架就有几十种不等。一般来说,企业级别的网络爬虫一般是部署在集群上面,通过不同的网络线路出口,并行地从互联网上下载所需的信息。
[0003]各个网站为了保护自己的网站不被恶意攻击,都会有自己的请求和响应策略。一般来说,目标网站则根据访问频率,浏览网页速度,cookies等因素来封锁线路,同时也会根据账户登录状态,输入验证码是否正确,Flash封装,Ajax混淆,JS加密,图片验证,CSS混淆等技术来保护自己的网站。然而这样一些因素会导致爬虫不能正常爬取。其中,最主要的因素就是网络线路的封锁,很多目标网站会对在一段时间频繁请求的爬虫采取完全封锁的策略。这样便误封锁了一部分爬虫的正常爬取。人工的监控成本也很大,不知道线路何时被封锁了,何时被解封,以至于不能迅速反应。而数据的抓取是一个长期连续的过程,如不能及时地应对目标网站的封锁策略,并立即采取应对策略,那么爬虫的抓取质量和效率则是很低的。

【发明内容】

[0004]有鉴于此,本发明提供一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁,从而更加适于实用。
[0005]为了达到上述第一个目的,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法技术方案如下:
[0006]本发明提供的通过网络爬虫抓取网络数据的方法包括以下步骤:
[0007]从RMI远程爬虫客户端接收请求参数,并进行封装识别;
[0008]把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
[0009]对各个网络线路进行优选,得到畅通的网络线路;
[0010]通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
[0011 ]通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
[0012]所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。
[0013]本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置还可采用以下技术措施进一步实现。
[0014]作为优选,所述对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
[0015]作为优选,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
[0016]作为优选,所述对各个网络线路进行优选,得到畅通的网络线路包括选择速度最快的网络线路作为畅通的网络线路。
[0017]作为优选,当所有网络线路都被目标网站封锁时,所述对各个网络线路进行优选,得到畅通的网络线路包括通过软路由直接控制,重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
[0018]为了达到上述第二个目的,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置的技术方案如下:
[0019]本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置包括RMI远程爬虫客户端请求接收端口、参数发送单元、选择单元、HTTP网络资源封装处理单元、网络资源发送端口、设置单元、数据爬取和解析单元,
[0020]所述RMI远程爬虫客户端请求接收端口用于从RMI远程爬虫客户端接收请求参数,并进行封装识别;
[0021]所述参数发送单元用于把从RMI远程爬虫客户端接收到的请求参数发送到RMI月艮务器内部逻辑;
[0022]所述选择单元用于对各个网络线路进行优选,得到畅通的网络线路;
[0023]所述HTTP网络资源封装处理单元通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
[0024]所述网络资源发送端口用于通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
[0025]所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,通过所述设置单元对网络线路和HTTP请求进行设置,并通过所述数据爬取和解析单元进行数据的爬取和解析。
[0026]本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置还可采用以下技术措施进一步实现。
[0027]作为优选,所述一种通过对网络资源调度来提高网络爬虫抓取效率的装置还包括统计单元,所述统计单元用于根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
[0028]作为优选,所述通过网络爬虫还包括判断单元,所述判断单元用于判断当所述RMI远程爬虫客户端是否需要使用代理服务器,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
[0029]作为优选,所述选择单元用于选择速度最快的网络线路作为畅通的网络线路。
[0030]作为优选,所述通过网络爬虫抓取网络数据的装置还包括软路由,当所有网络线路都被目标网站封锁时,所述软路由用于重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
[0031]本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够独立运行,耦合度低,占用资源少,响应迅速,并且,
[0032]a.准确度高,本发明所提供的数据都经过了相关的验证和优选策略过滤,以确保提供的网络资源
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1