通过对网络资源调度提高网络爬虫抓取效率的方法和装置的制造方法_4

文档序号:9914564阅读:来源:国知局
nt的封装,封装网关参数、代理服务器相关参数、HTTP请求头相关参数等。以下对该接口进行说明:
[0107](l)public NetInterface applyGateway(String):传入的参数为String类型的请求参数,返回值为网络资源NetInterface。该方法主要适用于爬虫第一次申请网络资源;
[0108](2)public NetInterface reapplyGateway(String,NetInterface):传入的参数为String类型的请求参数和当前使用的Net Interface,返回值为网络资源Net Interf ace。该方法的主要功能是,当爬虫第一次申请网络资源失效时,重新申请新的网络资源,并把失效的资源放入定时清理的失效队列中以供检测;
[0109](3)public void releaseGateway(String,NetInterface)传入的参数为String类型的请求参数和当前使用的NetInterface。该方法的主要功能是当不需要进行网络通信时,释放当前网络资源,避免频繁占用线路,同时也实时更新ADSL线路的负载情况。
[0110]此外,本发明提供的通过网络爬虫抓取网络数据的方法和装置还可以通过其他编程语言实现,比如C++,C#等编程语言实现。
[0111]尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0112]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,包括以下步骤: 从RMI远程爬虫客户端接收请求参数,并进行封装识别; 把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑; 对各个网络线路进行优选,得到畅通的网络线路; 通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源; 通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端; 所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。2.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,所述对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。3.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。4.根据权利要求3所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,所述对各个网络线路进行优选,得到畅通的网络线路包括选择网络延迟低、速度最快的网络线路作为畅通的网络线路。5.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,当所有网络线路都被目标网站封锁时,所述对各个网络线路进行优选,得到畅通的网络线路包括通过软路由直接控制,重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。6.—种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其特征在于,包括RMI远程爬虫客户端请求接收端口、参数发送单元、选择单元、HTTP网络资源封装处理单元、网络资源发送端口、设置单元、数据爬取和解析单元。 所述RMI远程爬虫客户端请求接收端口用于从RMI远程爬虫客户端接收请求参数,并进行封装识别; 所述参数发送单元用于把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑; 所述选择单元用于对各个网络线路进行优选,得到畅通的网络线路; 所述HTTP网络资源封装处理单元通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源; 所述网络资源发送端口用于通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端; 所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,通过所述设置单元对网络线路和HTTP请求进行设置,并通过所述数据爬取和解析单元进行数据的爬取和解析。7.根据权利要求1所述的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其特征在于,还包括统计单元,所述统计单元用于根据当前的爬虫调用负载情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。8.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,还包括判断单元,所述判断单元用于判断当所述RMI远程爬虫客户端是否需要使用代理服务器,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。9.根据权利要求8所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,所述选择单元用于选择速度最快的网络线路作为畅通的网络线路。10.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,还包括软路由,当所有网络线路都被目标网站封锁时,所述软路由用于重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
【专利摘要】公开了通过对网络资源调度提高网络爬虫抓取效率的方法和装置。其通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够使爬虫数据的抓取效率提高,不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
【IPC分类】H04L29/08
【公开号】CN105681478
【申请号】CN201610240607
【发明人】陈俊良, 曾琰, 屈银川, 黄志杰
【申请人】北京高地信息技术有限公司
【公开日】2016年6月15日
【申请日】2016年4月19日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1