一种基于连接代理优化管理的多线程网络爬虫处理方法

文档序号:6543572阅读:407来源:国知局
一种基于连接代理优化管理的多线程网络爬虫处理方法
【专利摘要】本发明属于信息处理【技术领域】,具体为一种基于连接代理优化管理的多线程网络爬虫处理方法,其首先获取网络上公开代理服务器,测试代理服务器的网络连接性能,并根据代理服务器性能得到最优的线程数量;然后对代理服务器池进行管理,并为每一个Http请求设置一个有效代理服务器;最终执行Web页面访问请求。本发明的有益效果在于:其通过计算得到线程数目,能有效地使资源得到最大的利用又不造成资源的浪费;均衡每个可用代理服务器的使用次数,有效地避免频繁访问被服务器端检测出来。
【专利说明】一种基于连接代理优化管理的多线程网络爬虫处理方法
【技术领域】
[0001]本发明涉及信息处理【技术领域】,具体涉及一种新型的Web页面信息获取方法,特别是在现有网络爬虫原理的基础上进行连接代理优化管理设计的新型网络爬虫处理方法。
[0002]【背景技术】
随着网络的迅速发展,网络成为大量信息的载体,如何有效地提取这些信息成为一个巨大的挑战。
[0003]网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,其性能的优劣直接影响着搜索引擎的效果[I]。随着网络信息量几何级的增长,对网络爬虫页面采集的性能和效率的要求也越来越高。
[0004]我们总是希望在更短的时间内,获取更多的数据,但是,这会对网站造成非常高的负载,也带来了网络流量增加,泄露隐私数据等问题[2],很多网站采用爬虫检测技术,分析Web访问日志,当判断出爬虫时,则禁止爬虫使用地址,拒绝爬虫继续访问。为让爬虫能够避免被监测出来,针对网站对爬虫检测方法[3],目前已经设计出了大量的分布式网络爬虫,伪装网络爬虫和使用代理的网络爬虫,如斯坦福大学设计的Google爬虫、DisguisedSpider、Internet Archive爬虫。它们采取更换UserAgent [4],设置访问时间间隔和优化URL访问策略[5],使用代理服务器[6]、多线程[7]等方法优化爬虫。但在实际使用爬虫时,会遇到如下问题:(1)间隔参数没有具体的定义标准,爬虫性能得不到保证。当网站对爬虫检测非常严格时,爬虫需要很长的间隔时间,导致爬虫实用性不高,间隔缩短,会导致爬虫被鉴别出来而不可用。(2)使用代理服务器,需要根据代理服务器性能和多线程的数量来优化爬虫效率,但是目前的研究中并没有给出如何优化的具体方法,如果设置了不合适的关系值,那么爬虫效率会非常低。
[0005]由此可见,在现有爬虫技术的基础上,采用合理的代理连接管理方法来对爬虫数据获取线程进行优化配置,对于提升爬虫性能、避免爬虫被服务器拒绝是非常重要的。本发明给出了一种符合这种要求的设计方法。

【发明内容】

[0006]本发明的主要目的是针对爬虫访问Web页面时被拒的问题,提出一种基于连接代理优化管理的多线程网络爬虫,避免被服务器端检测。这种方法具有一定的适应能力,能够解决爬虫在进行Web页面获取时被拒绝的问题。这种方法充分利用了现有互联网上公开的网络连接代理服务,在多线程爬行中进行了代理连接的优化管理和设计,通过代理服务的自动选择机制避免重复使用同一个客户端IP地址连接Web服务器,从而避免被服务端检测。
[0007]本发明提出的基于连接代理优化管理的多线程网络爬虫处理方法,主要使用了多个连接代理,并提出有效的代理管理策略和参数设置方案,在多线程爬虫的基础上应用多代理进行数据爬取。其首先获取网络上公开代理服务器,测试代理服务器的网络连接性能,并根据代理服务器性能得到最优的线程数量;然后对代理服务器池进行管理,并为每一个Http请求设置一个有效代理服务器,最终执行Web页面访问请求。其中:
根据代理池中的代理服务器性能确定线程数量M,采用的计算公式如下:
【权利要求】
1.一种基于连接代理优化管理的多线程网络爬虫处理方法,其特征在于具体步骤为,首先获取网络上公开代理服务器,测试代理服务器的网络连接性能,并根据代理服务器性能得到最优的线程数量;然后对代理服务器池进行管理,并为每一个Http请求设置一个有效代理服务器;最终执行Web页面访问请求;其中: 线程数量M根据代理服务器池中的代理服务器性能确定,其计算公式如下:
2.根据权利要求1所述的基于连接代理优化管理的多线程网络爬虫处理方法,其特征在于:采用最小使用次数优先队列实现代理任务分配。
3.据权利要求1所述的基于连接代理优化管理的多线程网络爬虫处理方法,其特征在于:所述代理服务器的响应时间期望值.^的计算公式如下:
4.根据权利要求1所述的基于连接代理优化管理的多线程网络爬虫处理方法,其特征在于:所述代理服务器的失败2 -根据代理服务器状态队列、代理服务器在时间窗口 w内的失败次数计算,其计算公式如下:
【文档编号】G06F9/50GK103902386SQ201410146375
【公开日】2014年7月2日 申请日期:2014年4月11日 优先权日:2014年4月11日
【发明者】罗邦慧, 曾剑平 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1