一种自定义动态扩展的暗网爬虫系统的制作方法

文档序号:17951206发布日期:2019-06-19 00:02阅读:467来源:国知局
一种自定义动态扩展的暗网爬虫系统的制作方法

本发明涉及一种自定义动态扩展的暗网爬虫系统。



背景技术:

暗网爬虫技术是挖掘暗网信息的一个关键技术,现有暗网爬虫系统主要是针对具体的站点页面,采用不同的爬虫解析方式,此种方法的爬虫系统固化,无法迭代以适应类型多变的网页数据的缺点,拓展性较差,站点变化时需要重新构造解析方法。同时,现有的暗网爬虫系统较关注爬虫解析本身,并未解决大量站点爬取的时间效率问题。



技术实现要素:

由于暗网站点页面信息量巨大,对于爬虫系统来说,一方面暗网采用的是隐匿通信,其页面链接速度较慢,其爬取速度存在很大局限性,因此爬虫系统需要解决多站点同时高效率爬取的问题;另一方面由于网页信息结构的多样性,爬虫系统需要具有可维护性,即能够根据不同站点的爬虫要求,对爬虫系统进行拓展。实现暗网爬虫系统的执行效率和解析方法可拓展具有重要的研究意义和应用价值,本发明即解决了爬虫系统的高效以及易拓展问题。

本发明的目的是通过以下技术方案来实现的:

一种自定义动态扩展的暗网爬虫系统,包括:

网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;

爬虫线程模块,负责执行各类网页爬虫过程;

爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;

并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;

负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。

作为优选方式,爬虫系统的实现流程如下:

s1:启动爬虫系统;

s2:网页解析插件模块初始化获得初始爬虫站点;

s3:爬虫站点放入爬虫调度器模块中;

s4:爬虫调度器将站点分配给爬虫线程模块;

s5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接,同时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务,并监控各tor代理正在执行的网页下载数量,开始下载暗网网页页面;

s6:网页页面通过并发模块传给各自爬虫线程,并经过爬虫调度器模块传给各自网页解析插件模块进行网页解析。

作为优选方式,它还包括步骤s7:获得下一级爬虫站点链接。

作为优选方式,循环步骤s3-s7,直至网页全部爬取完毕。

作为优选方式,负载均衡代理池管理模块根据各tor代理正在执行的网页下载数量,实时调整tor代理分配的爬虫网页下载任务,保证各tor代理执行下载任务的均衡性。

本发明的有益效果是:

(1)在爬虫的网页解析插件化模块中采用了灵活的可拓展插件,对于不同的网站爬取任务,无需重新修改爬虫系统的网页解析方法,只需将当前站点的网页解析插件写入接口,即可实现该网站的爬取,保证了爬虫系统的可用可维护性。

(2)在爬取暗网站点网页时,采用动态加载tor代理池方式,实现多站点页面并行下载,相比单任务爬取方式,此种方式大大提高了爬虫系统完成爬取任务的时间效率。同时,采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。

附图说明

图1为本方法中暗网爬虫框架实现流程;

图2为一种自定义动态扩展的暗网爬虫系统框架图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

如图1所示,一种自定义动态扩展的暗网爬虫系统,包括:

网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;

爬虫线程模块,负责执行各类网页爬虫过程;

爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;

并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;

负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。

在一个优选实施例中,如图2所示,爬虫系统的实现流程如下:

s1:启动爬虫系统;

s2:网页解析插件模块初始化获得初始爬虫站点;

s3:爬虫站点放入爬虫调度器模块中;

s4:爬虫调度器将站点分配给爬虫线程模块;

s5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接,同时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务,并监控各tor代理正在执行的网页下载数量,开始下载暗网网页页面;每个爬虫线程在执行过程中,通过并发模块,使用tor代理池将每个暗网站点进行并发连接,下载网页页面数据;

s6:网页页面通过并发模块传给(爬虫线程模块的)各自爬虫线程,并经过爬虫调度器模块传给各自网页解析插件模块进行网页解析。网页页面数据下载完毕后,经过并发模型,网页数据并行分配给各自爬虫线程,执行爬虫过程。在爬虫过程中,每个网页数据通过爬虫调度器分配给相应的网页解析插件,开始执行网页解析过程。

在一个优选实施例中,本发明还包括步骤s7:获得下一级爬虫站点链接(由网页解析插件模块解析网页后获得,如果没有则结束)。

在一个优选实施例中,循环步骤s3-s7,直至网页全部爬取完毕。解析后产生的下一级站点又分配给爬虫调度器,循环上述步骤,直至网页全部爬取完毕。

在一个优选实施例中,负载均衡代理池管理模块根据各tor代理正在执行的网页下载数量,实时调整tor代理分配的爬虫网页下载任务,保证各tor代理执行下载任务的均衡性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载,提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。

技术研发人员:徐进;孙恩博;刘义铭;郭宇斌;吕泉池;陈周国
受保护的技术使用者:中国电子科技集团公司第三十研究所
技术研发日:2019.01.25
技术公布日:2019.06.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1