一种用于idc有害信息监测平台的爬虫系统的制作方法

文档序号:8922690阅读:236来源:国知局
一种用于idc有害信息监测平台的爬虫系统的制作方法
【技术领域】
[0001]本发明涉及一种用于IDC有害信息监测平台的爬虫系统。
【背景技术】
[0002]随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。
[0003]面对日益活跃的网络社区环境,每个网民都可能成为有害信息的发布者和散布者,网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研宄意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为有害信息挖掘的研宄热点。

【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供一种用于IDC有害信息监测平台的爬虫系统,本系统提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控。
[0005]本发明的目的是通过以下技术方案来实现的:一种用于IDC有害信息监测平台的爬虫系统,它包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,爬虫结点用于采集网络中的有害信息。
[0006]本发明中,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;
2、网页库,存储多线程网页采集模块所采集的网页;
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库抓取编码转换处理后存在有害信息网页的URL ;
5、URL过滤器,过滤不需要下载的URL;
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL—致,若一致则不再对该URL进行后续的处理;
7、URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
[0007]所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
[0008]所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
[0009]所述爬虫结点还包括标签计数器和标签计数日志文件,标签计数器用于记录网页库中的下载数,并将该数据记录在标签计数日志文件中。
[0010]所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
[0011]所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
[0012]所述编码识别处理模块自动将网页的编码类型转换为统一码变换格式UTF。
[0013]所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
[0014]所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
[0015]所述爬虫结点还包括防火墙,多线程网页采集模块通过防火墙对网络上的有害信息进行检索爬取。
[0016]所述爬虫系统还包括全文数据库、索引数据库和列序数据库,全文数据库、索引数据库和列序数据库均与爬虫结点和爬虫根节点连接。
[0017]本发明的有益效果是:本发明所提出的一种用于IDC有害信息监测平台的爬虫系统,具有以下多个功能特点:
1)多线程采集:针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息米集;
2)分布式采集:通过多个爬虫集群、若干的爬虫结点进行大规模数据采集;
3)采集监控:对爬虫结点工作状态、采集任务、采集深度、日志、系统运行报告等进行监控和管理;
4)网页内容自动提取:能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript 等网页;
5)编码自动识别转换:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、IS08859-1等多种编码自动识别,系统自动进行编码转换为UTF ;
6)增量更新:保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户也可以根据需要也可设定全部采集;
7)反爬虫抓取:针对部分设置反爬虫程序网站应设置相关策略,避免无法抓取页面;
8)爬虫间隔抓取:采用网页评分和网站权重等自动生成间隔规则,对网页进行相应的间隔抓取;
9)自定义抓取规则:用户也可以自己设置抓取规则。
【附图说明】
[0018]图1为本发明的爬虫系统结构框图;
图2为本发明中爬虫结点的结构原理框图。
【具体实施方式】
[0019]下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
[0020]如图1所示,一种用于IDC有害信息监测平台的爬虫系统,它负责从互联网上进行原始数据的发现、爬取和数据规格化。根据互联网上应用的不同,包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与上位机进行相互通信,爬虫结点用于采集网络中的有害信息。
[0021]如图2所示,本发明中,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;所述网页解析模块包括DNS解析模块、HTTP解析模块、FTP解析模块、GOPHER解析模块等;
实现多线程采集功能:能够针对不同类型的网站定制不同的策略,采集支持多线程,实现快速?目息米集;
2、网页库,存储多线程网页采集模块所采集的网页;
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;支持GBK、GB2312、
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1