一种众包网络爬虫抓取数据的检测方法及系统与流程

文档序号:12598524阅读:1426来源:国知局

本发明属于网络爬虫的技术领域,具体地涉及一种众包网络爬虫抓取数据的检测方法及系统。



背景技术:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

在互联上抓取用户的信用数据是信用评级的重要手段,例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。但在抓取这些信息时也遇到了人为设置的技术障碍。

有些网站为了防止爬虫抓取信息,做了IP限制。例如限定单个IP在每分钟内只能访问100次,那么一台爬虫服务器在每分钟内只能发起100次网络请求,当发起第101个请求时则会被目标服务器拒绝。

目前普遍的解决方法是增加服务器从而增加IP地址的数量。例如限定单个IP每分钟内只能访问100次,那么将IP数量增加到500个,就可以达到50000次请求每分钟。这样做虽能解决问题,但花销巨大,很不经济。

申请人在之前的专利申请中,提供了众包的方式,让广大的客户端(例如个人计算机、手机等连接互联网的智能设备)帮忙抓取数据,从而突破IP的限制。

但是挑战也随之而来,如何确保众包网络爬虫抓取的数据是真实可靠的,就需要一套行之有效的机制。



技术实现要素:

本发明的技术解决问题是:克服现有技术的不足,提供一种众包网络爬虫抓取数据的检测方法,其能够确保众包网络爬虫抓取的数据是真实可靠的。

本发明的技术解决方案是:这种众包网络爬虫抓取数据的检测方法,将服务器作为爬虫客户端抓取结果的检验中心,爬虫客户端把抓取的页面内容上传到检验中心,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。

本发明通过检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务,因此能够确保众包网络爬虫抓取的数据是真实可靠的。

还提供了一种众包网络爬虫抓取数据的检测系统,该系统包括:

服务器,其配置来作为爬虫客户端抓取结果的检验中心;

爬虫客户端,其配置来把抓取的页面内容上传到检验中心;

其中,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。

附图说明

图1是根据本发明的众包网络爬虫抓取数据的检测方法的流程图。

具体实施方式

如图1所示,这种众包网络爬虫抓取数据的检测方法,将服务器作为爬虫客户端抓取结果的检验中心,爬虫客户端把抓取的页面内容上传到检验中心,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。

本发明通过检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务,因此能够确保众包网络爬虫抓取的数据是真实可靠的。

更进一步地,该方法包括以下步骤:

(1)检验中心维护一个爬虫列表,爬虫列表中的每一项包含爬虫ID和爬虫的信用分;

(2)检验中心将一个抓取任务派发给不同IP地址的多个爬虫,同时打开一个时间窗口,等待爬虫上传数据;

(3)在时间窗口内接收爬虫上传的数据,并在时间窗口关闭时进行评价。

更进一步地,若时间窗口关闭时爬虫未能上报数据,则信用分-5;在时间窗口关闭前上报数据的爬虫:若上报的内容都一致,则完成此次任务的爬虫信用分+1;若上报的内容发生不一致,则将此次抓取任务按失败处理,并把执行这次任务的爬虫列入待观察列表;服务器重新下发一次任务,同时检验中心自己也去网站上抓取,以自己的结果比照爬虫再次提交上来的结果;下一次时间窗口关闭时,抓取的结果和检验中心一致,则信用分+1,不一致则判定为误报,信用分-50。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种众包网络爬虫抓取数据的检测系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,其包括:

服务器,其配置来作为爬虫客户端抓取结果的检验中心;

爬虫客户端,其配置来把抓取的页面内容上传到检验中心;

其中,检验中心将多个爬虫客户端上传的内容进行对比,如果结果相同则给各个爬虫客户端加信用分;如果结果不相同,则再下发一次任务,

重新检验这几个爬虫客户端,以辨别优劣,而后进行相应的信用分加减;信用分表示爬虫客户端的可靠程度,优先选择信用分高的爬虫客户端来完成抓取任务。

以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1