一种基于对分页参数加密的反网络爬虫的方法与流程

文档序号:17211509发布日期:2019-03-27 10:50阅读:308来源:国知局
一种基于对分页参数加密的反网络爬虫的方法与流程

本发明涉及一种反网络爬虫方法,更具体地说,涉及一种基于对分页参数加密的反网络爬虫的方法。



背景技术:

随着互联网的迅速发展,越来越多的公司把一些重要信息放到互联网上,或者通过互联网展示一些有价值的东西,这些有价值的东西也就面临着被非法批量爬取下载的风险,给公司带来一定程度的危害,甚至影响公司网站的正常运行。服务端对访问进行统计,对单个ip的访问的统计分析,比如某个ip在短时间内频繁的有规律的访问站点,即可对其ip进行处理。

服务端可以对客户端请求时携带的useragent进行验证,如果没用携带useragent或者携带的useragent异常,即可对其请求进行处理,只有属于正常范围的useragent才能正常访问。爬虫程序可以通过技术手段模拟session,useragent等数据经行访问爬取数据,也可以批量部署ip,不停切换ip进行访问爬取数据,让后台无法识别该访问是爬虫还是普通用户。

用icon,图片等对文字或数字做映射,把文字映射为图片展示在页面上,因为目前爬虫程序都是将网站转换成字符串进行截取分析,无法直接识别图片,所以提高了爬虫难度。每增加一张图片都会增加一个后台请求,过多的图片请求极大增加了网站加载时间,牺牲了网站性能,影响用户体验,且功能较为单一。

客户端中,如果有大量数据需要进行展示,一般会做分页处理,避免首次请求大量数据,减少等待时间,以提高用户体验,但是分页参数递增的规律性,给爬虫程序带来了极大的便利,只需要对分页参数以循环遍历的方式经行处理,就能一次性爬取网站当前分类的所有数据,以至影响网站正常运行。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术中的缺陷,提供一种基于对分页参数加密的反网络爬虫的方法,在不影响网站性能的情况,避免网站数据信息被非法批量爬取。

本发明解决其技术问题所采用的技术方案是:构造一种基于对分页参数加密的反网络爬虫的方法,通过客户端和服务端约定一套加密协议,防止各类爬虫工具消耗大量网站资源。

在本发明所述的基于对分页参数加密的反网络爬虫的方法中,所述基于对分页参数加密的反网络爬虫的方法步骤为:

s1.客户端和服务端约定一套加密协议;

s2.客户端对分页参数基于内部约定的加密协议做映射;

s3.客户端发送分页请求时,携带的参数为加密后的密文;

s4.服务端收到客户端发送的密文参数后,根据加密协议解密密文,响应结果给客户端,客户端进行页面展示。

实施本发明的一种基于对分页参数加密的反网络爬虫的方法,具有以下有益效果:所述密文和常规的具有递增规律性的数字做为分页参数相比,通过本方法实现的分页操作无法被批量爬虫程序识别提取并批量爬取网站资源;实施本发明可以提高网站资源被恶意爬取的难度;防止各类爬虫工具消耗大量网站资源;降低了将普通用户识别为爬虫的可能性。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明的基于对分页参数加密的反网络爬虫的方法流程图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,所述基于对分页参数加密的反网络爬虫的方法步骤为:

s1.客户端和服务端约定一套加密协议;

s2.客户端对分页参数基于内部约定的加密协议做映射;

s3.客户端发送分页请求时,携带的参数为加密后的密文;

s4.服务端收到客户端发送的密文参数后,根据加密协议解密密文,响应结果给客户端,客户端进行页面展示。

进一步地,所述密文为内部协议加密后生成的非递增数字、没有明显规律的字符或数字。

进一步地,客户端收到密文,先根据协议解密,查询数据库时,分页参数已经是常规的分页参数,响应给前端的数据也和常规分页无区别,所以在用户体验上没有任何影响,但是针对批量爬虫程序有极大的阻碍,且不会把普通用户识别为爬虫程序。

尽管通过以上实施例对本发明进行了揭示,但本发明的保护范围并不局限于此,在不偏离本发明构思的条件下,对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。



技术特征:

技术总结
本发明涉及一种基于对分页参数加密的反网络爬虫的方法,本发明步骤为:S1.客户端和服务端约定一套加密协议;S2.客户端对分页参数基于内部约定的加密协议做映射;S3.客户端发送分页请求时,携带的参数为加密后的密文;S4.服务端收到客户端发送的密文参数后,根据加密协议解密密文,响应结果给客户端,客户端进行页面展示。实施本发明可以提高网站资源被恶意爬取的难度;防止各类爬虫工具消耗大量网站资源;降低了将普通用户识别为爬虫的可能性。

技术研发人员:于桃;戴立伟
受保护的技术使用者:深圳竹云科技有限公司
技术研发日:2018.12.28
技术公布日:2019.03.26
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1