一种自动识别web爬虫的方法与流程

文档序号：11138598阅读：来源：国知局

技术特征：

1.一种自动识别web爬虫的方法，其特征在于，包括以下步骤：

步骤1：服务器首页返回只包含JS代码的页面，这段代码位于onload函数中，在页面完全加载后被执行；

步骤2：步骤1所述的JS代码采用第一种对称加密算法通过Set-Cookie头部设定一个cookie字段，然后使用window.location跳转到首页；服务器检测cookie合法则返回另一段JS代码，另一段JS代码采用第二种对称加密算法设定cookie字段；

步骤3：当所有的cookie字段都合法，则返回正常的首页URL；

步骤4：若客户端没有进行重定向操作，或者cookie值不正确，则设置badcookie，标记为爬虫。

2.如权利要求1所述的一种自动识别web爬虫的方法，其特征在于，所述步骤1、2、3重复若干次，但不超过浏览器设置的重定向上限。

3.如权利要求1或2所述的一种自动识别web爬虫的方法，其特征在于，所述第一种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种，所述第二种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种，且与第一种对称加密算法不相同。

完整全部详细技术资料下载

当前第2页1 2 3