1.一种自动识别web爬虫的方法,其特征在于,包括以下步骤:
步骤1:服务器首页返回只包含JS代码的页面,这段代码位于onload函数中,在页面完全加载后被执行;
步骤2:步骤1所述的JS代码采用第一种对称加密算法通过Set-Cookie头部设定一个cookie字段,然后使用window.location跳转到首页;服务器检测cookie合法则返回另一段JS代码,另一段JS代码采用第二种对称加密算法设定cookie字段;
步骤3:当所有的cookie字段都合法,则返回正常的首页URL;
步骤4:若客户端没有进行重定向操作,或者cookie值不正确,则设置badcookie,标记为爬虫。
2.如权利要求1所述的一种自动识别web爬虫的方法,其特征在于,所述步骤1、2、3重复若干次,但不超过浏览器设置的重定向上限。
3.如权利要求1或2所述的一种自动识别web爬虫的方法,其特征在于,所述第一种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种,所述第二种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种,且与第一种对称加密算法不相同。