一种自动识别web爬虫的方法与流程

文档序号:11138598阅读:来源:国知局

技术特征:

1.一种自动识别web爬虫的方法,其特征在于,包括以下步骤:

步骤1:服务器首页返回只包含JS代码的页面,这段代码位于onload函数中,在页面完全加载后被执行;

步骤2:步骤1所述的JS代码采用第一种对称加密算法通过Set-Cookie头部设定一个cookie字段,然后使用window.location跳转到首页;服务器检测cookie合法则返回另一段JS代码,另一段JS代码采用第二种对称加密算法设定cookie字段;

步骤3:当所有的cookie字段都合法,则返回正常的首页URL;

步骤4:若客户端没有进行重定向操作,或者cookie值不正确,则设置badcookie,标记为爬虫。

2.如权利要求1所述的一种自动识别web爬虫的方法,其特征在于,所述步骤1、2、3重复若干次,但不超过浏览器设置的重定向上限。

3.如权利要求1或2所述的一种自动识别web爬虫的方法,其特征在于,所述第一种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种,所述第二种对称加密算法为DES、TripleDES、RC2、RC4、RC5和Blowfish中的一种,且与第一种对称加密算法不相同。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1