一种网页中验证码元素识别方法与流程

文档序号:12271510阅读:来源:国知局

技术特征:

1.一种网页中验证码元素识别方法,其特征在于,包括以下步骤:

步骤1:通过网络爬虫获取网站页面源代码,检查页面源代码是否存在<form>标签,若存在,则进行后续步骤;

步骤2:检索<form>标签内的特征关键字,若存在特征关键字,则进行后续步骤;

步骤3:查找特征关键字相邻位置标签<input>,判断该标签“type”属性是否为“text”,若是“text”,判定此处为验证码输入处;

步骤4:以步骤3中<input>标签为基准,依次向上、向下相邻标签进行递归查找<img>标签;

步骤5:检索<img>标签中onclick事件,提取onclick事件属性值,属性值为javascript函数;

步骤6:匹配javascript代码中create_code()函数内容,通过将<img>标签src属性值附加一串数字随机值,以参数形式进行提交,从而来获得新的验证码;

步骤7:检索步骤5中onclick事件内容,匹配javascript函数内容,生成随机值、当前日期、当前时间戳;

步骤8:模拟执行onclick事件,据此判断步骤5的img内容是否为图片验证码。

2.如权利要求1所述的一种网页中验证码元素识别方法,其特征在于,在步骤8中,涉及到URL时,该URL均会附带一串随机值进行提交,所述随机值包含时间戳、日期、随机数。

3.如权利要求1或2所述的一种网页中验证码元素识别方法,其特征在于,在步骤2中,所述特征关键字包括“CAPTCHA”、“验证码”。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1