1.一种网页中验证码元素识别方法,其特征在于,包括以下步骤:
步骤1:通过网络爬虫获取网站页面源代码,检查页面源代码是否存在<form>标签,若存在,则进行后续步骤;
步骤2:检索<form>标签内的特征关键字,若存在特征关键字,则进行后续步骤;
步骤3:查找特征关键字相邻位置标签<input>,判断该标签“type”属性是否为“text”,若是“text”,判定此处为验证码输入处;
步骤4:以步骤3中<input>标签为基准,依次向上、向下相邻标签进行递归查找<img>标签;
步骤5:检索<img>标签中onclick事件,提取onclick事件属性值,属性值为javascript函数;
步骤6:匹配javascript代码中create_code()函数内容,通过将<img>标签src属性值附加一串数字随机值,以参数形式进行提交,从而来获得新的验证码;
步骤7:检索步骤5中onclick事件内容,匹配javascript函数内容,生成随机值、当前日期、当前时间戳;
步骤8:模拟执行onclick事件,据此判断步骤5的img内容是否为图片验证码。
2.如权利要求1所述的一种网页中验证码元素识别方法,其特征在于,在步骤8中,涉及到URL时,该URL均会附带一串随机值进行提交,所述随机值包含时间戳、日期、随机数。
3.如权利要求1或2所述的一种网页中验证码元素识别方法,其特征在于,在步骤2中,所述特征关键字包括“CAPTCHA”、“验证码”。