一种通用的网络爬虫模拟登录方法及系统的制作方法_2

文档序号：9865754阅读：来源：国知局

UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息；
[0038]其中，具体为:
[0039]步骤1、网络爬虫调用无UI浏览器访问网页API，将要访问的网站登陆网页地址传给无UI浏览器；
[0040]步骤2、无UI浏览器加载网站登陆网页，网络爬虫调用无UI浏览器的获取网页API，并获得网页的html内容；
[0041]步骤3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域，填入站点的用户名、密码信息，调用无UI浏览器的提交表单API，将验证信息提交给网站验证；
[0042]步骤4、提交的验证信息认证成功后，网络爬虫调用无UI浏览器(selenium)获得cookie接口，通过cookie接口取得该站点的cookie信息并保存。
[0043]网络爬虫携带cookie信息访问站点，爬取站点网页内容。
[0044]其中，所述网络爬虫携带cookie信息访问站点，爬取站点网页内容，具体为:网络爬虫发送http请求访问站点，并在http请求中设置所述取得的cookie信息，在cookie失效前网络爬虫免登录访问站点，网络爬取站点网页内容。
[0045]请参阅图2所示，本发明的一种通用的网络爬虫模拟登录系统，所述系统包括:配置模块、访问模块、模拟登录模块以及爬取网页内容模块；
[0046]所述配置模块，用于配置要爬取的各个站点的认证信息，所述认证信息包括:用户名、密码以及用户权限；
[0047]所述访问模块，用于网络爬虫调用无UI浏览器访问各个站点；
[0048]所述模拟登录模块，通过无UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息；
[0049]所述爬取网页内容模块，通过网络爬虫携带cookie信息访问站点，爬取站点网页内容。
[0050]所述模拟登录模块具体的实现方式为:
[0051]1、网络爬虫调用无UI浏览器访问网页API，将要访问的网站登陆网页地址传给无UI浏览器;
[0052]2、无UI浏览器加载网站登陆网页，网络爬虫调用无UI浏览器的获取网页API，并获得网页的html内容；
[0053]3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域，填入站点的用户名、密码信息，调用无UI浏览器的提交表单API，将验证信息提交给网站验证；
[0054]4、提交的验证信息认证成功后，网络爬虫调用无UI浏览器获得cookie接口，通过cookie接口取得该站点的cookie信息并保存。
[0055]其中，所述网络爬虫携带cookie信息访问站点，爬取站点网页内容，具体为:网络爬虫发送http请求访问站点，并在http请求中设置所述取得的cookie信息，在cookie失效前网络爬虫免登录访问站点，网络爬取站点网页内容。
[0056]总之，本发明通过调用无UI浏览器模拟人工登录过程，认证成功后保存cookie，爬取利用cookie实现免登陆访问站点爬取站点内容。解决了爬虫模拟登录过程需要人工参与或需要针对特定站点进行定制程序开发的问题，减少开发工作量并避免了需要人工参与的弊端。
[0057]以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。
【主权项】
1.一种通用的网络爬虫模拟登录方法，其特征在于:所述方法为: 配置要爬取的各个站点的认证信息，所述认证信息包括:用户名、密码以及用户权限；网络爬虫调用无UI浏览器访问各个站点；无UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息；网络爬虫携带cookie信息访问站点，爬取站点网页内容。2.根据权利要求1所述的一种通用的网络爬虫模拟登录方法，其特征在于:所述无UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息，具体为: 步骤1、网络爬虫调用无UI浏览器访问网页API，将要访问的网站登陆网页地址传给无UI浏览器; 步骤2、无UI浏览器加载网站登陆网页，网络爬虫调用无UI浏览器的获取网页API，并获得网页的html内容；步骤3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域，填入站点的用户名、密码信息，调用无UI浏览器的提交表单API，将验证信息提交给网站验证；步骤4、提交的验证信息认证成功后，网络爬虫调用无UI浏览器获得cookie接口，通过cookie接口取得该站点的cookie信息并保存。3.根据权利要求1所述的一种通用的网络爬虫模拟登录方法，其特征在于:所述网络爬虫携带cookie信息访问站点，爬取站点网页内容，具体为:网络爬虫发送http请求访问站点，并在http请求中设置所述取得的cookie信息，在cookie失效前网络爬虫免登录访问站点，网络爬取站点网页内容。4.一种通用的网络爬虫模拟登录系统，其特征在于:所述系统包括:配置模块、访问模块、模拟登录模块以及爬取网页内容模块；所述配置模块，用于配置要爬取的各个站点的认证信息，所述认证信息包括:用户名、密码以及用户权限；所述访问模块，用于网络爬虫调用无UI浏览器访问各个站点；所述模拟登录模块，通过无UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息；所述爬取网页内容模块，通过网络爬虫携带cookie信息访问站点，爬取站点网页内容。5.根据权利要求4所述的一种通用的网络爬虫模拟登录系统，其特征在于:所述模拟登录模块具体的实现方式为: (1)、网络爬虫调用无UI浏览器访问网页API，将要访问的网站登陆网页地址传给无UI浏览器； (2)、无UI浏览器加载网站登陆网页，网络爬虫调用无UI浏览器的获取网页API，并获得网页的html内容； (3)、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域，填入站点的用户名、密码信息，调用无UI浏览器的提交表单API，将验证信息提交给网站验证； (4)、提交的验证信息认证成功后，网络爬虫调用无UI浏览器获得cookie接口，通过cookie接口取得该站点的cookie信息并保存。6.根据权利要求4所述的一种通用的网络爬虫模拟登录系统，其特征在于:所述网络爬虫携带cookie信息访问站点，爬取站点网页内容，具体为:网络爬虫发送http请求访问站点，并在http请求中设置所述取得的cookie信息，在cookie失效前网络爬虫免登录访问站点，网络爬取站点网页内容。
【专利摘要】本发明提供一种通用的网络爬虫模拟登录方法，所述方法为：配置要爬取的各个站点的认证信息，所述认证信息包括：用户名、密码以及用户权限；网络爬虫调用无UI浏览器访问各个站点；无UI浏览器模拟人工登录过程，认证成功后保存各个站点的cookie信息；网络爬虫携带cookie信息访问站点，爬取站点网页内容。本发明解决了爬虫模拟登录过程需要人工参与或需要针对特定站点进行定制程序开发的问题，减少开发工作量并避免了需要人工参与的弊端。
【IPC分类】H04L29/08, G06F17/30, H04L29/06
【公开号】CN105631030
【申请号】CN201511026050
【发明人】倪时龙, 苏江文, 张垚
【申请人】福建亿榕信息技术有限公司
【公开日】2016年6月1日
【申请日】2015年12月30日

完整全部详细技术资料下载

当前第2页1 2