一种基于中间人的互联网数据采集方法及系统与流程

文档序号:19892618发布日期:2020-02-11 12:52阅读:来源:国知局

技术特征:

1.一种基于中间人的互联网数据采集方法,其特征在于,包括:

步骤1、通过安装中间人代理证书至网页信息采集设备,建立该网页信息采集设备的中间人,该网页信息采集设备访问互联网中网页信息时,中间人代理该网页信息采集设备的全部网络流量;

步骤2、该中间人获取包含待采集网页url正则表达式的采集任务,捕获该全部网络流量中符合该url正则表达式的流量,作为中间流量,并将该采集任务注入该中间流量的html页面中,得到待解析页面并将其存入第一数据库;

步骤3、解析模块根据该第一数据库中待解析页面的url信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。

2.如权利要求1所述的基于中间人的互联网数据采集方法,其特征在于,该步骤2包括:该中间人根据该网页信息采集设备配置的https安全证书,对该网络流量中加密内容进行解密。

3.如权利要求1所述的基于中间人的互联网数据采集方法,其特征在于,步骤2中该采集任务的生成过程包括:根据预先配置的种子信息生成该采集任务,或者根据采集得到的网页采集结果生成新的该采集任务。

4.如权利要求1所述的基于中间人的互联网数据采集方法,其特征在于,步骤2包括:根据配置的url正则表达式对部分http/https请求进行拦截,返回空内容,以提高采集效率。

5.如权利要求1所述的基于中间人的互联网数据采集方法,其特征在于,步骤2中该采集任务包括:html页面采集任务和动态内容采集任务;该html页面采集任务包括跳转代码,跳转到下次要采集的url;该动态内容采集任务不仅包括跳转代码,还包括使用javascript代码获取相应的接口参数以及用被采集页面的javascript代码。

6.一种基于中间人的互联网数据采集系统,其特征在于,包括:

模块1、通过安装中间人代理证书至网页信息采集设备,建立该网页信息采集设备的中间人,该网页信息采集设备访问互联网中网页信息时,中间人代理该网页信息采集设备的全部网络流量;

模块2、该中间人获取包含待采集网页url正则表达式的采集任务,捕获该全部网络流量中符合该url正则表达式的流量,作为中间流量,并将该采集任务注入该中间流量的html页面中,得到待解析页面并将其存入第一数据库;

模块3、解析模块根据该第一数据库中待解析页面的url信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。

7.如权利要求6所述的基于中间人的互联网数据采集系统,其特征在于,该模块2包括:该中间人根据该网页信息采集设备配置的https安全证书,对该网络流量中加密内容进行解密。

8.如权利要求6所述的基于中间人的互联网数据采集系统,其特征在于,模块2中该采集任务的生成过程包括:根据预先配置的种子信息生成该采集任务,或者根据采集得到的网页采集结果生成新的该采集任务。

9.如权利要求6所述的基于中间人的互联网数据采集系统,其特征在于,模块2包括:根据配置的url正则表达式对部分http/https请求进行拦截,返回空内容,以提高采集效率。

10.如权利要求6所述的基于中间人的互联网数据采集系统,其特征在于,模块2中该采集任务包括:html页面采集任务和动态内容采集任务;该html页面采集任务包括跳转代码,跳转到下次要采集的url;该动态内容采集任务不仅包括跳转代码,还包括使用javascript代码获取相应的接口参数以及用被采集页面的javascript代码。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1