一种数据采集的方法及装置与流程

文档序号:12364552阅读:来源:国知局

技术特征:

1.一种数据采集的方法,其特征在于,包括:

获取网页页面;

确定所述网页页面是否为动态页面;

在所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;

接收所述渲染装置发的可读动态页面;

对所述可读动态页面进行解析处理,获取所述可读动态页面的数据。

2.根据权利要求1所述的方法,其特征在于,所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据包括:

通过PhantomJS实例化页面技术获取所述可读动态页面的属性与结构;

根据所述动态页面属性与结构,获取所述动态页面可读动态页面中的数据。

3.根据权利要求2所述的方法,其特征在于,在所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据之后,还包括:

通过爬虫核心模块对获取的可读动态页面的数据进行存储。

4.一种数据采集的方法,其特征在于,包括:

接收数据采集的装置发送的动态页面;

对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;

将所述可读动态页面发送至所述数据采集的装置。

5.根据权利要求4所述的方法,其特征在于,在所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面之前,还包括:

确定对所述动态页面进行渲染处理的空闲渲染装置;

所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面包括:

将所述动态页面分配至所述空闲渲染装置,通过所述空闲渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面。

6.一种数据采集的装置,其特征在于,包括:

获取单元,用于获取网页页面;

确定单元,用于确定所述获取单元获取的所述网页页面是否为动态页面;

发送单元,用于在所述确定单元确定所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;

接收单元,用于接收所述渲染装置发的可读动态页面;

所述获取单元,还用于对所述接收单元接收的所述可读动态页面进行解析处理,获取所述可读动态页面的数据。

7.根据权利要求6所述的装置,其特征在于,

所述获取单元,具体用于通过PhantomJS实例化页面技术获取所述可读动态页面的属性与结构;

根据所述动态页面属性与结构,获取所述动态页面可读动态页面中的数据。

8.根据权利要求7所述的装置,其特征在于,还包括:

存储单元,用于通过爬虫核心模块对获取的所述可读动态页面的数据进行存储。

9.一种渲染装置,其特征在于,包括:

接收单元,用于接收数据采集的装置发送的动态页面;

处理单元,用于对所述接收单元接收的所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;

发送单元,用于将所述可读动态页面发送至所述数据采集的装置。

10.根据权利要求9所述的装置,其特征在于,

所述处理单元,具体用于确定对所述动态页面进行渲染处理的空闲渲染装置;将所述动态页面分配至所述空闲渲染装置,通过所述空闲渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1