用于爬虫的数据处理方法及装置与流程

文档序号：11155119阅读：来源：国知局

技术特征：

1.一种用于爬虫的数据处理方法，其特征在于，包括：

获取待爬取任务信息，其中，所述待爬取任务信息中至少包括所述待爬取任务对应的预设分页数量；

将所述待爬取任务的第一分页作为当前分页，对当前分页执行如下步骤，直到与当前分页对应的当前已爬取分页数量等于所述预设分页数量为止：

爬取当前分页，累计当前已爬取分页数量；

将所述当前已爬取分页数量与所述预设分页数量进行比较；

当所述当前已爬取分页数量小于所述预设分页数量时，将当前分页的下一分页作为当前分页。

2.根据权利要求1所述的方法，其特征在于，获取待爬取任务信息包括：

获取所述待爬取任务的任务地址；

获取所述待爬取任务对应的任务类型；以及

根据所述任务类型，确定与所述任务地址对应的预设分页数量。

3.根据权利要求1所述的方法，其特征在于，将当前分页的下一分页作为当前分页，包括：

对所述当前分页对应的已爬取地址信息进行解析，确定与所述待爬取任务的下一分页对应的待爬取地址信息；以及

将所述待爬取地址信息对应的下一分页，作为待爬取的当前分页。

4.根据权利要求3所述的方法，其特征在于，对所述当前分页对应的已爬取地址信息进行解析，确定与所述待爬取任务的下一分页对应的待爬取地址信息，包括：

获取所述待爬取任务的所述当前分页对应的所述已爬取地址信息；

按照预定解析规则对所述已爬取地址信息进行解析，确定在所述已爬取地址信息中用于记载页码信息的字符位置；以及

对所述字符位置中的字符进行替换，生成所述待爬取任务的下一分页对应的所述待爬取地址信息。

5.一种用于爬虫的数据处理装置，其特征在于，包括：

第一获取模块，用于获取待爬取任务信息，其中，所述待爬取任务信息中至少包括所述待爬取任务对应的预设分页数量；

执行模块，用于将所述待爬取任务的第一分页作为当前分页，对当前分页执行如下步骤，直到与当前分页对应的当前已爬取分页数量等于所述预设分页数量为止：

爬取模块，用于爬取当前分页，累计当前已爬取分页数量；

比较模块，用于将所述当前已爬取分页数量与所述预设分页数量进行比较；

处理模块，用于当所述当前已爬取分页数量小于所述预设分页数量时，将当前分页的下一分页作为当前分页。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取所述待爬取任务的任务地址；

第三获取模块，用于获取所述待爬取任务对应的任务类型；以及

确定模块，用于根据所述任务类型，确定与所述任务地址对应的预设分页数量。

7.根据权利要求5所述的装置，其特征在于，所述处理模块，包括：

第一子确定模块，用于对所述当前分页对应的已爬取地址信息进行解析，确定与所述待爬取任务的下一分页对应的待爬取地址信息；以及

子处理模块，用于将所述待爬取地址信息对应的下一分页，作为待爬取的当前分页。

8.根据权利要求7所述的装置，其特征在于，所述子处理模块包括：

子获取模块，用于获取所述待爬取任务的所述当前分页对应的所述已爬取地址信息；

第二子确定模块，用于按照预定解析规则对所述已爬取地址信息进行解析，确定在所述已爬取地址信息中用于记载页码信息的字符位置；以及

子生成模块，用于对所述字符位置中的字符进行替换，生成所述待爬取任务的下一分页对应的所述待爬取地址信息。

完整全部详细技术资料下载

当前第2页1 2 3