网页爬取方法和装置与流程

文档序号:11155110阅读:来源:国知局

技术特征:

1.一种网页爬取方法,其特征在于,包括:

多台服务器分别从任务队列中获取关键词组,其中,所述任务队列中存储有多个待爬取的关键词组,每个待爬取的关键词组包含多个关键词;以及

所述多台服务器分别通过各自的网络爬虫爬取获取的关键词组中每个关键词对应的搜索引擎结果页。

2.根据权利要求1所述的方法,其特征在于,所述多台服务器包括第一服务器,多台服务器分别从任务队列中获取关键词组包括所述第一服务器从所述任务队列中获取关键词组,所述第一服务器从所述任务队列中获取关键词组包括:

所述第一服务器检测所述任务队列中是否存在待爬取的关键词组;

所述第一服务器在检测出所述任务队列中存在待爬取的关键词组时,锁定所述任务队列,其中,锁定的所述任务队列仅能够被所述第一服务器读取;以及

所述第一服务器从锁定的所述任务队列中获取所述关键词组,并释放所述任务队列,其中,释放后的所述任务队列能够被所述多台服务器中任意一台服务器读取。

3.根据权利要求1所述的方法,其特征在于,所述多台服务器包括第一服务器,所述第一服务器获取的关键词组为第一关键词组,所述第一服务器的网络爬虫为第一网络爬虫,所述多台服务器分别通过各自的网络爬虫爬取获取的关键词组中每个关键词对应的搜索引擎结果页包括所述第一服务器通过所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页,所述第一服务器通过所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页包括:

遍历所述第一关键词组,通过所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页;

判断所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页是否成功;以及

在判断出存在爬取所述第一关键词组中的关键词对应的搜索引擎结果页失败的情况时,将所述第一关键词组中爬取失败的关键词添加至失败列表。

4.根据权利要求3所述的方法,其特征在于,在将所述第一关键词组中爬取失败的关键词添加至失败列表之后,所述方法还包括:

将所述失败列表中的关键词打包为新的关键词组;以及

将所述新的关键词组添加至所述任务队列中。

5.根据权利要求4所述的方法,其特征在于,将所述失败列表中的关键词打包为新的关键词组包括:

获取所述失败列表中关键词的重试次数;

判断所述失败列表中关键词的重试次数是否小于预设值;以及

在判断出所述失败列表中关键词的重试次数小于所述预设值时,将所述失败列表中关键词打包为新的关键词组。

6.根据权利要求1所述的方法,其特征在于,在多台服务器分别从任务队列中获取关键词组之前,所述方法还包括:

按照预设规则对多个关键词进行分组,得到多个组别的关键词组;以及

将所述多个组别的关键词组按照优先级存储于所述任务队列中。

7.一种网页爬取装置,其特征在于,包括:

获取单元,用于使多台服务器分别从任务队列中获取关键词组,其中,所述任务队列中存储有多个待爬取的关键词组,每个待爬取的关键词组包含多个关键词;以及

爬取单元,用于使所述多台服务器分别通过各自的网络爬虫爬取获取的关键词组中每个关键词对应的搜索引擎结果页。

8.根据权利要求7所述的装置,其特征在于,所述多台服务器包括第一服务器,所述获取单元包括:

检测模块,用于使所述第一服务器检测所述任务队列中是否存在待爬取的关键词组;

锁定模块,用于使所述第一服务器在检测出所述任务队列中存在待爬取的关键词组时,锁定所述任务队列,其中,锁定的所述任务队列仅能够被所述第一服务器读取;以及

获取模块,用于使所述第一服务器从锁定的所述任务队列中获取所述关键词组,并释放所述任务队列,其中,释放后的所述任务队列能够被所述多台服务器中任意一台服务器读取。

9.根据权利要求7所述的装置,其特征在于,所述多台服务器包括第一服务器,所述第一服务器获取的关键词组为第一关键词组,所述第一服务器的网络爬虫为第一网络爬虫,所述爬取单元包括:

爬取模块,用于遍历所述第一关键词组,通过所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页;

判断模块,判断所述第一网络爬虫爬取所述第一关键词组中每个关键词对应的搜索引擎结果页是否成功;以及

添加模块,用于在判断出存在爬取所述第一关键词组中的关键词对应的搜索引擎结果页失败的情况时,将所述第一关键词组中爬取失败的关键词添加至失败列表。

10.根据权利要求9所述的装置,其特征在于,所述装置还包括:

打包单元,用于将所述失败列表中的关键词打包为新的关键词组;以及

添加单元,用于将所述新的关键词组添加至所述任务队列中。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1