一种设置爬虫爬取时间间隔的方法及装置与流程

文档序号:11066194阅读:来源:国知局

技术特征:

1.一种设置爬虫爬取时间间隔的方法,其特征在于,所述方法包括:

以默认爬取时间间隔对目标网站进行爬取;

获取所述目标网站在一段时间内的实际平均更新量;

判断所述实际平均更新量是否等于预设平均更新量;

当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。

2.根据权利要求1所述的方法,其特征在于,所述以默认爬取时间间隔对目标网站进行爬取,包括:

根据各个目标网站的爬取时间间隔计算爬取时间折中值;

将所述爬取时间折中值作为默认爬取时间间隔对所有目标网站进行爬取。

3.根据权利要求1所述的方法,其特征在于,所述获取所述目标网站在一段时间内的实际平均更新量,包括:

获取所述目标网站在一段时间内的总更新量;

根据所述总更新量以及所述一段时间计算所述目标网站在所述一段时间内的实际平均更新量。

4.根据权利要求1所述的方法,其特征在于,所述根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔,包括:

通过下述公式:爬虫爬取时间间隔=默认爬取时间间隔/(实际平均更新量/预设平均更新量),设置爬虫爬取时间间隔。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

预设爬虫爬取时间间隔的最大阈值与最小阈值;

当设置的所述爬虫爬取时间间隔位于所述最大阈值与所述最小阈值范围之间时,选择设置的所述爬虫爬取时间间隔进行爬取;

当设置的所述爬虫爬取时间间隔大于所述最大阈值时,选择所述最大阈值进行爬取;

当设置的所述爬虫爬取时间间隔小于所述最小阈值时,选择所述最小 阈值进行爬取。

6.一种设置爬虫爬取时间间隔的装置,其特征在于,所述装置包括:

爬取单元,用于以默认爬取时间间隔对目标网站进行爬取;

获取单元,用于获取所述目标网站在一段时间内的实际平均更新量;

判断单元,用于判断所述获取单元获取的所述实际平均更新量是否等于预设平均更新量;

设置单元,用于当判断结果为否时,根据所述获取单元获取的所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。

7.根据权利要求6所述的装置,其特征在于,所述爬取单元包括:

配置模块,用于根据各个目标网站的爬取时间间隔配置爬取时间折中值;

爬取模块,用于将所述配置模块得到的所述爬取时间折中值作为默认爬取时间间隔对所有目标网站进行爬取。

8.根据权利要求6所述的装置,其特征在于,所述获取单元包括:

获取模块,用于获取所述目标网站在一段时间内的总更新量;

计算模块,用于根据所述获取模块获取的所述总更新量以及所述一段时间计算所述目标网站在所述一段时间内的实际平均更新量。

9.根据权利要求6所述的装置,其特征在于,所述设置单元用于通过下述公式:爬虫爬取时间间隔=默认爬取时间间隔/(实际平均更新量/预设平均更新量),设置爬虫爬取时间间隔。

10.根据权利要求6所述的装置,其特征在于,所述装置还包括:

预设单元,用于预设爬虫爬取时间间隔的最大阈值与最小阈值;

选择单元,用于当设置的所述爬虫爬取时间间隔位于所述最大阈值与所述最小阈值范围之间时,选择设置的所述爬虫爬取时间间隔进行爬取;

选择单元还用于当设置的所述爬虫爬取时间间隔大于所述最大阈值时,选择所述最大阈值进行爬取;

选择单元还用于当设置的所述爬虫爬取时间间隔小于所述最小阈值时,选择所述最小阈值进行爬取。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1