技术总结
本发明公开了一种设置爬虫爬取时间间隔的方法及装置,涉及互联网技术领域,解决了无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题。本发明的方法包括:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。本发明主要用于动态设置网页的爬取时间间隔从而提高爬虫的有效利用率。
技术研发人员:潘峰;孙德彬
受保护的技术使用者:北京国双科技有限公司
文档号码:201510703206
技术研发日:2015.10.26
技术公布日:2017.05.03