技术特征:
技术总结
本发明公开了一种网页爬取方法及装置,涉及数据处理技术领域,提高了对特定链接网页的爬取效率。本发明的主要技术方案为:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。本发明主要用于爬取网页数据。
技术研发人员:李可欣
受保护的技术使用者:北京国双科技有限公司
技术研发日:2016.02.05
技术公布日:2017.08.15