网页爬取方法及装置与流程

文档序号:11545135阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种网页爬取方法及装置,涉及数据处理技术领域,提高了对特定链接网页的爬取效率。本发明的主要技术方案为:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。本发明主要用于爬取网页数据。

技术研发人员:李可欣
受保护的技术使用者:北京国双科技有限公司
技术研发日:2016.02.05
技术公布日:2017.08.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1