技术编号:11155119
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及互联网领域,具体而言,涉及一种用于爬虫的数据处理方法及装置。背景技术在互联网中,网站上的某些新闻内容或者本文内容过于冗长。网站为了方便用户阅读,经常会引入分页机制。例如,一篇文章分为3页展示给阅读者、一个BBS主题下有多页相关的帖子信息。当爬虫程序在遇到上述具有分页机制的互联网资源时,通常会对所有的分页信息进行爬取。例如,一篇小说被分为30页,爬虫程序会对每一页进行爬取,共爬取30次;一个建立时间较长的论坛主题下的一篇300页的帖子文章,爬虫程序会对300页都进行爬取。在实际应用当中,...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。