基于爬虫的数据采集系统的制作方法

文档序号:28545787发布日期:2022-01-19 15:03阅读:来源:国知局

技术特征:
1.基于爬虫的数据采集系统,其特征在于,包括:url管理器,用于获取url链接;html下载器,用于根据所述url链接下载html网页;html解析器,用于解析所述html网页的源代码,获得网页数据;数据存储器,用于存储所述网页数据。2.如权利要求1所述的基于爬虫的数据采集系统,其特征在于,还包括:爬虫调度器,用于调度所述url管理器、所述html下载器、所述html解析器和所述数据存储器。3.如权利要求2所述的基于爬虫的数据采集系统,其特征在于,还包括:客户端,用于接收爬虫任务,并将所述爬虫任务发送至所述爬虫调度器,所述爬虫任务包括所述url链接、爬取参数和期限信息;多个服务器,每个所述服务器内均设置所述url管理器、所述html下载器、所述html解析器和所述数据存储器;其中,所述爬虫调度器还用于将所述爬虫任务分配至多个所述服务器中的一个,并将所述爬虫任务中的所述url链接加入对应的所述url管理器。4.如权利要求3所述的基于爬虫的数据采集系统,其特征在于,多个所述服务器分别与多个处理队列对应,每个所述处理队列包括依次排队的多个所述爬虫任务;所述爬虫调度器用于将所述爬虫任务加入多个所述处理队列中的一个。5.如权利要求4所述的基于爬虫的数据采集系统,其特征在于,所述爬虫任务中还包括紧急标志,所述爬虫调度器根据所述紧急标志确定所述爬虫任务在处理队列中的位置;若所述紧急标志为第一紧急标志,则将所述爬虫任务加入至所述处理队列的首位,若所述紧急标志为第二紧急标志,则将所述爬虫任务加入至所述处理队列的末位;若所述处理队列的首位已存在包括所述第一紧急标志的所述爬虫任务,则所述爬虫调度器将其中所述期限信息更近的所述爬虫任务设置为首位。6.如权利要求5所述的基于爬虫的数据采集系统,其特征在于,所述爬虫调度器间隔设定时间根据所述爬虫任务估算所述处理队列中各所述爬虫任务的所述爬取时长,进而估算各所述爬虫任务的截止时间,并根据所述爬取时长和所述截止时间将位于所述处理队列的末位的所述爬虫任务在各所述处理队列之间切换,以使得各所述处理队列的所述爬虫任务均匹配对应的所述期限信息。7.如权利要求6所述的基于爬虫的数据采集系统,其特征在于,所述爬虫调度器还记录各所述爬虫任务的实际爬取时长,若与估算的所述爬取时长的差值大于设定阈值,则标记对应的所述url链接;当被标记的所述url链接出现在爬虫任务中时,则结合被记录的实际爬取时长估算所述爬取任务的所述爬取时长。

技术总结
本发明公开了基于爬虫的数据采集系统,包括:URL管理器,用于获取URL链接;HTML下载器,用于根据所述URL链接下载HTML网页;HTML解析器,用于解析所述HTML网页的源代码,获得网页数据;数据存储器,用于存储所述网页数据。本发明使用方便,用户体验好。用户体验好。用户体验好。


技术研发人员:解峥 刘春阳 张旭 张丽 张翔宇
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2021.08.24
技术公布日:2022/1/18
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1