一种基于分布式网络数据定向采集的方法_2

文档序号:9455743阅读:来源:国知局
据配置的采集策略确定数据采集的优先级,将采集的数据内容放入已采集集合中;
[0037]采集模块:主要从待采集队列中读取URL,根据获取的数据采集规则对网页数据进行采集,其中采集的内容包括需要精确采集的数据项,和页面中包含的待采集的URL。
[0038]步骤3利用内存数据库完成数据的采集,具体为:
[0039]步骤3.1、将步骤2降低后的待采集的URL放入到待采集队列模块中;
[0040]步骤3.2、调度模块从步骤3.1的待采集队列模块中选取URL,然后放入到采集模块中;
[0041]步骤3.3、通过URL对网页进行数据请求,获取网页内容,如果网页内容中包含动态加载的信息,可以使用webkit模拟浏览器完成页面信息的动态加载;获取页面内容后,采集模块根据配置文件中配置的数据采集规则,对页面内容进行精准定位,获取准确的采集数据项;同时采集模块会对该页面中包含的待采集的URL信息进行采集;
[0042]WebKit包含一个网页引擎WebCore和一个脚本引擎JavaScriptCore,它们分别对应的是KDE的KHTML和KJS ;使用浏览器作为采集能更好的模拟用户浏览的行为,能够天然的解决JS和AJAX等动态页面加载的问题,针对采集性能的瓶颈问题,可以通过增加采集集群数量来解决。
[0043]步骤3.4、将步骤3.3的采集结果返回到调度模块中,将从页面内容中获取的精准数据项内容放入到已采集集合模块中,根据配置文件中定义的采集数据入库方式,将采集至IJ的精准的数据项内容存入相应的数据库中,并在已采集集合模块中记录已经采集的页面数据项及采集的时间;从页面内容中获取的待采集的URL信息放入待采集队列中;
[0044]步骤3.5、完成一个URL的页面采集后,调度模块将继续从待采集队列模块中抽取URL进行相应的网页数据采集,一直到待采集队列为空时,表示所有的URL采集完成,即完成网站数据的定向采集。
[0045]本发明一种基于分布式网络数据定向采集的方法,采用分布式的方式进行网络数据的采集,解决了网络数据中网页数量巨大、网页更新数量巨大并更新频率快、网页中部分数据为动态加载等网络数据无法正常采集的问题,提升了网络数据采集的效率,定制采集策略完成网络数据定向采集。
【主权项】
1.一种基于分布式网络数据定向采集的方法,其特征在于,具体按照以下步骤: 步骤1、确定需要采集的URL ; 步骤2、针对步骤I中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量; 步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。2.根据权利要求1所述的一种基于分布式网络数据定向采集的方法,其特征在于,所述步骤2根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,具体为:根据网站的URL特征,选出需要采集的类型的网页;或者根据需要采集的URL的正则表达式;或者获得不需要采集的URL的正则表达式。3.根据权利要求1所述的一种基于分布式网络数据定向采集的方法,其特征在于,所述步骤3中内存数据库的数据结构包括为: 待采集队列模块:将需要采集的URL信息放入待采集队列中,方便调度模块从队列中抽取URL信息; 已采集集合模块:记录已经采集的页面数据项及其采集的时间,并根据配置的入库方式,将采集的数据项存入相应的数据库中; 调度模块:主要是对待采集的URL队列进行采集调度,根据配置的采集策略确定数据采集的优先级,将采集的数据内容放入已采集集合中; 采集模块:主要从待采集队列中读取URL,根据获取的数据采集规则对网页数据进行采集,其中采集的内容包括需要精确采集的数据项,和页面中包含的待采集的URL。4.根据权利要求3所述的一种基于分布式网络数据定向采集的方法,其特征在于,所述步骤3利用内存数据库完成数据的采集,具体为: 步骤3.1、将步骤2降低后的待采集的URL放入到待采集队列模块中; 步骤3.2、调度模块从步骤3.1的待采集队列模块中选取URL,然后放入到采集模块中; 步骤3.3、通过URL对网页进行数据请求,获取网页内容,获取页面内容后,采集模块根据配置文件中配置的数据采集规则,对页面内容进行精准定位,获取准确的采集数据项;同时采集模块会对该页面中包含的待采集的URL信息进行采集; 步骤3.4、将步骤3.3的采集结果返回到调度模块中,将从页面内容中获取的精准数据项内容放入到已采集集合模块中,根据配置文件中定义的采集数据入库方式,将采集到的精准的数据项内容存入相应的数据库中,并在已采集集合模块中记录已经采集的页面数据项及采集的时间;从页面内容中获取的待采集的URL信息放入待采集队列中; 步骤3.5、完成一个URL的页面采集后,调度模块将继续从待采集队列模块中抽取URL进行相应的网页数据采集,一直到待采集队列为空时,表示所有的URL采集完成,即完成网站数据的定向采集。5.根据权利要求4所述的一种基于分布式网络数据定向采集的方法,其特征在于,所述步骤3.3中获取网页内容时,如果网页内容中包含动态加载的信息,可以使用webki t模拟浏览器完成页面信息的动态加载。6.根据权利要求1所述的一种基于分布式网络数据定向采集的方法,其特征在于,所述内存数据库存储或者访问速度遇到瓶颈时,增大内存数据库集群数和采集集群数量。
【专利摘要】本发明公开了一种基于分布式网络数据定向采集的方法,具体按照以下步骤:步骤1、确定需要采集的URL;步骤2、针对步骤1中要采集的URL进行分析,根据采集数据的格式制定网络数据采集策略,将采集策略进行配置,降低了待采集的URL数量;步骤3、根据步骤2得到的降低后的待采集的URL,利用内存数据库完成数据的采集。本发明一种基于分布式网络数据定向采集的方法,采用分布式的方式进行网络数据的采集,解决了网络数据中网页数量巨大、网页更新数量巨大并更新频率快、网页中部分数据为动态加载等网络数据无法正常采集的问题,提升了网络数据采集的效率,定制采集策略完成网络数据定向采集。
【IPC分类】H04L12/26
【公开号】CN105207852
【申请号】CN201510648636
【发明人】张磊, 张辉
【申请人】西安未来国际信息股份有限公司
【公开日】2015年12月30日
【申请日】2015年10月9日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1