动态部署下载机方法和动态部署下载机装置的制造方法_2

文档序号:9380333阅读:来源:国知局
下载机可处于关机状态,从而实现动态部署下载机,减少了资源浪费。
[0040]在上述技术方案中,优选的,所述下载任务状态包括当前待下载任务的数量、实时刷新出的任务数量、预定时间段内的落地文件的数量和/或不同时间段对应的网络信息量。
[0041]在上述技术方案中,优选的,所述控制单元204包括:判断单元2042,在所述下载任务状态满足预设条件时,启动所述分布式系统中所需的下载机,否则,关闭所述分布式系统中的指定下载机。
[0042]任务频繁发生的时间段不一样,例如每天晚上6点至8点的任务发生数较其他时段多,当进入晚上6点至8点时,可开启处于关机状态的下载机,来满足当前的需要。当出了上述时间段之后,关闭这些下载机,节约资源和能耗。
[0043]在上述技术方案中,优选的,所述预设条件包括当前待下载任务的数量大于第一阈值、实时刷新出的任务数量大于第二阈值,预定时间段内的落地文件大于第三阈值和/或当前时间点处于网络信息量大于第四阈值的时间段。
[0044]在上述技术方案中,优选的,所述监测单元202还用于监测所述分布式系统中各下载机的状态,所述状态包括待机状态、工作状态、关机状态;
[0045]所述控制单元204还用于判断所述分布式系统中处于开机状态的下载机是否可完成与所述下载任务状态对应的下载量,在不满足所述下载量时,开启处于关机状态的下载机。
[0046]当监测到当前的下载状态时,还需要监测当前各下载机的状态,如果当前处于开启状态的下载机能够完成当前的下载任务,则不需要开启其他处于关机状态的下载机,否贝U,可选择开启合适的下载机。
[0047]本发明提供的基于分布式采集系统的动态部署下载机方法及系统,用于解决和优化现有的固定部署下载机方式所产生的大量资源成本的缺陷。
[0048]图3示出了根据本发明的实施例的动态部署下载机系统的处理过程示意图。
[0049]如图3所示,总控管理系统300A (对应于图2中的动态部署下载机装置200)的处理过程包括:
[0050]从本地端导入任务302,形成URL待下载队列304,向下载机子系统300B发送下载任务306,接收来自下载机子系统的下载机数据信息308。在下载回送任务队列中判断310,如果是需要下载任务,则进入步骤304,如果是内容页,则进入步骤312。生成落地文件312。
[0051]监测待下载任务队列中的任务数以及在预定时间段内生成的落地文件数量314。在监测到的数据满足预设条件时,触发开门狗子系统316。通过开门狗子系统启动和关闭下载机子系统。
[0052]接收来自总控管理系统300A的下载任务318。将接收到的需要下载的任务给下载模块执行下载320,之后在传给解析模块解析322,将解析后的任务放回到列表页队列和内容页队列中。其中内容页队列是区分下载解析后需要落地的内容页和需要下载的内容页,最后将下载机数据信息传回给总控管理系统324。
[0053]本发明增加了看门狗子系统,判断当前调度队列中刷出来新的需要下载的URL任务数量,在几分钟之内是否大于某个阀值,或者判断未调度出去下载的URL任务数量在几分钟之内是否大于某个阀值,包括内容页和列表页的URL数量,或者判断当前下载和解析都正确的落地文件的量几分钟之内是否小于某个阀值URL,或者判断是否是一天24小时网络上出现更新新闻、论坛、博客、微博、新闻评论比较频繁的时间段,一般是上午10点到下午16点之间,或者判断启动下载机PC的CPU使用率是否小于80%,网络流量较小的情况,根据判断结果确定启动哪些下载机,关闭哪些下载机。
[0054]图3中所示的总控管理系统300A可以包括分发任务模块,通信模块,处理数据模块,下载机子系统管理模块。各模块主要功能如下:
[0055]分发任务模块:负责管理所有的采集任务的添加、删除、停止的操作,并负责根据采集任务各自的刷新间隔自动将采集任务添加到待访问列表页队列和内容页队列中,同时根据任务的不同类型进行分类处理。
[0056]通信模块:负责创建socket的客户端,并将任务发给下载机子系统;负责创建socket的服务器端,将接收来自下载机子系统的状态信息和生成的数据信息。
[0057]处理数据模块:负责对返回的任务进行分类、落地和统计等处理。
[0058]下载子系统管理模块:负责显示出目前下载机子系统中哪些设备是处于激活状态、哪些处于工作状态、哪些处于待激活状态,以及正在使用的下载机的相关配置和统计信息等。
[0059]看门狗子系统:根据总控管理系统发来的信息启动和关闭下载机子系统。
[0060]下载机子系统300B可以包括:
[0061]通信模块:负责创建socket通信的客户端和服务端与总控管理系统的socket通信模块协调工作。
[0062]下载机信息模块:收集下载机配置和状态信息,形成回送下载机信息队列。
[0063]执行下载任务模块:负责从下载队列获取下载任务、执行下载任务,爬取网页信息。将下载回来的信息放入待解析队列中,提供给解析模块或者生成下载回来的任务数据落地。
[0064]解析模块:负责对下载回来的网页信息进行解析,抽出列表页和内容页,其中将列表页放入解析后的列表页队列中再通过通信接口直接发送给总控管理系统,将内容页放入解析后的内容页队列然后再生成符合格式的数据落地或者发送给总控管理系统。
[0065]以上结合附图详细说明了根据本发明的技术方案,本发明提供的基于分布式采集系统及动态部署下载机的方法及系统能够充分根据总控系统对当前待下载任务的数量、落地文件数量的多少、每天不同时间段对网络信息频繁发生的情况、动态系统实时刷新出来的任务数量等,来开启和关闭整个分布式系统中所需要的下载机,达到动态分布和管理的最佳实效,最大限度的节约资源与人工成本,使处于分布式的系统更加具有实用性和节能效果。
[0066]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种动态部署下载机方法,其特征在于,包括: 监测下载任务状态; 根据所述下载任务状态控制分布式系统中的下载机的开关状态。2.根据权利要求1所述的动态部署下载机方法,其特征在于,所述下载任务状态包括当前待下载任务的数量、实时刷新出的任务数量、预定时间段内的落地文件的数量和/或不同时间段对应的网络信息量。3.根据权利要求2所述的动态部署下载机方法,其特征在于,在所述下载任务状态满足预设条件时,启动所述分布式系统中所需的下载机,否则,关闭所述分布式系统中的指定下载机。4.根据权利要求3所述的动态部署下载机方法,其特征在于,所述预设条件包括当前待下载任务的数量大于第一阈值、实时刷新出的任务数量大于第二阈值,预定时间段内的落地文件大于第三阈值和/或当前时间点处于网络信息量大于第四阈值的时间段。5.根据权利要求1至4中任一项所述的动态部署下载机方法,其特征在于,监测所述分布式系统中各下载机的状态,所述状态包括待机状态、工作状态、关机状态; 判断所述分布式系统中处于开机状态的下载机是否可完成与所述下载任务状态对应的下载量; 在不满足所述下载量时,开启处于关机状态的下载机。6.一种动态部署下载机装置,其特征在于,包括: 监测单元,连接至控制单元,用于监测下载任务状态; 所述控制单元,用于根据所述下载任务状态控制分布式系统中的下载机的开关状态。7.根据权利要求6所述的动态部署下载机装置,其特征在于,所述下载任务状态包括当前待下载任务的数量、实时刷新出的任务数量、预定时间段内的落地文件的数量和/或不同时间段对应的网络信息量。8.根据权利要求7所述的动态部署下载机装置,其特征在于,所述控制单元包括: 判断单元,在所述下载任务状态满足预设条件时,启动所述分布式系统中所需的下载机,否则,关闭所述分布式系统中的指定下载机。9.根据权利要求8所述的动态部署下载机装置,其特征在于,所述预设条件包括当前待下载任务的数量大于第一阈值、实时刷新出的任务数量大于第二阈值,预定时间段内的落地文件大于第三阈值和/或当前时间点处于网络信息量大于第四阈值的时间段。10.根据权利要求6至9中任一项所述的动态部署下载机装置,其特征在于,所述监测单元还用于监测所述分布式系统中各下载机的状态,所述状态包括待机状态、工作状态、关机状态; 所述控制单元还用于判断所述分布式系统中处于开机状态的下载机是否可完成与所述下载任务状态对应的下载量,在不满足所述下载量时,开启处于关机状态的下载机。
【专利摘要】本发明提出了一种动态部署下载机方法和一种动态部署下载机装置,其中动态部署下载机方法包括:监测下载任务状态;根据所述下载任务状态控制分布式系统中的下载机的开关状态。通过本发明的技术方案,根据下载情况来动态部署下载机,从而最大限度的节约资源和能耗。
【IPC分类】H04L29/08
【公开号】CN105100155
【申请号】CN201410204792
【发明人】周丽, 于晓明, 杨建武, 阎磊, 张诚坚, 李刚
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
【公开日】2015年11月25日
【申请日】2014年5月15日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1