一种基于分布式的任务调度方法及系统的制作方法

文档序号:9579121阅读:773来源:国知局
一种基于分布式的任务调度方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据存储技术领域,尤其涉及一种基于分布式的任务调度方法及系统。
【背景技术】
[0002]随着“大数据”理念以及相关技术的演进和商业化实践,数据已经成为互联网公司最重要的资产之一。大数据概念中有几个重要的特征与存储备份集群的设计相关度非常高,即数据价值密度相对低,数据价值不确定性相对高,数据量大。这决定了存放数据需要根据数据重要性,存取性能,被访问频度,数据冗余要求等特征来针对性的提供数据服务能力。而备份集群承担了防止所有数据丢失的最后一个保障,需要充分考虑从数据内容、应用特征、服务能力、资源消耗等几个方面的实际需求。
[0003]传统的数据备份集群通常采用在线集群、近线备份、离线备份的方式。不同生命周期的数据按需求存放在不同集群中,每个层次集群对于数据访问满足时间不同。例如在线集群为实时访问(接近5?10ms级);近线集群与在线集群通过网络链路联通,存在关系为数据的导入导出,数据访问时间为准实时方式(视所需数据量与导入在线集群的时长,从分钟至小时级别);离线集群与近线集群同样为数据导入导出的关系,所需数据访问需要提前预约准备,通常以天为准备及访问时间,如图1所示。
[0004]随着在线数据的逐年增长,相应的要求近线集群以及离线集群的数据存储容量也会越来越大,因此对于近线和离线集群在可扩展性、整体成本方面的需求也会成为主要矛盾。与此同时随着云计算能力的能力提升以及被使用成本的逐年降低,对于数据价值挖掘的维度和需求也可能使得访问全量数据的需求更为频繁和迫切,那么对于近线和离线集群在整体可用性,整体性能方面也提出了要求。
[0005]其中在线集群根据其分布式框架选择合适的兼具计算和存储能力的datanode orchunkserver(目录管理节点或块服务器)。近线备份通常采用与在线集群类似解决方案,但通过设备配置的裁剪以及使用相对廉价存储介质,例如近线SATA大容量硬盘、云盘,归档盘等,来降低TCO (Total Cost Ownership总体拥有成本)。
[0006]离线备份通常采用磁带介质存储,配合专用带库管理软件来实施。
[0007]面对目前上百PB级别的数据存储、归档、备份需求,近线存储集群和采用磁带库等商业存储软硬件一体化方案的离线备份集群在支持扩展性,访问性能需求,以及单位容量成本方面都遇到不同程度的挑战。
[0008]就近线集群而言,互联网公司基本摈弃了昂贵的,容量扩展性及性能扩展性存在局限的商用NAS (Network Attached Storage,网络存储设备)设备,取而代之的是基于计算机服务器架构的分布式集群方案。而通常分布式集群方案运用比较常见得为基于Hadoop分布式文件系统的方案,其中目录管理节点通常采用大容量近线SATA硬盘以及云盘或者归档盘;这些存储介质本质上仍为微精密电控机械磁臂配合垂直记录磁存储介质的传统硬盘实现,单体功耗主要消耗在驱动磁碟旋转的马达、电控机械磁臂寻道操作,以及磁头读写操作电流做功消耗,常见3.5寸7200rpm硬盘闲时功耗约7W,满负载运行功耗10瓦以上;5400rpm低转速硬盘标称功耗约在7W,闲时功耗在4.5?5W,而10000RPM以及15000RPM硬盘的功耗更高。
[0009]针对机械硬盘背景功耗(闲时仍然需要保持磁盘旋转,即消耗电能转化为机械能)对于能源消耗,以及该过程中产生热量同时需要系统级制冷手段来带走热量,因此对于大规模利用机械硬盘磁介质方案的datanode(目录管理节点)方案需要精算其Capex (Capital Expenditure,即资本性支出)和 Opex (Operating Expense,运营成本),而针对近线集群并非24*7实时访问,读多写少,无规划随机读,有规划顺序写的使用特征,这部分整体方案中继续使用机械硬盘介质的方案需要在capex层面投入大量的设备购置费用,在集群生命周期内需要支付大量的机架空间占用所付出的的租金,同时消耗大量的电倉泛。
[0010]综上可知,现有技术在实际使用上显然存在不便与缺陷,所以需要一个新的方案来满足新的系统对低功耗的需求。

【发明内容】

[0011]针对上述的缺陷,本发明的目的在于提供一种基于分布式的任务调度方法及系统,主要解决基于10访问的控制算法来实现冷存储数据访问的单机柜功率与整体冷数据中心的能耗可控,其充分利用闪存介质服务与能耗关系,结合数据分布式存/取的特点,降低冷数据备份集群成本。
[0012]为了实现上述目的,本发明提供一种基于分布式的任务调度方法,所述方法包括:
[0013]设置分布式集群内每个机架的被访问的任务计算节点阈值;
[0014]获取各机架中被访问的任务计算节点数量,并判断机架中当前被访问的任务计算节点数量是否超出所述阈值;
[0015]若所述机架中当前被访问的任务计算节点数量超过所述阈值,则将分配的新任务分配到其它机架中或将所述新任务调度至任务队列等待。
[0016]本发明相应提供一种基于分布式的任务调度系统,所述系统包括:
[0017]配置模块,用于设置分布式集群内每个机架的被访问的任务计算节点阈值;
[0018]采集模块,用于获取各机架中被访问的任务计算节点数量,
[0019]分析模块,用于判断所述机架中当前被访问的任务计算节点数量是否超出所述阈值;
[0020]分配模块,用于当机架中当前被访问的任务计算节点数量超出所述阈值时,则将分配的新任务分配到其它机架中或将所述新任务调度至任务队列等待。
[0021]本发明通过设置分布式集群内每个机架的被访问的任务计算节点阈值,实时获取各机架中被访问的任务计算节点数量,并判断机架中当前被访问的任务计算节点数量是否超出阈值;若超出则将分配的新任务分配到其它机架中或将新任务调度至任务队列等待,且已经分配至该机架的任务等待该机架被访问的任务计算节点数量低于阈值一预设比例后再继续执行。从而通过控制每个机架的存储数据访问来实现单机柜功率和整体数据中心的能耗可控,从而使得能够采用过保的硬盘能够应用于冷数据备份集群中,降低冷数据备份集群成本。
【附图说明】
[0022]图1是现有技术中在线集群、近线集群以及离线集群的数据导入导出示意图;
[0023]图2是本发明一种基于分布式的任务调度系统的框架图;
[0024]图3是本发明一种实施例中将10请求合并入10队列的流程图;
[0025]图4是本发明一种实施例中目录管理节点将10队列中的10请求进行分配的流程图;
[0026]图5是本发明一种基于分布式的任务调度方法的流程图。
【具体实施方式】
[0027]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0028]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0029]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0030]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPR0M)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0031]在现有技术中,在冷数据备份集群(近线集群)中,采用Hadoop分布式文件系统的方案,其中目录管理节点通常采用大容量近线SATA硬盘以及云盘或者归档盘,这些存储介质本质上仍为微精密电控机械磁臂配合垂直记录磁存储介质的传统硬盘实现,机械硬盘背景功耗对于能源消耗较大,以及该过程中产生热量同时需要系统级制冷手段来带走热量较大。而
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1