跨idc大数处理架构下执行策略生成方法、装置的制造方法

文档序号:9929544阅读:329来源:国知局
跨idc大数处理架构下执行策略生成方法、装置的制造方法
【技术领域】
[0001]本发明涉及大数据技术领域,特别涉及一种跨IDC(Internet Data Center,网络数据中心)大数处理架构下执行策略生成方法、装置。
【背景技术】
[0002]当前处理海量数据处理平台都是以单个IDC内方式构建,使用者不需要了解在IDC内分布式计算所涉及的底层技术细节,能方便快捷地开发数据处理程序。
[0003]在当前架构下,任务策略都以量化集群内设备的CPU、内存等计算相关资源来开发。
[0004]1.FIFO (First In First Out,先入先出)调度策略
[0005]队列调度策略,是从工作队列中以先进先出方式来处理任务。此策略是最老、最简单的处理方式,易于实现运行稳定。但是,该策略不考虑作业的优先级或大小,如果遇到大的计算任务会占用整个集群全部资源,后续任务需要等待当前大任务完成才能获得处理。一些优先级别高、计算量小的任务,不能得到及时处理。
[0006]2.容量调度策略
[0007]容量调度策略,是让任务选择预先分配的资源容器处理执行。
[0008]按照各容器预先划分计算资源到每个容器内,并分配容器给多个独立用户和目标应用程序。该调度策略对集群的计算资源利用率不高,且计算资源扩容、删减的维护成本较高;此外,容器内多任务运行采用FIFO调度器,无法避免相应容器内的大任务导致拥塞整个容器。
[0009]3.公平调度策略
[0010]公平调度策略,与容器调度策略有相似的地方。相对容器调度策略,公平调度策略强制公平共享各容器的计算资源。
[0011 ] 具体来说,处理任务随着时间推移,在使用完自身容器所有计算资源情况下,根据强制公平共享计算资源的全局规则约定,当前任务从其他还有计算资源且优先策略低于当前任务的容器中借用相关资源。
[0012]在该规则下,临时的、需要较少时间、优先级别较高的作业会获得计算资源,那些需要更长时间执行的作业会推迟结果输出。但当在数据与计算资源分布不均匀时,采用任务延迟策略,导致调度稳定性不可预估。
[0013]现有大数据通用计算调度策略是在单IDC内,且数据、计算能力分布较均匀情况下有较好的批量执行处理能力。
[0014]首先,单个大IDC构建数据中心方面,随着大数据的演进。多样数据源源不断地来自网络每个角落,大家已经普遍认同:一个数据中心在建立和计算时效上都会对网络、可扩容等方面造成过高的运营成本。业内需要建立一个通用有层级数据处理能力的架构,在此架构下当前调度策略都是无法满足的。
[0015]其次,在数据与计算能力匹配调度为可执行任务上,现有的策略采取的是任务延迟策略。本策略中出现一个空闲计算资源,如果它被选中的作业没有设备内或本机架中的待处理数据时,策略暂把计算资源让给其他作业。基于此策略,对处理数据分布不理想,只采用延迟一段时间后随机处理的办法会让调度不稳定。
[0016]最后,随着大数据处理平台的普及,不同用户提交的应用作业往往具有不同的服务质量(QoS)需求。目前通用调度策略普遍是基于批量处理,已难于满足当前对大数据多样的QoS的要求。

【发明内容】

[0017]本发明的发明人发现上述现有技术中存在问题,并因此针对问题中的至少一个问题提出了一种新的技术方案。
[0018]本发明的一个目的是提供一种用于跨IDC的大数处理架构下执行策略生成的技术方案。
[0019]根据本发明的第一方面,提供了一种跨互联网数据中心IDC的大数处理架构下执行策略生成方法,包括:
[0020]调度组件接收各个IDC集群上报的当前可用的计算资源和传输资源;
[0021]所述调度组件接收提交的作业,所述作业包括任务、作业数据和期望输出;
[0022]所述调度组件根据任务类型基于任务分类模型库确定所述任务的代表执行策略,所述任务的代表执行策略包括所述任务所需计算资源和所消耗时间;
[0023]所述调度组件根据集群可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、和所消耗时间、集群可用网络传输资源]矩阵进行调度,获得所述作业的当前最优执行策略。
[0024]可选地,该方法还包括:通过机器学习建立所述任务分类模型库。
[0025]可选地,通过机器学习建立所述任务分类模型库包括:任务作为一个对象向IDC集群申请相关资源,相关资源包括CPU、硬盘、内存、传输资源和任务所需数据;对于每个类型的任务,通过试运行任务对相关资源进行随机分配,获得不同相关资源分配状态下的任务执行输出结果,获得任务试运行结果最优的最优执行策略;将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。
[0026]可选地,计算资源包括CPU、硬盘、内存和传输资源。
[0027]可选地,该方法还包括:基于作业的服务质量要求为作业分配不同的作业权重,具有较高服务质量要求的作业分配较高的作业权重,让集群计算资源在作业权重的分配下达到使用利用率最大化,从而进行策略分配时优先分配具有较高QoS要求的作业。
[0028]可选地,调度组件根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[各个任务所需计算资源、所消耗时间、集群可用网络传输资源]矩阵进行调度获得所述作业的当前最优执行策略包括:基于优化算法随机迭代,将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中,通过比对最优策略选取集群最优的分配策略。
[0029]根据本发明的另一方面,提供一种跨互联网数据中心IDC的大数处理架构下执行策略生成装置,包括:
[0030]可用资源获取模块,用于接收各个IDC集群上报的当前可用的计算资源和传输资源;
[0031]作业接收模块,用于接收提交的作业,所述作业包括任务、作业数据和期望输出;
[0032]任务策略确定模块,用于根据所述任务的类型基于任务分类模型库确定所述任务的代表执行策略,所述任务的代表执行策略包括所需计算资源和所消耗时间;
[0033]最优策略确定模块,用于根据可用资源池中的[集群可用计算资源、作业数据分布]矩阵和[作业的各个任务的所需计算资源和所消耗时间、集群可用网络资源]矩阵进行调度,获得所述作业的当前最优执行策略。
[0034]可选地,该装置还包括:任务分类模型库建立模块,用于通过机器学习建立所述任务分类模型库。
[0035]可选地,任务分类模型库建立模块将任务作为一个对象向集群申请相关资源,相关资源包括CPU、硬盘、传输资源、内存、任务所需数据;对于每个类型的任务,通过试运行任务对相关资源进行随机分配,获得不同相关资源分配状态下的任务执行输出结果,获得任务试运行结果最优的最优执行策略;将任务的最优执行策略作为该任务类型的代表执行策略存入任务分类模型库。
[0036]可选地,最优策略确定模块基于优化算法随机迭代,将[集群可用计算资源、作业数据分布]矩阵中的相关资源分配到[各个任务所需计算资源和所消耗时间、集群可用网络资源]矩阵的各任务的公式中,通过比对最优策略选取集群最优的分配策略。。
[0037]本发明的一个优点在于,根据任务分类模型库中不同类型任务的代表执行策略来确定作业中各个任务的所需计算资源和所消耗时间,并结合各个集群内的可用计算资源、作业数据分别以及各个集群的可用网络资源,确定作业的当前最优执行策略,从而实现了跨IDC的最优执行策略的调度和实现。
[0038]通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
【附图说明】
[0039]构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
[0040]参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
[0041]图1是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的一个实施例的流程图;
[0042]图2是示出根据本发明的跨IDC的大数处理架构下执行策略生成方法的另一个实施例的示意图;
[0043]图3是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的一个实施例的结构图;
[0044]图4是示出根据本发明的跨IDC的大数处理架构下执行策略生成装置的另一个实施例的结构图。
【具体实施方式】
[0045]现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0046]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1