一种跨域集群计算资源聚合和分配的方法

文档序号:6638630阅读:527来源:国知局
一种跨域集群计算资源聚合和分配的方法
【专利摘要】本发明涉及一种跨域集群计算资源聚合和分配的方法,包括以下步骤:建立并行计算管理平台;搭建跨域分布式多级集群资源池环境;集群资源登记和更新;集群任务资源分配;集群任务提交和结果回收。所述方法是指一种全局式集群资源管控及共享技术的体现。在实际运行中,一个分布式集群往往计算节点数量有限,当任务量较大时需要排队计算,因此会出现本地集群繁忙而别的集群空闲的情形,如果能将多个分布式集群联合起来,实现资源共享,让忙碌的集群可以把任务调节到闲置的集群上,可以大大提高批量任务的处理速度。
【专利说明】一种跨域集群计算资源聚合和分配的方法

【技术领域】
:
[0001]本发明涉及一种计算资源聚合和分配的方法,更具体涉及一种跨域集群计算资源聚合和分配的方法。

【背景技术】
:
[0002]分布式计算一直是计算机领域的研究热点。随着网络技术及应用的不断发展,能否为用户提供高质量的服务技术已经成为衡量一个分布式应用是否成功的关键因素。虚拟计算环境是以互联网为基础,实现资源按需聚合与自主协同的服务平台。互联网上存在着极为丰富的资源,但由于资源节点所固有的高度的动态性与自治性,导致系统服务质量较难得到保证。
[0003]分布式系统是由多个分散的计算机经互连网络构成的统一计算机系统。其中各个物理的和逻辑的资源既相互配合又高度自治,能在全系统范围内实现资源管理和数据共享,动态的实现任务分配和功能分配,且能并行的运行分布式程序,它强调资源、任务、功能、数据和控制的全面分布,它们分布于各个物理上分散的计算机节点中,各个节点经过互连网络相互通信,构成统一的处理系统。
[0004]分布式系统具有高度的内聚性和透明性,内聚性是指分布式中的每一个节点都高度自治,有本地的数据库管理系统和应用软件,透明性是指每一个分布式节点对用户或者整个系统来讲都是透明的,涉及具体的数据处理、分布式计算时,看不出来是在本地还是远程,用户也不必关心自己的需求究竟是在哪个节点被执行的。
[0005]分布式集群由前述包括网关、调度、数据、计算节点,用户提交任务时向集群调度节点发起,调度节点收到该计算请求后向资源池申请资源,资源申请成功后,向目的集群发起计算命令消息。
[0006]在实际运行中,一个分布式集群往往计算节点数量有限,当任务量较大时需要排队计算,因此会出现本地集群繁忙而别的集群空闲的情形,如果能将多个分布式集群联合起来,实现资源共享,让忙碌的集群可以把任务调节到闲置的集群上,可以大大提高批量任务的处理速度。


【发明内容】

:
[0007]本发明的目的是提供一种跨域集群计算资源聚合和分配的方法,所述方法通过多级调度大规模分层分布式并行计算平台实现了数据和程序的预分配,减少了网络通信量,大大的提高了通信效率。
[0008]为实现上述目的,本发明采用以下技术方案:一种跨域集群计算资源聚合和分配的方法,包括以下步骤:
[0009](I)建立并行计算管理平台;
[0010](2)搭建跨域分布式多级集群资源池环境;
[0011](3)集群资源登记和更新;
[0012](4)集群任务资源分配;
[0013](5)集群任务提交和结果回收。
[0014]本发明提供的一种跨域集群计算资源聚合和分配的方法,所述步骤(I)中的平台包括若干个计算节点、调度节点、数据节点和网关服务器;所述计算节点负责数据并行计算;所述调度节点负责用户任务调度、控制以及结果回收;所述数据节点用于存放历史数据以及结果入库功能;所述网关服务器负责平台的统一对外接口,包括与其他系统的对接以及数据同步功能。
[0015]本发明提供的一种跨域集群计算资源聚合和分配的方法,所述步骤(2)中的搭建过程为:每个分级分布式集群通过网关将自己集群中的资源信息交给虚拟的集群资源池统一管理和分配,资源池自动将不同级别的集群按文件系统的方式将各个集群按树状结构进行存储和管理,级别和树状层次结构相对应,区域名是全网唯一:下级单位只能分配使用直属上级调度机构资源。
[0016]本发明提供的另一优选的一种跨域集群计算资源聚合和分配的方法,多级调度分层分布式所述并行计算平台通过采集资源信息流程和采用单节点管理,周期定时上报与任务调度主动下发资源信息采集控制指令相结合的方式,定时刷新和实时刷新实体机和机群资源信息;所述分布式集群的本地机群资源汇总信息通过调度服务器实时更新至跨域分布式并行计算平台统一计算资源池;通过节点管理按照机群任务调度下发的指令,在单节点内分配计算资源。
[0017]本发明提供的再一优选的一种跨域集群计算资源聚合和分配的方法,所述资源信息包括本集群计算节点个数、集群总核数、集群可用核数、集群级别、集群区域名、本集群上级区域名、调度节点IP信息和资源共享标识信息;所述信息均不借助第三方软件采集。
[0018]本发明提供的又一优选的一种跨域集群计算资源聚合和分配的方法,所述步骤
(3)中的登记和更新过程为:每个分布式集群上线时在资源池中建立自己的资源信息树节点,建立成功后再次上报资源更改自己在资源池中的资源信息;所述网关服务器应用收到本地集群资源上报消息后,调用资源池服务中心接口,查找树路径中对应的节点;如果找到了树路径中对应的节点,就更新数据;否则根据上级区域名查找上级区域在树中的路径,如果找到相应路径则新建节点和更新数据。
[0019]本发明提供的又一优选的一种跨域集群计算资源聚合和分配的方法,所述步骤
(4)中的任务资源分配过程包括:
[0020]所述本地集群的调度服务器应用收到本地计算请求后,分析任务配置文件得到该任务模板所需的总核数;
[0021]调用资源池信息查询结构找到本地集群资源信息,判断本地资源是否够用,如果够用就直接向本地集群调度节点下达计算命令消息;
[0022]如果本地资源不够用,重新查找资源池本地集群的上级集群是否有可用的集群资源,如果找到可用的资源,则根据对方网关IP地址信息将本地计算数据同步过去,再通过消息发送共享请求计算消息;
[0023]如果资源池中找不到可用集群,则将该任务按优先级顺序加入任务等待队列。
[0024]本发明提供的又一优选的一种跨域集群计算资源聚合和分配的方法,所述调度服务器应用包括用于监视资源池可用资源信息变化事件的监视事件线程;如果所述线程被触发,则检查任务队列是否有任务,如果有任务,再按所述步骤(4)为队列里的任务分配资源。
[0025]本发明提供的又一优选的一种跨域集群计算资源聚合和分配的方法,所述步骤
(5)中的任务提交和结果回收过程包括:
[0026]用户向本地集群调度节点提交计算任务;
[0027]本地集群的调度服务器应用收到计算请求后,进行任务分析,根据申请资源情况确定是否任务需要拆分;如果不拆分,则只向申请到的本地或者异地的集群发送计算指令消息;如果需要拆分,则重新生成计算任务配置文件,然后向两个或多个集群发送计算指令消息;如果需要向异地集群发送计算请求,则进行计算指令发送之前还要有计算数据同步到异地调度服务器;
[0028]本地集群或者是异地集群收到本方调度服务器计算指令后,由集群内部计算机制调用相应计算程序参与计算,当计算完成后,根据需要将结果返回到本方调度应用服务器;
[0029]调度服务器接收到异地共享集群调度节点返回的计算结果后,根据任务属性判断结果属于本集群计算还是远程异地集群计算,然后再调用入库程序进行入库操作。
[0030]本发明提供的又一优选的一种跨域集群计算资源聚合和分配的方法,当用户向本地集群调度节点提交计算任务时,调度节点向本集群网关节点和所有计算节点组播计算数据。
[0031 ] 和最接近的现有技术比,本发明提供技术方案具有以下优异效果
[0032]1、本发明的方法采用Paxos算法原理在多级调度环境中构建大规模分布式并行计算平台统一计算资源池,资源池信息运维分布式存储在各调度机构机群网关服务器;
[0033]2、本发明的方法通过Paxos算法实现了资源池中机群信息的动态变化协调一致性,任何一个机群信息都能被全网内各级调度机构机群网关服务器查询访问;
[0034]3、本发明的方法提出了多级调度资源统一分配和管理机制,为机群资源共享提供了技术支持;
[0035]4、本发明的方法通过多级调度大规模分层分布式并行计算平台实现了数据和程序的预分配,减少了网络通信量,大大的提高了通信效率;
[0036]5、本发明的方法通过分布式一体化调度方案下的多级调度大规模分层分布式并行计算平台解决了单点故障问题,实现了网络负载均衡,规避了资源利用不充分现象,提高了资源利用率。

【专利附图】

【附图说明】
[0037]图1为本发明的多级调度任务共享机制示意图;
[0038]图2为本发明的分布式系统总体结构示意图;
[0039]图3为本发明的多集群资源池构成示意图;
[0040]图4为本发明的集群资源登记和更新流程图;
[0041]图5为本发明的集群任务资源分配流程图;
[0042]图6为本发明的集群任务提交和结果回收流程图;
[0043]图7为本发明的并行计算管理平台结构示意图。

【具体实施方式】
[0044]下面结合实施例对发明作进一步的详细说明。
[0045]实施例1:
[0046]如图1-6所示,本例的发明提供的一种跨域集群计算资源聚合和分配的方法,包括以下步骤:
[0047]并行计算管理平台的建立,如图7所示:
[0048]并行计算平台由一组相关联的负责不同业务处理的服务器构成,它们构成了一个分布式集群,平台包括若干个计算节点,负责数据并行计算,调度节点是平台的核心,负责用户任务调度和控制以及结果回收,数据节点用于存放历史数据以及结果入库功能,网关服务器负责平台的统一对外接口,包括与其他系统的对接以及数据同步功能等。
[0049]跨域分布式多级集群资源池环境搭建,如图3所示,
[0050]平台统一计算资源池是为维护全局多级共享集群的计算资源而建立的,每个分布式集群都能看到一致的动态管理的资源池,也就是本地集群可以看到全局所有分布式集群的计算资源信息,并且这些信息会随着计算资源信息的改变而动态更新。当本地集群资源不满足计算要求时,可以随时向全局资源池服务中心申请共享集群资源参与计算。
[0051]广域网中每个分级分布式集群通过网关将自己集群中的资源信息交给虚拟的集群资源池统一管理和分配,资源池自动将不同级别的集群按类似文件系统的方式将各个集群按树状结构进行存储和管理,级别和树状层次结构相对应,区域名是全网唯一,比如国调、华北分调、河北省调,这些属性规定了平台统一计算资源池按照特定的策略,进行分配调度和分配:下级单位只能分配使用直属上级调度机构资源。
[0052]多级调度分层分布式并行计算平台通过采集资源信息流程,采用单节点管理,周期定时上报与任务调度主动下发资源信息采集控制指令相结合的方法,定时刷新及实时刷新实体机以及机群资源信息。本地机群资源汇总信息通过调度服务器实时更新至跨域分布式并行计算平台统一计算资源池。通过节点管理按照机群任务调度下发的指令,在单节点内分配计算资源。资源信息包括:本集群计算节点个数、集群总核数、集群可用核数、集群级另IJ、集群区域名、本集群上级区域名、调度节点IP信息、资源共享标识等信息,均不借助第三方软件采集。
[0053]集群资源登记和更新,如图4所示:
[0054]每个分布式集群刚上线时会首先在资源池中建立自己的资源信息树节点,建立成功后以后再次上报资源会更改自己在资源池中的资源信息,网关服务器应用收到本地集群资源上报消息后,首先是调用资源池服务中心接口,查找树路径中对应的节点,如果找到了,就更新数据,否则根据上级区域名查找上级区域在树中的路径,如果找到则新建节点和更新数据。下图说明了该流程情况:
[0055]集群任务资源分配;如图5所示:
[0056]1、本地集群的调度服务器应用收到本地计算请求后,首先分析任务配置文件得到该任务模板所需的总核数。
[0057]2、调用资源池信息查询结构找到本地集群资源信息,判断本地资源是否够用,如果够用就直接向本地集群调度节点下达计算命令消息。
[0058]3、如果本地资源不够用,重新查找资源池本地集群的上级集群是否有可用的集群资源,如果找到可用的资源,则根据对方网关IP地址信息首先将本地计算数据同步过去,然后再通过消息发送共享请求计算消息。
[0059]4、如果资源池中找不到可用集群,则将该任务按优先级顺序加入任务等待队列。
[0060]5、调度应用有一个监视事件线程,用于监视资源池可用资源信息变化事件,如果被触发,会检查任务队列是否有任务,如果有任务,再按上述流程为队列里的任务分配资源。
[0061]集群任务提交和结果回收;如图4所示:
[0062]1、用户向本地集群调度节点提交计算任务,调度节点向本集群网关节点和所有计算节点组播计算数据,这实现了计算数据预分配,而且由于计算节点部署时已安装了计算应用,因此程序也实现了预分配。
[0063]2、本地集群调度应用收到计算请求后,先进行任务分析,根据申请资源情况确定是否任务需要拆分,如果不拆分,则只向申请到的集群(本地或者异地)发送计算指令消息,如果需要拆分,则重新生成计算任务配置文件,然后向两个或多个集群发送计算指令消息,如果需要向异地集群发送计算请求,则进行计算指令发送之前还要有计算数据同步到异地调度服务器的过程。
[0064]3、本地集群或者是异地集群收到本方调度服务器计算指令后,由集群内部计算流程机制调用相应计算程序参与计算,当计算完成后,根据需要将结果返回到本方调度应用服务器。
[0065]4、调度服务器接收到异地共享集群调度节点返回的计算结果后,根据任务属性判断结果属于本集群计算还是远程异地集群计算,然后再调用入库程序进行入库操作。
[0066]多个集群可以共享计算资源,实现联合调度,构成集群组。客户端连接到本地集群,将批量任务提交给调度,调度负责将任务在各集群间分配,并将结果汇总后返回给客户端。客户端可以不必关心任务在实际在哪里执行,如果需要也可以把相关信息返给客户。多级调度大规模分层分布式并行计算平台支持各个集群查询及控制、集群之间任务联合调度或集群资源共享,本地提交的任务既可以在本地计算,也可以在本地集群资源不足的情况下交给共享的机群计算。
[0067]多级调度大规模分层分布式并行计算平台包括应用层、平台核心层、基础层,其中应用层包括浏览器、离线提交端等上层应用;平台核心层包括DistComp并行计算管理程序、计算程序、调度程序等;基础层包括通信中间件、操作系统。
[0068]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员尽管参照上述实施例应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
【权利要求】
1.一种跨域集群计算资源聚合和分配的方法,其特征在于:包括以下步骤: (1)建立并行计算管理平台; (2)搭建跨域分布式多级集群资源池环境; (3)集群资源登记和更新; (4)集群任务资源分配; (5)集群任务提交和结果回收。
2.如权利要求1所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(I)中的平台包括若干个计算节点、调度节点、数据节点和网关服务器;所述计算节点负责数据并行计算;所述调度节点负责用户任务调度、控制以及结果回收;所述数据节点用于存放历史数据以及结果入库功能;所述网关服务器负责平台的统一对外接口,包括与其他系统的对接以及数据同步功能。
3.如权利要求2所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(2)中的搭建过程为:每个分级分布式集群通过网关将自己集群中的资源信息交给虚拟的集群资源池统一管理和分配,资源池自动将不同级别的集群按文件系统的方式将各个集群按树状结构进行存储和管理,级别和树状层次结构相对应,区域名是全网唯一:下级单位只能分配使用直属上级调度机构资源。
4.如权利要求3所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:多级调度分层分布式所述并行计算平台通过采集资源信息流程和采用单节点管理,周期定时上报与任务调度主动下发资源信息采集控制指令相结合的方式,定时刷新和实时刷新实体机和机群资源信息;所述分布式集群的本地机群资源汇总信息通过调度服务器实时更新至跨域分布式并行计算平台统一计算资源池;通过节点管理按照机群任务调度下发的指令,在单节点内分配计算资源。
5.如权利要求4所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述资源信息包括本集群计算节点个数、集群总核数、集群可用核数、集群级别、集群区域名、本集群上级区域名、调度节点IP信息和资源共享标识信息;所述信息均不借助第三方软件采集。
6.如权利要求5所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(3)中的登记和更新过程为:每个分布式集群上线时在资源池中建立自己的资源信息树节点,建立成功后再次上报资源更改自己在资源池中的资源信息;所述网关服务器应用收到本地集群资源上报消息后,调用资源池服务中心接口,查找树路径中对应的节点;如果找到了树路径中对应的节点,就更新数据;否则根据上级区域名查找上级区域在树中的路径,如果找到相应路径则新建节点和更新数据。
7.如权利要求5所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(4)中的任务资源分配过程包括: 所述本地集群的调度服务器应用收到本地计算请求后,分析任务配置文件得到该任务模板所需的总核数; 调用资源池信息查询结构找到本地集群资源信息,判断本地资源是否够用,如果够用就直接向本地集群调度节点下达计算命令消息; 如果本地资源不够用,重新查找资源池本地集群的上级集群是否有可用的集群资源,如果找到可用的资源,则根据对方网关IP地址信息将本地计算数据同步过去,再通过消息发送共享请求计算消息; 如果资源池中找不到可用集群,则将该任务按优先级顺序加入任务等待队列。
8.如权利要求7所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述调度服务器应用包括用于监视资源池可用资源信息变化事件的监视事件线程;如果所述线程被触发,则检查任务队列是否有任务,如果有任务,再按所述步骤(4)为队列里的任务分配资源。
9.如权利要求5所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:所述步骤(5)中的任务提交和结果回收过程包括: 用户向本地集群调度节点提交计算任务; 本地集群的调度服务器应用收到计算请求后,进行任务分析,根据申请资源情况确定是否任务需要拆分;如果不拆分,则只向申请到的本地或者异地的集群发送计算指令消息;如果需要拆分,则重新生成计算任务配置文件,然后向两个或多个集群发送计算指令消息;如果需要向异地集群发送计算请求,则进行计算指令发送之前还要有计算数据同步到异地调度服务器; 本地集群或者是异地集群收到本方调度服务器计算指令后,由集群内部计算机制调用相应计算程序参与计算,当计算完成后,根据需要将结果返回到本方调度应用服务器; 调度服务器接收到异地共享集群调度节点返回的计算结果后,根据任务属性判断结果属于本集群计算还是远程异地集群计算,然后再调用入库程序进行入库操作。
10.如权利要求9所述的一种跨域集群计算资源聚合和分配的方法,其特征在于:当用户向本地集群调度节点提交计算任务时,调度节点向本集群网关节点和所有计算节点组播计算数据。
【文档编号】G06F9/50GK104461740SQ201410770923
【公开日】2015年3月25日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】周智强, 陈勇, 刘娜娜, 何春江, 郭中华 申请人:国家电网公司, 中国电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1