一种基于可变网络拓扑的并行作业资源调度方法

文档序号:9708160阅读:798来源:国知局
一种基于可变网络拓扑的并行作业资源调度方法
【技术领域】
[0001]本发明涉及高性能计算领域,具体涉及一种基于可变网络拓扑的并行作业资源调度方法。
【背景技术】
[0002]在高性能计算领域,高速计算网的网络延迟对课题的性能影响还是很明显的,而在硬件设备相同的情况下,网络延迟和网络拓扑是紧密相关的。当系统中的网络拓扑由于各种软硬件变化而产生变化时,对用户来说是透明的,而这时若作业资源调度还是按原始的网络拓扑划分计算资源池进行调度,将使节点间的通讯延迟产生变化,通常情况下都会使延迟增加,从而使课题运行性能下降。
[0003]根据现有技术,在高性能计算系统中,作业资源调度一般为用户课题请求分配资源时,都是在同一计算资源池内优先分配的。在高速计算网的网络拓扑不变的情况下,这种资源调度策略是不存在问题的,但是如果网络拓扑在系统运行过程中发生变化,将导致当前的计算资源池内的节点间通讯将发生跨网络分区访问。

【发明内容】

[0004]本发明所要解决的技术问题是针对现有技术中存在的高速计算的网络拓扑会因为性能或业务的需求、系统硬件故障进行动态的调整,由此导致同一批节点上运行相同程序时的通讯延迟增大,从而使得课题性能下降的缺陷,提供一种基于可变网络拓扑的并行作业资源调度方法,能够保证系统课题性能不受网络拓扑改变的影响。
[0005]根据本发明,提供了一种基于可变网络拓扑的并行作业资源调度方法,其特征在于,当系统计算网络的系统网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。
[0006]优选地,所述基于可变网络拓扑的并行作业资源调度方法包括:
[0007]通过系统计算网络的网络监控发现系统网络拓扑发生变化;
[0008]网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;
[0009]作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;
[0010]与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;在资源池重构结束后,形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;然后恢复冻结的系统的作业资源调度。
[0011]优选地,如果需要进行计算资源池重构则则冻结作业资源调度服务,直接恢复冻结的系统的作业资源调度。
[0012]本发明要解决高性能计算系统上可变网络拓扑下的作业资源动态调度问题,使得在网络拓扑在发生变化的时候,作业资源调度能及时地发现、响应,并以最新的网络拓扑重构计算资源池,保证每个计算资源池中的资源都满足全带宽的网络全交换。
【附图说明】
[0013]结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
[0014]图1示意性地示出了根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法的流程图。
[0015]需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
【具体实施方式】
[0016]为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
[0017]高性能计算系统一般提供的作业资源调度策略都是以保证课题运行性能为前提,优先分配计算资源池内的计算节点,但该方法具有一定的局限性。在传统的高新能计算系统中,系统的高速计算网络拓扑是不变的,相对应的计算资源池也是不变的,但随着技术的发展,系统的网络拓扑会根据用户的性能和业务需求或硬件故障和更换而发生变化,而这种变化对传统的作业资源调度服务是未知的。此时,还是采用传统的作业资源调度策略,以原有计算资源池进行资源分配,将导致课题运行中在进行网络通讯时发生跨网络分区的消息传递,增加课题的通讯开销,降低课题的运行性能。
[0018]本发明提出的基于可变网络拓扑的并行作业资源调度方法即针对高性能计算系统上的作业资源调度策略,当系统计算网络的网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。
[0019]下面将描述本发明的具体优选实施例。
[0020]图1示意性地示出了根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法的流程图。
[0021]如图1所示,根据本发明优选实施例的基于可变网络拓扑的并行作业资源调度方法包括:
[0022]第一步骤S1:通过系统计算网络的网络监控发现系统网络拓扑发生变化;
[0023]第二步骤S2:网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;
[0024]第三步骤S3:作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;
[0025]第四步骤S4:与当前计算资源池进行匹配,判断是否需要进行计算资源池重构,如果不需要进行计算资源池重构则跳转第九步骤S9,如果需要进行计算资源池重构则则进入第五步骤S5;
[0026]第五步骤S5:冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;
[0027]第六步骤S6:启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;
[0028]第七步骤S7:资源池重构结束,形成新的计算资源池;
[0029]第八步骤S8:解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;
[0030]第九步骤S9:恢复系统正常服务,即恢复在第五步骤S5冻结的系统的作业资源调度。
[0031]根据上面所述流程可以看到,在该方法中,需要对系统作业资源调度服务进行冻结,将影响系统服务质量,而影响程度就由计算资源池重构的速度决定。而如何提高重构速度,关键点就在第三步骤S3中的预处理,它可为之后的快速计算资源池重构提供数据基础。由于预处理时是不冻结系统服务的,不影响系统的正常运行,而重构是只需要进行内存数据替换,这很好的解决了系统动态重构计算资源池的快速问题。
[0032]本发明的优点在于针对网络拓扑改变引起课题性能下降的问题,结合“网络拓扑监测”和“计算资源池重构”功能,“网络拓扑监测”针对系统网络拓扑的变化,实时探测并向作业资源调度汇报,“计算资源池重构”针对系统计算资源池的快速重构,当资源调度接受到网络拓扑改变通知时,以最新的网络拓扑对计算资源池进行快速重构。另外,该技术在作业资源调度中实现,对用户程序完全透明。本发明结合“网络拓扑监测”和“计算资源池重构”功能,实现作业资源调度对网络拓扑变化的实时响应。
[0033]为了更好地说明本发明,下面对本文中提到的术语做出简要解释。
[0034]资源调度:采用各种调度策略为用户课题分配满足用户要求的计算资源。
[0035]网络拓扑:本文中描述的网络拓扑指的是高性能计算系统中,高速计算网为计算节点间通讯提供的拓扑算法。
[0036]网络分区:一个网络分区内所有节点满足网络全交换要求,各个网络分区之间网络带宽降低、延迟增加。
[0037]计算资源池:以高性能计算系统中计算节点的网络拓扑进行构建的计算资源池,资源池内满足满带宽的网络全交换要求。
[0038]需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
[0039]可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
【主权项】
1.一种基于可变网络拓扑的并行作业资源调度方法,其特征在于,当系统计算网络的系统网络拓扑发生变化时,通过主动推送把变化后的最新的网络拓扑信息发送到作业资源调度服务,调度暂停服务并启动计算资源池重构功能,构建完新的计算资源池后,再调度恢复服务。2.根据权利要求1所述的基于可变网络拓扑的并行作业资源调度方法,其特征在于包括: 通过系统计算网络的网络监控发现系统网络拓扑发生变化; 网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑; 作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息; 与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;在资源池重构结束后,形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求;然后恢复冻结的系统的作业资源调度。3.根据权利要求1或2所述的基于可变网络拓扑的并行作业资源调度方法,其特征在于,如果需要进行计算资源池重构则则冻结作业资源调度服务,直接恢复冻结的系统的作业资源调度。
【专利摘要】一种基于可变网络拓扑的并行作业资源调度方法,包括:通过系统计算网络的网络监控发现系统网络拓扑发生变化;网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求。
【IPC分类】G06F9/50
【公开号】CN105468456
【申请号】CN201510828332
【发明人】钱宇, 刘睿涛, 龚道永, 刘沙
【申请人】无锡江南计算技术研究所
【公开日】2016年4月6日
【申请日】2015年11月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1