一种降低高性能计算集群内存功耗的方法及装置的制造方法_2

文档序号:9843748阅读:来源:国知局
依据容错级别对高性能计算集群的内存功耗进行分配。
[0049]其中,内存容错机制包括:无需容错机制、奇偶校验机制或者ECC校验机制。
[0050]优选的,所述装置还包括:
[0051]设定模块,用于在高性能计算应用程序开始运行后,获取高性能计算集群的当前作业的提交脚本,并在提交脚本中设定关键字,利用关键字设定高性能计算集群的当前作业的内存容错机制。
[0052]其中,分配模块包括:
[0053]接收单元,用于接收高性能计算集群的当前作业的提交脚本;
[0054]搜索单元,用于通过关键字搜索和分析,获取高性能计算集群的当前作业的内存容错机制;
[0055]分配单元,用于依据内存容错机制确定内存容错机制的容错级别,依据容错级别对高性能计算集群的内存功耗进行分配。
[0056]本发明所提供的一种降低高性能计算集群内存功耗的装置,监测模块实时监测高性能计算集群的运行状况;分析模块对高性能计算集群正在运行的作业类型进行分析,确定高性能计算集群正在运行的作业的内存容错机制;分配模块获取内存容错机制的容错级另IJ,依据容错级别对高性能计算集群的内存功耗进行分配。
[0057]可见,该装置通过对高性能计算集群作业实时监控、分析,确定高性能计算集群目前运行的作业类型的内存容错机制,并根据内存容错机制的容错级别来对高性能计算集群的内存功耗进行分配,从而依据容错级别来调整内存功耗,降低内存功耗,在保持集群性能不变的如提下提尚能耗比。
[0058]具体的,通过高性能计算集群作业调度系统实时监控、分析、预测高性能计算集群目前运行的作业类型,并根据作业类型开关内存的容错机制,从而降低内存功耗,在保持集群性能不变的前提下提高能耗比。
[0059]所述分析模块为高性能计算集群内存容错机制开关单元;所述分配模块为高性能计算集群作业调度系统作业类型分析单元。
[0060]高性能计算集群作业调度系统作业类型分析单元,通过作业提交脚本关键词设定,判断该作业是否需要内存容错,并有三种判断结果:无需容错;采用奇偶校验;采用ECC校验。
[0061]高性能计算集群内存容错机制开关单元,还可以根据高性能计算集群作业调度系统作业类型分析单元,实时将内存的容错机制改变。
[0062]通过高性能计算集群作业调度系统实时监控、分析、预测高性能计算集群目前运行的作业类型,并根据作业类型开关内存的容错机制,从而降低内存功耗,在保持集群性能不变的如提下提尚能耗比。
[0063]详细的,首先高性能计算应用程序开始运行,高性能计算集群作业一般通过作业提交脚本提交到作业调度系统,并由作业调度系统分配计算资源。在作业提交脚本中设定关键字,来设定该作业的内存容错机制,分为三类:无需容错;采用奇偶校验;采用ECC校验。
[0064]作业调度系统作业类型分析单元接收到作业脚本后,通过关键字搜索和分析,设定该作业的容错级别,然后对集群内存容错机制开关单元发出指令。集群内存容错机制开关单元接收到指令后,对分配到的服务器内存发出设定指令,对其内存容错机制进行设定。
[0065]集群内存容错机制开关单元可采用集群作业调度系统对服务器BMC控制的形式实现,目前内存的ECC开关已可以通过BMC控制。
[0066]高性能应用程序的运行结果一般有精度标准,在作业运行结束后,可通过精度校验来判断容错机制的不同设定对结果的正确性影响。如果精度影响较大或者结果不正确,可以设定该类型作业的容错机制为强,即ECC。如果精度没有影响,则可以设定采用弱容错机制(奇偶位校验)或无容错。
[0067]综上,本发明所提供的一种降低高性能计算集群内存功耗的方法及装置,实时监测高性能计算集群的运行状况;对高性能计算集群正在运行的作业类型进行分析,确定高性能计算集群正在运行的作业的内存容错机制;获取内存容错机制的容错级别,依据容错级别对高性能计算集群的内存功耗进行分配。可见,通过对高性能计算集群作业实时监控、分析,确定高性能计算集群目前运行的作业类型的内存容错机制,并根据内存容错机制的容错级别来对高性能计算集群的内存功耗进行分配,从而依据容错级别来调整内存功耗,降低内存功耗,在保持集群性能不变的前提下提高能耗比。
[0068]以上对本发明所提供的一种降低高性能计算集群内存功耗的方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1.一种降低高性能计算集群内存功耗的方法,其特征在于,包括: 实时监测高性能计算集群的运行状况; 对高性能计算集群正在运行的作业类型进行分析,确定高性能计算集群正在运行的作业的内存容错机制; 获取所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配。2.如权利要求1所述的方法,其特征在于,所述内存容错机制包括:无需容错机制、奇偶校验机制或者ECC校验机制。3.如权利要求1所述的方法,其特征在于,所述实时监测高性能计算集群的运行状况之前,还包括: 在高性能计算应用程序开始运行后,获取高性能计算集群的当前作业的提交脚本,并在提交脚本中设定关键字,利用关键字设定高性能计算集群的当前作业的内存容错机制。4.如权利要求3所述的方法,其特征在于,所述获取所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配,包括: 接收高性能计算集群的当前作业的提交脚本; 通过关键字搜索和分析,获取高性能计算集群的当前作业的内存容错机制; 依据所述内存容错机制确定所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配。5.—种降低高性能计算集群内存功耗的装置,其特征在于,包括: 监测模块,用于实时监测高性能计算集群的运行状况; 分析模块,用于对高性能计算集群正在运行的作业类型进行分析,确定高性能计算集群正在运行的作业的内存容错机制; 分配模块,用于获取所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配。6.如权利要求5所述的装置,其特征在于,所述内存容错机制包括:无需容错机制、奇偶校验机制或者ECC校验机制。7.如权利要求5所述的装置,其特征在于,所述装置还包括: 设定模块,用于在高性能计算应用程序开始运行后,获取高性能计算集群的当前作业的提交脚本,并在提交脚本中设定关键字,利用关键字设定高性能计算集群的当前作业的内存容错机制。8.如权利要求7所述的装置,其特征在于,所述分配模块包括: 接收单元,用于接收高性能计算集群的当前作业的提交脚本; 搜索单元,用于通过关键字搜索和分析,获取高性能计算集群的当前作业的内存容错机制; 分配单元,用于依据所述内存容错机制确定所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配。
【专利摘要】本发明公开了一种降低高性能计算集群内存功耗的方法及装置,该方法包括:实时监测高性能计算集群的运行状况;对高性能计算集群正在运行的作业类型进行分析,确定高性能计算集群正在运行的作业的内存容错机制;获取所述内存容错机制的容错级别,依据所述容错级别对高性能计算集群的内存功耗进行分配。该方法实现降低内存功耗,在保持集群性能不变的前提下提高能耗比。
【IPC分类】G06F11/34, G06F1/32, G06F11/14
【公开号】CN105607726
【申请号】CN201510983353
【发明人】王渭巍
【申请人】浪潮(北京)电子信息产业有限公司
【公开日】2016年5月25日
【申请日】2015年12月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1