一种基于龙芯平台的高性能计算资源监控实现方法

文档序号:7823241阅读:477来源:国知局
一种基于龙芯平台的高性能计算资源监控实现方法
【专利摘要】本发明公开了一种基于龙芯平台的高性能计算资源监控实现方法,所述方法采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。本发明具有设计科学、使用方便等优点,可在国产化计算机服务器领域尤其是申威平台中实现,便于推广使用,可以应用于陆地、航空、卫星等领域。
【专利说明】一种基于龙芯平台的高性能计算资源监控实现方法

【技术领域】
[0001]本发明涉及计算机服务器通信【技术领域】,具体涉及一种基于龙芯平台的高性能计算资源监控实现方法。
技术背景
[0002]高性能计算(HPC)集群主要是完成大规模的数据计算问题。采用多个节点来共同执行计算任务,以提高信息计算系统的运算效率。目前主要应用于X86平台。而在国产化计算机服务器等自主领域,尤其是龙芯平台中,其运算性能还比较低,与国外先进计算机系统相比还具有较大的差距,而且还没有相关的资源监控策略。因此,在龙芯平台中,采用高性能计算资源监控方法来提高其计算效率、对资源进行实时监控凸显重要。


【发明内容】

[0003]本发明要解决的技术问题是:如何克服现有技术的上述缺陷,提供一种在国产化计算机服务器等自主领域尤其是龙芯平台上实现高性能计算资源监控的方法。
[0004]本发明所采用的技术方案为:
一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下:
1)采用龙芯多单元服务器的N个服务器构成集群,其中I个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
[0005]所述方法在控制节点中通过修改资源监控软件,部署可用于龙芯平台的web端监控界面、监控管理端(gmetad)、客户端(gmond),并部署gmetad的依赖软件rrdtool及httpd服务等。
[0006]所述方法在计算节点中修改专用作业管理软件,部署可用于龙芯平台的客户端(gmond)ο
[0007]各个计算节点通过gmond收集本机的信息(如:CPU>memeory等),然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
[0008]所述服务器为服务器刀片。
[0009]本发明的有益效果为:本发明具有设计科学、使用方便等优点,可在国产化计算机服务器领域尤其是申威平台中实现,便于推广使用,可以应用于陆地、航空、卫星等领域。

【专利附图】

【附图说明】
[0010]图1为本发明基于龙芯平台的高性能计算的结构框图;
图2为本发明基于龙芯平台的资源监控工作流程图。

【具体实施方式】
[0011]下面参照附图所示,通过【具体实施方式】对本发明进一步说明:
如图1所示,一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下:
1)采用龙芯多单元服务器的N个服务器构成集群,其中I个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
[0012]所述方法在控制节点中通过修改资源监控软件,部署可用于龙芯平台的web端监控界面、监控管理端(gmetad)、客户端(gmond),其中还需部署gmetad的依赖软件rrdtool及httpd服务等。
[0013]所述方法在计算节点中修改专用作业管理软件,部署可用于龙芯平台的客户端(gmond)ο
[0014]如图2所示,各个计算节点通过gmond收集本机的信息(如-.CPU、memeory等),然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
[0015]所述服务器为服务器刀片。
[0016]以上实施方式仅用于说明本发明,而并非对本发明的限制,有关【技术领域】的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【权利要求】
1.一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于,所述方法实现步骤如下: 1)采用龙芯多单元服务器的N个服务器构成集群,其中I个服务器作为控制节点、剩余服务器作为计算节点; 2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络; 3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信; 4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境; 5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态; 6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
2.根据权利要求1所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:在控制节点中通过修改资源监控软件,部署用于龙芯平台的web端监控界面、监控管理端gmetad、客户端gmond,并部署gmetad的依赖软件rrdtool及httpd服务。
3.根据权利要求1或2所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:在计算节点中修改专用作业管理软件,部署用于龙芯平台的客户端gmond。
4.根据权利要求3所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:各个计算节点通过gmond收集本机的信息,然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
5.根据权利要求3所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:所述服务器为服务器刀片。
【文档编号】H04L12/26GK104468810SQ201410786020
【公开日】2015年3月25日 申请日期:2014年12月18日 优先权日:2014年12月18日
【发明者】赵瑞东, 陈亮甫, 吴登勇 申请人:山东超越数控电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1