一种gpu集群监控系统及监控报警发布方法

文档序号:7984826阅读:430来源:国知局
一种gpu集群监控系统及监控报警发布方法
【专利摘要】本发明提供了一种GPU集群监控系统及监控报警发布方法,属于信息【技术领域】。所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。
【专利说明】一种GPU集群监控系统及监控报警发布方法
【技术领域】
[0001]本发明属于信息【技术领域】,具体涉及一种GPU集群监控系统及监控报警发布方法。
【背景技术】
[0002]GPU如今在地球物理领域应用越来越广泛,大规模的GPU集群也随之而产生,但现如今还未针对大规模GPU集群设备开发相应的实时监控系统,只能监控cpu、内存、存储等传统的计算机硬件状态。而且,目前的实时监控界面单一,只能反应节点健康状态,以及CPU和GPU的利用率。

【发明内容】

[0003]本发明的目的在于解决上述现有技术中存在的难题,提供一种GPU集群监控系统及监控报警发布方法,针对地球物理研究中对GPU设备的特殊要求,提供一种实时监控系统,实现监控GPU设备运行状态的功能,将采集的数据转化为可视化界面,实时的反应设备运行的情况,以保障设备的正常运行。
[0004]本发明是通过以下技术方案实现的:
[0005]一种GPU集群监控系统,包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接;所述GPU集群是由至少一个计算节点组成的且做并行计算的系统,一个计算节点是一个含有GPU卡的节点;
[0006]所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;
[0007]在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;
[0008]所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;
[0009]所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。
[0010]所述数据采集模块是通过gmond守护进程来采集计算节点的数据信息
[0011]一种监控报警发布方法:所述分析模块将收集来的精简数据表中的数据与设定的界限值进行比较,如果精简数据表中的数据超过界限值,分析模块会向展示模块发送消息,展示模块将对应该数据的设备的标识(比如logo)标注上与其它设备的标识不同的颜色(例如红色),以引起运维人员的关注。所述界限值是根据本单位设备的实际情况所设定的,数据超过界限值被认为危险。
[0012]另外,所述展示模块向运维人员发送电子邮件和或短信,向运维人员告警。例如,如果节点网络中断,GPU集群监控系统即认为该节点死机,然后将该节点死机的信息通过电子邮件和或短信告知运维人员。
[0013]与现有技术相比,本发明的有益效果是:
[0014]本发明实现了 GPU设备的实时监控,同时通过WEB界面发布实时监控信息,本发明在Ganglia监控系统的基础上扩展了 GPU监控,并通过WEB页面进行展示。
【专利附图】

【附图说明】
[0015]图1是本发明基于高性能计算的GPU集群监控系统的硬件结构图。
[0016]图2是本发明基于高性能计算的GPU集群监控系统的工作原理图。
[0017]图3是本发明本发明基于高性能计算的GPU集群监控系统的模块结构图。
【具体实施方式】
[0018]下面结合附图对本发明作进一步详细描述:
[0019]作为高性能计算的GPU集群,对GPU的实时监控一直是运维人员最为关心的。本发明在Ganglia的原有架构基础上,编写了一套适用于GPU监控的系统,并且设计了监控信息,实现了对于GPU的实时监控。一般所谓的GPU是包含GPU卡的计算节点,在普通的监控系统中只能对cpu、内存等常规信息进行实时监控,但是无法对GPU卡进行实时监控,本发明就是针对这个研发出一套系统来专门针对GPU卡的利用率进行实时监控。
[0020]如图1所示,本发明的GPU集群监控系统是应用在GPU集群中的,通过部署Ganglia系统中的gmond守护进程来采集并传递数据。本发明的监控系统包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接。
[0021]如图2所示,本发明的监控系统是在Ganglia的基础上进行扩展,实现对GPU集群的监控功能,Ganglia是一个集群监控系统,每个节点都运行一个收集和发送度量数据的名为gmond的守护进程,接收所有度量数据的主机叫代理节点,代理节点显示这些数据并且将这些数据的精简表单通过交换机传递到信息发布服务器上,这些数据在信息发布服务器会对这些数据进行处理,然后通过搭建web平台将运行状态呈现出来。
[0022]具体来说,如图3所示,本发明的监控系统包括数据采集模块、分析模块和展现模块;
[0023]在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息;所述GPU集群监控系统通过gmond守护进程采集各个计算节点的数据信息,所述数据信息为GPU卡的利用率;
[0024]所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;
[0025]所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。
[0026]除了传统的系统性能指标,如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,本发明主要扩展了 GPU卡相关的各项信息。
[0027]本系统通过自主研发采集了每个节点的GPU相关指标,利用gmond守护进程将数据推送到代理节点,由代理节点统计分析,将精简的数据表送到信息发布服务器上进行WEB展示。
[0028]上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述【具体实施方式】所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
【权利要求】
1.一种GPU集群监控系统,包括代理节点、生产网交换机和信息发布服务器;被监控的GPU集群与代理节点连接,代理节点与生产网交换机连接,生产网交换机与信息发布服务器连接;所述GPU集群是由至少一个计算节点组成的且做并行计算的系统,一个计算节点是一个含有GPU卡的节点,其特征在于: 所述GPU集群监控系统包括数据采集模块、分析模块和展现模块; 在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率; 所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表; 所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来。
2.根据权利要求1所述的GPU集群监控系统,其特征在于:所述数据采集模块是通过gmond守护进程来采集计算节点的数据信息。
3.一种利用权利要求2所述GPU集群监控系统进行监控报警发布方法,其特征在于:所述分析模块将收集来的精简数据表中的数据与设定的界限值进行比较,如果精简数据表中的数据超过界限值,分析模块会向展示模块发送消息,展示模块将对应该数据的设备的标识标注上与其它设备的标识不同的颜色。
4.根据权利要求3所述的监控报警发布方法,其特征在于:所述展示模块向运维人员发送电子邮件和或短信。
【文档编号】H04L29/08GK103780660SQ201210414718
【公开日】2014年5月7日 申请日期:2012年10月25日 优先权日:2012年10月25日
【发明者】葛鑫, 王胜春, 李进 申请人:中国石油化工股份有限公司, 中国石油化工股份有限公司石油物探技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1