Gpu集群功耗监控系统及其监控方法

文档序号:10697573阅读:386来源:国知局
Gpu集群功耗监控系统及其监控方法
【专利摘要】一种GPU集群功耗监控系统及其监控方法,涉及计算机技术领域,所解决的是监测GPU集群功耗的技术问题。该系统包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GPU构成的GPU集群;所述传感节点包括节点控制器,及分别连接节点控制器的霍尔电流传感器、Zigbee通信模块;所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联;各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。本发明提供的系统,可以为GPU集群的功耗优化提供依据。
【专利说明】
GPU集群功耗监控系统及其监控方法
技术领域
[0001]本发明涉及计算机技术,特别是涉及一种GPU集群功耗监控系统及其监控方法的技术。
【背景技术】
[0002]随着大数据、云计算、人工智能等新一代互联网技术的发展,大量的数据对计算机的计算速度、计算效率、计算可靠性要求不断的增加。而且数据规模已经达到了 TB甚至PB量级,没有万亿次以上的计算能力是无法解决的。与此同时,我们在日常应用中面临的图形与数据计算也是越来越复杂,对计算速度提出了严峻的挑战。而GPU(图形处理器)以其高性能成为当前高性能集群计算机系统主要构成部件,GPU在处理能力和存储器带宽上相对CPU有明显的优势,在成本上也不需要付出太大的代价,另外由于其高可靠性、计算能力强、高性价比等优势,从而为这些问题提供了新的解决方案。但是大规模的GPU集群同样存在着一个功耗问题,GPU集群由多个GPU构成,每个GPU的任务不同,功耗也是不同的,对GPU的功耗进行监测,可以了解不同应用程序的对于GPU功耗的消耗,从而可以针对性的优化GPU,进而可以减小GPU的功耗,但是目前对于GPU集群的GPU功耗监测还没有行之有效的方法。

【发明内容】

[0003]针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能监测GHJ集群中的各个GPU的功耗的GPU集群功耗监控系统及其监控方法。
[0004]为了解决上述技术问题,本发明所提供的一种GHJ集群功耗监控系统,其特征在于:包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GPU构成的GPU集群;
所述传感节点包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联;
各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。
[0005]本发明所提供的GPU集群功耗监控系统的监控方法,其特征在于,具体步骤如下:
为传感节点设定两种工作模式,其中的一种工作模式为无线模式,另一种工作模式为无线模式;
主监控终端通过BGC数据包向Zigbee协调器下发控制指令,BGC数据包由wx、dm、ed组成,BGC数据包中的wx为工作模式指令,wx的值有两种,wx的两种值分别代表无线模式、有线模式,BGC数据包中的dm为传感节点采集GPU供电电流的采样间隔时间,ed为指令结束标识;传感节点工作在无线模式时通过BGA数据包向Zigbee协调器上传采集数据,BGA数据包为无线通信数据包,BGA数据包由st、dev、val组成,BGA数据包中的st为BGA数据包的起始标识,BGA数据包中的dev为传感节点的节点编号,BGA数据包中的val为霍尔电流传感器所测得的GHJ供电电流数字量;
Zigbee协调器通过BGP数据包向主监控终端上传采集数据,传感节点工作在有线模式时通过BGP数据包向从监控终端上传采集数据,BGP数据包为串行通信数据包,BGP数据包由st、dev、val组成,BGP数据包中的st为BGP数据包的起始标识,BGP数据包中的dev为传感节点的节点编号,BGP数据包中的val为霍尔电流传感器所测得的GPU供电电流数字量;
Zigbee协调器与传感节点组网成功后,如果Zigbee协调器收到主监控终端发来的BGC数据包,则将BGC数据包发送给传感节点;
传感节点收到Zigbee协调器发来的BGC数据包后,对BGC数据包中的wx的值进行判别;如果传感节点工作在有线模式,并且BGC数据包中的wx的值代表的是无线模式,则将传感节点的工作模式切换为无线模式;如果传感节点工作在无线模式,并且BGC数据包中的wx的值代表的是有线模式,则将传感节点的工作模式切换为有线模式;
传感节点收到Zigbee协调器发来的BGC数据包后,将采集GPU供电电流的采样间隔时间设定为BGC数据包中的dm的值;
传感节点与Zigbee协调器组网成功后,根据设定的采样间隔时间,通过节点中的霍尔电流传感器对GPU供电电流进行采集,并对采集到GPU供电电流模拟量进行模数转换;
传感节点工作在无线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装成一个BGA数据包,然后再将封装好的BGA数据包发送给Zigbee协调器;
Zigbee协调器对接收到的通信数据包进行检测,如果接收到的通信数据包是传感节点发送来的BGA数据包,则先从BGA数据包中提取dev及val,再将所提取的dev、val重新封装为BGP数据包,并将封装好的BGP数据包发送给主监控终端;
主监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SM_cur,然后再将BGP数据包的接收时间、M_cur及所提取的dev封装为一个BGS数据包存储在本地;
传感节点工作在有线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装为BGP数据包,并将封装好的BGP数据包发送给从监控终端;
从监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SS_cur,然后再将BGP数据包的接收时间、S_cur及所提取的dev封装为一个BGS数据包存储在本地。
[0006]本发明提供的GPU集群功耗监控系统及其监控方法,利用传感节点中的霍尔电流传感器测量GPU的供电电流,并通过Zigbee网络实现远程实时监控,还能利用从监控终端实现本地高密度数据采集、存储,能准确测量GPU集群中的各个GPU的功耗,从而可以为GPU集群的功耗优化提供依据。
【附图说明】
[0007]图1是本发明实施例的GPU集群功耗监控系统的结构示意图。
【具体实施方式】
[0008]以下结合【附图说明】对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系。
[0009]如图1所示,本发明实施例所提供的一种GPU集群功耗监控系统,其特征在于:包括主监控终端Ul、从监控终端(图中未示)、Zigbee协调器U2,及多个传感节点U3,由多个GPU(图形处理器)U4构成的GPU集群;
所述传感节点U3包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;所述Zigbee协调器U2通过通信线与主监控终端Ul互联,各个传感节点U3中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器U2互联;
各个传感节点U3中的节点控制器通过通信线与从监控终端互联,各个传感节点U3中的霍尔电流传感器分别套置在各个GPU的供电线路上。
[0010]本发明实施例中,Zigbee协调器采用了型号为CC2530的芯片来负责网络的组建、数据包和指令的转发;传感节点负责采集GHJ功耗数据,并将采集的数据打包成数据包后经过Zigbee协调器转到主监控终端,由主监控终端进行存储并实时显示,传感节点还可以将采集的数据传送到从监控终端,由从监控终端进行存储、显示;传感节点中的节点控制器采用的是型号为MSP430的微处理芯片,MSP430微处理芯片内含12个12位的模数转换器,非常适合传感节点的应用;传感节点中的Zigbee通信模块采用的是型号为CC2530的芯片,CC2530芯片结合了RF收发器及增强型8051 CPU,CC2530芯片具有不同的运行模式,特别适合超低功耗要求的系统,并且运行模式之间的转换时间短,进一步确保了低能源消耗;传感节点中的霍尔电流传感器的型号为WHB-LSP5S2H,霍尔电流传感器主要测量GPU供电线路的电流,并将测得的电流值传送给节点控制器,由节点控制器进行模数转换。
[0011 ]传感节点负责采集GPU功耗数据的原理如下:
根据电路的基本原理,功耗=电压X电流,由于GHJ的供电电压为固定的12V,所以只需要利用霍尔电流传感器测量GPU的供电电流,即可算出GPU的功耗。
[0012]本发明实施例所提供的GPU集群功耗监控系统的监控方法,其特征在于,具体步骤如下:
为传感节点设定两种工作模式,其中的一种工作模式为无线模式,另一种工作模式为无线模式;
主监控终端通过BGC数据包向Zigbee协调器下发控制指令,BGC数据包由wx、dm、ed组成,BGC数据包中的wx为工作模式指令,wx的值有两种,wx的两种值分别代表无线模式、有线模式,BGC数据包中的dm为传感节点采集GPU供电电流的采样间隔时间,ed为指令结束标识;传感节点工作在无线模式时通过BGA数据包向Zigbee协调器上传采集数据,BGA数据包为无线通信数据包,BGA数据包由st、dev、val组成,BGA数据包中的st为BGA数据包的起始标识,BGA数据包中的dev为传感节点的节点编号,BGA数据包中的val为霍尔电流传感器所测得的GHJ供电电流数字量;
Zigbee协调器通过BGP数据包向主监控终端上传采集数据,传感节点工作在有线模式时通过BGP数据包向从监控终端上传采集数据,BGP数据包为串行通信数据包,BGP数据包由st、dev、val组成,BGP数据包中的st为BGP数据包的起始标识,BGP数据包中的dev为传感节点的节点编号,BGP数据包中的val为霍尔电流传感器所测得的GPU供电电流数字量; Zigbee协调器与传感节点组网成功后,如果Zigbee协调器收到主监控终端发来的BGC数据包,则将BGC数据包发送给传感节点;
传感节点收到Zigbee协调器发来的BGC数据包后,对BGC数据包中的WX的值进行判别;如果传感节点工作在有线模式,并且BGC数据包中的WX的值代表的是无线模式,则将传感节点的工作模式切换为无线模式;如果传感节点工作在无线模式,并且BGC数据包中的WX的值代表的是有线模式,则将传感节点的工作模式切换为有线模式;
传感节点收到Zigbee协调器发来的BGC数据包后,将采集GPU供电电流的采样间隔时间设定为BGC数据包中的dm的值;
传感节点与Zigbee协调器组网成功后,根据设定的采样间隔时间,通过节点中的霍尔电流传感器对GPU供电电流进行采集,并对采集到GPU供电电流模拟量进行模数转换;
传感节点工作在无线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装成一个BGA数据包,然后再将封装好的BGA数据包发送给Zigbee协调器;
Zigbee协调器对接收到的通信数据包进行检测,如果接收到的通信数据包是传感节点发送来的BGA数据包,则先从BGA数据包中提取dev及val,再将所提取的dev、val重新封装为BGP数据包,并将封装好的BGP数据包发送给主监控终端;
主监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SM_cur,然后再将BGP数据包的接收时间、M_cur及所提取的dev封装为一个BGS数据包存储在本地,BGS数据包的内容也可以根据需要输出至数值显示界面或描绘到图形界面;
传感节点工作在有线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装为BGP数据包,并将封装好的BGP数据包发送给从监控终端;
从监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SS_cur,然后再将BGP数据包的接收时间、S_cur及所提取的dev封装为一个BGS数据包存储在本地,BGS数据包的内容也可以根据需要输出至数值显示界面或描绘到图形界面。
【主权项】
1.一种GPU集群功耗监控系统,其特征在于:包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GHJ构成的GPU集群; 所述传感节点包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联; 各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。2.根据权利要求1所述的GHJ集群功耗监控系统的监控方法,其特征在于,具体步骤如下: 为传感节点设定两种工作模式,其中的一种工作模式为无线模式,另一种工作模式为无线模式; 主监控终端通过BGC数据包向Zigbee协调器下发控制指令,BGC数据包由wx、dm、ed组成,BGC数据包中的wx为工作模式指令,wx的值有两种,wx的两种值分别代表无线模式、有线模式,BGC数据包中的dm为传感节点采集GPU供电电流的采样间隔时间,ed为指令结束标识;传感节点工作在无线模式时通过BGA数据包向Zigbee协调器上传采集数据,BGA数据包为无线通信数据包,BGA数据包由st、dev、val组成,BGA数据包中的st为BGA数据包的起始标识,BGA数据包中的dev为传感节点的节点编号,BGA数据包中的val为霍尔电流传感器所测得的GHJ供电电流数字量; Zigbee协调器通过BGP数据包向主监控终端上传采集数据,传感节点工作在有线模式时通过BGP数据包向从监控终端上传采集数据,BGP数据包为串行通信数据包,BGP数据包由st、dev、val组成,BGP数据包中的st为BGP数据包的起始标识,BGP数据包中的dev为传感节点的节点编号,BGP数据包中的val为霍尔电流传感器所测得的GPU供电电流数字量; Zigbee协调器与传感节点组网成功后,如果Zigbee协调器收到主监控终端发来的BGC数据包,则将BGC数据包发送给传感节点; 传感节点收到Zigbee协调器发来的BGC数据包后,对BGC数据包中的wx的值进行判别;如果传感节点工作在有线模式,并且BGC数据包中的wx的值代表的是无线模式,则将传感节点的工作模式切换为无线模式;如果传感节点工作在无线模式,并且BGC数据包中的wx的值代表的是有线模式,则将传感节点的工作模式切换为有线模式; 传感节点收到Zigbee协调器发来的BGC数据包后,将采集GPU供电电流的采样间隔时间设定为BGC数据包中的dm的值; 传感节点与Zigbee协调器组网成功后,根据设定的采样间隔时间,通过节点中的霍尔电流传感器对GPU供电电流进行采集,并对采集到GPU供电电流模拟量进行模数转换; 传感节点工作在无线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装成一个BGA数据包,然后再将封装好的BGA数据包发送给Zigbee协调器; Zigbee协调器对接收到的通信数据包进行检测,如果接收到的通信数据包是传感节点发送来的BGA数据包,则先从BGA数据包中提取dev及val,再将所提取的dev、val重新封装为BGP数据包,并将封装好的BGP数据包发送给主监控终端; 主监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SM_CUr,然后再将BGP数据包的接收时间、M_cur及所提取的dev封装为一个BGS数据包存储在本地; 传感节点工作在有线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装为BGP数据包,并将封装好的BGP数据包发送给从监控终端; 从监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于O的异常值剔除后存储SS_cur,然后再将BGP数据包的接收时间、S_cur及所提取的dev封装为一个BGS数据包存储在本地。
【文档编号】G06F11/30GK106066825SQ201610506069
【公开日】2016年11月2日
【申请日】2016年7月1日 公开号201610506069.0, CN 106066825 A, CN 106066825A, CN 201610506069, CN-A-106066825, CN106066825 A, CN106066825A, CN201610506069, CN201610506069.0
【发明人】陈庆奎, 李超凡, 曹渠成, 易猛
【申请人】上海理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1