一种集群集中式散热调控系统及方法与流程

文档序号:28742195发布日期:2022-02-07 22:27阅读:101来源:国知局
一种集群集中式散热调控系统及方法与流程

1.本发明涉及数据中心散热技术领域,具体涉及一种集群集中式散热调控系统及方法。


背景技术:

2.数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。在今后的发展中,数据中心也将会成为企业竞争的资产,商业模式也会因此发生改变。随着数据中心应用的广泛化,人工智能、网络安全等也相继出现,更多的用户都被带到了网络和手机的应用中。随着计算机和数据量的增多,人们也可以通过不断学习积累提升自身的能力,是迈向信息化时代的重要标志。随着信息化的进行,服务集群的应用越来越多。服务集群包括多个服务器,而每个服务器包括多个风扇。这种复杂的风扇速度调控给散热带来了挑战。如果令所有风扇全速转动势必造成极大的功耗和资源浪费,而如果给风扇设置一个定值,很可能导致散热效果不理想进而导致集群的整体服务质量下降。
3.现有的散热调控系统根据人们的经验总结成以下两种调控方法:
4.线性调控:给某个温度范围一个固定的风扇转速。
5.pid调控:pwm_2=pwm_1+kp*(sensortemp_2

sensortemp_1)+ki*(sensortemp_2-setpoint)+kd*(sensortemp_2

2*sensortemp_1+sensortemp_0)
6.(其中kp,ki,kd,setpoint值是专家根据经验等算出来的,sensortemp_0/1/2分别过去两刻、过去一刻,现在的部件温度),现有的调控思想是通过bmc这种带外管理工具结合上述两种方式计算出所有部件的pwm并取最大值输出给控制芯片。
7.现有的风扇调控方法严重依赖人工经验,一旦系数确定不准确则会造成风扇转速的极大误差。且调控工作由bmc负担也会导致bmc业务量过大,一旦bmc崩溃则会导致集群的重要数据丢失。


技术实现要素:

8.针对现有技术的上述不足,本发明提供一种集群集中式散热调控系统及方法,以解决上述技术问题。
9.第一方面,本发明提供一种集群集中式散热调控系统,包括:
10.调控节点,所述调控节点连接集群的基板管理控制器;所述调控节点与集群内各服务节点的风扇控制器;
11.所述调控节点包括:
12.时间同步模块,用于对集群进行时间同步;
13.数据采集模块,用于定期从基板管理控制器采集因素数据和风扇实际转速,所述因素数据包括温度数据或功耗数据;
14.数据处理模块,用于调用深度学习模型对因素数据进行处理得到目标转速,根据
目标转速和风扇实际转速生成风扇调控信号;
15.信号发送模块,用于将风扇调制信号发送至相应的风扇控制器。
16.进一步的,所述调控节点通过can总线连接基板管理控制器。
17.进一步的,所述调控节点通过通用串行总线连接各服务节点的风扇控制器。
18.进一步的,所述数据处理模块包括:
19.预处理子模块,用于将所有因素数据按照所属的服务节点和部件转换为二维因素数组,将所有风扇实际转速按照所属服务器节点和风扇编号转换为二维转速数组;
20.模型处理子模块,用于将二维因素数组导入预先训练好的深度学习模型,得到目标转速数组;
21.信号生成子模块,用于将目标转速数组与二维转速数组做差,得到转速调整数组,根据转速调整数组生成各服务节点的风扇的调控信号。
22.进一步的,所述信号发送模块用于:
23.将各服务节点的风扇的调控信号按照标定的归属标记分发至相应的服务节点风扇控制器。
24.第二方面,本发明提供一种集群集中式散热调控方法,包括:
25.调控节点对集群服务节点和基板管理控制器进行时间同步;
26.定期从基板管理控制器采集因素数据和风扇实际转速,所述因素数据包括温度数据或功耗数据;
27.调用深度学习模型对因素数据进行处理得到目标转速,根据目标转速和风扇实际转速生成风扇调控信号;
28.将风扇调制信号发送至相应的风扇控制器。
29.进一步的,调用深度学习模型对因素数据进行处理得到目标转速,根据目标转速和风扇实际转速生成风扇调控信号,包括:
30.将所有因素数据按照所属的服务节点和部件转换为二维因素数组,将所有风扇实际转速按照所属服务器节点和风扇编号转换为二维转速数组;
31.将二维因素数组导入预先训练好的深度学习模型,得到目标转速数组;
32.将目标转速数组与二维转速数组做差,得到转速调整数组,根据转速调整数组生成各服务节点的风扇的调控信号。
33.进一步的,所述深度学习模型的训练方法包括:
34.通过收集历史因素数据和相应的目标转速构建训练集;
35.构建因素数据与风扇转速的函数关系作为目标函数;
36.利用所述训练集训练目标函数,得到深度学习模型。
37.进一步的,将风扇调制信号发送至相应的风扇控制器,包括:
38.将各服务节点的风扇的调控信号按照标定的归属标记分发至相应的服务节点风扇控制器。
39.本发明的有益效果在于,本发明提供的集群集中式散热调控系统及方法,通过在集群设置调控节点,使用集中式管理系统可以很好的控制每一个节点,综合考虑各方面的因素达到宏观调控的效果,调控节点基于深度学习模型生成风扇调控信号,相较于现有的风扇调控方法,风扇转速调控更加精确,大大提升了集群的稳定性。
40.此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本发明一个实施例的系统的示意性框图。
43.图2是本发明一个实施例的方法的示意性流程图。
具体实施方式
44.为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
45.下面对本发明中出现的关键术语进行解释。
46.bmc,执行伺服器远端管理控制器,英文全称为baseboard management controller.为基板管理控制器。它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作。在bmc中完全实现ipmi功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的ram、用于非挥发性数据储存的快闪记忆体和韧体,在安全远程重启、安全重新上电、lan警告和系统健康监视方面能提供基本的远程可管理性。除了基本的ipmi功能和系统工作监视功能外,通过利用2个快闪记忆体之一储存以前的bios,mbmc还能实现bios快速元件的选择和保护。例如,在远程bios升级後系统不能启动时,远程管理人员可以切换回以前工作的bios映像来启动系统。一旦bios升级後,bios映像还能被锁住,可有效防止病毒对它的侵害。
47.i2c总线是由philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线即可在连接于总线上的器件之间传送信息。主器件用于启动总线传送数据,并产生时钟以开放传送的器件,此时任何被寻址的器件均被认为是从器件.在总线上主和从、发和收的关系不是恒定的,而取决于此时数据传送方向。如果主机要发送数据给从器件,则主机首先寻址从器件,然后主动发送数据至从器件,最后由主机终止数据传送;如果主机要接收从器件的数据,首先由主器件寻址从器件.然后主机接收从器件发送的数据,最后由主机终止接收过程。在这种情况下.主机负责产生定时时钟和终止数据传送。
48.bios是英文"basic input output system"的缩略词,直译过来后中文名称就是"基本输入输出系统"。在ibm pc兼容系统上,是一种业界标准的固件接口。它是一组固化到计算机内主板上一个rom芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从cmos中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外,bios还向作业系统提供一些系统参数。系统硬件的变化是由bios隐藏,程序使用bios功能而不是直接控制硬件。现代作业系统会忽略bios提供的抽象层并直接控制硬件组件。
49.cpu中央处理器(central processing unit,简称cpu)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
50.服务器计算能力的显著提升打破了深度学习发展的壁垒,人们将深度学习广泛的应用与生产生活的各个领域,包括识别、检测等领域。深度学习以其强大的数据和记忆能力可以代替专家系统,而服务器的散热调控系统就是一种典型的专家系统,每个系统的建立都需散热工程师依据其专业领域的知识去适配各种散热参数。散热调控系统的各个参数组合对于人类来说是一个巨大的数字,对于机器来说却轻而易举,人类的思维对于调控这件事情具有片面性和局限性,对于每一款服务器机型都需要重新去适配一遍,过程相对繁琐。
51.请参考图1,本实施例提供一种集群集中式散热调控系统,包括:
52.调控节点,调控节点连接集群的基板管理控制器;调控节点与集群内各服务节点的风扇控制器;
53.调控节点包括:
54.时间同步模块,用于对集群进行时间同步;
55.数据采集模块,用于定期从基板管理控制器采集因素数据和风扇实际转速,所述因素数据包括温度数据或功耗数据;
56.数据处理模块,用于调用深度学习模型对因素数据进行处理得到目标转速,根据目标转速和风扇实际转速生成风扇调控信号;
57.信号发送模块,用于将风扇调制信号发送至相应的风扇控制器。
58.本实施例采用一个单独的服务器系统来对机房成百上千台服务器进行统一的散热调控。其中,调控节点通过can总线连接基板管理控制器;调控节点通过通用串行总线连接各服务节点的风扇控制器。数据处理模块包括:预处理子模块,用于将所有因素数据按照所属的服务节点和部件转换为二维因素数组,将所有风扇实际转速按照所属服务器节点和风扇编号转换为二维转速数组;模型处理子模块,用于将二维因素数组导入预先训练好的深度学习模型,得到目标转速数组;信号生成子模块,用于将目标转速数组与二维转速数组做差,得到转速调整数组,根据转速调整数组生成各服务节点的风扇的调控信号。信号发送模块用于:将各服务节点的风扇的调控信号按照标定的归属标记分发至相应的服务节点风扇控制器。
59.具体的,在调控节点部署网络环境与ntp时间同步系统,并将该设备设置成和需要散热调控的服务节点同一网络段,在调控节点上搭建ntp服务器作为时间同步模块,用于同步时间并实时调控。数据采集模块利用服务器的带外管理工具bmc模块获取各个服务器的部件因素数据。
60.数据处理模块的数据处理过程如下:
61.取所有的待调控服务器及其所有部件温度的并集作为因素数据集,将每一次数据交互格式整理为如下的(n*m)的二维数组:其中n表示需要调控的服务器节点,m表示所有服务器的部件温度并集:
[0062][0063]
取所有待调控的服务器对应的风扇并集作为风扇数据集,将每一次数据交互的格式整理为如下(n*k)的二维数组:其中n表示需要调控的服务器节点,k表示所有服务器的风扇转速pwm并集:
[0064][0065]
设调控参数为一个(k*m)的二维数组,设计原因是这样可以利用公式:(n*k)*(k*m)=》(n*m)来将每一次的风扇转速pwm与每一次的温度建立一一对应关系,接下来就要利用深度学习算法的思想来获取最优的调控数组(k*m)。
[0066]
建立好数据集后就开始按照深度学习的思维来训练数据。(1)首先选取因素数据集的特征值作为反映温度水平的一个标准,为了防止风扇训练极端化而使风扇满速转,将功耗也作为一个评价标准,这样就可以建立起目标函数f=k1*min(temp)+k2*min(power),其中(k1+k2)=1,k1,k2用于评判温度和功耗哪个更其决定性作用,这个可以根据客户的需求来调整,如果要求低功耗可以设置k2》k1。(2)开始首轮正向传播,获取到首个目标函数的输出值。(3)开始首轮反向传播来更新散热参数,观察第二次的输出函数值是否在第一轮的基础上有所降低,降低做出相应的奖励,升高做出一定的惩罚,依次轮询来寻求最优也最稳定的深度学习模型。
[0067]
鉴于本技术的深度学习函数是以温度和功耗两个参数作为因素数据的,因此需要从bmc采集各服务节点的部件温度数据和部件功耗数据。然后将各服务节点的部件温度数据和部件功耗数据输入深度学习模型得到各服务节点的所有风扇的目标转速,然后将得到的各服务节点的所有风扇的目标转速与实际转速做差,即可得到服务节点的各风扇的需要调节的值。将这个值通过通用串行总线发送至相应的风扇控制器从而实现风扇的精准调控。
[0068]
在一些拥有成千上万的大型服务器中心用此系统,可以收集数据中心每个计算节点在不同时刻的温度数据并以此为原始数据,通过深度学习的系统来进行学习训练。因为这些服务器所处的环境基本类似,所以取这些服务器采集的数据集合一方面可以获取到强大的数据集,另一方面可以综合所有的机器,使得训练的结果准确可靠。传统的散热调控使用bmc这种带外管理工具去一对一的调控服务器,bmc的计算能力和存储空间有限,调控思想又完全依赖于专家系统,而服务器所处的外界环境千差万别,无法穷尽,单纯的依赖专家系统势必会片面。而使用集中式管理系统可以很好的控制每一个节点,综合考虑各方面的因素达到宏观调控的效果。除此之外,还可以随机应变,只需在深度学习算法中加入新的因素即可。
[0069]
图2是本发明一个实施例的方法的示意性流程图。其中,图2执行主体可以为一种集群集中式散热调控系统。
[0070]
如图2所示,该方法包括:
[0071]
步骤210,调控节点对集群服务节点和基板管理控制器进行时间同步;
[0072]
步骤220,定期从基板管理控制器采集因素数据和风扇实际转速,所述因素数据包括温度数据或功耗数据;
[0073]
步骤230,调用深度学习模型对因素数据进行处理得到目标转速,根据目标转速和风扇实际转速生成风扇调控信号;
[0074]
步骤240,将风扇调制信号发送至相应的风扇控制器。
[0075]
具体的,所述集群集中式散热调控方法包括:
[0076]
s1、调控节点对集群服务节点和基板管理控制器进行时间同步。
[0077]
s2、定期从基板管理控制器采集因素数据和风扇实际转速,所述因素数据包括温度数据或功耗数据。
[0078]
例如每隔5min采集一次因素数据或风扇实际转速,因素数据需要同时采集,风扇实际转速可不与因素数据同时采集,错峰采集数据降低数据采集压力。
[0079]
s3、调用深度学习模型对因素数据进行处理得到目标转速,根据目标转速和风扇实际转速生成风扇调控信号。
[0080]
将所有因素数据按照所属的服务节点和部件转换为二维因素数组,将所有风扇实际转速按照所属服务器节点和风扇编号转换为二维转速数组;将二维因素数组导入预先训练好的深度学习模型,得到目标转速数组;将目标转速数组与二维转速数组做差,得到转速调整数组,根据转速调整数组生成各服务节点的风扇的调控信号。
[0081]
其中,深度学习模型的训练方法包括:通过收集历史因素数据和相应的目标转速构建训练集;构建因素数据与风扇转速的函数关系作为目标函数;利用训练集训练目标函数,得到深度学习模型。
[0082]
s4、将风扇调制信号发送至相应的风扇控制器。
[0083]
将各服务节点的风扇的调控信号按照标定的归属标记分发至相应的服务节点风扇控制器。
[0084]
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1