本发明涉及液冷散热,具体涉及一种液冷设备故障检测方法、装置、计算机设备及存储介质。
背景技术:
1、服务器的算力越来越强,单台服务器的功耗也就越来越大,对于散热的要求也越来越高。传统风冷已无法满足服务器散热的高性价比、低pue(power usageeffectiveness,电源使用效率)的需求,液冷散热技术成为服务器散热的主要方式,对服务器的液冷设备进行管理,对液冷设备可能出现的漏液等故障进行检测并及时处理,避免影响服务器正常运行。
2、当前,对于包含多节点的服务器,需要bmc(baseboard management controller,基板管理控制器)通过i2c(inter-integrated circuit,集成电路总线)轮询链路来读取主板cpld(complex programmable logic device,复杂可编程逻辑器件)中存放各个节点漏液信号和漏液检测线在位信号的寄存器的数据来获得各个节点的漏液信号和在位信号。如果bmc和cpld之间的i2c轮询链路不正常,可能会导致bmc不能确定出现漏液等故障的节点并输出维护日志。另外,该i2c轮询链路还用于传输其他的数据信息如psu(power supplyunit,电脑电源供应单元)的告警、在位等信息,在该i2c轮询链路被占用时,bmc无法及时获取漏液信号和在位信号。再者当服务器的节点数量有所增减时,需要对bmc做修改,去更改轮询各个节点服务器寄存器的数量的情况。
3、因此,相关技术存在当bmc与cpld之间的i2c轮询链路中断时,bmc难以及时获取服务器各节点的漏液信号和在位信号,无法确定故障液冷设备所在的节点,不利于对液冷设备进行维护的问题。
技术实现思路
1、有鉴于此,本发明提供了一种液冷设备故障检测方法、装置、计算机设备及存储介质,以解决当bmc与cpld之间的i2c轮询链路中断时,bmc难以及时获取服务器各节点的漏液信号和在位信号,无法确定故障液冷设备所在的节点,不利于对液冷设备进行维护的问题。
2、第一方面,本发明提供了一种液冷设备故障检测方法,该方法应用于bmc,该方法包括:
3、在接收到cpld发送的第一目标信号和位同步信号的情况下,根据位同步信号得到第一采样点,其中,第一目标信息包含漏液检测模块的在位信息,漏液检测模块用于获取服务器各个节点中液冷设备的漏液信息;
4、根据第一采样点和第一目标信号得到在位信息;
5、在接收到cpld发送的中断信号、第二目标信号以及位同步信号的情况下,根据位同步信号得到第二采样点,其中,中断信号用于指示bmc接收第二目标信号,第二目标信号包含漏液信息;
6、根据第二采样点和第二目标信号得到漏液信息;
7、根据在位信息或漏液信息确定故障液冷设备所在的目标节点,并输出目标节点。
8、本实施例提供的液冷设备故障检测方法,bmc根据位同步信号确定第一采样点,根据第一采样点从第一目标信号中采集在位信息;bmc接收到中断信号后,接收位同步信号和第二目标信号,根据位同步信号确定第二采样点,根据第二采样点从第二目标信号中采集漏液信息。cpld一次将所有节点的漏液信息和在位信息全部传递给bmc,避免了bmc通过i2c多次轮询各个节点的对应寄存器。bmc根据在位信息和漏液信息确定故障液冷设备所在的目标节点,便于后续维护人员对目标节点进行维护。解决了相关技术存在当bmc与cpld之间的i2c轮询链路中断时,bmc难以及时获取服务器各节点的漏液信号和在位信号,无法确定故障液冷设备所在的节点,不利于对液冷设备进行维护的问题。
9、在一种可选的实施方式中,根据第一采样点和第一目标信号得到在位信息,包括:
10、根据第一采样点和第一目标信号,得到第一数量个第一电平值;
11、从第一数量个第一电平值中确定第一起始标志和第一截止标志;
12、将第一起始标志和第一截止标志之间的第一电平值作为第一目标电平值,并获取第一目标电平值的序号;
13、根据序号等于预设序号的第一目标电平值,得到服务器中节点的节点数量;
14、获取cpld与bmc之间的通信链路数量;
15、在通信链路数量大于预设阈值的情况下,根据第一目标电平值和节点数量得到在位信息;
16、在通信链路数量等于预设阈值的情况下,根据第一目标电平值、节点数量以及预设信息分布规则,得到在位信息。
17、在本实施方式中,根据第一采样点从第一目标信息中采集第一电平值,从第一电平值中得到节点数量,cpld每次传输信号时均会告知bmc点前服务器中包含节点的节点数量,即使节点数量有所增减,bmc也无需再开发修改,均能顺利得到在位信息和漏液信息。另外,根据cpld与bmc之间的通信链路数量,bmc确定是否采用预设信息分布规则从第一目标信号中获取在位信息,使得本发明无论存在多少通信链路,均可通过第一目标信号均可及时高效地一次传输所有节点的在位信息。
18、在一种可选的实施方式中,根据第二采样点和第二目标信号得到漏液信息,包括:
19、根据第二采样点和第二目标信号,得到第二数量个第二电平值;
20、从第二数量个第二电平值中确定第二起始标志和第二截止标志;
21、将第二起始标志和第二截止标志之间的第二电平值作为第二目标电平值;
22、从第二目标电平值中获取服务器中节点的节点数量,并根据第二目标电平值和节点数量得到漏液信息。
23、在本实施方式中,根据第二采样点从第二目标信号中采集第二电平值,从第二电平值得到节点数量,根据第二目标电平值和节点数量得到漏液信息。实时告知bmc服务器的节点数量,即使节点数量有所增减,bmc均能顺利得到在位信息和漏液信息。一次将所有节点的漏液信息全部传递给bmc,避免了bmc通过i2c轮询链路多次轮询各个节点的对应寄存器。
24、在一种可选的实施方式中,根据在位信息或漏液信息确定故障液冷设备所在的目标节点,并输出目标节点,包括:
25、判断是否存在数值等于第一预设数值的在位信息;
26、如果存在,将数值等于第一预设数值的在位信息作为目标在位信息,将目标在位信息对应的节点作为第一目标节点,其中,第一预设数值用于确定在位信息对应的漏液检测模块是否不在位,第一目标节点中的漏液检测模块不在位;
27、将第一目标节点写入维护日志,其中,维护日志用于输出目标节点,目标节点包含第一目标节点和第二目标节点;
28、判断是否存在数值等于第二预设数值的漏液信息;
29、如果存在,将数值等于第二预设数值的漏液信息作为目标漏液信息,将目标漏液信息对应的节点作为第二目标节点,其中,第二预设数值用于确定在位信息对应的液冷设备是否漏液,第二目标节点中的液冷设备漏液;
30、将第二目标节点写入维护日志。
31、在本实施方式中,bmc通过第一预设数值和在位信息,确定所有漏液检测模块是否均在位,通过第二预设数值和漏液信息,确定每个液冷设备是否漏液,将不在位漏液检测模块所在的节点和漏液液冷设备所在的节点写入维护日志,便于后续维护人员快速定位问题并维护。
32、第二方面,本发明提供了一种液冷设备故障检测方法,该方法应用于cpld,该方法包括:
33、获取服务器各个节点中液冷设备的漏液信息和漏液检测模块的在位信息,其中,漏液检测模块用于获取漏液信息;
34、获取cpld与bmc之间的通信链路数量;
35、根据通信链路数量确定目标通信链路,通过目标通信链路将第一目标信号和位同步信号发送至bmc,或者,通过目标通信链路将中断信号、第二目标信号以及位同步信号发送至bmc,其中,第一目标信号包含在位信息,第二目标信号包含漏液信息,中断信号用于指示bmc接收第二目标信号,位同步信号用于指示bmc从第一目标信号获取在位信息或从第二目标信号获取漏液信息。
36、本实施例提供的液冷设备故障检测方法,cpld通过第一目标信息一次将所有节点的在位信息全部传递给bmc,通过第二目标信息将所有节点的漏液信息全部传递给bmc,避免了bmc通过i2c多次轮询各个节点的对应寄存器。同时,cpld结合通信链路数量,确定目标通信链路,并发送位同步信号,指示bmc从第一目标信号获取在位信息或从第二目标信号获取漏液信息。使得无论存在多少通信链路,cpld均可将在位信息和漏液信息传输至bmc。解决了相关技术存在当bmc与cpld之间的i2c轮询链路中断时,bmc难以及时获取服务器各节点的漏液信号和在位信号,无法确定故障液冷设备所在的节点,不利于对液冷设备进行维护的问题。
37、在一种可选的实施方式中,在通过目标通信链路将中断信号、第二目标信号以及位同步信号发送至bmc之前,方法还包括:
38、根据起始代表数据和预设时钟周期,生成位同步信号,其中,位同步信号中在起始代表数据之后的信息是基于预设时钟周期生成的;
39、判断是否存在数值等于第二预设数值的漏液信息,如果存在,则根据预设中断标志,生成中断信号。
40、在本实施方式中,cpld生成位同步信号,并发送至bmc,通知bmc按照哪些采样点进行采样,生成终端信号,指示bmc接收第二目标信号,实现节点数量、在位信息以及漏液信息的传输。
41、在一种可选的实施方式中,根据通信链路数量确定目标通信链路,通过目标通信链路将第一目标信号和位同步信号发送至bmc,或者,通过目标通信链路将中断信号、第二目标信号以及位同步信号发送至bmc,包括:
42、在通信链路数量等于预设阈值的情况下,确定第一目标通信链路,其中,第一目标通信链路包含第一通信链路、第二通信链路以及第三通信链路;
43、根据在位信息和第一时序方案生成第一目标信号,并通过第一通信链路将位同步信号发送至bmc,通过第二通信链路将第一目标信号发送至bmc;
44、判断是否存在数值等于第二预设数值的漏液信息,如果存在,则通过第三通信链路将中断信号发送至bmc,根据漏液信息和第一时序方案生成第二目标信号,通过第一通信链路将位同步信号发送至bmc,通过第二通信链路将第二目标信号发送至bmc;
45、在通信链路数量大于预设阈值的情况下,确定第二目标通信链路,其中,第二目标通信链路包含第四通信链路、第五通信链路、第六通信链路以及第七通信链路;
46、根据在位信息和第二时序方案生成第一目标信号,并通过第四通信链路将位同步信号发送至bmc,通过第五通信链路将第一目标信号发送至bmc;
47、判断是否存在数值等于第二预设数值的漏液信息,如果存在,则通过第六通信链路将中断信号发送至bmc,根据漏液信息和第三时序方案生成第二目标信号,通过第四通信链路将位同步信号发送至bmc,通过第七通信链路将第二目标信号发送至bmc。
48、在本实施方式中,根据通信链路数量和预设阈值,确定用于传输信号的目标通信链路,使得无论存在多少通信链路,cpld均可将在位信息和漏液信息传输至bmc。
49、第三方面,本发明提供了一种液冷设备故障检测装置,该装置部署在bmc,该装置包括:
50、第一得到模块,用于在接收到cpld发送的第一目标信号和位同步信号的情况下,根据位同步信号得到第一采样点,其中,第一目标信息包含漏液检测模块的在位信息,漏液检测模块用于获取服务器各个节点中液冷设备的漏液信息;
51、第二得到模块,用于根据第一采样点和第一目标信号得到在位信息;
52、第三得到模块,用于在接收到cpld发送的中断信号、第二目标信号以及位同步信号的情况下,根据位同步信号得到第二采样点,其中,中断信号用于指示bmc接收第二目标信号,第二目标信号包含漏液信息;
53、第四得到模块,用于根据第二采样点和第二目标信号得到漏液信息;
54、确定模块,用于根据在位信息或漏液信息确定故障液冷设备所在的目标节点,并输出目标节点。
55、第四方面,本发明提供了一种液冷设备故障检测装置,该装置部署在cpld,该装置包括:
56、第一获取模块,用于获取服务器各个节点中液冷设备的漏液信息和漏液检测模块的在位信息,其中,漏液检测模块用于获取漏液信息;
57、第二获取模块,用于获取cpld与bmc之间的通信链路数量;
58、发送模块,用于根据通信链路数量确定目标通信链路,通过目标通信链路将第一目标信号和位同步信号发送至bmc,或者,通过目标通信链路将中断信号、第二目标信号以及位同步信号发送至bmc,其中,第一目标信号包含在位信息,第二目标信号包含漏液信息,中断信号用于指示bmc接收第二目标信号,位同步信号用于指示bmc从第一目标信号获取在位信息或从第二目标信号获取漏液信息。
59、第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的液冷设备故障检测方法。
60、第六方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的液冷设备故障检测方法。