一种服务器硬件管理方法、系统、设备及存储介质与流程

文档序号:34859950发布日期:2023-07-23 06:08阅读:76来源:国知局
一种服务器硬件管理方法、系统、设备及存储介质与流程

本申请涉及服务器,尤其涉及一种服务器硬件管理方法、系统、设备及存储介质。


背景技术:

1、大型服务器上往往配置了众多的服务器硬件设备,如处理器、内存条、硬盘、风扇、电源等,这些设备在配置规格、性能、使用时间、使用环境及老化程度方面存在较大差异,即使是同一类设备,健康状况也各不相同,而在传统的管理过程中,没有根据硬件设备的具体情况进行明确区分,往往直接混合使用高可用和低可用的硬件设备资源,从而引起服务器系统性能降低、数据丢失、功耗增加等一系列问题。

2、在传统的服务器硬件设备管理和调控的过程中,统一管理方式往往会忽略硬件设备之间在规格、性能等方面的差异,混合使用健康状态差异较大的硬件设备。统一管理方式不能根据设备本身的各项状态信息合理地利用硬件设备资源,因此可能频繁使用可用性较低的设备,从而增加了设备故障、数据丢失、功耗增加等风险,大大降低了服务器系统的可靠性和安全性。


技术实现思路

1、本申请实施例提供了一种服务器硬件管理方法、系统、设备及存储介质,用以解决现有的服务器硬件设备统一管理方式无法合理利用所有的硬件设备,容易导致设备故障和数据丢失的技术问题。

2、一方面,本申请实施例提供了一种服务器硬件管理方法,所述方法包括:

3、获取所有服务器硬件设备的状态信息;

4、基于所述状态信息建立服务器硬件设备的健康状况评估模型;

5、基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件opal和基板管理控制器bmc之间的信息交互,生成交互结果;

6、基于所述交互结果,生成服务器硬件设备的调控策略。

7、在本申请的一种实现方式中,所述服务器硬件设备的状态信息包括:硬件设备的故障信息、硬件设备的温度信息、硬件设备的性能信息以及硬件设备的使用时间信息。

8、在本申请的一种实现方式中,所述建立服务器硬件设备的健康状况评估模型的过程,具体为:

9、确定健康等级评估指标;其中,所述健康等级评估指标包括:设备实时温度、设备故障程度、设备读写速度、设备使用时间;

10、采集硬件设备的指标数据;

11、处理所述指标数据,构建神经网络模型;

12、基于所述指标数据训练所述神经网络模型,获取符合预期的权重参数,得到适用于服务器硬件设备健康等级评估的模型。

13、在本申请的一种实现方式中,所述处理所述指标数据的过程,具体为:

14、将采集到的指标数据等比例量化到1~10范围内,生成4维矩阵;

15、将服务器硬件设备的健康等级进行分级,将量化后的指标数据与各个健康等级进行一一对应。

16、在本申请的一种实现方式中,所述神经网络模型的训练过程,具体为:

17、设置神经网络的拓扑结构;其中,所述拓扑结构为4*6*6*5,输入层和输出层都是一层,隐含层为两层,输入节点数为4个神经元,输出节点数为5个神经元,每个隐含层节点数为6个神经元,隐含层的激活函数选取relu函数,输出层激活函数为softmax函数;

18、对神经网络的权重取一组随机值,将4维特征矩阵作为神经网络的输入,计算神经网络的真实输出;

19、计算所有数据预测值与真实值之间的偏差,根据偏差调整各个权重值,直至误差率不超过预设阈值时,获取符合预期的权重参数。

20、在本申请的一种实现方式中,所述建立服务器硬件设备的健康状况评估模型之后,所述方法还包括:

21、基于所述健康状态评估模型确定硬件设备的健康等级信息;

22、将所述健康等级信息保存至服务器固件opal,并构建传感器的平台描述符记录;

23、将所述传感器的平台描述符记录发送给基板管理控制器进行解析,将解析出的健康登记信息保存。

24、在本申请的一种实现方式中,所述将所述传感器的平台描述符记录发送给基板管理控制器,是通过pldm协议通信发送的。

25、本申请还提供了一种服务器硬件管理系统,所述系统包括:

26、信息获取单元,用于获取所有服务器硬件设备的状态信息;

27、模型建立单元,用于基于所述状态信息建立服务器硬件设备的健康状况评估模型;

28、交互单元,用于基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件opal和基板管理控制器bmc之间的信息交互,生成交互结果;

29、策略生成单元,用于基于所述交互结果,生成服务器硬件设备的调控策略。

30、本申请还提供了一种服务器硬件管理设备,所述设备包括:

31、至少一个处理器;以及,

32、与所述至少一个处理器通信连接的存储器;其中,

33、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

34、获取所有服务器硬件设备的状态信息;

35、基于所述状态信息建立服务器硬件设备的健康状况评估模型;

36、基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件opal和基板管理控制器bmc之间的信息交互,生成交互结果;

37、基于所述交互结果,生成服务器硬件设备的调控策略。

38、本申请还提供了一种服务器硬件管理的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

39、获取所有服务器硬件设备的状态信息;

40、基于所述状态信息建立服务器硬件设备的健康状况评估模型;

41、基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件opal和基板管理控制器bmc之间的信息交互,生成交互结果;

42、基于所述交互结果,生成服务器硬件设备的调控策略。

43、本申请实施例提供的一种服务器硬件管理方法、系统、设备及存储介质,改变了现有的硬件设备管理方式忽视了设备之间在规格等方面的差异,统一作为可用性相同的设备来使用,对于由此引发的各种潜在风险,系统缺少相应的调控策略,不能及时地规避风险。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低系统故障的风险,增强服务器系统的可靠性和安全性;利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,且便于计算机实现;通过pldm协议来实现信息传输,传输效率高,平台管理更加灵活。



技术特征:

1.一种服务器硬件管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述服务器硬件设备的状态信息包括:硬件设备的故障信息、硬件设备的温度信息、硬件设备的性能信息以及硬件设备的使用时间信息。

3.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述建立服务器硬件设备的健康状况评估模型的过程,具体为:

4.根据权利要求3所述的一种服务器硬件管理方法,其特征在于,所述处理所述指标数据的过程,具体为:

5.根据权利要求3所述的一种服务器硬件管理方法,其特征在于,所述神经网络模型的训练过程,具体为:

6.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述建立服务器硬件设备的健康状况评估模型之后,所述方法还包括:

7.根据权利要求6所述的一种服务器硬件管理方法,其特征在于,所述将所述传感器的平台描述符记录发送给基板管理控制器,是通过pldm协议通信发送的。

8.一种服务器硬件管理系统,其特征在于,所述系统包括:

9.一种服务器硬件管理设备,其特征在于,所述设备包括:

10.一种服务器硬件管理的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:


技术总结
本申请公开了一种服务器硬件管理方法,用以解决现有的服务器硬件设备统一管理方式无法合理利用所有的硬件设备,容易导致设备故障和数据丢失的技术问题。包括:获取所有服务器硬件设备的状态信息;基于所述状态信息建立服务器硬件设备的健康状况评估模型;基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;基于所述交互结果,生成服务器硬件设备的调控策略。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低系统故障的风险,利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,通过PLDM协议来传输,传输效率高更加灵活。

技术研发人员:牛雅晨,王凯强,董世江
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1