一种服务器及服务器监控方法与流程

文档序号:11230318阅读:576来源:国知局
一种服务器及服务器监控方法与流程

本发明涉及服务器及服务器监控。



背景技术:

在服务器设计中,需要采用带外的管理系统对服务器的功耗、电压、风扇、开关机状态等各个指标进行监控。管理系统采用专用的管理控制器,一般根据功能将管理控制器分为两种:bmc(baseboardmanagementcontroller,基板管理控制器),对服务器主板进行监控;smc(systemmanagementcontroller,系统管理控制器),对服务器整个系统进行监控。一般情况下,为了保证服务器的可靠性,smc采用冗余设计,即配置两个smc,任何一个smc出故障时,另一个smc可以保证管理系统的正常工作。

但是bmc一般不采用冗余设计。如图1为现有设计中的常见连接,即每个主板或节点上只集成一个bmc,用于对主板或节点的监控。被监控单元将监控的信号直接发给bmc。被监控单元一般是电源模块、cpu、pch等设备。监控信号可以是指示电源状态的信号、cpu过热信号等。这样,当系统电源状态、温度等超标时,bmc能够成功检测并记录该现象,并进行下一步操作。

这就带来了服务器可靠性的问题。即,当bmc发生故障复位期间,无法对主板或节点的工作健康状态(功耗、电压、是否有错误信息等)进行监控。

cpld(complexprogrammablelogicdevice,复杂可编程逻辑器件)。

fpga(field-programmablegatearray,即现场可编程门阵列)。



技术实现要素:

本发明为解决当bmc发生故障时,无法对主板或节点的工作健康状态(功耗、电压、是否有错误信息等)进行监控的技术问题。为此,本发明提供一种服务器及服务器监控方法,它具有在bmc发生故障或复位时,仍然能够读取到故障或复位器件的监控信号变化,提高了服务器的稳定性和可靠性的优点。

为了实现上述目的,本发明采用如下技术方案。

一种服务器,包含:

bmc,与逻辑控制单元连接,向逻辑控制单元发送心跳信号,并接收逻辑控制单元发送的监控信号及事件记录信号;

逻辑控制单元,与被监控单元连接,接收被监控单元发送的监控信号;

被监控单元,用于向逻辑控制单元发送监控信号。

优选的,逻辑控制单元为cpld或fpga的一种。

优选的,被监控单元是电源模块、cpu、pch、网络芯片、系统电源的一种或多种。

电源模块,监控电压是否有输出,幅值是否正常;cpu,监控是否有报错;pch,监控是否有报错;网络芯片,监控网络信号是否联通;系统电源,检测是否有错误,输出是否正常(系统电源是将220v电源转换成直流电源的模块,电源模块指将系统电源转出的直流电源转化成板卡需要的各种电源)。

服务器监控方法,包含以下步骤:

当bmc正常工作时,bmc向逻辑控制单元发送心跳信号。当逻辑控制单元检测到心跳信号时,将被监控单元发来的监控信号直接发给bmc。

当bmc不正常工作时,即当逻辑控制单元检测不到心跳信号时,逻辑控制单元检测被监控单元的状态。当其监控信号的电平和正常电平不一致时,逻辑控制单元将该监控信号的编号记录到ram中,待检测到bmc的心跳信号后,再讲监控信号的编号通过事件记录信号发给bmc。

本发明的有益效果:本发明针对现有设计中bmc发生故障或复位时,无法对主板或节点的工作健康状态(功耗、电压、是否有错误信息等)进行监控的问题进行改进。通过cpld判断bmc的工作状态,决定是否接管对监控信息的记录工作。应用本技术,可以实现在bmc发生故障或复位时,仍然能够读取到故障或复位器件的监控信号变化。提高了服务器的稳定性和可靠性。

附图说明

图1是现有技术服务器电路连接示意图。

图2是本实施例服务器电路连接示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图2所示,一种服务器,包含bmc,与cpld连接,向cpld发送心跳信号,并接收cpld发送的监控信号及事件记录信号;cpld,与被监控单元连接,接收被监控单元发送的监控信号;被监控单元,用于向cpld发送监控信号。被监控单元包含电源模块、cpu、pch。

服务器监控方法,包含以下步骤:

当bmc正常工作时,bmc向cpld发送心跳信号。当cpld检测到心跳信号时,将被监控单元发来的监控信号直接发给bmc。

当bmc不正常工作时,即当cpld检测不到心跳信号时,cpld检测被监控单元的状态。当其监控信号的电平和正常电平不一致时,cpld将该监控信号的编号记录到ram中,待检测到bmc的心跳信号后,再讲监控信号的编号通过事件记录信号发给bmc。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。



技术特征:

技术总结
本发明公开了一种服务器及服务器监控方法,当BMC正常工作时,BMC向逻辑控制单元发送心跳信号;当逻辑控制单元检测到心跳信号时,将被监控单元发来的监控信号直接发给BMC;当BMC不正常工作时,即当逻辑控制单元检测不到心跳信号时,逻辑控制单元检测被监控单元的状态;当其监控信号的电平和正常电平不一致时,逻辑控制单元将该监控信号的编号记录到RAM中,待检测到BMC的心跳信号后,再讲监控信号的编号通过事件记录信号发给BMC。本发明可以实现在BMC发生故障或复位时,仍然能够读取到故障或复位器件的监控信号变化。提高了服务器的稳定性和可靠性。

技术研发人员:程万前
受保护的技术使用者:郑州云海信息技术有限公司
技术研发日:2017.05.26
技术公布日:2017.09.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1