本发明涉及服务器板卡技术领域,特别是一种板卡供电故障检测保护方法及系统。
背景技术:
随着信息化的普及和发展,人们日常生活对网络的依赖与要求也越来越高,对服务器性能的要求也越来越高。为了满足服务器高性能的要求,服务器板卡上的cpu功率、内存条与硬盘等器件数量日益增多,整板功耗随之增大。
如此给服务器板卡的供电带来了极大的挑战,既要保证可靠稳定的提供各元器件所需的电压与电流,又要正常大电流状态下及时发现在板卡异常情况并处理,防止发展成严重故障,而且要在板卡故障时快速切断供电。
现有技术中通过在板卡总输入端放置efuse(一次性可编程存储器),通过设定efuse的电压、电流保护值来达到保护的目的。但随着整板功率的增大,通过现有方案进行保护时,需要设定比较大的电流保护值。当发生轻微故障时,比如未完全短路时,故障电流比较小时,不能及时检测并发出告警,以致发展为严重故障甚至烧板时,efuse才会动作关断电源,并且,现有方案不具备故障区域定位功能。
技术实现要素:
本发明的目的是提供一种板卡供电故障检测保护方法及系统,旨在解决现有技术中板卡只在电源输入端放置efuse导致的只能在严重故障时才能起到保护作用的问题,实现在故障初期便可起到保护作用,提高可靠性。
为达到上述技术目的,本发明提供了一种板卡供电故障检测保护方法,所述方法包括以下操作:
对用电单元的输入端进行电流信息采样,并设置分压电阻进行电压信息采样;
电流通过开尔文走线传输至差分放大器,并在差分放大器的输入端进行滤波,差分放大器输出的电流差分信息传输至bmc,分压电阻采集的电压信息传输至bmc;
bmc将接收到的电流差分信息转换成实际输入电流值,将接收到的电压信息转换成实际电压值,并进行去抖处理;
bmc将去抖处理后的电压、电流值与设定阈值进行比较,若电流值或电压值超出保护值,则关闭串联于用单单元输入端的电子开关。
优选地,所述电流值或电压值超出告警值时,bmc向cpu发出降频命令,并点亮用电单元区域异常指示灯。
优选地,所述去抖处理公式为:
a为电流或电压,n为采样次数。
优选地,所述串联于用单单元输入端的电子开关在关断后经固定时间再打开,若故障消失,则板卡继续正常工作,若故障仍存在,则再次关断串联于用单单元输入端的电子开关,并点亮故障指示灯。
本发明还提供了一种板卡供电故障检测保护系统,所述系统包括:
电流电压采样模块,用于对用电单元的输入端进行电流信息采样,并进行分压电阻电压信息采样;
采样信息接收模块,用于bmc接收经开尔文走线传输至差分放大器并在差分放大器的输出端进行滤波后的电流差分信息以及分压电阻采集的电压信息;
采样处理模块,用于bmc将接收到的电流差分信息转换成实际输入电流值,将接收到的电压信息转换成实际电压值,并进行去抖处理;
电流电压保护开关,串联于用电单元输入端,用于当bmc判断去抖处理后的电压、电流值超出设定阈值时,关闭输入电路。
优选地,所述电流值或电压值超出告警值时,bmc向cpu发出降频命令,并点亮用电单元区域异常指示灯。
优选地,所述去抖处理公式为:
a为电流或电压,n为采样次数。
优选地,所述电流电压保护开关在关断后经固定时间再打开,若故障消失,则板卡继续正常工作,若故障仍存在,则再次关断电流电压保护开关,并点亮故障指示灯。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过在每个用电单元的输入端采集电流与电压信息并传输至bmc,当输入电流或者电压异常时,bmc立即定位故障区域并做出降频或者关闭efuse的保护动作,并且在板上点亮故障区域指示灯,而且在日志中进行记录,有效解决现有板卡只在电源输入端放置efuse导致的只能在严重故障时才能起到保护作用的问题,在故障初期便可起到保护作用,并指示故障区域,在某个区域发生严重故障时便可立即关断efuse。
附图说明
图1为本发明实施例中所提供的一种板卡供电故障检测保护方法流程图;
图2为本发明实施例中所提供的板卡过流方案示意图;
图3为本发明实施例中所提供的电流电压采样流程图;
图4为本发明实施例中所提供的bmc处理流程图;
图5为本发明实施例中所提供的一种板卡供电故障检测保护系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种板卡供电故障检测保护方法及系统进行详细说明。
如图1所示,本发明公开了一种板卡供电故障检测保护方法,所述方法包括以下操作:
在用电单元的输入端增加精密电阻进行电流信息采样,并在精密电阻后端设置分压电阻进行电压信息采样;
电流通过开尔文走线传输至差分放大器,并在差分放大器的输入端进行滤波,差分放大器输出的电流差分信息传输至bmc,分压电阻采集的电压信息传输至bmc;
bmc将接收到的电流差分信息转换成实际输入电流值,将接收到的电压信息转换成实际电压值,并进行去抖处理;
bmc将去抖处理后的电压、电流值与设定阈值进行比较,若电流值或电压值超出保护值,则关闭efuse。
如图2所示,psu提供的12v电压经过efuse之后,给板卡上各用电单元供电,psu的stby电经电源模块转换后给bmc供电,板卡上流向每个供电单元的电压与电流都要进行采样。
采样信息送至bmc,bmc将采样到的电流与电压信息与告警值和保护值进行比较,若某一供电单元的电流值或电压值超过告警值,bmc便向cpu发出降频命令,点亮该区域异常指示灯,发出告警信号,并记录该状况下的电流与电压值;若电流值或电压值超过保护值,bmc直接拉低efuse使能信号,切断板卡供电,并记录该状态下的电流与电压值。
efuse关断后经过固定时间再打开,若故障消失,则板卡继续正常工作,若故障仍存在,则再次关断efuse,并点亮故障指示灯。
bmc采样电压和电流过程如图3所示,电流采样过程为:电阻r5为每个用电单元前面增加的精密电阻,利用电阻r1、r2对r5两端的电流进行采样,采样到的电流经开尔文走线送至差分放大器u1,并且在u1输入端放置滤波电容c1、c2以滤除传输路径上的干扰,u1输出电流差分信号经c3滤波后传送至bmc。电压采样过程为:利用电阻r3、r4将r5后端的电压进行分压后,将r4对地电压经c4滤波后传输至bmc。
电流电压采样信息传输至bmc后,bmc处理流程如图4所示,bmc根据电阻r1、r2以及r5的阻值将电压信息转换为电流信息,根据r3、r4阻值计算出实际用电单元的输入电压。为了防止电压、电流值的读取出现误差,导致bmc误发降频或efuse关闭信号,对电流和电压按照以下公式进行去抖处理:
a为电流或电压,n为采样次数。
bmc将经过去抖处理的电压电流值与预先设定的电流保护值与电压保护值进行比较,若电流值或电压值超过保护值,则关闭efuse,并将efuse关闭计数器x置为1(默认值为0),并记录日志,经过固定时间的延时后重新打开efuse。
如果故障消失便不再进行操作,若故障仍然存在并且计数器x的值为1便立即关闭efuse,并点亮该区域的故障指示灯,记录在日志中。若电压或电流值未超出保护值,将电压与电流值分别与对应的告警值进行比较,若电流值或电压值超过告警值则发出cpu降频信号,并点亮指示该用电单元异常的灯,告警并记录日志。
相比于现有技术中直接采用efuse统一对板卡进行保护,本发明实施例通过bmc监控每个用电单元的输入电流与电压,在某个用电单元的输入电压或电流异常时,及时做出动作进行降频或关断efuse,实现在故障初期及时检测、定位并告警,在严重故障时关断efuse的目的。
本发明实施例通过在每个用电单元的输入端采集电流与电压信息并传输至bmc,当输入电流或者电压异常时,bmc立即定位故障区域并做出降频或者关闭efuse的保护动作,并且在板上点亮故障区域指示灯,而且在日志中进行记录,有效解决现有板卡只在电源输入端放置efuse导致的只能在严重故障时才能起到保护作用的问题,在故障初期便可起到保护作用,并指示故障区域,在某个区域发生严重故障时便可立即关断efuse。
如图5所示,本发明还公开了一种板卡供电故障检测保护系统,所述系统包括:
电流电压采样模块,用于对用电单元的输入端进行电流信息采样,并进行分压电阻电压信息采样;
采样信息接收模块,用于bmc接收经开尔文走线传输至差分放大器并在差分放大器的输出端进行滤波后的电流差分信息以及分压电阻采集的电压信息;
采样处理模块,用于bmc将接收到的电流差分信息转换成实际输入电流值,将接收到的电压信息转换成实际电压值,并进行去抖处理;
电流电压保护开关,串联于用电单元输入端,用于当bmc判断去抖处理后的电压、电流值超出设定阈值时,关闭输入电路。
psu提供的12v电压经过efuse之后,给板卡上各用电单元供电,psu的stby电经电源模块转换后给bmc供电,板卡上流向每个供电单元的电压与电流都要进行采样。
采样信息送至bmc,bmc将采样到的电流与电压信息与告警值和保护值进行比较,若某一供电单元的电流值或电压值超过告警值,bmc便向cpu发出降频命令,点亮该区域异常指示灯,发出告警信号,并记录该状况下的电流与电压值;若电流值或电压值超过保护值,bmc直接拉低efuse使能信号,切断板卡供电,并记录该状态下的电流与电压值。
efuse关断后经过固定时间再打开,若故障消失,则板卡继续正常工作,若故障仍存在,则再次关断efuse,并点亮故障指示灯。
电流采样过程为:电阻r5为每个用电单元前面增加的精密电阻,利用电阻r1、r2对r5两端的电流进行采样,采样到的电流经开尔文走线送至差分放大器u1,并且在u1输入端放置滤波电容c1、c2以滤除传输路径上的干扰,u1输出电流差分信号经c3滤波后传送至bmc。电压采样过程为:利用电阻r3、r4将r5后端的电压进行分压后,将r4对地电压经c4滤波后传输至bmc。
电流电压采样信息传输至bmc后,bmc根据电阻r1、r2以及r5的阻值将电压信息转换为电流信息,根据r3、r4阻值计算出实际用电单元的输入电压。为了防止电压、电流值的读取出现误差,导致bmc误发降频或efuse关闭信号,对电流和电压按照以下公式进行去抖处理:
a为电流或电压,n为采样次数。
bmc将经过去抖处理的电压电流值与预先设定的电流保护值与电压保护值进行比较,若电流值或电压值超过保护值,则关闭efuse,并将efuse关闭计数器x置为1(默认值为0),并记录日志,经过固定时间的延时后重新打开efuse。
如果故障消失便不再进行操作,若故障仍然存在并且计数器x的值为1便立即关闭efuse,并点亮该区域的故障指示灯,记录在日志中。若电压或电流值未超出保护值,将电压与电流值分别与对应的告警值进行比较,若电流值或电压值超过告警值则发出cpu降频信号,并点亮指示该用电单元异常的灯,告警并记录日志。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。