一种过流保护装置及板卡的制作方法

文档序号:19813480发布日期:2020-01-31 18:44阅读:372来源:国知局
一种过流保护装置及板卡的制作方法

本发明涉及服务器技术领域。本发明进一步涉及一种过流保护装置及板卡。



背景技术:

目前,绝大多数的电子设备都会有设计的额定电流,如果工作电流超过额定电流,会发生烧坏设备的情况。因此,通常设备中都设置了电流保护模块,这些电流保护模块都是一些实现过流、过载保护功能的电路,例如自恢复保险丝等,当电流超过设定电流的时候,实现设备自动断电,从而保护设备。

在这之中,服务器中装备了大量的各种板卡,这些板卡的过流保护对于保护服务器尤为重要,尤其是一些特殊功能的板卡,比如服务器的加速卡。加速卡是一种pcie(高速串行计算机扩展总线标准,peripheralcomponentinterconnectexpress)设备,用于辅助服务器的内置处理器,可帮助减少服务器核心利用率,提升整体应用性能和延长服务器生命周期。加速卡能够为深度学习、线下训练、语音识别、视频分析等典型ai应用场景提供高性能、高可靠的计算力支撑。随着云计算和云服务的发展,加速卡应用场景越来越多,也愈发的重要。

通常高性能加速卡的额定功耗较大,大多在200w以上。在加速卡设计时使用了两种电源,正常工作用的12v主电使用外接电缆从服务器主板获取;待机用的3.3vaux辅助电从pcie插槽获取。其中12v主电为加速卡提供了绝大多数的电能。

为了保护加速卡和服务器,通常在加速卡主电干路中串联一颗自恢复保险丝,防止过流和短路时损坏电路。通常情况下,在加速卡主电干路串联的自恢复保险丝在发生电流过载时,保险丝阻值迅速增大,流经干路的电流减小,实现保护板卡电路。加速卡正常工作时,保险丝自身阻值极小(mohm级别)。当加速卡过载或电路短路时,流经保险丝的电流大于标准工作电流。电流过载导致保险丝本体温度骤增,同时内部导电链路发生雪崩态断裂。最终保险丝阻值呈阶跃式增大到高阻态,电流也在短时间内急剧减小。从而避免板卡电路持续受大电流的破坏。当施加的电压消失后,自恢复保险丝的温度慢慢降低,阻值恢复到初始状态。

以加速卡为例的这种较为初级的过流保护方法,存在较大的弊端,例如:

1)保护策略较简单,只有当设备出现足够大的过载电流时才触发保护;

2)无法识别和预测板卡已存在的潜伏故障,电路发生故障或电路工作在异常状态,有些情况下虽然电流异常增大,但还未达到过载电流,这些故障都不能触发保护;

3)ms级动作延迟,保护响应较慢,保护效果差,保险丝保护原理为过载电流经过时,通过发热增大本体阻值,实现降低流经的电流,进而实现过流保护,但是实际运行中经常出现后续电路已经多处烧坏,保险丝还没有来得及完成保护动作的情况;

4)保险丝与板卡适配性差,保险丝的动作电流参数是固定的,在选型时,通常挑选与板卡设计最接近的一种型号,但是由于保险丝的型号有限,往往选型的保险丝电流参数与目标值接近,但仍然存在不小的偏差;

5)不能监测电源运行状态及记录故障信息,对于不合理的电流需求无法监测,电流的波动真实情况无法有效记录下来,无法满足系统的实时监测需求。

在工作过程中无法实时监控当前系统的电流和电压值、无法保存历史运行数据、无法根据当前功耗预测出潜在的过流隐患,尤其是在加速卡干路电流异常增大,但未达到保险丝的动作电流阈值时,异常电流的能量在电路中的某阻抗偏小的区域持续消耗,进而导致板卡局部过热甚至烧坏,严重影响服务器和加速卡的可靠运行。

此外,不仅是加速卡,很多板卡中现行的过流保护机制都或多或少存在上述提及的不足之处。

因此,需要提供一种更有效、更安全的板卡过流预警和保护机制以保护板卡和装备该板卡的设备,确保板卡及设备的可靠、安全运行。



技术实现要素:

一方面,本发明基于上述目的提出了一种过流保护装置,其中该装置包括:

主电源,该主电源配置用于为主电源负载供电;

电子保险丝,该电子保险丝串联在主电源与主电源负载之间,并配置为采集主电源负载的电流值并基于电流值和保护阈值进行过流保护;

控制芯片,该控制芯片与电子保险丝通信连接,并配置为基于从电子保险丝获取的电流值和预警阈值控制电子保险丝和进行过流预警,并且控制芯片配置为基于自学习计算得出保护阈值和预警阈值。

根据本发明的过流保护装置的实施例,其中电子保险丝内部集成adc采集模块,该adc采集模块配置为采集主电源负载的电流值。

根据本发明的过流保护装置的实施例,其中电子保险丝配置为响应于电流值超过保护阈值,将主电源与主电源负载断开。

根据本发明的过流保护装置的实施例,其中控制芯片配置为响应于电流值超过保护阈值,上报故障报文。

根据本发明的过流保护装置的实施例,其中控制芯片通过gpio接口连接电子保险丝的使能引脚,并且控制芯片配置为通过gpio接口向电子保险丝的使能引脚发送使能信号。

根据本发明的过流保护装置的实施例,其中电子保险丝配置为基于使能引脚接收到的使能信号控制主电源与主电源负载的接通和断开。

根据本发明的过流保护装置的实施例,其中预警阈值包括第一预警阈值和第二预警阈值,并且控制芯片配置为响应于电流值持续第一时长超过第一预警阈值,上报预警报文;以及控制芯片配置为响应于电流值持续第二时长超过第二预警阈值,控制电子保险丝将主电源与主电源负载断开并上报预警报文。

根据本发明的过流保护装置的实施例,其中控制芯片配置为在自学习模式中获取并记录板卡的最大持续工作电流值,并基于该最大持续工作电流值和板卡的抗过流能力计算得出保护阈值和预警阈值。

根据本发明的过流保护装置的实施例,其中装置进一步包括:

非易失性存储器,该非易失性存储器与控制芯片通信连接,并配置为存储保护阈值和预警阈值并记录过流预警和过流保护的信息。

另一方面,本发明还提出了一种具有前述任一项的过流保护装置的板卡。

采用上述技术方案,本发明至少具有如下有益效果:过流保护和过流预警解决了保护策略单一,只能关断电路进行保护的问题,实现根据不同的故障级别,触发不同的保护方式;同时采用电子保险丝配合控制芯片解决了保险丝保护时效性差的问题,并且解决了只有当系统出现较大过载电流的情况下才启动保护的问题,在板卡发生了某些故障而电流虽有较大增加,但是没有达到普通保险丝的动作电流阈值时进行过流预警;控制芯片自学习地计算阈值解决阈值与板卡适配性差的问题,实现每个板卡通过自学习功能计算出最匹配的阈值进行过流预警和过流保护。

本发明提供了实施例的各方面,不应当用于限制本发明的保护范围。根据在此描述的技术可设想到其它实施方式,这对于本领域普通技术人员来说在研究以下附图和具体实施方式后将是显而易见的,并且这些实施方式意图被包含在本申请的范围内。

下面参考附图更详细地解释和描述了本发明的实施例,但它们不应理解为对于本发明的限制。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对现有技术和实施例描述中所需要使用的附图作简单地介绍,附图中的部件不一定按比例绘制,并且可以省略相关的元件,或者在一些情况下比例可能已经被放大,以便强调和清楚地示出本文描述的新颖特征。另外,如本领域中已知的,结构位置可以被不同地布置。

图1示出了根据本发明的过流保护装置的实施例的示意图;

图2示出了根据本发明的过流保护装置的又一实施例的示意图。

具体实施方式

虽然本发明可以以各种形式实施,但是在附图中示出并且在下文中将描述一些示例性和非限制性实施例,但应该理解的是,本公开将被认为是本发明的示例并不意图将本发明限制于所说明的具体实施例。

图1示出了根据本发明的过流保护装置100的实施例的示意图。在如图1所示的实施例中,该装置100至少包括:主电源10,该主电源10为主电源负载20供电,该主电源10是系统在开机状态下才启动的电源,功率较大。以加速卡为例,该主电源10优选为12v。

进一步地,根据本发明的过流保护装置100还包括电子保险丝30,该电子保险丝30串联在主电源10与主电源负载20之间,并配置为实时采集主电源负载20的电流值ig和电压值ug,并且基于所采集的电流值ig和保护阈值ith_p进行过流保护。该电子保险丝30优选是e-fuse(electronicfuse)芯片,更优选型号为mp5023gv,该芯片具有过流保护功能。通过电子保险丝30实现过流保护功能和实时监测主电源负载20的电流值ig和电压值ug的功能。

另外,根据本发明的过流保护装置100还包括控制芯片40,该控制芯片40与电子保险丝30通信连接,并配置为基于从电子保险丝30获取的电流值ig和预警阈值ith_w控制电子保险丝30并进行过流预警,并且控制芯片40配置为基于自学习计算得出保护阈值ith_p和预警阈值ith_w。在优选实施例中,该控制芯片40为cpld(complexprogrammablelogicdevice,复杂可编程逻辑器件)芯片,更优选为lattice公司的machxo2系列的lcmxo2-2000hc-4ftg256i,反应速度达到了ns级,适合用于实时监测电流、电压和执行保护及预警策略。在一些实施例中,控制芯片40通过i2c接口通信地连接到电子保险丝30,实时获取当前主电源负载20的电流值ig和电压值ug。通信速率为500khz,每隔1ms获取一次数据。控制芯片40通过i2c接口也可以更改电子保险丝30的动作电流阈值,即保护阈值ith_p。另外,控制芯片40在接收到自学习指令后,进入自学习模式,为该装置100所在的板卡计算更为适合的保护阈值ith_p和预警阈值ith_w,从而更加精准地为板卡提供过流保护及过流预警机制。

此外,该装置还包括aux(auxiliarypower)副电源50,该aux副电源50一直存在,是维持系统待机时消耗的电源,功率较小,在本发明的装置中用于为控制芯片40供电。以加速卡为例,该aux副电源50优选为3.3v。

在本发明的过流保护装置100的一些实施例中,电子保险丝30内部集成adc(模数转换器,analogdigitalconverter)采集模块,该adc采集模块配置为采集主电源负载20的电流值。电子保险丝30内置的adc转换模块能够测量采集主电源负载20的电流值ig和电压值ug,以型号为mp5023gv的e-fuse芯片为例,其采样率为2.5khz,能够很好地对主电源负载20的电流值ig进行实时监测和采集。

在本发明的过流保护装置100的若干实施例中,电子保险丝30配置为响应于电流值ig超过保护阈值ith_p,将主电源10与主电源负载20断开。在优选实施例中,只要主电源负载20的电流值ig超过保护阈值ith_p就会触发电子保险丝30的过电流保护功能,以型号为mp5023gv的e-fuse芯片为例,大约在200ns内该电子保险丝30就能够完成将主电源10与主电源负载20断开的动作,即实现速断关机的保护策略,以实现对板卡的过流保护。

在本发明的过流保护装置100的一个或多个实施例中,控制芯片40配置为响应于电流值ig超过保护阈值ith_p,上报故障报文。控制芯片40会从电子保险丝30获取主电源负载20的电流值ig、电压值ug,只要主电源负载20的电流值ig超过保护阈值ith_p,控制芯片40就会上报故障报文。上报的故障报文包括设备id编码、故障时刻、当前主电源负载20的电流值ig、当前主电源负载20的电压值ug、保护阈值ith_p等信息,用以辅助分析和定位故障问题。

在本发明的过流保护装置100的一些实施例中,控制芯片40通过gpio接口连接电子保险丝30的使能引脚,并且控制芯片40配置为通过gpio接口向电子保险丝30的使能引脚发送使能信号。控制芯片40与电子保险丝30的通信连接进一步包括控制芯片40通过gpio接口连接电子保险丝30的使能引脚,控制芯片40对电子保险丝30的控制就是基于通过gpio接口向电子保险丝30的使能引脚发送使能信号来实现的。该使能信号优选为简单的高电平信号和低电平信号。例如,以1和0的形式,或以副电源50的电压值和0v的电压值的形式等。

在本发明的过流保护装置100的进一步实施例中,电子保险丝30配置为基于使能引脚接收到的使能信号控制主电源10与主电源负载20的接通和断开。例如,当使能引脚接收到高电平使能信号时,电子保险丝30将主电源10与主电源负载20接通,而当使能引脚接收到低电平使能信号时,电子保险丝30将主电源10与主电源负载20断开,或反之。

在本发明的过流保护装置100的若干实施例中,预警阈值ith_w包括第一预警阈值ith_w1和第二预警阈值ith_w2,并且控制芯片40配置为响应于电流值ig持续第一时长t1超过第一预警阈值ith_w1,上报预警报文;以及控制芯片40配置为响应于电流值ig持续第二时长t2超过第二预警阈值ith_w2,控制电子保险丝30将主电源10与主电源负载20断开并上报预警报文。为了更好地进行过流预警,根据本发明的装置100中设置了分级的过流预警机制,因而设置了分级的预警阈值,即第一预警阈值ith_w1和第二预警阈值ith_w2,其中第一预警阈值ith_w1小于第二预警阈值ith_w2。具体地说,控制芯片40通过电子保险丝30实时监控主电源负载20的电流值ig,当电流发生异常增大时,按照电流超限程度触发不同的预警机制,包括异常告警、慢关机两部分。异常告警具体配置为,当持续第一时长t1超出第一预警阈值ith_w1时,控制芯片40上报预警报文,请求工作人员进行检查,例如其中第一时长t1优选为3秒。慢关机配置为,当持续第二时长t2超过第二预警阈值ith_w2时,控制芯片40控制电子保险丝30将主电源10与主电源负载20断开以避免烧坏后级电路并上报预警报文,例如其中第二时长t2优选为1秒。上报的预警报文包括设备id编码、预警时刻、当前主电源负载20的电流值ig、当前主电源负载20的电压值ug、第一预警阈值ith_w1、第二预警阈值ith_w2、过流持续时间ts等信息,用以辅助分析和定位预警问题。

在本发明的过流保护装置100的一些实施例中,控制芯片40配置为在自学习模式中获取并记录板卡的最大持续工作电流值ie,并基于该最大持续工作电流值ie和板卡的抗过流能力计算得出保护阈值ith_p和预警阈值ith_w。控制芯片40在接收到自学习指令后,进入自学习模式,此时板卡自动进入模拟100%负载压测的状态,控制芯片40通过电子保险丝30实时监测板卡的最大持续工作电流值,例如此时的最大持续工作电流值为ie,随后基于该最大持续工作电流值ie和板卡的抗过流能力(设定相应的预警或保护系数)计算得出预警阈值ith_w和保护阈值ith_p。例如,针对加速卡,可以根据板卡的抗过流能力选择(分级的)预警系数和保护系数,例如分别为1.05、1.1、1.2,然后将1.05ie作为第一预警阈值ith_w1,将1.1ie作为第二预警阈值ith_w2,将1.2ie作为保护阈值ith_p。此外,在确定了保护阈值ith_p之后,控制芯片40除了记录该保护阈值ith_p之外,还会将保护阈值ith_p记录到电子保险丝30的保护动作电流寄存器中,以便电子保险丝30根据该保护阈值ith_p进行速断关机的过流保护。

图2示出了根据本发明的过流保护装置100的又一实施例的示意图。如图2所示,在这些实施例中,该装置100进一步包括非易失性存储器60,该非易失性存储器60与控制芯片40通信连接,并配置为存储保护阈值ith_p和预警阈值ith_w(包括第一预警阈值ith_w1和第二预警阈值ith_w2)并记录过流预警和过流保护的信息,例如预警报文和/或故障报文等。也就是说,控制芯片40负责生成和记录的数据保存在外接的非易失性存储器60中,优选为32mbytes的flash,更优选地型号是w25q256。控制芯片40基于spi与该非易失性存储器60进行通信。由于采用非易失性存储器60,所以掉电重启后数据不会丢失。另外控制芯片40以相应的频率记录的主电源负载20的电流值ig和电压值ug,并保存在flash即非易失性存储器60中。存储空间循环记录,可保存最近一段时间内的监测数据,例如最近24小时的监测数据。同时,控制芯片40所上报的预警报文和故障报文也会通过spi传输给非易失性存储器60并保存在其中。

另一方面,本发明还提出了一种具有前述任一项的过流保护装置100的板卡。

本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

本文所述的非易失性存储器,作为例子而非限制性地,可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

采用上述技术方案,本发明至少具有如下有益效果:过流保护和过流预警解决了保护策略单一,只能关断电路进行保护的问题,实现根据不同的故障级别,触发不同的保护方式;同时采用电子保险丝配合控制芯片解决了保险丝保护时效性差的问题,并且解决了只有当系统出现较大过载电流的情况下才启动保护的问题,在板卡发生了某些故障而电流虽有较大增加,但是没有达到普通保险丝的动作电流阈值时进行过流预警;控制芯片自学习地计算阈值解决阈值与板卡适配性差的问题,实现每个板卡通过自学习功能计算出最匹配的阈值进行过流预警和过流保护。

应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外实施例。此外,本文所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、尺寸、数量及类型做出相应修改而不脱离本发明的保护范围。

在本申请中,反意连接词的使用旨在包括连接词。定或不定冠词的使用并不旨在指示基数。具体而言,对“该”对象或“一”和“一个”对象的引用旨在表示多个这样对象中可能的一个。然而,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。此外,可以使用连接词“或”来传达同时存在的特征,而不是互斥方案。换句话说,连接词“或”应理解为包括“和/或”。术语“包括”是包容性的并且具有与“包含”相同的范围。

上述实施例,特别是任何“优选”实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。在基本上不脱离本文描述的技术的精神和原理的情况下,可以对上述实施例做出许多变化和修改。所有修改旨在被包括在本公开的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1