一种服务器板卡装置及其控制方法、相关组件与流程

文档序号:26139379发布日期:2021-08-03 14:22阅读:82来源:国知局
一种服务器板卡装置及其控制方法、相关组件与流程
本发明涉及服务器硬件领域,特别涉及一种服务器板卡装置及其控制方法、相关组件。
背景技术
:当前,随着大数据业务的发展,gpu(graphicsprocessingunit,显示芯片)、网卡、风扇等部件的功耗越来越大,服务器整体功耗越来越大,在服务器电压不变的情况下,承载这些部件的板卡之间的电流也随之越来越大。不同板卡之间使用线缆连接,然而线缆的插头与连接器之间存在插拔磨损、插拔不到位、存在异物、插头变形、老化等等情形发生,存在接触不良、接触电阻过大、甚至短路、断路的隐患,还可能因为接插件或线缆温度异常升高而出现烧蚀、热型变,甚至融化烧毁的问题。为了解决以上问题,有工作人员利用板卡插座附近的温度传感器来检测插接件的温度,并利用板卡芯片对温度进行监测,但是由于距离、空间的原因,传感器无法准确及时感知插接件的状态变化,板卡芯片无法及时处理异常情况。因此,如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。技术实现要素:有鉴于此,本发明的目的在于提供一种快速处理插接异常情况的服务器板卡装置及其控制方法、相关组件。其具体方案如下:一种服务器板卡装置,包括:主板,包括分压电阻的板卡,和所述主板通过第一插接件连接、和所述板卡通过第二插接件连接的线缆,所述线缆包括电源线、接地线、检测线和多个热敏电阻;所述电源线、所述接地线和所述检测线的两端均分别接入所述第一插接件和所述第二插接件;多个所述热敏电阻分别设于所述第一插接件和所述第二插接件内,所述分压电阻和多个所述热敏电阻的第一端均与所述检测线连接,所述分压电阻的第二端连接所述电源线或所述接地线,每个所述热敏电阻的第二端均连接所述接地线或均连接所述电源线;所述主板中bmc通过所述检测线获取多个所述热敏电阻的电气参数,并根据所述电气参数判断所述第一插接件和所述第二插接件是否异常。优选的,所述板卡包括两个所述分压电阻,所述线缆包括两个所述热敏电阻和两条所述检测线,其中:每条所述检测线上均连接一个所述分压电阻和一个所述热敏电阻;两个所述热敏电阻分别设于所述第一插接件和所述第二插接件内。优选的,多个所述热敏电阻分为两组,分别分散设于所述第一插接件和所述第二插接件内。优选的,所述bmc用于:根据所述电气参数确定插接件温度,并判断所述第一插接件和所述第二插接件的温度是否异常,若是,对所述板卡执行温度异常调控策略;所述温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。优选的,所述bmc还用于:获取所述板卡的板卡温度,比较所述插接件温度和所述板卡温度,当所述插接件温度与所述板卡温度的差异值超出预设范围,判定所述第一插接件或所述第二插接件的温度异常。优选的,所述bmc还用于:根据所述电气参数,判断所述第一插接件和所述第二插接件的连接状态是否异常,若是,发出报警信息。优选的,所述bmc还用于:获取所述板卡的配置信息,以确定所述板卡对应的温度异常调控策略。相应的,本申请还公开了一种服务器板卡装置的检测方法,应用于上文所述服务器板卡装置,包括:主板中bmc通过检测线获取多个热敏电阻的电气参数,并根据所述电气参数判断第一插接件和第二插接件是否异常。相应的,本申请还公开了一种服务器板卡装置的检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上文所述服务器板卡装置的检测方法的步骤。相应的,本申请还公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述服务器板卡装置的检测方法的步骤。本申请公开了一种服务器板卡装置,包括:主板,包括分压电阻的板卡,和所述主板通过第一插接件连接、和所述板卡通过第二插接件连接的线缆,所述线缆包括电源线、接地线、检测线和多个热敏电阻;所述电源线、所述接地线和所述检测线的两端均分别接入所述第一插接件和所述第二插接件;多个所述热敏电阻分别设于所述第一插接件和所述第二插接件内,所述分压电阻和多个所述热敏电阻的第一端均与所述检测线连接,所述分压电阻的第二端连接所述电源线或所述接地线,每个所述热敏电阻的第二端均连接所述接地线或均连接所述电源线;所述主板中bmc通过所述检测线获取多个所述热敏电阻的电气参数,并根据所述电气参数判断所述第一插接件和所述第二插接件是否异常。本申请将检测状态的检测线和热敏电阻设于线缆内部,将分压电阻置于板卡内部,主板bmc能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例中一种服务器板卡装置的结构分布图;图2为本发明实施例中第二种服务器板卡装置的结构分布图;图3为本发明实施例中第三种服务器板卡装置的结构分布图;图4为本发明实施例中第四种服务器板卡装置的结构分布图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。有工作人员利用板卡插座附近的温度传感器来检测插接件的温度,并利用板卡芯片对温度进行监测,但是由于距离、空间的原因,传感器无法准确及时感知插接件的状态变化,板卡芯片无法及时处理异常情况。本申请将检测状态的检测线、分压电阻和热敏电阻设于线缆内部,主板bmc(baseboardmanagementcontroller,基板管理控制器)能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。本发明实施例公开了一种服务器板卡2装置,包括:主板1,包括分压电阻r的板卡2,和主板1通过第一插接件a连接、和板卡2通过第二插接件b连接的线缆,线缆包括电源线l-vpp、接地线l-gnd、检测线l-t和多个热敏电阻rt;电源线l-vpp、接地线l-gnd和检测线l-t的两端均分别接入第一插接件a和第二插接件b;多个热敏电阻rt分别设于第一插接件a和第二插接件b内,分压电阻r和多个热敏电阻rt的第一端均与检测线l-t连接,分压电阻r的第二端连接电源线l-vpp或接地线l-gnd,每个热敏电阻rt的第二端均连接接地线l-gnd或均连接电源线l-vpp;主板1中bmc通过检测线l-t获取多个热敏电阻rt的电气参数,并根据电气参数判断第一插接件a和第二插接件b是否异常。可以理解的是,第一插接件a和第二插接件b中均设有热敏电阻rt,从而第一插接件a和第二插接件b的具体温度均会反映在热敏电阻rt的电气参数上,任何热敏电阻rt的电阻超出正常温度对应的电阻范围,则认为其发生异常。其中,分压电阻r同样与热敏电阻rt一起接在检测线l-t上,实际上分压电阻r和热敏电阻rt串联于电源线l-vpp和接电线l-gnd之间,通过检测线l-t向bmc传递电压信号,bmc会通过adc采样获取相应的电气信号,根据该电气信号可以分析出插接件联通是否正常、温度是否正常等情况。具体的,热敏电阻rt、分压电阻r和检测线l-t的连接,根据分压电阻r的个数和位置不同、热敏电阻rt的个数和位置不同,尤其是热敏电阻rt的电阻反映其所在位置的具体温度,因此热敏电阻rt的数量和位置的选择,根据实际运行中的服务器板卡装置的大小形状决定,在实施时具有多种方案。例如图1-图4所示的四种方案,其中:在图1的连接方案中,只有一个分压电阻r0和一条检测线l-t,以及两个热敏电阻rt1和rt2,其中rt1位于第一插接件a中,rt2位于第二插接件b中,此时两个热敏电阻实际为并联,不论哪个热敏电阻检测到温度异常,均会反映到检测线l-t的电气参数上,进而bmc可确认第一插接件a或第二插接件b二者中至少有一个温度异常。在图2的连接方案中,考虑插接件的物理大小,一个热敏电阻rt无法全面检测一个插接件的温度分布,因此可在一个插接件上设置多个热敏电阻rt进行监测,也即:多个热敏电阻rt分为两组,分别分散设于第一插接件a和第二插接件b内,如图2中,热敏电阻rt1和rt3分散设于第一插接件a中,热敏电阻rt2和rt4分散设于第二插接件b中。分散设置的热敏电阻rt越多,第一插接件a和第二插接件b的检测范围和温度检测准确度越高。在图3的连接方案中,板卡2包括两个分压电阻r0和r1,线缆包括两个热敏电阻rt1和rt2,以及两条检测线l-t1和l-t2,其中:每条检测线l-t上均连接一个分压电阻r和一个热敏电阻rt;这两个热敏电阻rt分别设于第一插接件a和第二插接件b内。可以理解的是,这种连接方案中,两个热敏电阻rt1和rt2的检测通路分别独立,没有互相影响,不仅能够确定两个插接件中存在异常,还可准确区分出发生异常的是第一插接件a还是第二插接件b。进一步的,上文已经提到过,分压电阻r的位置不会影响检测的准确度,因此如果图3中两个分压电阻r0和r1分别位于主板1和板卡2中,则也可取消检测线l-t在线缆中部的部分,只保留插接件中的连接部分,如图4所示,不仅准确区分两个插接件a和b的状态,同时降低线缆的设计成本。但需要注意的是,此时第二插接件b中的信号不能通过检测线l-t发送给bmc,因此需要板卡2内部对第二插接件b中电气信号进行采样后通过与主板1的通讯线i2c传送给主板。可以理解的是,不论热敏电阻rt和分压电阻r如何连接,其目的始终是要确定第一插接件a和第二插接件b是否正常连接以及温度是否发生异常,也即需要准确判断线缆连接处的温度情况,进而准确地预防烧蚀的发生。进一步的,bmc控制主板1的供电开关给板卡2供电,并周期性读取电气参数。读取电气参数后,bmc用于:根据电气参数确定插接件温度,并判断第一插接件a和第二插接件b的温度是否异常,若是,对板卡2执行温度异常调控策略;温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡2断电。具体的,bmc还用于获取板卡2的配置信息,以确定板卡2对应的温度异常调控策略。其中,板卡2的配置信息通常存储于mcumcu(microcontrolunit,微控制单元)、fru(fieldreplaceunit,现场可更换单元)或eeprom(electricallyerasableprogrammablereadonlymemory,带电可擦可编程只读存储器)中,主板1的bmc通过i2c(inter-integratedcircuit,两线式串行总线)即可读取部件信息和配置信息,进而了解bmc是否能够对板卡2进行限制功耗、和/或降低频率、和/或部分断电、和/或板卡2断电。如果板卡2允许限制功率或降低频率,则根据线缆的可承载电流或功耗,限制板卡2上的部件功耗或降低频率,使线缆、两个插接件上的电流不过载,进而防止烧毁事故的发生,并记录日志告警;如果板卡2不允许限制功率和降低频率,则立即上报紧急告警;如果若干个检测周期内始终无法解除过流/温度异常,如果板卡2允许部分断电,则对板卡2上部分可直接断电的部件进行逐步断电操作,如果不允许,则判断是否可直接对板卡2断电,如果可以则直接对板卡2断电,如果不行则进行关机操作。bmc可以根据实际连接的不同板卡和板卡部件施行不同的温度异常调控策略,实现不过载情况下最大限度不影响业务,必要时根据不同板卡不见采取断开板卡2的供电或直接关机的操作,防止过流电线或插接件烧毁的情况发生。以上操作的同时可对线缆的状态进行记录并告警。进一步的,bmc还用于:获取板卡2的板卡温度,比较插接件温度和板卡温度,当插接件温度与板卡温度的差异值超出预设范围,判定第一插接件a或第二插接件b的温度异常。可以理解的是,如果插接件温度和整体服务器板卡装置的温度变化趋势一致,则可认为属于正常变化,排除在异常升温外,因此可比较插接件温度和板卡温度或主板温度,只有在插接件温度与板卡温度或主板温度的差异超出预设范围,才判定插接件温度属于异常。进一步的,bmc还用于:根据电气参数,判断第一插接件a和第二插接件b的连接状态是否异常,若是,发出报警信息。具体的,bmc读到的电气参数包括热敏电阻rt的电阻和检测线的电压,其中热敏电阻rt的电阻对应其所在位置的具体温度,检测线的电压则可推测出第一插接件a和第二插接件b的连接状态以及通过电流,判断的异常情况包括高温异常、过流异常以及连接异常等。具体的,该连接状态包括任一插接件的插接公头和插接母头,或插座和插头上任一线路引脚的连接状态。以图3为例,连接状态至少有下表1中几种情况:表1电压与连接状态的对应关系检测线l-t1的检测电压检测线l-t2的检测电压连接状态vpp任何电压均可l-gnd连接异常gnd任何电压均可l-vpp连接异常vppvpp第一插接件a连接异常正常(合理电压)gndl-t2连接异常本申请公开了一种服务器板卡装置,包括:主板,包括分压电阻的板卡,和所述主板通过第一插接件连接、和所述板卡通过第二插接件连接的线缆,所述线缆包括电源线、接地线、检测线和多个热敏电阻;所述电源线、所述接地线和所述检测线的两端均分别接入所述第一插接件和所述第二插接件;多个所述热敏电阻分别设于所述第一插接件和所述第二插接件内,所述分压电阻和多个所述热敏电阻的第一端均与所述检测线连接,所述分压电阻的第二端连接所述电源线或所述接地线,每个所述热敏电阻的第二端均连接所述接地线或均连接所述电源线;所述主板中bmc通过所述检测线获取多个所述热敏电阻的电气参数,并根据所述电气参数判断所述第一插接件和所述第二插接件是否异常。本申请将检测状态的检测线和热敏电阻设于线缆内部,分压电阻设于板卡内部,主板bmc能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。相应的,本申请实施例还公开了一种服务器板卡装置的检测方法,应用于上文实施例所述服务器板卡装置,包括:主板中bmc通过检测线获取多个热敏电阻的电气参数,并根据所述电气参数判断第一插接件和第二插接件是否异常。在一些具体的实施例中,所述根据所述电气参数判断第一插接件和第二插接件是否异常的过程,具体包括:根据所述电气参数确定插接件温度,并判断第一插接件和第二插接件的温度是否异常,若是,对板卡执行温度异常调控策略;所述温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。在一些具体的实施例中,所述对板卡执行温度异常调控策略之前,还包括:获取所述板卡的配置信息,以确定所述板卡对应的温度异常调控策略。可以理解的是,针对上文实施例中的服务器板卡装置,bmc控制主板的供电开关给板卡供电,并周期性读取电气参数。读取电气参数后,bmc根据电气参数确定插接件温度,并判断第一插接件和第二插接件的温度是否异常,若是,对板卡执行温度异常调控策略;温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。具体的,bmc获取板卡的配置信息,以确定板卡对应的温度异常调控策略。其中,板卡的配置信息通常存储于mcu、fru或eeprom中,主板的bmc通过i2c即可读取部件信息和配置信息,进而了解bmc是否能够对板卡进行限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。如果板卡允许限制功率或降低频率,则根据线缆的可承载电流或功耗,限制板卡上的部件功耗或降低频率,是线缆、两个插接件上的电流不过载,进而防止烧毁事故的发生,并记录日志告警;如果板卡不允许限制功率和降低频率,则立即上报紧急告警;如果若干个检测周期内始终无法解除过流/温度异常,如果板卡允许部分断电,则对板卡上部分可直接断电的部件进行逐步断电操作,如果不允许,则判断是否可直接对板卡断电,如果可以则直接对板卡断电,如果不行则进行关机操作。bmc可以根据实际连接的不同板卡和板卡部件施行不同的温度异常调控策略,实现不过载情况下最大限度不影响业务,必要时根据不同板卡不见采取断开板卡的供电或直接关机的操作,防止过流电线或插接件烧毁的情况发生。以上操作的同时可对线缆的状态进行记录并告警。在一些具体的实施例中,该检测方法还包括:bmc获取板卡的板卡温度,比较插接件温度和板卡温度,当插接件温度与板卡温度的差异值超出预设范围,判定第一插接件或第二插接件的温度异常。可以理解的是,如果插接件温度和整体服务器板卡装置的温度变化趋势一致,则可认为属于正常变化,排除在异常升温外,因此可比较插接件温度和板卡温度或主板温度,只有在插接件温度与板卡温度或主板温度的差异超出预设范围,才判定插接件温度属于异常。在一些具体的实施例中,该检测方法还包括:bmc根据电气参数,判断第一插接件和第二插接件的连接状态是否异常,若是,发出报警信息。具体的,bmc读到的电气参数包括热敏电阻rt的电阻和检测线的电压,其中热敏电阻rt的电阻对应其所在位置的具体温度,检测线的电压则可推测出第一插接件和第二插接件的连接状态以及通过电流,判断的异常情况包括高温异常、过流异常以及连接异常等。具体的,该连接状态包括任一插接件的插接公头和插接母头,或插座和插头上任一线路引脚的连接状态。本申请实施例将检测状态的检测线和热敏电阻设于线缆内部,分压电阻设于板卡内部,主板bmc能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。本申请实施例还公开了一种服务器板卡装置的检测设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现以下步骤:主板中bmc通过检测线获取多个热敏电阻的电气参数,并根据所述电气参数判断第一插接件和第二插接件是否异常。本申请实施例将检测状态的检测线和热敏电阻设于线缆内部,分压电阻设于板卡内部,主板bmc能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。在一些具体的实施例中,所述处理器执行所述存储器中保存的计算机子程序时,具体可以实现以下步骤:根据所述电气参数确定插接件温度,并判断第一插接件和第二插接件的温度是否异常,若是,对板卡执行温度异常调控策略;所述温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。在一些具体的实施例中,所述处理器执行所述存储器中保存的计算机子程序时,具体可以实现以下步骤:获取所述板卡的配置信息,以确定所述板卡对应的温度异常调控策略。在一些具体的实施例中,所述处理器执行所述存储器中保存的计算机子程序时,具体可以实现以下步骤:获取所述板卡的板卡温度,比较所述插接件温度和所述板卡温度,当所述插接件温度与所述板卡温度的差异值超出预设范围,判定所述第一插接件或所述第二插接件的温度异常。在一些具体的实施例中,所述处理器执行所述存储器中保存的计算机子程序时,具体可以实现以下步骤:根据所述电气参数,判断所述第一插接件和所述第二插接件的连接状态是否异常,若是,发出报警信息。进一步的,本申请实施例还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动硬盘、cd-rom或
技术领域
内所公知的任意其他形式的存储介质。可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:主板中bmc通过检测线获取多个热敏电阻的电气参数,并根据所述电气参数判断第一插接件和第二插接件是否异常。本申请实施例将检测状态的检测线和热敏电阻设于线缆内部,分压电阻设于板卡内部,主板bmc能够通过热敏电阻快速了解第一插接件和第二插接件的状态,其效率和准确率远高于现有技术,其电气参数具有更高的参考价值。在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:根据所述电气参数确定插接件温度,并判断第一插接件和第二插接件的温度是否异常,若是,对板卡执行温度异常调控策略;所述温度异常调控策略包括限制功耗、和/或降低频率、和/或部分断电、和/或板卡断电。在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:获取所述板卡的配置信息,以确定所述板卡对应的温度异常调控策略。在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:获取所述板卡的板卡温度,比较所述插接件温度和所述板卡温度,当所述插接件温度与所述板卡温度的差异值超出预设范围,判定所述第一插接件或所述第二插接件的温度异常。在一些具体的实施例中,所述可读存储介质中存储的计算机子程序被处理器执行时,具体可以实现以下步骤:根据所述电气参数,判断所述第一插接件和所述第二插接件的连接状态是否异常,若是,发出报警信息。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本发明所提供的一种服务器板卡装置及其控制方法、相关组件进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1