一种MXM显示单元的独立监测装置及方法与流程

文档序号:23712295发布日期:2021-01-23 21:44阅读:235来源:国知局
一种MXM显示单元的独立监测装置及方法与流程
一种mxm显示单元的独立监测装置及方法
技术领域
[0001]
本申请属于计算机技术领域,具体涉及一种mxm显示单元的独立监测装置及方法。


背景技术:

[0002]
行动pci express模块(mobile pci express module,简称mxm)是由nvidia主导的图形模块规范,基于pci-e总线。主要应用在行动平台如笔记本电脑上,使用该规范的产品其显示芯片并非直接焊到主板上,而是类似台式机拥有独立的显卡插槽,这样允许用户自行更换显卡,更方便维修。
[0003]
mxm显示单元是指基于mxm接口的显卡模块,在显卡中扮演了显示输出的角色。mxm显示单元由于其小巧的结构特点被广泛集成于pxi(pci extensions for instrumentation),cpci(compact pci)及vpx(vme、pci、extents for both)等架构的计算机中用于桌面显示及计算,mxm显示单元作为显示核心部件,其状态监测及工作可靠性至关重要。
[0004]
为了监测mxm显示单元状态,目前通常利用上位机直接读取其自身smbus(system management bus)管理总线状态来进行。但现有的通过smbus管理总线对mxm显示单元进行监测的方法主要存在以下不足:
[0005]
1)在mxm显示单元故障失效后,其自身smbus管理总线随之失效,造成监测失效,无法监测mxm显示单元状态;
[0006]
2)由于不同mxm显示单元的厂家不同,smbus管理总线的协议也不尽相同,在更换不同厂家的mxm显示单元后,现有的监测方法将对部分mxm显示单元失效。


技术实现要素:

[0007]
本申请的目的在于提供一种mxm显示单元的独立监测装置及方法,不仅可适应对不同mxm显示单元的监测,还可在mxm显示单元发生故障时继续监测。
[0008]
为实现上述目的,本申请所采取的技术方案为:
[0009]
一种mxm显示单元的独立监测装置,用于监测mxm显示单元的运行状态,所述mxm显示单元的独立监测装置包括控制器、电源模块、温湿度传感器、电流/电压传感器,其中:
[0010]
所述电源模块,用于为所述mxm显示单元供电;
[0011]
所述温湿度传感器,用于监测mxm显示单元外围环境的温湿度并反馈至所述控制器;
[0012]
所述电流/电压传感器,一端与所述电源模块连接,另一端连接至所述控制器,用于实时监测mxm显示单元所在链路的电流电压并反馈至所述控制器;
[0013]
所述控制器,通过mxm连接器与所述mxm显示单元连接,用于根据所述mxm显示单元的基本信息,调用预设的与所述基本信息对应的smbus总线协议与所述mxm显示单元建立smbus总线通信,并通过smbus总线读取mxm显示单元的运行参数和报警信号,同时接收所述温湿度传感器和电流/电压传感器反馈的温湿度、电流电压,判断mxm显示单元的运行状态
为正常工作状态或故障状态。
[0014]
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0015]
作为优选,所述mxm显示单元的独立监测装置,还包括后插对外连接器,所述后插对外连接器分别与所述mxm连接器、控制器连接,并且所述后插对外连接器为所述电源模块、控制器分别提供电能。
[0016]
作为优选,所述控制器,还用于通过所述后插对外连接器将读取的mxm显示单元的运行参数上报至上位机,并在判断mxm显示单元的运行状态为故障状态时,将mxm显示单元的报警信号和所述故障状态上报至上位机;
[0017]
还用于通过所述后插对外连接器接收所述上位机下发的控制命令执行合法动作,所述合法动作包括:控制mxm显示单元复位、控制mxm显示单元上下电、控制mxm显示单元的显卡gpu主频。
[0018]
作为优选,所述mxm显示单元的独立监测装置,还包括散热风扇,所述散热风扇与所述控制器连接,用于根据控制器的指令调节转速,并向所述控制器反馈当前转速。
[0019]
作为优选,所述故障状态包括:mxm显示单元所在链路过流、mxm显示单元所在链路过压、mxm显示单元过温、mxm显示单元短路、mxm显示单元断路。
[0020]
本申请还提供一种mxm显示单元的独立监测方法,用于监测mxm显示单元的运行状态,所述mxm显示单元的独立监测方法实施在所述控制器,包括:
[0021]
根据所述mxm显示单元的基本信息,调用预设的与所述基本信息对应的smbus总线协议与所述mxm显示单元建立smbus总线通信,所述基本信息包括厂家、型号、序列号;
[0022]
接收mxm显示单元上传的运行参数和报警信号,接收温湿度传感器反馈的mxm显示单元外围环境的温湿度,接收电流/电压传感器反馈的mxm显示单元所在链路的电流电压;
[0023]
根据所述报警信号、运行参数、温湿度、电流电压判断mxm显示单元的运行状态为正常工作状态或故障状态。
[0024]
作为优选,所述mxm显示单元的独立监测方法,还包括:
[0025]
通过后插对外连接器将读取的mxm显示单元的运行参数上报至上位机,并在判断mxm显示单元的运行状态为故障状态时,将mxm显示单元的报警信号和所述故障状态上报至上位机;
[0026]
通过所述后插对外连接器接收所述上位机下发的控制命令执行合法动作。
[0027]
作为优选,所述合法动作包括:控制mxm显示单元复位、控制mxm显示单元上下电、控制mxm显示单元的显卡gpu主频。
[0028]
作为优选,所述故障状态包括:mxm显示单元所在链路过流、mxm显示单元所在链路过压、mxm显示单元过温、mxm显示单元短路、mxm显示单元断路。
[0029]
本申请提供的mxm显示单元独立监测装置及方法,通过mxm外围监测电路的设计,可实时独立监测mxm显示单元外围传感器状态及其工作状态,解决mxm显示单元失效后无法监测其状态的问题。通过在mxm显示单元初始化阶段自动读取其厂家信息,根据厂家信息对mxm显示单元进行自适应配置,解决不同厂家mxm显示单元的smbus总线协议不一致带来的问题,实现对不同厂家mxm显示单元的统一监测,从而极大提升mxm显示单元的可维护性、可
靠性及通用性。
附图说明
[0030]
图1为本申请的mxm显示单元独立监测装置的结构示意图;
[0031]
图2为本申请的mxm显示单元独立监测方法的一种实施例流程图。
具体实施方式
[0032]
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033]
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
[0034]
本实施例中所述的mxm显示单元指基于mxm接口的显卡模块,用于笔记本等移动计算设备中,具有体积小,功耗低的特点。现有技术中对mxm显示单元的监测直接通过smbus管理总线实现,但该方式存在诸多不足。
[0035]
为了解决现有技术中mxm显示单元故障后无法通过smbus管理总线上报其故障状态的问题,本申请设计一种mxm显示单元的独立监测装置,以实时反馈mxm显示单元的状态,同时还克服了不同厂家的mxm显示单元采用的smbus管理总线的协议不一致的问题,使得mxm显示单元的监测变得通用化。
[0036]
如图1所示,本实施例提供的一种mxm显示单元的独立监测装置,用于实时监测mxm显示单元的运行状态,这里的运行状态指mxm显示单元的正常工作状态以及故障状态。
[0037]
本实施例中的mxm显示单元的独立监测装置包括控制器、电源模块、温湿度传感器、电流/电压传感器,其中:
[0038]
电源模块,用于为所述mxm显示单元供电。
[0039]
温湿度传感器,用于监测mxm显示单元外围环境的温湿度并反馈至所述控制器。这里的外围环境指mxm显示单元外部但靠近mxm显示单元的周围环境,例如温湿度传感器贴靠mxm显示单元安装。
[0040]
电流/电压传感器,一端与所述电源模块连接,另一端连接至所述控制器,用于实时监测mxm显示单元所在链路的电流电压并反馈至所述控制器。
[0041]
控制器,通过mxm连接器与所述mxm显示单元连接,用于根据所述mxm显示单元的基本信息,调用预设的与所述基本信息对应的smbus总线协议与所述mxm显示单元建立smbus总线通信,并通过smbus总线读取mxm显示单元的运行参数和报警信号,同时接收所述温湿度传感器和电流/电压传感器反馈的温湿度、电流电压,判断mxm显示单元的运行状态为正常工作状态或故障状态。
[0042]
需要说明的是,本实施例中的报警信号包括但不限于电压异常信号、过温信号、过载信号,运行参数包括但不限于显卡gpu主频、显存主频、显存占用率、gpu使用率。mxm显示
单元上报的报警信号和运行参数与mxm显示单元的基本信息相关,一般为出厂配置性能,不同mxm显示单元输出的报警信号和运行参数的字段稍有不同,但通常包括上述主要字段。本申请获取运行参数和报警信号用于监测mxm显示单元的运行状态,根据报警信号可直接得到对应的故障状态,并不一定要求运行参数和报警信号中必须包含某种字段。
[0043]
在控制器和mxm显示单元的交互过程中,运行参数实时上传至控制器,而报警信号可以是实时上传,也可以是mxm显示单元运行异常是进行上传至控制器,即控制器每次读取的运行参数和报警信号中,报警信号可以是空字段,也可以是表示未出现异常的字段,而在异常时输出相应的异常信号以及触发异常信号对应的温度、电流或电压等信息。
[0044]
对于mxm显示单元而言,其内部具有检测自身温度、电流、电压等传感器,在mxm显示单元处于正常工作状态时,其内部的传感器检测的温度、电流、电压等运行参数和报警信号能够正常输出,此时外部传感器的数值作为辅助参考来判断mxm显示单元的运行状态;当mxm显示单元处于故障状态时,其内部的传感器检测的温度、电流、电压等运行参数和报警信号无法正常输出,此时外部传感器的数值作为主要参考,来判断mxm显示单元当前状态,以便于继续定位mxm显示单元的故障所在。
[0045]
本实施例中控制器根据mxm显示单元自身反馈的信息,同时结合外部传感器反馈的信息对mxm显示单元进行综合的实时监测,提高mxm显示单元状态监测的可靠性,并且在mxm显示单元故障失效以后,还可以通过外部传感器反馈mxm显示单元的故障状态,避免因mxm显示单元故障失效导致无法通过smbus管理总线监测其故障状态的情况。
[0046]
通过本实施例内外结合的监测方式,可以完成监测的故障状态包括mxm显示单元所在链路过流、mxm显示单元所在链路过压、mxm显示单元过温、mxm显示单元短路、mxm显示单元断路,以实现mxm显示单元全面的、可靠的运行监测。
[0047]
为了适应各种类型的mxm显示单元,本实施例中的电源模块的供电能力按照最大设计,例如设计输出三种不同电压,分别为12v、5v、3.3v。并且电源模块带有自动保护功能,以保证电路安全。
[0048]
为了便于独立监测装置与外界的信息交互,在一个实施例中,mxm显示单元的独立监测装置,还包括后插对外连接器,所述后插对外连接器分别与所述mxm连接器、控制器连接,并且所述后插对外连接器为所述电源模块、控制器分别提供电能。
[0049]
本实施例的控制器可以是单片机、arm等处理器,对于控制器而言,其不通过电源模块进行供电,即控制器通过独立的电源供电,以满足控制器能够检测mxm显示单元的启动初始化。进一步,所述控制器与电源模块连接,用于控制电源模块的开关,以及时控制对mxm显示单元的上下电,实现对mxm显示单元的保护。
[0050]
其中,后插对外连接器与mxm连接器通过pcie、display总线连接,后插对外连接器与控制器通过i
2
c bus连接,并且为控制器提供供电,后插对外连接器包括但不限于vpx、cpci连接器。
[0051]
在一个实施例中,基于后插对外连接器,控制器还用于通过后插对外连接器将读取的mxm显示单元的运行参数上报至上位机,并在判断mxm显示单元的运行状态为故障状态时,将mxm显示单元的报警信号和所述故障状态上报至上位机。
[0052]
需要说明的是,上报至上位机后便于直接观察mxm显示单元的运行状态,并在mxm显示单元发生故障时产生报警以便于控制人员及时处理故障。对于上报上位机的数据以及
时间并不限于上述方式,例如还可以是定时将读取的运行参数和报警信号上报至上位机,并在mxm显示单元的运行状态为故障状态时,立即将所述故障状态上报至上位机。
[0053]
基于后插对外连接器,控制器还用于通过后插对外连接器接收上位机下发的控制命令执行合法动作。通过上位机可直接向控制器下发控制命令,便于控制人员的操作,该控制命令可以是在任意时刻产生并下发的,例如在mxm显示单元处于正常运行状态时,需要mxm显示单元停止工作,则通过上位机向控制器下发下电指令,控制器与电源模块电连接,因此控制器接收到下电指令后控制电源模块断电;又如在mxm显示单元处于故障状态时,需要mxm显示单元复位,则通过上位机向控制器下发复位指令,控制器接收到复位指令后基于mxm连接器通过smbus管理总线控制mxm显示单元复位。
[0054]
因此本实施例可以在任意时间下发控制命令,使控制器执行控制mxm显示单元复位、控制mxm显示单元上下电、控制mxm显示单元的显卡gpu主频等合法动作,以保证mxm显示单元的保护运行,本申请结合上位机便于控制人员及时了解mxm显示单元的运行状态,在其他实施例中还可以不使用上位机,直接由控制器根据预设逻辑对应mxm显示单元的运行状态执行合法动作,以提高对mxm显示单元故障状态的反应措施的实施。
[0055]
为了提高mxm显示单元工作的可靠性以及更好的反应mxm显示单元的状态,在一个实施例中,mxm显示单元的独立监测装置,还包括散热风扇,所述散热风扇与所述控制器连接,用于根据控制器的指令调节转速,并向所述控制器反馈当前转速。
[0056]
控制器可以基于报警信号、运行参数、温度、电流电压,同时结合散热风扇的转速综合判断mxm显示单元是否故障,以进一步提高mxm显示单元故障判断的可靠性,并且可在mxm显示单元过温时利用散热风扇降低温度。
[0057]
本实施例的独立监测装置不依赖于计算机的处理器、mxm显示单元、bios或操作系统来工作,独立性强;并且对mxm显示单元的监测信息丰富,采用内部数据和外部数据结合的方式,有效提高监测过程的可靠性。
[0058]
在另一实施例中,还提供一种mxm显示单元的独立监测方法,用于监测mxm显示单元的运行状态,该mxm显示单元的独立监测方法实施在所述控制器,包括以下步骤:
[0059]
步骤s1、根据mxm显示单元的基本信息,调用预设的与基本信息对应的smbus总线协议与mxm显示单元建立smbus总线通信,基本信息包括厂家、型号、序列号。
[0060]
步骤s2、接收mxm显示单元上传的运行参数和报警信号,接收温湿度传感器反馈的mxm显示单元外围环境的温湿度,接收电流/电压传感器反馈的mxm显示单元所在链路的电流电压。
[0061]
步骤s3、根据所述报警信号、运行参数、温湿度、电流电压判断mxm显示单元的运行状态为正常工作状态或故障状态。
[0062]
本实施例提供的独立监测方法自适应不同厂家mxm显示单元的smbus管理总线协议,通用化好。经试验可支持的厂家包括nvidia、amd、景嘉微,当然预加载smbus总线协议后也同样适用于支持其他厂家的mxm显示单元。
[0063]
本实施例中的报警信号包括但不限于电压异常信号、过温信号、过载信号,运行参数包括但不限于显卡gpu主频、显存主频、显存占用率、gpu使用率。故障状态包括:mxm显示单元所在链路过流、mxm显示单元所在链路过压、mxm显示单元过温、mxm显示单元短路、mxm显示单元断路。
[0064]
其中,如何根据运行参数和报警信号判断mxm显示单元是否处于故障状态时,可基于现有的判断逻辑实现,也可以根据需要是自定义对应关系。例如报警信号包括过温信号,则判断mxm显示单元处于过温的故障状态;又如mxm显示单元一定时间内未向控制器输出数据,并且电流/电压传感器检测链路中无电流,则判断mxm显示单元为故障状态,且故障状态为mxm显示单元断路;再如mxm显示单元一定时间内未向控制器输出数据,并且电流/电压传感器检测链路中电流突然变大,则判断mxm显示单元为故障状态,且故障状态为mxm显示单元短路。
[0065]
并且当报警信号和外部传感器数据同时具有反馈时,以报警信号为主、外部传感器数据为辅进行综合判断,例如报警信号为过温信号,而外部的温湿度传感器反馈的温度正常,则判断mxm显示单元的运行状态为故障状态,且为mxm显示单元过温的故障状态;当仅有外部传感器数据具有反馈时,则直接判定mxm显示单元的运行状态为故障状态,并以外部传感器数据进行具体故障状态的判断。
[0066]
监测过程中每次反馈的故障状态可以仅包括一种故障,也可以是包括多种故障,并且本申请不仅限于mxm显示单元的故障监测,同时还可以实现对自身的监测,例如对各类传感器的运行监测,以保证监测可靠性。
[0067]
为了进一步提升对mxm显示单元的检测控制,在一个实施例中,mxm显示单元的独立监测方法,还包括:
[0068]
通过所述后插对外连接器将读取的mxm显示单元的运行参数上报至上位机,并在判断mxm显示单元的运行状态为故障状态时,将mxm显示单元的报警信号和所述故障状态上报至上位机;通过所述后插对外连接器接收所述上位机下发的控制命令执行合法动作。
[0069]
需要说明的是,本申请提供的mxm显示单元的独立监测装置和mxm显示单元的独立监测方法对应,两者的细节部分可对应互补,不再一一赘述。
[0070]
在另一个实施例中,如图2所示,将本申请的mxm显示单元的独立监测方法拆分为两个部分的执行逻辑,并设计对应的mxm显示单元监测软件和上位机管理软件来运行对应的执行逻辑,其中mxm显示单元监测软件部署在控制器上,上位机管理软件部署在上位机中,这里的上位机可以是pc端,也可以是计算卡(计算卡和显卡通过pcie和i
2
c总线相连)。
[0071]
1)mxm显示单元监测软件
[0072]
mxm显示单元监测软件部署在mxm显示单元的独立监测装置的控制器上,主要提供显卡初始化检测,上下电控制,状态实时监测、上报,异常处理等功能。软件的运行步骤如下所示:
[0073]
a、上电后控制器首先上电并运行初始化程序,初始化包括:对电压电流的检测、对散热风扇及各传感器的检测。初始化完成后将使能电源模块、mxm显示单元和散热风扇,若初始化失败则产生告警。
[0074]
b、mxm显示单元上电后将通过pcie接口被分配系统资源(mxm显示单元作为一个pcie设备,需要通过pcie接口从计算机获取相关内存、io等硬件资源,这样才能被计算机识别,然后通过在操作系统下安装显卡驱动软件,实现其功能),同时控制器开始实时监测显卡状态。
[0075]
c、在操作系统下安装显卡驱动后打开上位机管理软件,上位机管理软件检测显卡不存在则产生告警,若检测到显卡则自动调用显卡驱动接口将mxm显示单元的基本信息,包
括如厂家、型号、序列号信息通过pcie总线读入并通过i
2
c总线将基本信息下传至控制器。
[0076]
d、mxm显示单元监测软件随即针对不同的基本信息调用不同的smbus总线协议与mxm显示单元进行通信,实现了显卡的自适应监测功能。若不存在对应的smbus管理总线协议则产生告警。
[0077]
e、控制器通过i
2
c总线将监控信息每隔一段时间上报至上位机管理软件,实现实时状态上报功能。同时,控制也能接收管理软件的控制命令来执行合法动作。
[0078]
2)上位机管理软件
[0079]
上位机监控软件部署在设备的计算卡(计算卡和显卡通过pcie和i2c总线相连)上,主要有监控mxm显示单元的运行状态,提供人机交互界面并存储上报日志的功能。软件运行流程如下所示:
[0080]
a、打开上位机管理软件,自动检测显卡驱动,并将显卡的基本信息下发至控制器,使得控制器(mxm显示单元监测软件)匹配mxm显卡单元的smbus总线协议。
[0081]
b、在协议匹配成功后,上位机管理软件陆续收到控制器定时上传的监测信息(运行参数、报警信号等),接着将检测信息实时显示在人机交互界面。
[0082]
c、上位机管理软件的人机交互界面每秒刷新一次,将更新如下参数:显卡厂家、型号、序列号、显卡功耗、显卡温度、散热风扇转速、显卡gpu主频、显存主频、gpu核心温度、显存占用率、gpu使用率、pcie总线速度等。人机交互界面的参数可根据实际展示需求进行增减。
[0083]
d、上位机管理软件一旦接收到控制器上报的故障状态,根据故障状态自行归类并产生故障代码、故障原因及故障等级,并在首页显示高亮的故障代码、故障原因及故障等级,并根据故障等级发出控制命令,例如显卡温度或功耗超过设定阈值时,降低gpu运行频率,切换gpu性能模式、增加散热风扇转速等。
[0084]
在根据故障状态自行归类并产生故障代码、故障原因及故障等级时,例如上传的故障状态为mxm显示单元过温,并且具有报警信号反馈的温度,则温度超过某一值可能会引起gpu过热,故障等级判断为warning,但如果温度超过最大值,则会将故障等级转为error,如果长时间处于或超过最大值,则会将故障等级转为critical,这里的故障代码、故障原因及故障等级可根据实际需求进行调整。
[0085]
e、上位机管理软件每隔一段时间,统一打包缓冲区中的数据并存储在设备硬盘上形成日志。
[0086]
需要说明的是,上述提供的mxm显示单元监测软件和上位机管理软件的执行逻辑仅为本申请提供的一种可选的执行逻辑,本实施例中不仅可对mxm显示单元进行监测,还可展示监控信息,并显示提示故障信息,以便于管理人员及时获取故障信息进行处理。
[0087]
在其他实施例中,还可以根据实际需求,在执行逻辑中增加或减少,例如增加报警声音,以便于管理人员快速得知故障信息,或者去除日志生成操作等等。
[0088]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0089]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1