设备温度检测方法、装置、设备及存储介质与流程

文档序号:32819973发布日期:2023-01-04 05:14阅读:50来源:国知局
设备温度检测方法、装置、设备及存储介质与流程

1.本技术涉及计算机领域,更具体地,涉及一种设备温度检测方法、装置、设备及存储介质。


背景技术:

2.随着信息产业的快速发展,对于芯片的运算速度要求随之增加。芯片的尺寸越来越小,同时运算速度越来越快,设备中包含的芯片数量增加,集成度提升的同时,功耗越来越高,造成设备的发热量越来越高。
3.随着大数据和深度学习得到越来越多应用,芯片的算力和吞吐率成为评价芯片的重要指标,芯片需要在尽可能短的时间里完成计算,并且完成相同计算消耗的能量越小越好。一般情况下,每台设备都采用多个处理器以及多个板卡设计,每个板卡上都可以包含多个芯片,用于保证设备拥有足够的算力。但是设备中包含的芯片的分布较为分散,导致设备内部的发热量比较分散,因此对于设备准确温度的测量变得越来越困难。
4.如果设备温度的检测不准确,设备内的元器件可能在高温下工作,不仅造成设备工作性能的下降,严重时甚至造成硬件的损坏。例如,当芯片的工作温度超过上限温度时,必须通过降频来降低芯片的工作温度,保证芯片在所能承受的温度以内正常工作。因此,科学有效并且快速的检测设备温度,显得尤为重要。


技术实现要素:

5.本技术的一些实施方式提供了可至少部分解决现有技术中存在的上述问题的设备温度检测方法、装置、设备及存储介质。
6.根据本技术的一个方面,提供一种设备温度检测方法,所述设备包括多个芯片,所述方法可包括:采集每一个所述芯片的初始温度值,并生成初始温度值集合;预设第一筛选条件,并基于所述第一筛选条件对所述初始温度值集合进行第一筛选,获得第一筛选集合;预设第二筛选条件,并基于所述第二筛选条件对所述第一筛选集合进行第二筛选,获得第二筛选集合;其中,所述第二筛选条件基于所述第一筛选集合的平均值获得;基于所述第二筛选集合,获取所述设备的设备上限温度值以及设备下限温度值。
7.在本技术一个实施方式中,所述第一筛选条件可包括去除小于第一温度阈值以及大于第二温度阈值的所述初始温度值。
8.在本技术一个实施方式中,所述第二筛选条件可包括去除所述第一筛选集合中小于第三温度阈值以及大于第四温度阈值的所述初始温度值,其中,所述第三温度阈值为所述第一筛选集合的平均值与第一预设值之差,所述第四温度阈值为所述第一筛选集合的平均值与第二预设值之和。
9.在本技术一个实施方式中,所述设备包括至少一个板卡,所述板卡包括多个所述芯片,所述方法可还包括:基于所述第一筛选条件和所述第二筛选条件对每个所述板卡的多个所述初始温度值进行筛选,获得每个所述板卡的板卡上限温度值以及板卡下限温度
值;将多个所述板卡上限温度值中的最大值作为所述设备上限温度值和将多个所述板卡下限温度值中的最小值作为所述设备下限温度值。
10.在本技术一个实施方式中,所述方法还可包括:基于所述设备的所述设备上限温度值以及所述下限温度值调整所述设备的散热方式;或基于所述板卡上限温度值以及所述板卡下限温度值调整所述板卡的散热方式;其中,所述散热方式包括调整所述设备或者所述板卡的通风量和调整所述芯片的工作频率。
11.在本技术一个实施方式中,所述采集每一个所述芯片的初始温度值,并生成初始温度值集合,可包括:检测所述初始温度值的获取时间,并将所述获取时间与时间阈值进行对比;若所述获取时间大于所述时间阈值,对应的所述初始温度值赋无效温度值;去除所述无效温度值后的所述初始温度值组成所述初始温度值集合。
12.在本技术一个实施方式中,所述方法还可包括:对所述无效温度值对应的所述芯片或者与所述芯片连接的连接线进行复位操作。
13.本技术另一方面提供了一种设备温度检测装置,所述设备可包括多个芯片,所述装置可包括:温度采集模块,用于采集每一个所述芯片的初始温度值,并生成初始温度值集合;筛选模块,用于预设第一筛选条件,并基于所述第一筛选条件对所述初始温度值集合进行第一筛选,获得第一筛选集合;预设第二筛选条件,并基于所述第二筛选条件对所述第一筛选集合进行第二筛选,获得第二筛选集合;其中,所述第二筛选条件基于所述第一筛选集合的平均值获得;温度确定模块,用于基于所述第二筛选集合,获取所述设备的设备上限温度值以及设备下限温度值。
14.在本技术一个实施方式中,所述第一筛选条件可包括去除小于第一温度阈值以及大于第二温度阈值的所述初始温度值。
15.在本技术一个实施方式中,所述第二筛选条件包括去除所述第一筛选集合中小于第三温度阈值以及大于第四温度阈值的所述初始温度值,其中,所述第三温度阈值为所述第一筛选集合的平均值与第一预设值之差,所述第四温度阈值为所述第一筛选集合的平均值与第二预设值之和。
16.在本技术一个实施方式中,所述设备包括至少一个板卡,所述板卡包括多个所述芯片,其中,所述筛选模块还可用于基于所述第一筛选条件和所述第二筛选条件对每个所述板卡的多个所述初始温度值进行筛选,获得每个所述板卡的板卡上限温度值以及板卡下限温度值;所述温度确定模块还可用于将多个所述板卡上限温度值中的最大值作为所述设备上限温度值和将多个所述板卡下限温度值中的最小值作为所述设备下限温度值。
17.本技术再一方面提供了一种电子设备,所述电子设备可包括:至少一个板卡,包含多个芯片;以及控制板,包含:存储器和处理器;其中,所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上述的设备温度检测方法;其中,所述板卡通过信号连接接口与所述控制板形成信号连接,所述板卡通过电源连接接口与电源形成电力连接。
18.本技术又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序使得计算机执行上述任一项的设备温度检测方法。
19.根据本技术示例性的实施方式,通过对初始温度值进行第一筛选和第二筛选,去除部分异常的初始温度值,可以获得更准确的板卡温度值以及设备温度值。
附图说明
20.通过阅读参照以下附图所作的对非限制性实施例的详细描述,本技术的其它特征、目的和优点将会变得更明显。其中:图1为根据本技术实施方式的设备温度检测方法1000的流程图;图2为根据本技术示例性实施方式的设备温度检测装置2000的示意图;图3为根据本技术示例性实施方式的控制板结构图;图4为根据本技术示例性实施方式的电子设备示意图。
具体实施方式
21.为了更好地理解本技术,将参考附图对本技术的各个方面做出更详细的说明。应理解,这些详细说明只是对本技术的示例性实施方式的描述,而非以任何方式限制本技术的范围。在说明书全文中,相同的附图标号指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个的任何和全部组合。
22.在附图中,为了便于说明,已稍微调整了元素的大小、尺寸和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“大致”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。另外,在本技术中,各步骤处理描述的先后顺序并不必然表示这些处理在实际操作中出现的顺序,除非有明确其它限定或者能够从上下文推导出的除外。
23.还应理解的是,诸如“包括”、“包括有”、“具有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,其修饰整列特征,而非仅仅修饰列表中的单独元件。此外,当描述本技术的实施方式时,使用“可”表示“本技术的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
24.除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本技术所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本技术中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
25.需要说明的是,在不冲突的情况下,本技术中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本技术。
26.图1为根据本技术实施方式的设备温度检测方法1000的流程图。如图1所示,设备温度检测方法1000可包括:步骤s100:采集每一个芯片的初始温度值,并生成初始温度值集合;步骤s200:预设第一筛选条件,并基于第一筛选条件对初始温度值集合进行第一筛选,获得第一筛选集合;步骤s300:预设第二筛选条件,并基于第二筛选条件对第一筛选集合进行第二筛选,获得第二筛选集合;其中,第二筛选条件基于第一筛选集合的平均值获得;步骤s400:基于第二筛选集合,获取设备的设备上限温度值以及设备下限温度值。
27.在本技术示例性的实施方式中,首先采集每一个芯片的初始温度值,并生成初始
温度值集合。示例性地,可以在每一个芯片上安装一个温度传感器,温度传感器可以在规定的时间对芯片的温度进行测试,例如每隔5秒测试一次芯片的初始温度值。并且在采集芯片初始温度值的过程中,还可以检测初始温度值的获取时间。然后将获取时间与时间阈值进行对比,如果获取时间小于时间阈值,则可以确定初始温度值;如果获取时间大于时间阈值,则认为在采集初始温度值的过程中,可能由于温度传感器的失效或者其他问题无法正常获取初始温度值,则将对应的芯片的初始温度值赋无效值,例如,可以赋值较大的温度值或者较小的温度值,或者直接报错。去除无效值之后的初始温度值可以组成初始温度值集合。本领域技术人员可以理解,时间阈值以及去除无效值的方式可以根据实际情况进行确定,本技术对此不做限制。
28.根据本技术示例性的实施方式,在获取芯片初始温度值的过程中,通过对获取时间进行初步判定,对获取时间大于时间阈值的初始温度值赋无效温度值,在一定程度上排除了由于温度传感器自身问题引起的初始温度值的异常,提高了初始温度值集合数据的准确性。
29.获取芯片初始温度值的过程中,由于芯片距离散热风扇的距离不同,芯片表面的风速不同,芯片与散热片的接触面积不同以及芯片自身温度偏差等原因都可能造成不同芯片的初始温度值的差异较大;并且还可能由于电磁干扰等原因,产生异常的初始温度值,最终导致检测的设备温度值发生异常。为了克服上述问题,在本技术示例性的实施方式中,获取初始温度值集合之后,可以预设第一筛选条件,并基于第一筛选条件对初始温度值集合进行第一筛选,获得第一筛选集合。示例性地,第一筛选条件可以包括去除小于第一温度阈值以及大于第二温度阈值的初始温度值。例如,第一温度阈值为-10℃,第二温度阈值为90℃。初始温度值集合中的多个初始温度值通过第一筛选可以滤除低于-10℃和超过90℃的初始温度值,获得第一筛选集合。对于不符合第一筛选条件的温度值及对应的芯片进行纪录,并记录异常原因。
30.在本技术示例性的实施方式中,还可以对无效温度值和/或异常温度值对应的芯片或者与芯片连接的连接线进行复位操作,通过复位操作,排除由于芯片暂时性故障引起的初始温度值异常。
31.根据本技术示例性的实施方式,通过第一筛选,滤除小于第一温度阈值以及大于第二温度阈值的初始温度值,获得第一筛选集合,在一定程度上避免第一筛选集合中的异常的初始温度值影响第一筛选集合中的初始温度值的平均值。
32.在本技术示例性的实施方式中,在获得第一筛选集合之后,还可以预设第二筛选条件,并基于第二筛选条件对第一筛选集合进行第二筛选,获得第二筛选集合。其中,第二筛选条件基于述第一筛选集合的平均值获得。示例性地,第二筛选条件可以包括去除第一筛选集合中小于第三温度阈值以及大于第四温度阈值的初始温度值,其中,第三温度阈值为第一筛选集合的平均值与第一预设值之差,第四温度阈值为第一筛选集合的平均值与第二预设值之和。示例性地,对第一筛选集合中的初始温度值进行处理,获取第一筛选集合的平均值。然后设定第一预设值和第二预设值,其中,第一预设值和第二预设值可以相同,也可以不同。本技术以第一预设值和第二预设值相同为例,例如,第一预设值和第二预设值都为20℃,则第三温度阈值为第一筛选集合的平均值减去20℃,第四温度阈值为第一筛选集合的平均值加上20℃,再次对第一筛选集合的初始温度值进行第二筛选,获得第二筛选集
合。对于不符合第二筛选条件的温度值及对应的芯片进行纪录,并记录异常原因。
33.根据本技术示例性的实施方式,通过第二筛选,滤除小于第三温度阈值以及大于第四温度阈值的初始温度值,获得第二筛选集合,其中,第三温度阈值为第一筛选集合的平均值与第一预设值之差,第四温度阈值为第一筛选集合的平均值与第二预设值之和。通过第二筛选,进一步滤除第一集合中与平均值偏差较大的初始温度值,使第二筛选集合中的初始温度值更接近于设备温度值的实际温度范围。
34.在本技术示例性的实施方式中,基于第二筛选集合,获取设备的设备上限温度值以及设备下限温度值。示例性地,每个设备可以包含一个板卡,板卡可以包含多个芯片,对于多个芯片可以采集初始温度值,并对初始温度值进行第一筛选和第二筛选,获得第二筛选集合,将第二筛选集合中最大的初始温度值作为设备上限温度值,最小的温度值作为设备下限温度值。
35.本技术进一步考虑到市场的需求及成本控制,本技术的每个设备还可以包含多个板卡,每个板卡可以包含多个芯片。例如,每个设备可以包含2个板卡,6个板卡等,每个板卡可以包含8个芯片。本领域技术人员可知,每个设备包含的板卡数量以及每个板卡包含的芯片数量可以根据实际需求进行设置,本技术对此不做限制。对于包含多个板卡的设备,可以基于第一筛选条件和第二筛选条件对每个板卡的多个初始温度值进行筛选,获得每个板卡的板卡上限温度值以及下限温度值;将多个板卡上限温度值中的最大值作为设备上限温度值和将多个板卡下限温度值中的最小值作为设备下限温度值。其中,板卡上限温度值为每个板卡的第二筛选集合中最大的初始温度值,板卡下限温度值为每个板卡的第二筛选集合中最小的初始温度值。通过获得每一个板卡的板卡上限温度值和板卡下限温度值,选择最大的板卡上限温度值作为设备上限温度值,最小的板卡下限温度值作为设备下限温度值。在本技术示例性的实施方式中,还可以确认每个板卡中异常温度对应的芯片确定为异常芯片,然后对异常芯片的数量进行判定,例如,设置异常芯片数量的阈值单位,确定每个板卡中异常芯片的数量是否属于异常芯片数量的阈值范围,如果每个板卡中异常芯片的数量不属于异常芯片数量的阈值范围,可以对当前板卡上报异常状态,并记录当前板卡的异常状态信息。
36.根据本技术示例性的实施方式,对于单板卡或者多板卡的设备,对初始温度值进行第一筛选和第二筛选,去除部分异常的初始温度值,可以获得更准确的板卡温度值以及设备温度值。
37.根据本技术示例性的实施方式,在获得板卡或者设备温度值之后,还可以基于设备的设备上限温度值以及设备下限温度值调整设备的散热方式,或者基于板卡上限温度值以及板卡下限温度值调整板卡的散热方式。示例性地,散热方式包括调整设备或者板卡的通风量和调整芯片的工作频率。例如,当设备或者板卡的温度过高时,可以通过增加设备或者板卡的通风量,降低设备或者板卡的温度。或者,当设备或者板卡的温度过高时,还可以降低芯片的运算频率,降低芯片温度,进一步降低设备或者板卡的温度;设备或者板卡的温度低于正常温度时,还可以提高芯片的运算频率,进一步提升芯片的算力。
38.根据本技术示例性的实施方式,通过获取更准确的板卡或者设备的温度,进一步调整散热方式,保证芯片的寿命以及动态调整芯片的算力。
39.本技术另一方面还提供一种设备温度检测装置2000,图2为根据本技术示例性实
施方式的设备温度检测装置2000的示意图。如图2所示,设备温度检测装置2000包括温度采集模块2100、筛选模块2200和温度确定模块2300,其中,温度采集模块2100用于采集每一个芯片的初始温度值,并生成初始温度值集合;筛选模块2200用于预设第一筛选条件,并基于第一筛选条件对初始温度值集合进行第一筛选,获得第一筛选集合;预设第二筛选条件,并基于第二筛选条件对第一筛选集合进行第二筛选,获得第二筛选集合;其中,第二筛选条件基于第一筛选集合的平均值获得;温度确定模块2300用于基于第二筛选集合,获取设备的设备上限温度值以及设备下限温度值。其中,第一筛选条件包括去除小于第一温度阈值以及大于第二温度阈值的初始温度值;第二筛选条件包括去除第一筛选集合中小于第三温度阈值以及大于第四温度阈值的初始温度值,其中,第三温度阈值为第一筛选集合的平均值与第一预设值之差,第四温度阈值为第一筛选集合的平均值与第二预设值之和。
40.在本技术示例性的实施方式中,设备可以包括至少一个板卡,每个板卡可以包括多个芯片,其中,筛选模块2200还用于基于第一筛选条件和第二筛选条件对每个板卡的多个初始温度值进行筛选,获得每个板卡的板卡上限温度值以及板卡下限温度值;温度确定模块2300还用于将多个板卡上限温度值中的最大值作为设备上限温度值和将多个板卡下限温度值中的最小值作为设备下限温度值。
41.根据本技术示例性的实施方式,对于单板卡或者多板卡的设备,对初始温度值进行第一筛选和第二筛选,去除部分异常的初始温度值,可以获得更准确的板卡温度值以及设备温度值。
42.设备温度检测装置2000中各个模块的详细功能已经在设备温度检测方法1000中进行详细说明,在此不做过多赘述。
43.图3为根据本技术示例性实施方式的控制板结构图。如图3所示,控制板包括:处理器301和存储器302。其中,存储器302中存储有可被处理器301执行的应用程序,用于使得处理器301执行如上示例性实施方式的设备温度检测方法。
44.其中,存储器302具体可以实施为电可擦可编程只读存储器(eeprom)、快闪存储器(flash memory)、可编程程序只读存储器(prom)等多种存储介质。处理器301可以实施为包括一个或多个中央处理器,或者一个或多个现场可编程门阵列,其中,现场可编程门阵列集成一个或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为cpu、mcu或数字信号处理器(dsp)。
45.本发明示例性的实施方式还提出了一种电子设备。图4为根据本技术示例性实施方式的电子设备示意图。如图4所示,电子设备包括:多个板卡401,其中,每个板卡401包含多个芯片;控制板402,包含:存储器和处理器;其中,存储器中存储有可被处理器执行的应用程序,用于使得处理器执行如上任一项的设备温度检测方法;其中,板卡401通过信号连接接口与控制板402形成信号连接,板卡401通过电源连接接口与电源403形成电力连接。
46.需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
47.各示例性实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬
件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如fpga或asic)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
48.本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本技术方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。
49.用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
50.如上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上所述仅为本发明的具体实施方式,并不用于限制本发明。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1