一种面向多核处理器的片上温度和能耗控制装置的制作方法

文档序号:36401488发布日期:2023-12-16 04:46阅读:38来源:国知局
一种面向多核处理器的片上温度和能耗控制装置的制作方法

本发明涉及一种芯片的温度控制装置,尤其是涉及一种面向多核处理器的片上温度和能耗控制装置。


背景技术:

1、在高性能多核处理器芯片设计中,已经普遍采用了多种低功耗设计和方案来降低芯片的功耗,例如时钟门控(clock gating)和动态电压频率调节(dvfs: dynamic voltageand frequency scaling)来降低芯片的动态功耗,如多电压域和动态电源门控模块(dynamic power switch)来降低芯片的静态功耗。

2、芯片温度很大程度上与随时间的变化下的芯片功率输出正比,一般的低功耗设计也对芯片的温度控制有一定的帮助。片上系统soc因为多核架构和多种模块,如高速i/o接口等,芯片在工作时的发热还是不均匀的,如图1和图2所示,芯片上工作的模块或者工作时频率较高的模块发热较多,其他不工作或者频率较低的模块发热较少。芯片发热的有一系列的问题,系统的冷却系统的成本和能耗成本很大。高温(短期温度急剧飙升)不仅会造成芯片的故障和疲劳以及寿命,增加漏电流leakage从而增加静态功耗,还会影响芯片的延迟timing closure和电子迁移em(electromigration),例如时钟的偏移问题(skew)和mtbf等,影响系统的性能和可靠性(ras等)。

3、当前高性能处理器芯片很少有温度控制和温度梯度控制的方案,一般通过温度传感器来收集温度信息,作为低功耗控制模块的输入。虽然控制芯片的功耗对温度也有一定的帮助,芯片整体的温度目标的控制及芯片温度的平均分布的控制不理想,同时这也说明芯片的散热和性能有提升的空间。同时,片上的热紧急事件保护功能几乎没有提及。热紧急事件,包括因为系统或板级的短路引起的温度极速升高,很可能导致芯片功能失效。

4、intel使用频率切换技术speedstep、eist(enhanced intel speedstep®technology)增强型的频率切换技术动态调节处理器的工作频率、电压,这样可以在处理器负载较低的时候降低系统功耗和处理器工作温度,在处理器负载较高的时候全速运转,提供全部的性能。后续又提出速度变频speedshift技术,让处理器直接与电源控制模块沟通,也将所有的电源状态都开放给了操作系统,因此可以实现最快1毫秒的响应时间。

5、amd使用清凉安静技术cool’n’quiet、纯粹能耗purepower等技术。使用分布式的传感器网络,检测处理器的温度、速度、电压等信息,然后通过汇总到控制部分,对功耗进行集中式管理。如图3所示。

6、ibm在power处理器中使用能源管理(energyscale)技术,如图4所示。

7、现有技术的缺点一:

8、现有技术方案都是基于功耗角度的设计方案,没有针对芯片整体温度目标控制,尤其是对芯片温度分布的控制不理想,不利于散热和增加冷却成本,同时对于芯片的性能有一定的损失。

9、现有技术的缺点二:

10、现有技术仅针对处理器核,采用多电压域和动态时钟和电压缩放(dcvs:dynamicclocking and voltage scaling)机制进行功耗控制,没有充分考虑其他高功耗模块(例如现在芯片的高速i/o的串并转换器serdes模块功耗也达到了几瓦甚至几十瓦,发热量也很大。)不利于芯片整体温度的控制和温度梯度平均的控制。

11、现有技术的缺点三:

12、现有技术没有针对限制在特定温度目标范围的控制机制,比如在某个温度下,芯片的可靠性、抗热紧急事件的能力,和不高于系统tdp的温度控制,以及热紧急情况的处理。

13、现有技术缺点四:

14、现有技术没有充分考虑外围散热能力对温度控制的影响。散热效果需要通过温度传感器反馈给控制系统,以温度的形式参与控制决策。控制逻辑无法有效预先参考不同的外围散热环境(例如风冷、水冷)、散热条件的调整(例如增大、减小风扇转速)等信息。


技术实现思路

1、本发明提供了一种面向多核处理器的片上温度和能耗控制装置,用于解决多核处理器的片上系统soc的温度控制和温度不均衡的问题,其技术方案如下所述:

2、一种面向多核处理器的片上温度和能耗控制装置,设置有热管理单元模块,其包括片上分布式的温度传感器阵列模块、热控制算法模块、温度和热均衡管理模块、分布式调压调频模块、分布式动态电源开关模块、系统中断模块和主动冷却控制模块;所述热控制算法模块获取分布式的温度传感器阵列模块的温度数据,以及温控目标温度,生成当前温度控制的用于决定温度调高还是调低的决策方向,温度和热均衡管理模块根据主动冷却控制模块的信号以及热控制算法模块确定的温度控制的决策方向和决策方式,通过分布式调压调频模块、分布式动态电源开关模块、系统中断模块执行,片上分布式的温度传感器阵列模块用于采集芯片区域的温度信息。

3、将整个芯片的区域按照设定的规律进行分布,片上分布式的温度传感器阵列模块用于实时反馈所在区域的温度信息。

4、所述温控目标温度包括温度依次升高的三组:第一温控目标,兼顾性能和能耗两方面的需求;第二温控目标,牺牲一定能耗比,以获取更高的性能;热紧急事件的温控目标,在一定时间范围内发生一次热紧急事件,不会烧坏芯片的限制温度;还包括第四组:tdp温控目标,在高性能供电系统最大供电能力下的温度目标,不会引起系统的供电不足。

5、所述温度和热均衡管理模块能够根据芯片应用的性能需求,改变温度控制的决策方向和决策方式。

6、所述分布式调压调频模块是根据决策方向,选择电压和频率,使得温度更加均衡,降低动态功耗;当调高温度时,优先调高低温区域的电压和频率,然后升高调度到这个区域的计算单元或高速串并转换器的任务优先级;当调低温度时,优先调低高温区域的电压和频率,然后降低调度到这个区域的计算单元或高速串并转换器的任务优先级,甚至通过系统中断的方式通知软件迁移任务到低温区域。

7、所述分布式动态电源开关模块是根据决策方向,选择关闭或者打开相应区域的电源,降低静态功耗。

8、所述系统中断模块是根据决策方向,暂停部分或者全部运行中的计算单元的任务执行,快速降低动态功耗。

9、所述主动冷却控制模块用于提供主动冷却设施的相关信息,包括设施种类及对温度调整的影响。

10、所述温度和热均衡管理模块的热控制算法,包括以下步骤:

11、s1:片上各区域的温度的计算,各区域有多个温度传感器的,用算数平均值表示,单位时间有多次温度值的,用多次算数平均值;

12、s2:参考温控目标的温度值后的温差和温度变化率的差值计算;

13、s3:结合主动冷却方式和热扩散延迟更新温差的计算,形成调整系数,对步骤s2中的差值表做修正。

14、步骤s2中,包括以下步骤:

15、s21:温差的计算,用温控目标的温度值与步骤s1各个区域的温度做差,差值为正说明温度有上升空间,差值为负说明需要降低,

16、(2)

17、其中tdiff[i]代表i区域的温差,ttarget代表温控目标温度,taverage[i]代表i区域的平均温度值,i代表的是每个区域;j代表的是区域中的时间或者空间的温度值个数;tij为i区域中的单位时间或空间的某个温度值,n表示自然数;

18、s22:温度变化率的计算,用单位时间的传感器温度差值作为温度变化率的表示,

19、trate[i] = (t[i][time1]-t[i][time2]) /(time1-time2) (3)

20、其中trate[i]代表i区域的温度变化率,t[i][timer1]代表i区域第一时间的温度,t[i][timer2]代表i区域第二时间的温度,time1表示时间1,time2表示时间2。

21、所述面向多核处理器的片上温度和能耗控制装置,利用片上的分布式温度传感器,以及包括控制高速i/o结构串并转换器(serdes)的分布式的调压调频模块(ddcvs:distributed dynamic clocking and voltage scaling)和分布式的动态电源开关模块,结合当前散热环境配置以及调节情况,控制整个芯片的温度不超过设定的一个或多个温度上限,达到芯片最佳的性能或者功能,有益于芯片的功能寿命以及能耗。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1