用于性能改善的可重配置图形处理器的制造方法

文档序号:9810007阅读:456来源:国知局
用于性能改善的可重配置图形处理器的制造方法
【专利说明】用于性能改善的可重配置图形处理器
[00011 本申请是申请日为2011年11月21日申请号为第201180074955.6号发明名称为"用 于性能改善的可重配置图形处理器"的中国专利申请的分案申请。
[0002] 背景
[0003] 本申请总体上涉及计算机系统中的图形处理。
[0004] 图形处理器在不同的处理条件下运行。在一些情况下,它们可在高功耗模式下以 及在低功耗模式下运行。可能令人期望的是,在给定图形处理器所运行的功耗模式的情况 下,获得最大的可能性能。
[0005] 附图简要说明
[0006] 图1是本发明的一个实施例的框图。
[0007] 图2是本发明的另一个实施例的流程图。
[0008] 图3是本发明的一个实施例的示意图描绘。
[0009] 图4是本发明的一个实施例的性能相对于功率预算的假想图;以及
[0010] 图5是一个实施例的功率预算相对于时间的假想图。
[0011] 详细说明
[0012] 在一些实施例中,图形处理内核自动对其自身进行重配置以便通过对图形处理引 擎的部分进行动态功率门控来在高功率和低功率包络中增加或最大化性能。如在此所使用 的,功率门控包括激活或去激活内核部分。
[0013] 尽管将使用平板计算机图形处理器提供示例,相同的概念应用于任何图形处理 器。
[0014] 图形处理内核通常包括执行算数、逻辑和其他操作的多个执行单元。可使用多个 采样器进行纹理处理。采样器和多个执行单元是子切片(subslice)。可基于目标性能和功 率预算在特定的图形处理内核中包括多个子切片。对子切片进行组合以形成图形处理切片 (slice)。图形处理内核可包含一个或多个切片。在平板计算机图形处理内核中,通常使用 单个切片以及一个、两个或三个子切片设计。多切片在客户端图形处理器中是常见的。
[0015] 因此,参见图1,示出了典型的图形处理器内核,内核10包括切片编号1(标记为 14),该切片可包括固定功能流水线逻辑16和多个子切片18a和18b。在一些实施例中,可包 括更多切片和更多或更少的子切片。图形处理内核还包括固定功能逻辑12。
[0016] -个、两个和三个子切片设计的功率和性能特征不同,如图4所示。作为一个示例, 性能线性地增加到性能相对于功率耗散的拐点A(例如,大约2.5瓦)。在该拐点以下,图形处 理器在频率成比例的区域中工作,在该区域中,可在不升高工作电压的情况下升高图形处 理器频率。在该拐点以上,图形处理器频率仅在电压也升高时才升高,这通常对功率耗散具 有负面影响并且导致性能相对于功率耗散中比频率成比例区域经历更平缓的曲线。
[0017] 可对图形处理器的子切片中的一个或多个进行功率门控。总体上,子切片越多,性 能越尚,但是性能间隙随着可用功率预算的减少而减少并且可能在图4中存在点B(例如,在 大约1.5瓦),其中单一子切片配置表现得比两子切片配置更好。这种更优性能是由具有明 显更多泄露功率以及因此更少用于动态功率的空间的更大配置造成的。在低功率预算中, 更少用于动态功率的空间可显著地限制更大配置的频率和性能,使得其看起来没有更小配 置那么吸引人。
[0018] 在一些实施例中,功率共享机制可用于实现图形处理器子切片的高效动态功率门 控。当然,代替对子切片功耗进行门控,相同的概念应用于具有多于一个切片的实施例中的 任意数量的图形处理器切片的动态功率门控。
[0019] 图形处理器可具有功率共享功能,该功能基本上随着时间增加(或降低)功率,如 图5所示。在特定的时间点七处,可由功率控制单元为图形处理器内核分配特定低水平的功 率预算TDP1,该功率预算迫使图形处理器在特定频率Π 下运行,该特定频率是允许图形处 理器不超过其分配功率预算的最大频率。当功率预算随着时间增加时,图形内核可在逐渐 更尚的频率下运行。
[0020] 在子切片功率门控下,功率控制单元事先得知图形处理器内核可配置有全套的执 行单元和子切片或者配置有更少的执行单元和子切片。例如,一个实施例可包括十六个执 行单元和两个子切片并且另一种操作模式可包括八个执行单元和一个子切片。当图形处理 器可用的功率预算很小时,可在更小的内核配置中配置图形处理器,其中两个可用子切片 之一被功率门控。
[0021 ]总体而言,不是简单地在任何特定时间点关闭子切片,因为其可能正在执行有效 线程。当功率控制单元确定应当对子切片进行功率门控时,立即动作是阻挡新的图形处理 线程被调度到该子切片上。因此,在已经在子切片上执行的线程完成并且子切片变为空闲 之前需要一段时间。在一个实施例中,仅当这时对子切片进行实际功率门控。
[0022] 在功率门控下,当功率预算逐渐增加时,在某一时间点,初始关闭的子切片变为打 开。或者,相反地,当处理器从高功率预算变为低功率预算时,可关闭子切片(如图5所示)。
[0023] 当关闭子切片时,频率可增加或翻倍(如果关闭了两个子切片之一)。结果是,性能 可保持相对稳定,因为剩余的子切片运行得比两个子切片快两倍。这种频率增加确保了从 较大的未门控图形内核到较小的门控图形内核的平滑转变(从性能角度出发)。相反地,当 子切片未被门控并且我们转变到两切片图形内核时,时钟频率减半,以便将总体性能维持 在大约相同的水平下。
[0024] 如上所述的时钟频率改变被设计成在出现功率门控的时间点不显著地中断(例如 翻倍或减半)图形内核的可缩放部分(图1所示子切片逻辑)的总体性能。然而,如果功率门 控的动作由于其低泄露耗散已经产生了更功率高效的图形内核,这随后会允许图形内核升 高其时钟频率和功率耗散从而满足其分配功率预算。这将导致增加的性能,而这就是功率 门控的终极目标。
[0025] 另一方面,当分配给图形内核的功率预算增加并允许增加子切片时,将时钟频率 减半将初始地保留相同的性能。然而,给定增加的图形功率预算,图形内核然后将被允许也 升高其频率,这将导致所希望的提高性能的结果。
[0026] 在如上所述的动态功率门控的过程中升高或降低时钟频率针对图形内核的可缩 放部分(即,图1所示的子切片)而言运行良好。然而,如果图形内核的不可缩放部分(例如, 固定功能逻辑12,如图1所示)使用相同的时钟,则改变时钟频率可影响并且可能限制该逻 辑的性能。这将不是所希望的。为了避免这种情况,不可缩放逻辑可使用其自身的独立时 钟,该独立时钟不受可缩放图形逻辑内的时钟频率改变的影响。
[0027] 从较大配置切换到较小配置可改善性能,因为其提供了泄露节省并且为更动态的 功率提供了空间。同时,从较大配置切换到较小配置可能潜在地导致增加的动态功率,因为 频率也相应地增加了。因此,从较大配置转变到较小配置由于相应的频率增加可能在所实 现的泄露节省超过了动态功率成本时发生。当这种情况保持时,这种转变将存在净功率节 省并且有余地来继续增加频率并且实现净性能增益。
[0028] 因此,举一个例子,在十六执行单元下,两子切片单元转变到八执行单元,一个子 切片单元作为功率门控的结果,以下泄露增量(LD)等式适用:
[0031]其中f8和Π 6是在功率门控或不门控事件发生时的时间点处八和十六执行单元配 置的频率;V8和V16是当功率门控事件发生时两个图形处理内核的工作电压;C8和C16是当 功率门控事件发生时两个图形处理内核的切换电容;Cmax8和Cmaxl6是对于功率病毒 (virus)工作负载,两个图形内核的最大切换电容;以及AR16和AR8是就在功率门控或不门 控事件之前和之后的两个内核的应用率。应用的"应用率"被定义为当该应用在内核上执行 时图形内核切换电容与图形内核功率病毒的切换电容的比率。
[0032]这些等式可用于决定
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1