用于保存和恢复线程组操作状态的技术的制作方法

文档序号：6523388阅读：133来源：国知局

用于保存和恢复线程组操作状态的技术的制作方法
【专利摘要】公开了用于保存和恢复线程组操作状态的技术。包括在并行处理单元（PPU）内的流多处理器（SM）配置为挂起执行在SM上的线程组并且保存所挂起的线程组的操作状态。SM内的加载-存储单元（LSU）将与线程组相关联的本地存储器重新映射到全局存储器中的位置。随后，SM可以重新发起所挂起的线程组。然后LSU可以利用驻留在全局存储器中的经重新映射的本地存储器代表经重新发起的线程组实施本地存储器访问操作。
【专利说明】用于保存和恢复线程组操作状态的技术
【技术领域】
[0001]本发明总地涉及单指令、多数据处理(SMD)，并且更具体地，涉及用于保存和恢复线程组操作状态的技术。
【背景技术】
[0002]在常规SMD架构中，并行处理单元(PPU)可以同时执行多个线程组，其中组内的每个线程对输入数据的不同部分执行相同的指令。给定的线程在执行指令时典型地依赖各种存储器资源，包括本地存储器、共享存储器、寄存器等等。这些存储器资源的状态被称为线程的“操作状态”。
[0003]在一些环境下，PTO可以保存给定线程组的操作状态以将由这些线程消耗的存储器资源重新分配给另一个线程组。当这类情况发生时，常规PPU可以仅将线程组中的每个线程的操作状态拷贝到存储器。随后，PPU然后可以通过将每个线程的操作状态从存储器拷贝回到相对应的存储器资源来重新发起线程组。利用该方法，PPU能够“暂停”线程组中部执行(mid-execution)以发起所消耗资源与“所暂停的”线程组相同的另一个线程组。
[0004]然而，上述方法是有问题的，因为给定线程的操作状态可被拷贝的速度取决于该操作状态的大小。当给定线程组包括大量线程并且每个线程的操作状态相对大时，将用于该线程组内的每个线程的操作状态拷贝多次可能要求大量的计算资源。因此，PPU的总处理吞吐量可能急剧降低。
[0005]因此，本领域需要的是用于在并行处理系统中保存和恢复与不同线程组相关联的操作状态的更高效的技术。

【发明内容】

[0006]本发明的一个实施例阐述了用于保存与执行在处理器上的线程组相关联的操作状态的计算机实现方法，包括确定分配到第一线程组的存储器的第一部分驻留在第一存储器区域内，将存储器的第二部分分配在第二存储器区域内，将存储器的第一部分拷贝到存储器的第二部分，以及记录指向存储器的第二部分的指针，其中处理引擎配置为基于指向存储器的第二部分的指针实施与第一线程组相关联的存储器访问操作。
[0007]所公开的技术的一个优势在于，当恢复线程组的操作状态时，不要求处理引擎将与线程组相关联的本地存储器拷贝回到先前与线程组相关联的本地存储器资源，从而节省与处理引擎相关联的计算资源。
[0008]第二个优势在于，随后的保存操作可以重新使用存储器的第二部分，保存随后的保存操作期间的拷贝。
【专利附图】

【附图说明】
[0009]因此，可以详细地理解本发明的上述特征，并且可以参考实施例得到对如上面所简要概括的本发明更具体的描述，其中一些实施例在附图中示出。然而，应当注意的是，附图仅示出了本发明的典型实施例，因此不应被认为是对其范围的限制，本发明可以具有其他等效的实施例。
[0010]图1是示出了配置为实现本发明的一个或多个方面的计算机系统的框图；
[0011]图2是根据本发明的一个实施例的、用于图1的计算机系统的并行处理子系统的框图；
[0012]图3是根据本发明的一个实施例的、图2的通用处理集群内的流多处理器的一部分的框图；以及
[0013]图4是根据本发明的一个实施例的、更详细地示出了图3的流多处理器的示意图；
[0014]图5是根据本发明的一个实施例的、用于保存线程组的操作状态的方法步骤的流程图；以及
[0015]图6是根据本发明的一个实施例的、用于恢复线程组的操作状态的方法步骤的流程图。
【具体实施方式】
[0016]在下面的描述中，将阐述大量的具体细节以提供对本发明更透彻的理解。然而，本领域的技术人员应该清楚，本发明可以在没有一个或多个这些具体细节的情况下得以实践。
[0017]系统概述
[0018]图1为示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100包括经由可以包括存储器桥105的互连路径通信的中央处理单元(CPU) 102和系统存储器104。存储器桥105可以是例如北桥芯片，经由总线或其他通信路径106 (例如超传输(HyperTransport)链路)连接到I/O (输入/输出)桥107。I/O桥107，其可以是例如南桥芯片，从一个或多个用户输入设备108 (例如键盘、鼠标)接收用户输入并且经由通信路径106和存储器桥105将该输入转发到CPU102。并行处理子系统112经由总线或第二通信路径113 (例如外围部件互连(PCI)Express、加速图形端口或超传输链路)耦连到存储器桥105。在一个实施例中，并行处理子系统112是将像素传递到显示设备110的图形子系统，所述显示设备可以是任何常规的阴极射线管、液晶显示器、发光二极管显示器等等。系统盘114也连接到I/O桥107并可配置为存储内容和应用以及数据用于由CPU102和并行处理子系统112使用。系统盘114为应用和数据提供非易失性存储并且可以包括固定的或可移动的硬盘驱动器、闪存设备以及⑶-ROM (压缩光盘只读存储器)、DVD-R0M (数字多用光盘-ROM)、蓝光、HD-DVD (高清晰度DVD)或其它磁性、光学或固态存储设备。
[0019]交换器116提供I/O桥107与诸如网络适配器118以及各种插卡120和121的其他部件之间的连接。其他部件(未明确示出)，包括通用串行总线(USB)或其他端口连接、压缩光盘(⑶)驱动器、数字多用光盘(DVD)驱动器、胶片录制设备及类似部件，也可以连接到I/O桥107。图1所示的各种通信路径包括具体命名的通信路径106和113可以使用任何适合的协议实现，诸如PC1-EXpreSS、AGP (加速图形端口)、超传输或者任何其他总线或点到点通信协议，并且如本领域已知的，不同设备间的连接可使用不同协议。
[0020]在一个实施例中，并行处理子系统112包含经优化用于图形和视频处理的电路，包括例如视频输出电路，并且构成图形处理单元(GPU)。在另一个实施例中，并行处理子系统112包含经优化用于通用处理的电路，同时保留底层(underlying)的计算架构，本文将更详细地进行描述。在又一个实施例中，可以将并行处理子系统112与一个或多个其他系统元件集成在单个子系统中，诸如结合存储器桥105、CPU102以及I/O桥107，以形成片上系统(SoC)。
[0021]应该理解，本文所示系统是示例性的，并且变化和修改都是可能的。连接拓扑，包括桥的数目和布置、CPU102的数目以及并行处理子系统112的数目，可根据需要修改。例如，在一些实施例中，系统存储器104直接连接到CPU102而不是通过桥，并且其他设备经由存储器桥105和CPU102与系统存储器104通信。在其他替代性拓扑中，并行处理子系统112连接到I/O桥107或直接连接到CPU102，而不是连接到存储器桥105。而在其他实施例中，I/O桥107和存储器桥105可能被集成到单个芯片上而不是作为一个或多个分立设备存在。大型实施例可以包括两个或更多个CPU102以及两个或更多个并行处理子系统112。本文所示的特定部件是可选的；例如，任何数目的插卡或外围设备都可能得到支持。在一些实施例中，交换器116被去掉，网络适配器118和插卡120、121直接连接到I/O桥107。
[0022]图2示出了根据本发明的一个实施例的并行处理子系统112。如所示的，并行处理子系统112包括一个或多个并行处理单元(PI3U) 202，每个并行处理单元202都耦连到本地并行处理(PP)存储器204。通常，并行处理子系统包括U个PPU，其中U>=1。(本文中，类似对象的多个实例需要时以标识对象的参考数字和标识实例的括号中的数字来表示。)PPU202和并行处理存储器204可使用一个或多个集成电路设备来实现，诸如可编程处理器、专用集成电路(ASIC)或存储器设备，或者以任何其他技术可行的方式来实现。
[0023]再参考图1以及图2，在一些实施例中，并行处理子系统112中的一些或所有PPU202是具有渲染管线的图形处理器，其可以配置为实施与下述相关的各种操作:经由存储器桥105和第二通信路径113从CPU102和/或系统存储器104所供应的图形数据生成像素数据，与本地并行处理存储器204 (可被用作图形存储器，包括例如常规帧缓冲区(buffer))交互以存储和更新像素数据，传递像素数据到显示设备110等等。在一些实施例中，并行处理子系统112可包括一个或多个作为图形处理器而操作的PPU202以及一个或多个用于通用计算的其他PPU202。这些PPU202可以是同样的或不同的，并且每个PPU202可具有一个或多个专用并行处理存储器设备或不具有专用并行处理存储器设备。并行处理子系统112中的一个或多个PPU202可输出数据到显示设备110，或者并行处理子系统112中的每个PPU202可输出数据到一个或多个显示设备110。
[0024]在操作中，CPU102是计算机系统100的主处理器，控制和协调其他系统部件的操作。具体地，CPU102发出控制PPU202的操作的命令。在一些实施例中，CPU102写入用于每个PPU202的命令流到数据结构中(在图1或图2中未明确示出)，该数据结构可位于系统存储器104、并行处理存储器204、或CPU102和PPU202都可访问的其他存储位置中。将指向每个数据结构的指针写到入栈缓冲区(pushbuffer)以发起对数据结构中的命令流的处理。PPU202从一个或多个入栈缓冲区读取命令流，然后相对于CPU102的操作异步地执行命令。可以经由设备驱动程序103由应用程序为每个入栈缓冲区指定执行优先级以控制对不同入栈缓冲区的调度。
[0025]现在返回参考图2和图1，每个PPU202包括经由连接到存储器桥105 (或者，在一个替代性实施例中，直接连接到CPU102)的通信路径113与计算机系统100的其余部分通信的I/O (输入/输出)单元205。PPU202到计算机系统100的其余部分的连接也可以变化。在一些实施例中，并行处理子系统112可实现为可插入到计算机系统100的扩展槽中的插卡。在其他实施例中，PPU202可以和诸如存储器桥105或I/O桥107的总线桥集成在单个芯片上。而在其他实施例中，PPU202的一些或所有元件可以和CPU102集成在单个芯片上。
[0026]在一个实施例中，通信路径113是PCI Express链路，如本领域所知的，其中专用通道被分配到每个PPU202。也可以使用其他通信路径。I/O单元205生成用于在通信路径113上传送的包(或其他信号)，并且还从通信路径113接收所有传入的包(或其他信号)，将传入的包引导到PPU202的适当部件。例如，可将与处理任务相关的命令引导到主机接口206，而将与存储器操作相关的命令(例如，对并行处理存储器204的读取或写入)引导到存储器交叉开关单元210。主机接口 206读取每个入栈缓冲区，并且将存储在入栈缓冲区中的命令流输出到前端212。
[0027]有利地，每个PPU202都实现高度并行处理架构。如详细示出的，PPU202 (O)包括处理集群阵列230，该阵列230包括C个通用处理集群(GPC)208，其中C≥1。每个GPC208能够并发执行大量的(例如，几百或几千)线程，其中每个线程是程序的实例(instance)。在各种应用中，可分配不同的GPC208用于处理不同类型的程序或用于实施不同类型的计算。GPC208的分配可以取决于因每种类型的程序或计算所产生的工作量而变化。
[0028]GPC208从任务/工作单元207内的工作分布单元接收所要执行的处理任务。工作分布单元接收指向编码为任务元数据(TMD)并存储在存储器中的处理任务的指针。指向TMD的指针包括在存储为入栈缓冲区并由前端单元212从主机接口 206接收的命令流中。可以编码为TMD的处理任务包括所要处理的数据的索引，以及定义数据将被如何处理(例如，什么程序将被执行)的状态参数和命令。任务/工作单元207从前端212接收任务并确保在每一个TMD所指定的处理发起前，将GPC208配置为有效状态。可以为每个TMD指定用来调度处理任务的执行的优先级。还可从处理集群阵列230接收处理任务。可选地，TMD可包括控制将TMD添加到处理任务列表(或指向处理任务的指针的列表)的头部还是尾部的参数，从而提供除优先级以外的另一级别的控制。
[0029]存储器接口 214包括D个分区单元215，每个分区单元215直接耦连到并行处理存储器204的一部分，其中D ≥ 1。如所示的，分区单元215的数目一般等于动态随机存取存储器(DRAM) 220的数目。在其他实施例中，分区单元215的数目也可以不等于存储器设备的数目。本领域的普通技术人员应该理解DRAM220可以用其他合适的存储设备来替代并且可以是一般常规的设计。因此省略了详细描述。诸如帧缓冲区或纹理映射图的渲染目标可以跨DRAM220加以存储，这允许分区单元215并行写入每个渲染目标的各部分以有效地使用并行处理存储器204的可用带宽。
[0030]任何一个GPC208都可以处理要被写到并行处理存储器204内的任何DRAM220的数据。交叉开关单元210配置为路由每个GPC208的输出到任何分区单元215的输入或到另一个GPC208用于进一步处理。GPC208通过交叉开关单元210与存储器接口 214通信，以对各种外部存储器设备进行读取或写入。在一个实施例中，交叉开关单元210具有到存储器接口 214的连接以和I/O单元205通信，以及到本地并行处理存储器204的连接，从而使得在不同GPC208内的处理内核能够与系统存储器104或对于PPU202而言非本地的其他存储器通信。在图2所示的实施例中，交叉开关单元210直接与I/O单元205连接。交叉开关单元210可使用虚拟信道来分开GPC208与分区单元215之间的业务流。
[0031]另外，GPC208可被编程以执行与种类繁多的应用相关的处理任务，包括但不限于，线性和非线性数据变换、视频和/或音频数据过滤、建模操作(例如，应用物理定律以确定对象的位置、速率和其他属性)、图像渲染操作(例如，曲面细分(tessellation)着色器、顶点着色器、几何着色器、和/或像素着色器程序)等等。PPU202可将数据从系统存储器104和/或本地并行处理存储器204转移到内部(片上)存储器中，处理该数据，并且将结果数据写回到系统存储器104和/或本地并行处理存储器204，其中这样的数据可以由其他系统部件访问，所述其他系统部件包括CPU102或另一个并行处理子系统112。
[0032]PPU202可配备有任何容量(amount)的本地并行处理存储器204，包括没有本地存储器，并且可以以任何组合方式使用本地存储器和系统存储器。例如，在统一存储器架构(UMA)实施例中，PPU202可以是图形处理器。在这样的实施例中，将不提供或几乎不提供专用的图形(并行处理)存储器，并且PPU202会以排他或几乎排他的方式使用系统存储器。在UMA实施例中，PPU202可集成到桥式芯片中或处理器芯片中，或作为具有高速链路(例如，PCI Express)的分立芯片提供，所述高速链路经由桥式芯片或其他通信手段将PPU202连接到系统存储器。
[0033]如上所示，在并行处理子系统112中可以包括任何数目的PPU202。例如，可在单个插卡上提供多个PPU202、或可将多个插卡连接到通信路径113、或可将一个或多个PPU202集成到桥式芯片中。在多PPU系统中的PPU202可以彼此同样或不同。例如，不同的PPU202可能具有不同数目的处理内核、不同容量的本地并行处理存储器等等。在存在多个PPU202的情况下，可并行操作那些PPU从而以高于单个PPU202所可能达到的吞吐量来处理数据。包含一个或多个PPU202的系统可以以各种配置和形式因素来实现，包括台式电脑、笔记本电脑或手持式个人计算机、服务器、工作站、游戏控制台、嵌入式系统等等。
[0034]可以在GPC208上并发执行多个处理任务并且处理任务在执行期间可以生成一个或多个“子”处理任务。任务/工作单元207接收任务并动态调度处理任务和子处理任务用于由GPC208执行。
[0035]图3为根据本发明的一个实施例的图2的GPC208内的流多处理器(SM) 310的框图。每个GPC208可配置为并行执行大量线程，其中术语“线程”是指在特定输入数据集上执行的特定程序的实例。在一些实施例中，单指令、多数据(SIMD)指令发出技术用于在不提供多个独立指令单元的情况下支持大量线程的并行执行。在其他实施例中，单指令、多线程(SMT)技术用于使用配置为向GPC208中的每一个内的处理引擎集发出指令的公共指令单元来支持大量一般来说同步的线程的并行执行。不同于所有处理引擎通常都执行同样指令的SMD执行机制，SIMT执行通过给定线程程序允许不同线程更容易跟随分散执行路径。本领域普通技术人员应该理解SMD处理机制代表SMT处理机制的功能子集。
[0036]经由将处理任务分布到一个或多个流多处理器(SM)310的管线管理器(未示出)来有利地控制GPC208的操作，其中每个SM310配置为处理一个或多个线程组。每个SM310包括配置为经由GPC208内的L1.5高速缓存(未示出)接收来自存储器的指令和常数的指令LI高速缓存370。线程束调度器和指令单元312从指令LI高速缓存370接收指令和常数，并且根据指令和常数控制本地寄存器堆304和SM310功能单元。SM310功能单元包括N个exec (执行或处理)单元302和P个加载-存储单元(LSU)303。SM功能单元可以是管线化的，其允许在前一个指令完成之前发出新指令。可提供功能执行单元的任何组合。在一个实施例中，功能单元支持各种各样的操作，包括整数和浮点运算(例如加法和乘法)、比较操作、布尔操作(AND、OR、XOR)、移位和各种代数函数的计算(例如平面插值、三角函数、指数函数和对数函数等等)；以及相同功能单元硬件可均衡地用来实施不同的操作。
[0037]如本文之前所定义的，传送到特定GPC208的一系列指令构成线程，并且跨SM310内的并行处理引擎(未示出)的某一数目的并发执行线程的集合在本文中称为“线程束(warp)”或“线程组”。如本文所使用的，“线程组”是指对不同输入数据并发执行相同程序的一组线程，所述组的一个线程被指派到SM310内的不同处理引擎。线程组可以包括比SM310内的处理引擎数目少的线程，在这种情况下一些处理引擎将在该线程组正在被处理的周期期间处于闲置状态。线程组还可以包括比SM310内的处理引擎数目多的线程，在这种情况下处理将在连续的时钟周期内发生。因为每个SM310可以并发支持多达G个线程组，结果是在任何给定时间在包括M个流多处理器310的GPC208中可以执行多达G*M个线程组。
[0038]此外，多个相关线程组可以在SM310内同时活动(在执行的不同阶段)。该线程组集合在本文中称为“协作线程阵列”(“CTA”)或“线程阵列”。特定CTA的大小等于m*k，其中k是线程组中并发执行线程的数目并且通常是SM310内的并行处理引擎数目的整数倍，以及m是SM310内同时活动的线程组的数目。CTA的大小一般由编程者以及可用于CTA的硬件资源诸如存储器或寄存器的容量来确定。
[0039]在本发明的实施例中，使用计算系统的PPU202或其他处理器来使用线程阵列执行通用计算是可取的。为线程阵列中的每个线程指派在线程的执行期间对于线程可访问的唯一的线程标识符(“线程ID”)。可被定义为一维或多维数值的线程ID控制线程处理行为的各方面。例如，线程ID可用于确定线程将要处理输入数据集的哪部分和/或确定线程将要产生或写输出数据集的哪部分。
[0040]每线程指令序列可包括定义线程阵列的代表性线程和一个或多个其他线程之间的协作行为的至少一个指令。例如，每线程指令序列可能包括在序列中的特定点处挂起用于代表性线程的操作执行直到诸如其他线程的一个或多个到达该特定点的时间为止的指令、用于代表性线程将数据存储在其他线程的一个或多个有权访问的共享存储器中的指令、用于代表性线程原子地读取和更新存储在其他线程的一个或多个基于它们的线程ID有权访问的共享存储器中的数据的指令等等。CTA程序还可以包括计算数据将从其读取的共享存储器中的地址的指令，该地址是线程ID的函数。通过定义合适的函数并提供同步技术，可以以可预测的方式由CTA的一个线程将数据写入共享存储器中的给定位置并由同一个CTA的不同线程从该位置读取数据。因此，数据在线程之间共享的任何期望模式可以得到支持，以及CTA中的任何线程可以与同一个CTA中的任何其他线程共享数据。如果存在数据在CTA的线程之间的共享，则其范围由CTA程序确定；因此，应该理解的是，在使用CTA的特定应用中，CTA的线程可能会或可能不会真正互相共享数据，这取决于CTA程序，术语“CTA”和“线程阵列”在本文作为同义词使用。
[0041]SM310提供具有不同级别的可访问性的片上(内部)数据存储。特殊寄存器(未示出)对于LSU303可读但不可写并且用于存储定义每个线程的“位置”的参数。在一个实施例中，特殊寄存器包括每线程(或SM310内的每exec单元302) —个的存储线程ID的寄存器；每个线程ID寄存器仅由各自的exec单元302可访问。特殊寄存器还可以包括附加寄存器，其对于执行由TMD322所代表的同一个处理任务的所有线程(或由所有LSU303)可读，其存储CTA标识符、CTA维数、CTA所属网格(grid)的维数(或队列位置，如果TMD322编码队列任务而不是网格任务的话)、以及CTA被指派到的TMD322的标识符。
[0042]如果TMD322是网格TMD，则TMD322的执行会启动和执行固定数目的CTA以处理存储在队列525中的固定量的数据。将CTA的数目指定为网格宽度、高度和深度的乘积。可以将固定量的数据存储在TMD322中或TMD322可以存储指向将由CTA所处理的数据的指针。TMD322还存储由CTA所执行的程序的开始地址。
[0043]如果TMD322是队列TMD，那么使用TMD322的队列特点，这意味着将要被处理的数据量不一定是固定的。队列条目存储用于由指派到TMD322的CTA所处理的数据。队列条目还可以代表在线程执行期间由另一个TMD322所生成的子任务，从而提供嵌套并行性。通常线程或包括线程的CTA的执行被挂起直到子任务的执行完成。可以将队列存储在TMD322中或与TMD322分开存储，在该情况下TMD322存储指向该队列的队列指针。有利地，当代表子任务的TMD322正在执行时可以将由子任务所生成的数据写到队列。队列可以实现为循环队列以使得数据的总量不限于队列的大小。
[0044]属于网格的CTA具有指示网格内各自CTA的位置的隐含网格宽度、高度和深度参数。在初始化期间响应于经由前端212从设备驱动程序103所接收的命令来写特殊寄存器并且在处理任务的执行期间特殊寄存器不改变。前端212调度每个处理任务用于执行。每个CTA与具体TMD322相关联用于一个或多个任务的并发执行。此外，单个GPC208可以并发执行多个任务。
[0045]参数存储器(未示出)存储可由同一个CTA内的任何线程(或任何LSU303)读取但不可由其写入的运行时间参数(常数)。在一个实施例中，设备驱动程序103在引导SM310开始执行使用参数的任务之前将这些参数提供给参数存储器。任何CTA内的任何线程(或SM310内的任何exec单元302)可以通过存储器接口 214访问全局存储器。可以将全局存储器的各部分存储在LI高速缓存320中。
[0046]每个线程将本地寄存器堆304用作暂存空间；每个寄存器被分配以专用于一个线程，并且在本地寄存器堆304的任何部分中的数据仅对于寄存器被分配到的线程可访问。本地寄存器堆304可以实现为物理上或逻辑上分为P个通道的寄存器堆，每个通道具有一定数目的条目(其中每个条目可以存储例如32位字)。将一个通道指派到N个exec单元302和P个下载-存储单元LSU303的每一个，并且利用用于执行同一个程序的不同线程的数据来填充不同通道中的相应条目以帮助SIMD执行。可以将通道的不同部分分配到G个并发线程组中的不同线程组，以使得本地寄存器堆304中的给定条目仅对于特定线程可访问。在一个实施例中，保留本地寄存器堆304内的某些条目用于存储线程标识符，实现特殊寄存器之一。此外，一致LI高速缓存375存储用于N个exec单元302和P个下载-存储单元LSU303的每个通道的一致值或常数值。
[0047]共享存储器306对于单个CTA内的线程可访问；换言之，共享存储器306中的任何位置对于同一个CTA内的任何线程(或对于SM310内的任何处理引擎)可访问。共享存储器306可以实现为具有允许任何处理引擎对共享存储器中的任何位置读取或写入的互连的共享寄存器堆或共享片上高速缓存存储器。在其他实施例中，共享状态空间可能映射到片外存储器的每CTA区上并被高速缓存在LI高速缓存320中。参数存储器可以实现为在实现共享存储器306的同一个共享寄存器堆或共享高速缓存存储器内的指定部分，或者实现为LSU303对其具有只读访问权限的分开的共享寄存器堆或片上高速缓存存储器。在一个实施例中，实现参数存储器的区域还用于存储CTA ID和任务ID，以及CTA和网格维数或队列位置，实现特殊寄存器的各部分。SM310中的每个LSU303耦连到统一地址映射单元352，统一地址映射单元352将为在统一存储器空间中所指定的加载和存储指令所提供的地址转换为每个各异存储器空间中的地址。因此，指令可以用于通过指定统一存储器空间中的地址来访问本地、共享或全局存储器空间中的任何一个。
[0048]每个SM310中的LI高速缓存320可以用于高速缓存私有的每线程本地数据还有每应用全局数据。在一些实施例中，可以将每CTA共享数据高速缓存在LI高速缓存320中。LSU303经由存储器和高速缓存互连380耦连到共享存储器306和LI高速缓存320。
[0049]应该理解的是，本文所描述的核心架构是示例性的并且变化和修改是可能的。任何数目的处理单元例如SM310可以包括在GPC208内。进一步地，如图2所示，PPU202可以包括任何数目的GPC208，所述GPC208有利地功能上彼此相似使得执行行为不取决于哪个GPC208接收特定处理任务。进一步地，每个GPC208使用分开和各异的处理单元、LI高速缓存有利地独立于其它GPC208进行操作以执行用于一个或多个应用程序的任务。
[0050]本领域普通技术人员将理解的是，图1-3所描述的架构决不限制本发明的范围，并且本文所教导的技术可以实现在任何经适当配置的处理单元上，包括但不限于一个或多个CPU、一个或多个多核CPU、一个或多个PPU202、一个或多个GPC208、一个或多个图形或专用处理单元等等而不脱离本发明的范围。
[0051]如上文所述，SM310配置为支持包括在特定CTA内的多个相关的线程组的执行，其中每个线程组包括多个线程。还如所述，给定线程组内的每个线程配置为使用私有、每线程存储器资源实施处理操作。除了其它存储器资源之外，用于给定线程组内的线程的私有、每线程存储器资源在本文中集体被称为与该线程组相关联的“本地存储器”并且可以包括本地寄存器堆304。用于给定线程组的本地存储器驻留在与线程组相关联的基准(base)存储器地址处，其在本文中被称为“本地存储器基准”或可替代地“LMEM基准”。在一个实施例中，本地存储器默认驻留在硬件管理的存储器资源内。
[0052]在一些环境下，SM310可以挂起(suspencOCTA的操作并且然后发起新CTA “代替”所挂起的CTA，即使用类似功能资源。这样做时，SM310配置为通过将与所挂起的CTA内的线程组相关联的本地存储器重新映射到全局存储器来保存CTA的操作状态。SM310也配置为更新与每个这类线程组相关联的LMEM基准以反映经重新映射的本地存储器的位置。SM310使用为每个线程组存储经更新的LMEM基准的指针表来管理与所挂起的CTA内的线程组相关联的经重新映射的本地存储器。
[0053]SM310还配置为随后通过重新发起SM310内的功能单元上的该CTA内的线程组来恢复所挂起的CTA的操作状态。SM310还配置为检索(retrieve)用于每个经重新发起的线程组的经更新的LMEM基准并且然后利用经更新的LMEM基准实施用于这些线程组的存储器访问操作，如下文结合图4-6更详细描述的。
[0054]保存和恢复线程组状态
[0055]图4是根据本发明的一个实施例的、更详细地示出了图3的SM310的示意图。如所示，SM310包括耦连到一个或多个LSU303的一个或多个exec单元302，与图3C示出的那些类似。exec单元302和LSU303可以经由例如图3示出的本地寄存器堆304而耦连在一起。执行在SM310上的CTA内的线程组可以利用执行单元302实施各种处理操作以及可以利用LSU303实施各种存储器访问操作。
[0056]如先前所述，SM310配置为挂起执行在SM310上的CTA并且通过将与所挂起的CTA内的线程组相关联的本地存储器映射到全局存储器来保存所挂起的CTA的操作状态。SM310还配置为使用指针表诸如图4示出的指针表402来管理经重新映射的本地存储器。如所示，指针表402包括行(row)410。每个行410包括与不同线程组相关的信息。指针表402还包括列(column) 404,406和408。列404包括配置为执行在SM310上的线程组的索弓丨，列406包括指示与这些线程组相关联的本地存储器是否已被重新映射到全局存储器的位(bit)，列408包括指向用于具有已被重新映射的本地存储器的线程组的全局存储器中的位置的指针。
[0057]对于给定的行410而言，列404包括特定线程组的索引并且列406包括指示与该线程组相关联的本地存储器是否已被重新映射的位。当与线程组相关联的本地存储器已被重新映射时，列408包括指向经重新映射的本地存储器驻留的全局存储器中的位置。例如，行410-2包括列404内的、唯一地标识特定线程组的索引“2”。行410-2包括列406内的、指示与线程组相关联的本地存储器已被重新映射的“1”，并且包括列408内的、指向经重新映射的本地存储器驻留的本地存储器中的位置的指针，“ 0X60 ”。
[0058]当挂起CTA并保存该CTA的操作状态时，SM310内的LSU303配置为将与CTA内的每个线程组相关联的本地存储器重新映射到全局存储器，如先前所述。对于给定的线程组而言，LSU303配置为首先确定与该线程组相关联的本地存储器是否已被重新映射到全局存储器。在一些情况下，用于给定线程组的全局存储器可能先前已被重新映射，例如当先前挂起该线程组的操作状态时。LSU303基于与线程组相关联的特定行410的列406可以确定与线程组相关联的本地存储器是否已被重新映射。
[0059]在与线程组相关联的本地存储器尚未被重新映射的情况下，LSU303初始化将全局存储器的一部分分配给与线程组相关联的本地存储器的、用于线程组的分配器。在一个实施例中，分配器是来源于图1示出的驱动程序103的软件程序并且配置为分配驻留在全局存储器内的软件管理的缓冲区的一部分。用于线程组的分配器返回指向全局存储器的经分配的部分的指针。LSU303然后可以将与线程组相关联的本地存储器拷贝到全局存储器的经分配的部分。LSU303配置为更新用于线程组的指针表402以指示与线程组相关联的本地存储器已被重新映射，例如通过将与线程组相对应的行410的列406内的位设定为“I”。LSU303还配置为设定与线程组相对应的行410的列408以包括分配器所返回的指针。LSU303可针对CTA内的每个线程组重复该过程。
[0060]随后，当恢复CTA的操作状态时，SM310配置为重新发起SM310内的功能单元上的该CTA内的线程。对于给定的经重新发起的线程组而言，LSU303配置为从与该线程组相关联的行410检索指向与该线程组相关联的经重新映射的本地存储器驻留的全局存储器中的位置的指针。当代表经重新发起的线程组实施加载和存储操作时，LSU303配置为利用经更新的LMEM基准实施存储器访问操作。
[0061]通过实现上文所描述的技术，SM310可以挂起CTA以及保存该CTA的操作状态，然后一段时间以后恢复该操作状态。当恢复CTA内的给定线程组的操作状态时，不要求SM310将与该线程相关联的本地存储器重新拷贝回到该本地存储器的原位置，从而减小可以恢复线程组的操作状态的时延。因此，SM310能够以与常规技术相比更合理化的方式交换各CTA的操作状态。
[0062]图5是根据本发明的一个实施例的、用于保存线程组的操作状态的方法步骤的流程图。尽管结合图1-4的系统描述了方法步骤，但是本领域普通技术人员将理解的是，配置为以任何次序实施方法步骤的任何系统均在本发明的范围内。
[0063]如所示，方法500开始于步骤502，其中图3的SM310内的LSU303中的一个确定与给定线程组相关联的本地存储器是否已被重新映射到全局存储器。线程组可以包括在执行在SM310上的CTA内。如果LSU303确定与线程组相关联的本地存储器已被重新映射到全局存储器，那么方法500结束。否则，如果LSU303确定与线程组相关联的本地存储器尚未被重新映射到本地存储器，那么方法500转到步骤504。
[0064]在步骤504，LSU303初始化用于线程组的分配器。在一个实施例中，分配器是来源于图1示出的驱动程序103的软件程序。分配器配置为分配能够存储与线程组相关联的本地存储器的内容的全局存储器内的区域。在一个实施例中，分配器将缓冲区的一部分分配给驻留在全局存储器内并且与SM310相关联的线程组。在步骤506，LSU303从分配器接收用于线程组的指针。指针表示在步骤504由分配器分配到线程组的全局存储器中的部分的基准地址。
[0065]在步骤508，LSU303将与线程组相关联的本地存储器拷贝到与在步骤506由分配器所返回的指针相对应的全局存储器中的位置。在步骤510，LSU303更新SM310内的指针表诸如图4示出的指针表402以指示与线程组相关联的本地存储器被重新映射到全局存储器。LSU303还配置为在步骤510更新指针表以反映本地存储器被重新映射到的全局存储器中的位置。然后方法500结束。
[0066]通过实现方法500，LSU303配置为当保存包括线程组的CTA的操作状态时将与线程组相关联的本地存储器重新映射到全局存储器。实际上，总的来说，LSU303当保存CTA的操作状态时可以针对CTA内的每个不同的线程组实施方法500。
[0067]图6是根据本发明的一个实施例的、用于恢复线程组的操作状态的方法步骤的流程图。尽管结合了图1-4的系统描述了方法步骤，但是本领域普通技术人员将理解的是，配置为以任何次序实施方法步骤的任何系统均在本发明的范围内。
[0068]如所示，方法600开始于步骤602，其中SM310重新发起SM310内的功能单元上的线程组。SM310可能先前已挂起包括了线程组的CTA，并且这样做时，通过重新映射与该线程组相关联的本地存储器保存了线程组的操作状态，例如通过实现上文结合图5所描述的方法500。
[0069]在步骤604，SM310内的LSU303中的一个从指针表诸如SM310内的、图4示出的指针表402检索指向与经重新发起的线程组相关联的经重新映射的本地存储器的指针。在步骤606，LSU303利用更新为反映指向经重新映射的本地存储器的指针的LMEM基准针对经重新发起的线程组实施本地存储器访问操作。然后方法600结束。
[0070]通过实现方法600，SM310配置为重新发起CTA内的线程组，以及通过使线程组使用经重新映射的本地存储器实施存储器访问操作来恢复该线程组的操作状态。实际上，总的来说，不同LSU303当恢复CTA的操作状态时可针对CTA内的每个不同线程组实施方法600。
[0071]总而言之，包括在并行处理单元(PPU)内的流多处理器(SM)配置为挂起执行在SM上的线程组并且保存所挂起的线程组的操作状态。SM内的加载-存储单元(LSU)将与线程组相关联的本地存储器重新映射到全局存储器中的位置。随后，SM可以重新发起所挂起的线程组。然后LSU可以利用驻留在全局存储器中的经重新映射的本地存储器代表经重新发起的线程组实施本地存储器访问操作。
[0072]有利地，当恢复线程组的操作状态时，不要求LSU将与该线程组相关联的本地存储器拷贝回到SM，从而节省了与SM相关联的计算资源。
[0073]本发明的一个实施例可被实施为与计算机系统一起使用的程序产品。该程序产品的程序定义实施例的各功能(包括本文中描述的方法)并且可以被包含在各种计算机可读存储介质上。示例性计算机可读存储介质包括但不限于:(i)不可写的存储介质(例如，计算机内的只读存储器设备，诸如可由CD-ROM驱动器读取的压缩光盘只读存储器(CD-ROM)盘、闪存、只读存储器(ROM)芯片或任何类型的固态非易失性半导体存储器)，在其上存储永久性信息；和(ii)可写的存储介质(例如，磁盘驱动器或硬盘驱动器内的软盘或者任何类型的固态随机存取半导体存储器)，在其上存储可更改的信息。
[0074]以上已参照特定实施例对本发明进行了描述。然而，本领域普通技术人员将理解的是，可对此做出各种修改和变化而不脱离如随附权利要求书中所阐述的本发明的较宽精神和范围。因此，前面的描述以及附图应被视为是例示性而非限制性的意义。
[0075]因此，本发明的实施例的范围由下面的权利要求进行阐述。
【权利要求】
1.一种用于保存与在处理器上执行的线程组相关联的操作状态的计算机实现方法，所述方法包括: 确定分配到第一线程组的存储器的第一部分驻留在第一存储器区域内；在第二存储器区域内分配存储器的第二部分；将所述存储器的第一部分拷贝到所述存储器的第二部分；以及记录指向所述存储器的第二部分的指针，其中所述处理引擎配置为基于所述指向所述存储器的第二部分的指针实施与所述第一线程组相关联的存储器访问操作。
2.根据权利要求1所述的计算机实现方法，其中所述处理引擎包括含有多个不同条目的表，其中每个条目与不同的线程组相对应，并且记录所述指向所述存储器的第二部分的指针包括: 标识所述表内的与所述第一线程组相对应的第一条目；更新所述第一条目以反映所述存储器的第一部分被拷贝到所述存储器的第二部分；以及更新指示所述指向所述存储器的第二部分的指针的条目。
3.根据权利要求2所述的计算机实现方法，进一步包括: 检索所述表内的所述第一条目；` 确定所述第一条目反映所述存储器的第一部分被拷贝到所述存储器的第二部分；访问包括在所述第一条目中的、指向所述存储器的第二部分的指针；以及基于所述指针实施与所述第一线程组相关联的存储器访问操作。
4.根据权利要求1所述的计算机实现方法，其中所述第一存储器区域包括由所述处理引擎管理的本地存储器资源。
5.根据权利要求1所述的计算机实现方法，其中所述第二存储器区域包括全局存储器资源。
6.根据权利要求5所述的计算机实现方法，其中所述存储器的第二部分包括由在所述处理引擎上执行的软件应用分配和管理的缓冲区。
7.根据权利要求6所述的计算机实现方法，其中所述指向所述存储器的第二部分的指针与所述缓冲区内的基准地址相对应，并且所述线程组内的给定线程配置为基于所述基准地址以及基于与所述给定线程相关联的偏移来访问与所述给定线程相对应的缓冲区的一部分。
8.根据权利要求1所述的计算机实现方法，其中所述处理引擎包括在驻留在并行处理单元内的一系列处理引擎内，并配置为同时执行一个或多个线程组。
9.一种配置为保存与在处理引擎上执行的线程组相关联的操作状态的计算设备，包括: 所述处理引擎，其配置为: 确定分配到第一线程组的存储器的第一部分驻留在第一存储器区域内；在第二存储器区域内分配存储器的第二部分；将所述存储器的第一部分拷贝到所述存储器的第二部分；以及记录指向所述存储器的第二部分的指针，其中所述处理引擎配置为基于所述指向所述存储器的第二部分的指针实施与所述第一线程组相关联的存储器访问操作。
10.根据权利要求9的计算设备，其中所述处理引擎包括含有多个不同条目的表，其中每个条目与不同的线程组相对应，并且所述处理引擎通过以下步骤记录指向所述存储器的第二部分的指针: 标识所述表内的与所述第一线程组相对应的第一条目；更新所述第一条目以反映所述存储器的第一部分被拷贝到所述存储器的第二部分；以及更新指示所述指向所述存储器的第二部分的指针的条目。
【文档编号】G06F9/38GK103870247SQ201310676477
【公开日】2014年6月18日申请日期:2013年12月11日优先权日:2012年12月11日
【发明者】王若凡, 兰基·V·姗, 格拉尔德·F·路易斯, 菲利普·亚历山大·夸德拉, 卢克·杜兰特, 瑟利斯·加德雷申请人:辉达公司

完整全部详细技术资料下载

上一篇：一种时变用户均衡动态网络演化客流预测系统和方法
上一篇：一种页面内容的移动方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。