用于解决线程发散的方法和系统的制作方法

文档序号:6397814阅读:238来源:国知局
专利名称:用于解决线程发散的方法和系统的制作方法
用于解决线程发散的方法和系统技术领域
本发明总地涉及多线程处理,并且,更具体地,涉及一种用于解决线程发散的方法和系统。
背景技术
“线程组”是以单指令多线程(SMT)或单指令多数据(SMD)方式来共同执行相同的指令的并行线程的集合。为了实施各种不同的处理任务,并行处理单元(PPU)可以同时发出和执行许多并行线程。当执行给定的线程时,该线程可以从特定存储器位置读取数据或写数据至特定存储器位置,诸如寄存器堆。通常,线程组中的各种线程均以相同的存储器位置为目标。然而,某些类型的指令可能导致出现分支,从而导致一些线程以一个存储器位置为目标,而其他线程以其他存储器位置为目标。本领域称之为“线程发散(divergence)”。采用常规的PPU,线程发散可以导致系统范围的PPU故障。
因此,本领域需要的是用于解决线程组内的线程之间的发散的技术。


为了详细地理解本发明的上述特征,对于以上简要概括的发明,可以参照实施例进行更为具体的描述,其中一些实施例示出于附图中。然而,应注意的是,附图中示出的只是本发明的代表性实施例,因此不应被认为是对本发明的范围的限制,本发明可以适用于其他同等有效的实施例。
图1是示出了配置为实现本发明的一个或多个方面的计算机系统的框图2是根据本发明一个实施例的、用于图1的计算机系统的并行处理子系统的框图3A是根据本发明一个实施例的、图2的前端的框图3B是根据本发明一个实施例的、图2的并行处理单元之一内的通用处理集群的框图3C是根据本发明一个实施例的、图3B的流多处理器的一部分的框图4是根据本发明一个实施例的、更详细地示出图3C的卷绕包(warp)调度器和指令单元的框图;以及
图5是根据本发明一个实施例的、用于解决线程组内的线程之间发散的方法步骤的流程图。
具体实施方式
在下面的描述中,将阐述大量的详细内容以提供对本发明更深入的理解。然而,本技术领域的技术人员应该清楚,本发明可以在没有一个或多个这些具体细节的情况下得以实施。
总而言之,并行处理单元内的地址发散单元将线程组内的线程分为非发散线程子集和发散线程子集。地址发散单元导致发出非发散线程子集用于在并行处理单元上执行,同时导致重新获取和重新发出与发散线程子集相关联的指令。
系统概述
图1是示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100包括中央处理单元(CPU) 102和系统存储器104,两者经由可包括存储器桥105的互连路径通信。存储器桥105例如可以是北桥芯片,经由总线或其他通信路径106(例如,超传输链接)连接到I/O (输入/输出)桥107。I/O桥107例如可以是南桥芯片,从一个或多个用户输入设备108 (例如,键盘、鼠标)接收用户输入,并将该输入经由通信路径106和存储器桥105转发至CPU102。并行处理子系统112经由总线或第二通信路径113(例如,外围部件互连(PCI) Express、加速图形端口或超传输链接)耦合至存储器桥105 ;在一个实施例中,并行处理子系统112是将像素传递到显示设备110 (例如,常规的基于阴极射线管或液晶显示器的监视器)的图形子系统。系统盘114也连接到I/O桥107。开关116为I/O桥107和诸如网络适配器118以及各种插卡(add-1n card) 120和121的其他部件之间提供了连接。其他部件(未明确示出)也可以连接到I/O桥107,包括通用串行总线USB或其他端口连接、光盘(⑶)驱动器、数字视频光盘(DVD)驱动器、胶片记录设备等。图1中所示的包括具体命名为通信路径106和113的各种通信路径可以使用任何合适的协议来实现,诸如PCI Express, AGP (加速图形端口)、超传输或任何其他总线或点对点通信协议,并且不同设备之间的连接可以使用本领域已知的不同协议。
在一个实施例中,并行处理子系统112包含被优化用于图形和视频处理的电路,例如包括视频输出电路,并且构成图形处理单元(GPU)。在另一个实施例中,并行处理子系统112包含被优化用于通用处理的电路,同时保留底层的(underlying)计算架构,本文将进行更为详细的描述。在又一个实施例中,并行处理子系统112可与单个子系统中的一个或多个其他系统元件集成,诸如结合存储器桥105、CPU 102和I/O桥107以形成片上系统(SoC)。
应理解的是,本文所示系统是例示性的,可以对其进行变形和修改。可根据需要修改连接拓扑结构,包括桥的数目和布置、CPU 102的数目以及并行处理子系统112的数目。例如,在一些实施例中,系统存储器104直接连接到CPU 102而非通过桥连接,并且其他设备经由存储器桥105和CPU 102与系统存储器104通信。在其他替代拓扑结构中,并行处理子系统112连接到I/O桥107或者直接连接到CPU 102,而非连接到存储器桥105。在又一些实施例中,I/O桥107和存储器桥105可能被集成到单个芯片中而不是作为一个或多个分立的设备存在。大型实施例可包括两个或更多CPU 102以及包括两个或更多并行处理子系统112。本文所示特定部件是可选的;例如,任何数目的插卡或外围设备都可能得到支持。在一些实施例中,开关116被省去,并且网络适配器118和插卡120、121直接连接到I/0 桥 107。
图2示出了根据本发明一个实施例的并行处理子系统112。如图所示,并行处理子系统112包括一个或多个并行处理单元(Pro)202,其每一个均耦合至本地并行处理(PP)存储器204。一般来讲,并行处理子系统包括U个PPU,其中US I。(本文中,相似对象的多个实例用标识该对象的参考数字并根据需要结合标识该实体的带括号的数字加以表示)。PPU202和并行处理存储器204可用一个或多个诸如可编程处理器、专用集成电路(ASIC)或存储器设备这类集成电路设备来实现,或者以任何其他在技术上可行的方式来实现。
再次参照图1以及图2,在一些实施例中,并行处理子系统112中的一些或所有PPU 202是具有渲染管线的图形处理器,可以配置为实施与下述各项相关的各种操作:由图形数据生成像素数据,所述图形数据是由CPU 102和/或系统存储器104经由存储器桥105和第二通信路径113而供给的;与本地并行处理存储器204 (可以作为图形存储器加以使用,包括例如常规的帧缓冲区)交互,以存储和更新像素数据;将像素数据传递到显示设备110 ;等等。在一些实施例中,并行处理子系统112可包括作为图形处理器而操作的一个或多个PPU 202以及供通用计算使用的一个或多个其他PPU 202。这些PPU可相同或不同,并且每个PTO均可具有其专用的并行处理存储器设备或非专用的并行处理存储器设备。并行处理子系统112中的一个或多个PPU 202可向显示设备110输出数据,或者并行处理子系统112中的每个PPU 202均可向一个或多个显示设备110输出数据。
操作中,CPU 102是计算机系统100的主处理器,控制并协调其他系统部件的操作。特别是,CPU 102发出控制PPU 202的操作的命令。在一些实施例中,CPU 102将针对每个PPU 202的命令流写入到数据结构(图1和图2中均未明确示出)中,所述数据结构可位于系统存储器104、并行处理存储器204或者CPU 102和PPU 202均可访问的另一个存储位置中。对入栈缓冲区(pushbuffer)写入指向每个数据结构的指针来开始数据结构中命令流的处理。PPU 202从一个或多个入栈缓冲区读取命令流,然后相对于CPU 102的操作异步地执行命令。可经由设备驱动程序103由应用程序为每个入栈缓冲区指定执行优先级,以控制不同入栈缓冲区的调度。
现在返回参考图2以及图1,每个PPU 202均包括I/O (输入/输出)单元205,该I/O单元205经由通信路径113与计算机系统100的其余部分通信,其连接到存储器桥105(或者,在一个替代实施例中,直接连接到CPU 102)。PPU 202到计算机系统100的其余部分的连接也可以变化。在一些实施例中,并行处理子系统112实现为可以被插入到计算机系统100的扩展槽中的插卡。在另一些实施例中,PPU 202可以集成在具有诸如存储器桥105或I/O桥107这类总线桥的单个芯片上。在又一些实施例中,PI3U 202中的一些或全部元件可集成在具有CPU 102的单个芯片上。
在一个实施例中,通信路径113是PCI Express链接,其中给每个PPU202分配有专用通道(lane),如本领域已知的。也可使用其他通信路径。I/O单元205生成数据包(或其他信号)用于在通信路径 113上传输,并且也从通信路径113接收所有进入的数据包(或其他信号),将传入的数据包引向PPU 202的适当部件。例如,可将与处理任务相关的命令引向主机接口 206,而可将与存储器操作相关的命令(例如,对并行处理存储器204的读取或写入)引向存储器交叉开关(crossbar)单元210。主机接口 206对每个入栈缓冲区进行读取并将存储在入栈缓冲区中的命令流输出到前端212。
每个PPU 202均有利地实现高度并行的处理架构。如图中详细所示,PPU 202(0)包括处理集群阵列230,该阵列包括C个通用处理集群(GPC) 208,其中C彡I。每个GPC208均能够并发执行大量(例如,数百个或数千个)线程,其中每个线程均为程序的实例(instance)。在各种应用中,可分配不同的GPC 208,用于处理不同类型的程序或用于实施不同类型的计算。GPC 208的分配可依据每个类型的程序或计算发生的工作量而变化。
GPC 208从在任务/工作单元207内的工作分布单元接收将要执行的处理任务。工作分布单元接收指向被编码为任务元数据(TMD)并存储在存储器中的处理任务的指针。指向TMD的指针包括在命令流中,所述命令流被存储为入栈缓冲区并由前端单元212从主机接口 206接收。可编码为TMD的处理任务包括将要处理的数据的索引以及定义将如何处理数据(例如,将执行什么程序)的命令和状态参数。任务/工作单元207从前端212接收任务并保证GPC 208在由每一个TMD所指定的处理开始前被配置为有效状态。可为每个用于调度处理任务的执行的TMD指定优先级。也可以从处理集群阵列230接收处理任务。可选地,TMD可包括控制是否将TMD添加到处理任务列表(或者指向处理任务的指针列表)的头部或尾部的参数,从而提供对于优先级的另一个级别的控制。
存储器接口 214包括D个分区单元215,这些分区单元每一个均直接耦合至并行处理存储器204的一部分,其中D > I。如图所示,分区单元215的数目通常等于动态随机存取存储器(DRAM) 220的数目。在另一些实施例中,分区单元215的数目可以不等于存储器设备的数目。本领域的技术人员将认识到,DRAM 220可用其他合适的存储设备代替,并且可以采用一般常规设计。因此省略详细描述。可跨DRAM 220来存储诸如帧缓冲区或纹理映射这样的渲染目标,允许分区单元215并行地写入每个渲染目标的各部分,以高效地使用并行处理存储器204的可用带宽。
GPC 208中的任何一个都可处理将被写入并行处理存储器204内任何DRAM 220的数据。交叉开关单元210配置为将每个GPC 208的输出路由(route)至任何分区单元215的输入或路由至另一 GPC 208,用于进一步处理。GPC 208通过交叉开关单元210与存储器接口 214通信,以对各种外部存储器设备进行读写。在一个实施例中,交叉开关单元210具有至存储器接口 214的连接以与I/O单元205通信,以及具有至本地并行处理存储器204的连接从而使不同GPC 208内的处理内核能够与系统存储器104或相对于PPU 202来讲非本地的其他存储器通信。在图2所示实施例中,交叉开关单元210与I/O单元205直接连接。交叉开关单元210可使用虚拟信道来分离GPC 208和分区单元215之间的业务(traffic)流。
再者,GPC 208可以编程为执行与种类繁多的应用相关的处理任务,包括但不限于线性和非线性数据变换、视频和/或音频数据的过滤、建模操作(例如,运用物理定律确定对象的位置、速率和其他属性)、图像渲染操作(例如,曲面细分着色、顶点着色、几何着色和/或像素着色程序)等等。PPU 202可将数据从系统存储器104和/或本地并行处理存储器204转移到内部(片上)存储器中,对数据进行处理,并将结果数据写回到系统存储器104和/或本地并行处理存储器204,在这里这类数据可以由其他系统部件访问,包括CPU 102或另一并行处理子系统112。
可为PPU 202提供任何容量(amount)的本地并行处理存储器204,包括没有本地存储器,并且可以任何组合方式来使用本地存储器和系统存储器。例如,在统一存储器架构(UMA)实施例中,PPU 202可以是图形处理器。在这样的实施例中,将会提供极少的甚至不提供专用图形(并行处理)存储器,并且PPU 202将以排他的方式或者几乎以排他的方式使用系统存储器。在UMA实施例中,PPU 202可集成到桥式芯片或处理器芯片中,或者可被提供作为具有高速链接(例如,PCI Express)的分立芯片,所述高速链接经由桥式芯片或其他通信手段将PPU 202连接到系统存储器。
如上所述,并行处理子系统112中可以包括有任何数目的PPU 202。例如,可以在单个插卡上提供多个PPU 202,或者多个插卡可以连接到通信路径113,或者PPU 202中的一个或多个可以集成到桥式芯片中。多PPU系统中的PPU 202可彼此相同或不同。例如,不同的PPU 202可能具有不同数目的处理内核、不同容量的本地并行处理存储器等。在存在有多个PPU202的情况下,可以并行地操作这些PI3U从而以高于单个PPU 202可能达到的吞吐量来处理数据。包含一个或多个PPU 202的系统可以以各种配置和形式因素来加以实现,包括桌上型电脑、膝上型电脑或者手持式个人计算机、服务器、工作站、游戏控制台、嵌入式系统等。
多个并发任务调度
可在GPC 208上并发执行多个处理任务,并且处理任务可在执行期间生成一个或多个“子”处理任务。任务/工作单元207接收任务并动态调度处理任务和子处理任务用于由GPC 208执行。
图3A是根据本发明的一个实施例的、图2的任务/工作单元207的框图。任务/工作单元207包括任务管理单元300和工作分布单元340。任务管理单元300基于执行优先级级别来组织将要调度的任务。对于每个优先级级别,任务管理单元300存储指向与在调度器表321中的任务相对应的TMD 322的指针的列表,其中列表可实现为链接列表。TMD322可存储在PP存储器204或系统存储器104中。任务管理单元300接受任务和将任务存储在调度器表321中的速率与任务管理单元300调度任务用于执行的速率解耦。因此,任务管理单元300可以在调度任务之前收集若干个任务。然后,所收集的任务可以基于优先级信息或使用诸如轮叫调度的其他技术来调度。
工作分布单元340包括具有槽的任务表345,每个所述槽可被TMD322占用,用于正在执行的任务。当任务表345中存在空闲槽时,任务管理单元300可调度任务用于执行。当没有空闲槽时,未占用槽的较高优先级任务可驱逐占用槽的较低优先级任务。当任务被驱逐时,该任务停止,并且如果该任务的执行未完成,那么将指向该任务的指针添加到将要被调度的任务指针的列表,使得稍后恢复该任务的执行。当在任务的执行期间生成子处理任务时,将指向子任务的指针添加到将要调度的任务指针的列表。可以由在处理集群阵列230中执行的TMD 322来生成子任务。
与由任务/工作单元207从前端212处所接收的任务不同,子任务是从处理集群阵列230处接收的。子任务不插入入栈缓冲区中或者传输到前端。当生成子任务或者将用于子任务的数据存储在存储器中时,不通知CPU102。通过入栈缓冲区所提供的任务和子任务之间的另一个不同之处在于,通过入栈缓冲区所提供的任务由应用程序定义,而子任务在任务执行期间动态生成。
任务处理概述
图3B是根据本发明一个实施例的、图2的一个PPU 202内的GPC 208的框图。每个GPC 208均可配置为并行地执行大量线程,其中术语“线程”是指对特定的一组输入数据执行的特定程序的实例。在一些实施例中,使用单指令多数据(SIMD)指令发送技术来支持大量线程的并行执行,而无需提供多个独立指令单元。在另一些实施例中,使用单指令多线程(SMT)技术,使用配置为发送指令到每一个GPC 208内一组处理引擎的公共指令单元,来支持大量通常同步化的线程的并行执行。不同于其中所有处理引擎一般都执行相同指令的SMD执行机制,SIMT执行允许不同的线程更容易跟随(follow)通过给定线程程序的发散的执行路径。本领域的普通技术人员将理解的是,SMD处理机制代表SMT处理机制的功能子集。
经由管线管理器305来有利地控制GPC 208的操作,所述管线管理器305将处理任务分布到流多处理器(SM) 310。管线管理器305也可配置为通过为由SM 310输出的经处理的数据指定目的地来控制工作分布交叉开关330。
在一个实施例中,每个GPC 208均包括M个SM310,其中M彡1,每个SM 310均配置为处理一个或多个线程组。而且,每个SM 310还最好包括同样的一组可被管线化的功能执行单元(例如,执行单元和加载-存储单元一如图3C中所示的执行单元302和LSU 303),从而允许在前一个指令结束之前发送新的指令,如本领域所已公知的。可提供功能执行单元的任何组合。在一个实施例中,这些功能单元支持各种操作,包括整数和浮点算法(例如,加法和乘法)、比较操作、布尔操作(AND、OR、X0R)、位移以及各种代数函数的计算(例如,平面插值、三角、指数和对数函数等);并且相同的功能单元硬件可均衡地用于(be leveragedto)实施不同操作。
如本文前面所定义的,传输到特定GPC 208的一系列指令构成线程,并且跨SM310内并行处理引擎(未示出)的一定数目并发执行的线程的集合在本文中被称为“卷绕包(warp)”或“线程组”。如本文所使用的,“线程组”是指对不同的输入数据并发执行相同程序的一组线程,且该组中有一个线程被指派给SM 310内不同的处理引擎。线程组可包括比SM 310内处理引擎的数量少的线程,在此情况下,在正在处理该线程组的周期内,一些处理引擎将处于闲置状态。线程组也可包括比SM 310内处理引擎的数量多的线程,在此情况下,处理将在连续的时钟周期上进行。由于每个SM310均可以并发地支持多达G个线程组,结果是在任意给定时间在GPC 208中可以执行多达G*M个线程组。
此外,在SM 310内,几个相关的线程组可同时处于激活状态(处于不同执行阶段)。这种线程组的集合在本文中被称为“协作线程阵列”(“CTA”)或“线程阵列”。特定CTA的大小等于mXk,其中k是 线程组中并发执行的线程的数量,并且一般是SM 310内并行处理引擎的数量的整数倍,m是SM 310内同时处于激活状态的线程组的数量。CTA的大小通常由编程人员和CTA可用的硬件资源例如存储器或寄存器的容量决定。
每个SM 310均含有一级(LI)高速缓存(图3C中示出),或使用在SM 310之外的相应LI高速缓存中用以实施加载和存储操作的空间。每个SM 310也均有权访问二级(L2)高速缓存,所述二级高速缓存在所有GPC208之间共享并且可用于在线程之间转移数据。最后,SM 310也有权访问片外“全局”存储器,该存储器可以包括例如并行处理存储器204和/或系统存储器104。应予以理解的是,PPU 202外部的任何存储器都可用作全局存储器。此外,一点五级(L1.5)高速缓存335可包括在GPC 208之内,配置为经由存储器接口 214来接收和保持从存储器中所获取的、SM 310所请求的数据,包括指令、标准(uniform)数据以及常数数据,以及向SM310提供所请求的数据。在GPC 208中具有多个SM 310的实施例有益地共享被高速缓存于L1.5高速缓存335中的公共指令和数据。
每个GPC 208可包括存储器管理单元(MMU) 328,该单元配置为将虚拟地址映射到物理地址。在其他实施例中,MMU 328可驻留在存储器接口 214内。MMU 328包括页表条目(PTE)集合以及可选地包括高速缓存线索引,该PTE集合用于将虚拟地址映射到像素块(tile)的物理地址。MMU 328可包括地址转译后备缓冲区(translation lookasidebuffer, TLB)或高速缓存,其可驻留在多处理器SM 310或LI高速缓存或GPC 208内。处理物理地址以分布表面数据访问位置,从而允许分区单元215之间交错的高效请求。高速缓存线索引可用于确定对于高速缓存线的请求是否命中或未命中。
在图形和计算应用中,GPC 208可配置为使得每个SM 310均耦合至纹理单元315,用于实施纹理映射操作,例如,确定纹理采样位置、读取纹理数据以及过滤纹理数据。纹理数据是从内部纹理LI高速缓存(未示出)读取的,或者在一些实施例中是从SM 310内的LI高速缓存读取的,并且根据需要从在所有GPC 208之间共享的L2高速缓存、并行处理存储器204或系统存储器104所获取。每个SM 310均将处理后的任务输出到工作分布交叉开关330,以便将处理后的任务提供到另一 GPC 208用于进一步处理,或者经由交叉开关单元210将处理后的任务存储到L2高速缓存、并行处理存储器204或系统存储器104中。preROP(pre-raster operations,预光栅操作)325配置为从SM 310接收数据,将数据引向分区单元215内的ROP单元,并实施对色彩混合的优化、组织像素色彩数据以及实施地址转译。
应予以理解的是,本文所描述的内核架构是例示性的,可以对其进行各种变形和修改。GPC 208内可包括任何数量的处理单元,例如,SM 310或纹理单元315、preR0P 325。此外,如图2所示,但PPU 202可包括任何数量的GPC 208,这些GPC 208最好在功能上彼此相似,以使执行行为不依赖于接收特定处理任务的GPC 208。此外,每个GPC 208最好使用单独的且各异的处理单元、LI高速缓存,相对于其他GPC 208独立地操作,来执行用于一个或多个应用程序的任务。
本领域的普通技术人员应该理解,图1、2、3A和3B中描述的架构不以任何方式来限制本发明的范围,并且本文教导的技术可以在任意经适当配置的处理单元上实现,包括但不限于一个或多个CPU、一个或多个多内核CPU、一个或多个PPU 202、一个或多个GPC208、一个或多个图形或专用处理单元等等,而不脱离本发明的范围。
在本发明的实施例中,所期望的是,使用PPU 202或计算系统的其他处理器使用线程阵列来执行通用计算。给线程阵列中的每个线程都指派唯一的线程标识符(“threadID”),所述线程标识符在该线程执行期间可由该线程访问。线程ID可被定义为一维或多维数值,其控制线程处理行为的各个方面。例如,线程ID可用于确定线程将处理哪部分输入数据集和/或确定线程将产生或写入哪部分输出数据集。
每线程的指令序列可包括至少一个指令,所述指令定义了代表线程与线程阵列中一个或多个其他线程之间的协作行为。例如,每线程的指令序列均可包括以下指令:在序列中的特定点将对于代表线程的操作执行挂起直到一个或多个其他线程到达该特定点时的指令;指示代表线程在一个或多个其他线程有权访问的共享存储器中存储数据的指令;指示代表线程自动地读取和更新存储在一个或多个其他线程基于其线程ID有权访问的共享存储器中的数据的指令等等。CTA程序也可包括计算从其中读取数据的共享存储器中的地址的指令,该地址为线程ID的函数。通过定义合适的函数并提供同步技术,数据可以以可预测的方式由CTA的一个线程写入共享存储器中给定的位置,并且由相同CTA的不同线程从该位置读取。因此,可以支持以任意所希望的模式将数据在线程中共享,并且CTA中的任意线程都可以和相同CTA中的任意其他线程共享数据。如果在CTA的线程中间共享有数据,则数据共享的程度由CTA程序确定;因此,应该理解在使用CTA的特定应用中,CTA的线程实际上可能相互共享数据或者可能不相互共享数据,这取决于该CTA程序,并且术语“CTA”和“线程阵列”在本文中同义使用。
图3C为根据本发明的一个实施例的、图3B的SM 310的框图。该SM310包括指令LI高速缓存370,其配置为经由L1.5高速缓存335从存储器接收指令和常数。warp调度器和指令单元312从指令LI高速缓存370接收指令和常数,并且根据该指令和常数来控制本地寄存器堆304和SM 310功能单元。SM 310功能单元包括N个exec (执行或处理)单元302以及P个加载-存储单元(LSU) 303。
如以下结合图4-5更详细的描述,warp调度器和指令单元312配置为发出线程组中的线程以在包括在SM 310中的功能单元上来执行。又如下所述,warp调度器和指令单元312配置为检查并且解决在线程组中的线程之间可能出现的发散。
SM 310提供具有不同可访问级别的片上(内部)数据存储。专用寄存器(未示出)对于LSU 303可读但不可写,并用于存储定义每个线程的“位置”的参数。在一个实施例中,专用寄存器包括每线程(或SM 310内每exec单元302)—个的存储线程ID的寄存器;每个线程ID寄存器均仅可由各自的一个exec单元302所访问。专用寄存器还可以包括附加寄存器,其对于执行由TMD 322所代表的相同的处理任务的所有线程(或由所有LSU 303)可读,所述附加寄存器存储CTA标识符、CTA维度、CTA所属的栅格(grid)的维度(或队列位置,如果TMD 322编码队列任务而不是栅格任务)以及将CTA分配给其的TMD 322的标识符。
如果TMD 322是栅格TMD,那么TMD 322的执行致使将要启动和执行的固定数目的CTA来处理被存储在队列525中的固定容量的数据。CTA的数目被指定为栅格宽度、高度和深度的乘积。固定容量的数据可存储在TMD 322中或者TMD 322可存储将通过CTA处理的指向数据的指针。TMD 322也存储由CTA执行的程序的起始地址。
如果TMD 322是队列TMD,那么TMD 322的队列特征被使用,意味着将要处理的数据的容量不必是固定的。队列条目存储数据,用于由指派给TMD 322的CTA处理。队列条目还可代表在线程执行期间由另一个TMD 322生成的子任务,从而提供嵌套的并行性。一般地,线程或包括线程的CTA的执行被挂起,直到子任务的执行完成。队列可存储在TMD 322中或脱离TMD 322单独存储,在这种情况下TMD 322存储指向队列的队列指针。有利地,当代表子任务的TMD 322正在执行时,由子任务生成的数据可写入队列。队列可被实现为循环队列以便于数据的总容量不被队列的大小所限制。
属于栅格的CTA具有指示在栅格内的各自CTA的位置的隐性栅格宽度、高度和深度参数。专用寄存器在初始化期间响应经由前端212从设备驱动程序103接收的命令被写入,并且在处理任务的执行期间不改变。前端212调度每个处理任务用于执行。每个CTA都与用于一个或多个任务的并发执行的特定TMD 322相关联。此外,单个GPC 208可并发执行多个任务。
参数存储器(未示出)存储运行时间参数(常数),这些参数可由在相同CTA内的任意线程(或任意LSU 303)读取但不可由其写入。在一个实施例中,设备驱动程序103在指引SM 310开始执行使用这些参数的任务之前将这些参数提供给参数存储器。任意CTA内的任意线程(或者SM310内的任意exec单元302)均可以通过存储器接口 214访问全局存储器。该全局存储器的一部分可存储在LI高速缓存320中。
每个线程均可使用本地寄存器堆304作为暂存空间(scratch space);每个寄存器均被分配用于一个线程的排他性使用,并且任何本地寄存器堆304中的数据均只可由其被分配给的线程所访问。本地寄存器堆304可实现为在物理上或逻辑上划分为P个通路(lane)的寄存器堆,每个通路均具有某一数量的条目(其中每个条目可能存储例如32比特字)。给N个exec单元302和P个加载-存储单元LSU 303中的每一个指派一个通路,并且不同通路中对应的条目可以填充有供执行相同程序的不同线程使用的数据,以利于SMD执行。可以将这些通路的不同部分分配给G个并发线程组中的不同的线程组,以使本地寄存器堆304中的给定条目只可由特定线程访问。在一个实施例中,本地寄存器堆304内的某些条目被保留用于存储线程标识符,实现专用寄存器之一。另外,标准LI高速缓存375为N个exec单元302和P个加载-存储单元LSU 303的每个通路存储标准或常数值。
在单个CTA内的线程可访问共享存储器306 ;换句话说,共享存储器306中的任意位置均可由相同的CTA内的任意线程(或由SM 310内任意处理引擎)所访问。共享存储器306可实现为具有互连的共享片上高速缓存存储器或共享寄存器堆,所述互连允许任意处理引擎对该共享存储器中任意位置进行读写。在其他一些实施例中,共享的状态空间可能映射到片外存储器的每CTA区域上,并被高速缓存在LI高速缓存320中。参数存储器可以实现为在相同的共享寄存器堆内或者在实现了共享存储器306的共享高速缓存存储器内的指定区段(section),或者实现为LSU 303只能以只读方式访问的单独的共享寄存器堆或片上高速缓存存储器。在一个实施例中,也可使用实现参数存储器的区域来存储CTA ID和任务ID,以及CTA和栅格维度或队列位置,从而实现专用寄存器的一部分。在SM 310中的每个LSU 303都耦合到统一地址映射单元352,其将为在统一存储器空间中指定的加载和存储指令所提供的地址转换为在每个各异的存储器空间中的地址。因此,指令可用来通过在统一存储器空间中指定地址来访问任意本地、共享或全局存储器空间。
可以使用每个SM 310中的LI高速缓存320来高速缓存私有的每线程的本地数据以及每应用程序的全局数据。在一些实施例中,每CTA的共享数据可以被高速缓存在LI高速缓存320中。LSU 303经由存储器和高速缓存互连380耦合到共享存储器306以及LI高速缓存320。
解决线程发散
图4是根据本发明一个实施例的、更详细地示出图3C的warp调度器和指令单元312的框图。如上所述,warp调度器和指令单元312配置为,通过发出并使用SM 310内的包括执行单元302和LSU 303的功能单元执行给定线程组内的线程来处理那些线程。如所示,warp调度器和指令单元312包括指令获取402、发出逻辑404、地址发散单元406、多发出队列408和分支单元410。指令获取402耦合至发出逻辑404。发出逻辑404耦合至本地寄存器堆304 (在此未示出)和地址发散单元406。地址发散单元406耦合至多发出队列408和分支单元410。多发出队列408具有至发出逻辑404的反馈连接,同时分支单元410具有至指令获取402的反馈连接。
指令获取402是配置为当处理给定线程组中的线程时从图3C中所示的LI高速缓存370获取指令的硬件单元。与线程组中的线程相对应的、从指令LI高速缓存370所获取的指令可以由SM 310内的功能单元以SMD或SMT的方式来执行。那些指令可以是任意类型的指令,包括单发出指令类型以及多发出指令类型。指令获取402缓冲进入的指令并且将那些指令馈送给发出逻辑404。
发出逻辑404是配置为确定从指令获取402接收的指令是单发出指令还是多发出指令的硬件单元。当发出逻辑404确定所接收的指令是单发出指令时,发出逻辑404发出与那些指令相关联的线程至本地寄存器堆304。随后SM 310内的功能单元可以读取本地寄存器堆304并执行那些线程。
当发出逻辑404识别所接收的指令是多发出指令时,发出逻辑404将多发出指令引导至地址发散单元406。地址发散单元406是配置为检测与所接收的指令相关联的线程之间的发散的硬件单元。在这样做时,地址发散单元406实施“发现”过程,其揭示线程组内的线程是发散的还是非发散的,如下面更详细的描述。
在一个实施例中,当实施发现过程时,地址发散单元406 ( i )导致发出线程组内的每个线程至本地寄存器堆304,并且随后(ii )分析本地寄存器堆304以确定所有那些线程都以一个存储器位置为目标还是以多于一个存储器位置为目标。当线程组内的线程仅以一个存储器位置为目标时,地址发散单元406确定那些线程不是发散的。当那些线程以多于一个存储器位置为目标时,地址发散单元406确定那些线程是发散的。本领域技术人员将理解,存储器位置可能位于任意存储器资源内,并且可能是例如寄存器堆本身中的条目。
在另一个实施例中,当实施发现过程时,地址发散单元406 ( i)导致发出线程组内的每个线程至本地寄存器堆304,并且随后(ii )分析本地寄存器堆304以确定与每个线程相关联的屏障(barrier)的数目。当所有线程都具有相同数目的屏障时,则那些线程可能不是发散的。但是,当一些线程与其他线程相比具有不同数目的屏障时,则那些线程是发散的。
如果地址发散单元406确定线程组内的线程不是发散的,那么地址发散单元406在多发出队列408中对与线程相关联的指令进行排队。多发出队列408是包括槽的集合的硬件单元,其中每个槽可以由与线程组内的线程相对应的指令占用。在一个实施例中,存储在多发出队列408内的槽中的低优先级的指令可被进入的高优先级的指令从该槽驱逐。当必要的功能单元可用时,发出逻辑404重新发出与在多发出队列408中排队的指令相关联的线程用于执行。
如果地址发散单元406确定线程组内的线程是发散的,那么地址发散单元406将那些线程分为至少两个线程子集。第一子集包括非发散线程,而第二子集包括剩余的发散线程。在一个实施例中,地址发散单元406将线程分为H个子集,其中H个子集的每个均包括相互不是发散的线程。在该实施例中,地址发散单元406可以在多发出队列408中对H个子集的每个单独进行排队。
地址发散单元406可配置为使用各种不同的技术来将线程组内的线程分为非发散子集和发散子集。在一个实施例中,地址发散单元406分析本地寄存器堆304并且识别由第一线程作为目标的存储器位置,并且随后收集以相同存储器位置为目标的所有其他线程。第一线程和所收集的线程构成非发散线程子集,同时剩余线程构成发散线程子集。本领域技术人员将理解,可以实现用于将线程分为非发散和发散子集的任意技术上可行的方法。
一旦将线程组内的线程分为非发散线程子集和发散线程子集,按上述类似的方式,地址发散单元406将与非发散线程子集相关联的指令发送至多发出队列408以排队并随后发出用于执行。地址发散单元406还将与发散线程子集相关联的指令发送至分支单元410。
分支单元410是配置为导致指令获取402重新获取和重新发出与由地址发散单元406所识别的发散线程子集相关联的指令的硬件单元。在一个实施例中,分支单元410包括线程掩码,其为每个线程记录该线程属于线程的非发散子集还是发散子集。分支单元410配置为响应于接收发散线程子集来更新线程掩码。在一个实施例中,地址发散单元406在发现过程期间生成线程掩码,并且随后将线程掩码存储在分支单元410中。
当分支单元410导致指令获取402重新获取并重新发出与发散线程子集相关联的指令时,地址发散单元406随后采用所接收的发散线程子集来重复上述的发现过程。在这样做时,地址发散单元406可以将发散线程子集分为线程的非发散亚子集和发散亚子集,并且随后以与上述类似的方式来单独处理那些亚子集。
通过任意次地重复发现过程,即通过将线程分为线程的非发散子集和发散子集,warp调度器和指令单元312可以过滤出所有非发散线程子集并且随后单独发出每个这样的子集用于执行。虽然本文所描述的技术是结合包括在warp调度器和指令单元312内的特定硬件单元来论述的,本领域技术人员将理解,配置为使用上述通用方法来处理线程的任意计算设备均在本发明范围内。
图5是根据本发明一个实施例的、用于解决线程组内的线程之间的发散的方法步骤的流程图。虽然结合图1、2、3A、3B、3C和4的系统来描述方法步骤,本领域技术人员将理解配置为以任意顺序实施方法步骤的任意系统都在本发明的范围内。
如所示,方法500开始于步骤502,其中指令获取402从图3C中所示的指令LI高速缓存370获取指令。与由SM 310所处理的线程组中的线程相对应的、从指令LI高速缓存370获取的指令可以由SM 310内的功能单元以SMD或SMT方式来执行。那些指令可以是任意类型的指令,包括单发出指令类型以及多发出指令类型。
在步骤504,发出逻辑404确定从指令获取402所接收的指令是单发出指令还是多发出指令。如果发出逻辑404确定所接收的指令是单发出指令,那么方法500进行到步骤506,其中发出逻辑404发出与那些指令相关联的线程至本地寄存器堆304。随后SM 310内的功能单元可以访问并且执行那些线程。如果在步骤504,发出逻辑404确定所接收的指令是多发出指令,那么方法500进行到步骤508。
在步骤508,地址发散单元406确定与多发出指令相关联的线程是否是发散的。在这样做时,地址发散单元406实施“发现”过程,其揭示线程组中的线程是发散的还是非发散的。在一个实施例中,当执行发现过程时,地址发散单元406 (i)导致发出线程组内的每个线程至本地寄存器堆304,并且随后(ii )分析本地寄存器堆304以确定所有那些线程都以一个存储器位置为目标还是以多于一个存储器位置为目标。当线程组内的线程仅以一个存储器位置为目标时,地址发散单元406确定那些线程不是发散的。当线程以多于一个的存储器位置为目标时,地址发散单元406确定那些线程是发散的。
在另一个实施例中,当实施发现过程时,地址发散单元406 ( i)导致发出线程组内的每个线程至本地寄存器堆304,并且随后(ii )分析本地寄存器堆304以确定与每个线程相关联的屏障的数目。当所有线程都具有相同数目的屏障时,则那些线程可能不是发散的。但是,当一些线程与其他线程相比具有不同数目的屏障时,则那些线程是发散的。
如果在步骤508,地址发散单元406确定线程不是发散的,那么方法500进行到步骤506并且可发出并执行那些线程。如果在步骤508,地址发散单元406确定线程是发散的,那么方法500进行到步骤510。
在步骤510,地址发散单元406识别非发散线程子集和发散线程子集。在一个实施例中,地址发散单元406分析本地寄存器堆304并且识别由第一线程作为目标的存储器位置,并且随后收集以相同存储器位置为目标的所有其他线程。第一线程和所收集的线程构成非发散线程子集,同时剩余线程构成发散线程子集。本领域技术人员将理解,可以实现用于将线程分为非发散子集和发散子集的任意技术上可行的方法。
在步骤512,地址发散单元406导致发出并执行非发散线程子集中的线程。在这样做时,地址发散单元406在多发出队列408中对与那些线程相关联的指令进行排队。多发出队列408存储指令,直到发出逻辑404能够发出对应的线程至本地寄存器堆304以由SM310内的功能单元来执行。
在步骤514,地址发散单元406发送与发散线程子集相关联的指令至分支单元410。作为响应,分支单元410导致指令获取402重新获取并重新发出那些指令。随后方法回到步骤502并且使用发散线程子集作为输入进行重复。
在实践中,warp调度器和指令单元312可以在多个经过中多次实施方法500。每个经过中,方法500可以接收在方法500的前一经过期间所识别的发散线程子集作为输入。以该方式,可重复地实现方法500以过滤出非发散线程的所有子集,并且发出每个这样的子集用于单独执行。
有利地,warp调度器和指令单元312中的地址发散单元406缓解了线程发散的影响,从而避免并行处理单元的系统范围的故障。虽然本文围绕访问本地寄存器堆304并且以多于一个存储器位置为目标,或者作用于不同数目的屏障来描述线程发散,本领域技术人员将理解,本发明的实施例扩展至存在于计算机系统100内的本地寄存器堆304之外的资源或资源的方面或部分。例如,举几个例子来说,当线程尝试作用于不同的屏障(如上所述)、访问诸如常数的不同的只读变量、作用于多个属性插值、访问共享存储器的相同列的多个行、访问通用存储器的多个行或实施跨线程的数据宽度超过与存储器子系统相关联的物理总线宽度的存储器访问操作时,可能发生线程发散。
此外,本发明的一个实施例可被实施为与计算机系统一起使用的程序产品。该程序产品的程序定义实施例的各功能(包括本文中描述的方法)并且可以被包含在各种计算机可读存储介质上。示例性的计算机可读存储介质包括但不限于:(i)不可写入的存储介质(例如,计算机内的只读存储器设备,诸如可由CD-ROM驱动器读取的光盘只读存储器(CD-ROM)盘、闪存、只读存储器(ROM)芯片或任何类型的固态非易失性半导体存储器),在其上存储永久性信息;和(ii)可写入的存储介质(例如,磁盘驱动器或硬盘驱动器内的软盘或者任何类型的固态随机存取半导体存储器),在其上存储可更改的信息。
以上已参照特定实施例对本发明进行了描述。然而,本领域技术人员将理解的是,在不脱离如随附权利要求书中所阐释的本发明的较宽精神和范围的情况下,可对此做出各种修改和变化。因此,前面的描述以及附图应被视为是示例性而非限制性的。
权利要求
1.一种用于解决在并行处理单元上执行的线程组中的线程之间的发散的计算机实现的方法,所述方法包括: 获取与所述线程相关联的指令; 将所述线程分为非发散线程子集和至少一个发散线程子集;以及 导致发出所述非发散线程子集用于在所述并行处理单元上执行。
2.根据权利要求1所述的计算机实现的方法,其中将所述线程分为所述非发散线程子集和所述至少一个发散线程子集包括: 发出所述线程到耦合至配置为执行线程的一个或多个功能单元的寄存器堆; 分析所述寄存器堆以确定所述线程配置为访问多于一个存储器位置; 识别一个或多个所述线程配置为访问的第一存储器位置; 将所述一个或多个线程组织到所述非发散线程子集;以及 将其他线程组织到所述至少一个发散线程子集。
3.根据权利要求2所述的计算机实现的方法,其中所述第一存储器位置包括所述寄存器堆中的条目。
4.根据权利要求1所述的计算机实现的方法,进一步包括: 将所述非发散线程子集存储到多发出队列中;以及 当所述并行处理单元可用时,从所述多发出队列中检索所述非发散线程子集。
5.根据权利要求1所述的计算机实现的方法,其中所述线程分为一个发散线程子集,并且进一步包括: 导致重新获取与所述一个发散线程子集相关联的指令; 将所述一个发散线程子集中的所述线程分为非发散线程亚子集和发散线程亚子集;以及 导致发出所述非发散线程亚子集用于在所述并行处理单元上执行。
6.根据权利要求1所述的计算机实现的方法,对于所述线程组中的每个线程,进一步包括,更新与所述线程组相关联的线程掩码以反映所述线程属于所述非发散线程子集还是所述至少一个发散线程子集。
7.根据权利要求1所述的计算机实现的方法,其中将所述线程分为至少一个发散线程子集包括,将所述线程分为H个非发散线程子集,H是大于I的整数,并且导致发出所述H个非发散线程子集的每一个用于在所述并行处理单元上单独执行。
8.根据权利要求7所述的计算机实现的方法,进一步包括,导致在已经发出所述发散线程子集之后发出所述H个非发散线程子集的每一个用于在所述PTO上单独执行。
9.根据权利要求1所述的计算机实现的方法,其中所述非发散线程子集包括访问计算设备内的公共资源或资源的公共方面或部分的一个或多个线程。
10.一种配置为解决在并行处理单元上执行的线程组中的线程之间的发散的计算设备,包括: 处理单元,配置为: 获取与所述线程相关联的指令; 将所述线程分为非发散线程子集和至少一个发散线程子集;以及 导致发出所述非发散线程子集用于在所述并行处理单元上执行。
全文摘要
地址发散单元检测线程组中的线程之间的发散,并且随后将那些线程分为非发散线程子集和发散线程子集。在一个实施例中,地址发散单元导致发出与非发散线程子集相关联的指令用于在并行处理单元上执行,同时导致重新获取并重新发出与发散线程子集相关联的指令用于执行。
文档编号G06F12/02GK103207774SQ201310012208
公开日2013年7月17日 申请日期2013年1月11日 优先权日2012年1月11日
发明者杰克·肖凯特, 仇小钢, 杰夫·塔基, 潇耀明, 罗伯特·J·斯托尔, 奥利维尔·吉普 申请人:辉达公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1