发散操作的分批重播的制作方法

文档序号:6384495阅读:144来源:国知局
专利名称:发散操作的分批重播的制作方法
技术领域
本发明总体上涉及计算机架构,更具体地,涉及发散操作的分批重播。
背景技术
设计同时执行一定数量线程的处理器是并行处理系统中的常见做法。每个线程均可以在处理器内的单独执行管线中执行。当这类线程全部需要执行相同指令序列(通常每个线程使用不同的数据)时,分享线程的控制结构有切实的好处。例如,仅须获取一个指令,并且之后所有线程都执行该同一指令。在单指令多线程(SMT)处理器和单指令多数据(SIMD)处理器上可以发现这类操作。当执行并行进行时,不同线程可以按照可导致线程遭遇资源冲突的方式来访问共同资源,诸如共享存储器。例如,线程可执行存储器访问操作,诸如加载指令,其中存储器位置的集合跨越两个或两个以上缓存线。因为各线程所需的存储器位置在发散的高速缓存线上,所以这类加载指令可以称为“发散(divergent)”操作。在这种情况下,管线传送某些线程正在访问的高速缓存线之一,并且那些线程能够完成存储器访问操作。然而,指向在不同高速缓存线内位置的其他线程不能完成存储器访问操作并保留未服务状态。因此,在单次通过管线的情况下,某些线程能够完成存储器访问操作而其他线程不能。如果没有处理多个执行周期的手段,则操作不能成功完成。实现多个执行周期的一种方法是将指令重新插入处理管线的前一级并对于不能从其目标存储器地址位置来访问数据的线程再次执行加载指令。这类技术称为“重播(replay)”操作。基本上,在管线中的级实施在当前周期中不能完成的操作的情况下,管线对于包含至少一个目标地址的每个高速缓存线均“重播” 一次加载指令直到每个线程均实施了相关存储器访问操作为止。在该过程中,利用一部分管线来完成重播操作。因此,管线是停滞的以防止新的指令进入管线直到所有重播操作均已完成为止。该方法的一个缺点是管线是停滞的直到所有重播操作完成。上游指令可能无法在管线中推进直到释放管线停滞,这降低了整体系统性能。附加缺点是并行处理系统可能无法在一个管线级延迟内停滞所有管线级。如果并行处理系统不能及时停滞管线级,则进入管线的一个或多个新指令可能被错误地丢弃或者重播操作也被丢弃。在任一情况下,新指令或重播操作都没有正确完成。实现多个执行周期的另一方法是在管线的更后面重新插入指令。使用该方法,正在被“重播”的指令在管线中与新指令交错在一起,这减小了管线停滞的频率,从而增强了管线性能。然而,该方法的一个缺点是增加正在被重播的指令的延迟。例如,考虑具有32个同时执行的线程的处理器。在发散加载操作中,用于该32个线程的目标地址位置可跨32个不同的高速缓存线而发散。如果将重播插回一个管线级,那么当31个重播操作执行时管线可停滞31个管线周期。将重播插回六个管线级对于正在被重播的指令而言延迟增加到六个管线级乘以31个重播操作或186个管线周期。如前述所示,本领域需要的是更有效的方式来执行用于发散操作的重播操作。

发明内容
本发明的一个实施例阐述用于重播存储器访问操作的计算机实现方法。加载-存储单元从配置为在多级管线中执行指令的一组线程中选择第一线程和第二线程,其中所述第一线程和所述第二线程都尚未执行所述指令。之后所述加载-存储单元选择第一线程集以与所述第一线程相关联。所述加载-存储单元选择第二线程集以与所述第二线程相关联。所述加载-存储单元将与所述第一线程和所述第一线程集相关联的第一重播操作插入所述多级管线以执行所述指令。之后所述加载-存储单元将与所述第二线程和所述第二线程集相关联的重播操作插入所述多级管线以执行所述指令,其中所述第二线程和所述第二线程集相对于所述第一线程和所述第一线程集串行插入所述多级管线。所公开的技术的一个优势是在线程需要跨存储器中一个以上高速缓存线访问数据的情况下减小完成发散操作的延迟。进一步地,与在将随后的重播操作插回到管线中之前等待重播以清除管线相反,当将两个或两个以上的重播操作作为分批组一个接一个插入时管线被更有效地使用。


因此,可以详细地理解上述本发明的特征,并且可以参考实施例得到对如上面所简要概括的本发明更具体的描述,其中一些实施例在附图中示出。然而,应当注意的是,附图仅示出了本发明的典型实施例,因此不应被认为是对其范围的限制,本发明可以具有其他等效的实施例。图1为示出了配置为实现本发明一个或多个方面的计算机系统的框图;图2为根据本发明一个实施例的,用于图1的计算机系统的并行处理子系统的框图;图3A为根据本发明一个实施例的,图2的前端的框图;图3B为根据本发明一个实施例的,在图2的并行处理单元之一内的通用处理集群的框图;图3C为根据本发明一个实施例的,图3B的流多处理器的一部分的框图;图4示出了根据本发明一个实施例的,配置为实现发散操作的分批重播的多级管线;以及图5为根据本发明一个实施例的用于在多级管线中执行分批重播操作的方法步骤的流程图。
具体实施例方式在下面的描述中,将阐述大量的特定细节以提供对本发明更透彻的理解。然而,本领域的技术人员应该清楚,本发明可以在没有一个或多个这些特定细节的情况下得以实施。系统概述图1为示出了配置为实现本发明的一个或多个方面的计算机系统100的框图。计算机系统100包括中央处理单元(CPU) 102和经由可以包括存储器桥105的互连路径通信的系统存储器104。存储器桥105可以是例如北桥芯片,经由总线或其他通信路径106 (例如超传输(HyperTransport)链路)连接到I/O (输入/输出)桥107。I/O桥107,其可以是例如南桥芯片,从一个或多个用户输入设备108 (例如键盘、鼠标)接收用户输入并且经由通信路径106和存储器桥105将所述输入转发到CPU 102。并行处理子系统112经由总线或第二通信路径113 (例如外围部件互连(PCDExpress、加速图形端口或超传输链路)耦合到存储器桥105 ;在一个实施例中,并行处理子系统112是将像素传递到显示设备110 (例如传统的基于阴极射线管或液晶显示器的监视器)的图形子系统。系统盘114也连接到I/
0桥107。开关116提供I/O桥107与诸如网络适配器118以及各种外插卡120和121的其他部件之间的连接。其他部件(未明确示出),包括通用串行总线(USB)或其他端口连接、压缩磁盘(CD)驱动器、数字视频光盘(DVD)驱动器、胶片录制设备及类似部件,也可以连接到I/O桥107。图1所示的各种通信路径包括特殊命名的通信路径106和113可以使用任何适合的协议实现,诸如PC1-EXpreSS、AGP (加速图形端口)、超传输或者任何其他总线或点到点通信协议,并且如本领域已知的,不同设备间的连接可使用不同协议。在一个实施例中,并行处理子系统112包含经优化用于图形和视频处理的电路,包括例如视频输出电路,并且构成图形处理单元(GPU)。在另一个实施例中,并行处理子系统112包含经优化用于通用处理的电路,同时保留底层(underlying)的计算架构,本文将更详细地进行描述。在又一个实施例中,可以将并行处理子系统112与一个或多个其他系统元件集成在单个子系统中,诸如结合存储器桥105、CPU 102以及I/O桥107,以形成片上系统(SoC)。应该理解,本文所示系统是示例性的,并且变化和修改都是可能的。连接拓扑,包括桥的数量和布置、CPU 102的数量以及并行处理子系统112的数量,可根据需要修改。例如,在一些实施例中,系统存储器104直接连接到CPU 102而不是通过桥,并且其他设备经由存储器桥105和CPU102与系统 存储器104通信。在其他替代性拓扑中,并行处理子系统112连接到I/O桥107或直接连接到CPU 102,而不是连接到存储器桥105。而在其他实施例中,I/O桥107和存储器桥105可能被集成到单个芯片上而不是作为一个或多个分立设备存在。大型实施例可以包括两个或两个以上的CPU 102以及两个或两个以上的并行处理系统112。本文所示的特定部件是可选的;例如,任意数量的外插卡或外围设备都可能得到支持。在一些实施例中,开关116被去掉,网络适配器118和外插卡120、121直接连接到I/O桥 107。图2示出了根据本发明一个实施例的并行处理子系统112。如图所示,并行处理子系统112包括一个或多个并行处理单元(PI3U) 202,每个并行处理单元202都耦合到本地并行处理(PP)存储器204。通常,并行处理子系统包括U个PPU,其中U彡I。(本文中,类似对象的多个实体以标识该对象的参考数字和需要时标识所述实体的括号中的数字来表示。)PPU202和并行处理存储器204可使用一个或多个集成电路设备来实现,诸如可编程处理器、专用集成电路(ASIC)或存储器设备,或者以任何其他技术可行的方式来实现。再参考图1以及图2,在一些实施例中,并行处理子系统112中的一些或所有PPU202是具有渲染管线的图形处理器,它可以配置为实施与下述相关的各种操作:经由存储器桥105和第二通信路径113从CPU 102和/或系统存储器104所提供的图形数据生成像素数据,与本地并行处理存储器204 (可被用作图形存储器,包括例如常用帧缓冲区(buffer))交互以存储和更新像素数据,传递像素数据到显示设备110等等。在一些实施例中,并行处理子系统112可包括一个或多个作为图形处理器而操作的PPU202以及包括一个或多个用于通用计算的其他PPU 202。这些PTO可以是相同的或不同的,并且每个PPU均可具有专用并行处理存储器设备或不具有专用的并行处理存储器设备。并行处理系统112中的一个或多个PPU202可输出数据到显示设备110,或者并行处理系统112中的每个PPU202均可输出数据到一个或多个显示设备110。在操作中,CPU 102是计算机系统100的主处理器,控制和协调其他系统部件的操作。具体地,CPU 102发出控制PPU 202的操作的命令。在一些实施例中,CPU 102为每个PPU 202写入命令流到数据结构中(在图1或图2中未明确示出),所述数据结构可位于系统存储器104、并行处理存储器204、或CPU 102和PPU 202都可访问的其他存储位置中。将指向每个数据结构的指针写到入栈缓冲区(pushbuffer)以发起对数据结构中的命令流的处理。PPU 202从一个或多个入栈缓冲区读取命令流,然后相对于CPU 102的操作异步地执行命令。可以经由设备驱动程序103由应用程序为每个入栈缓冲区指定执行优先级以控制对不同入栈缓冲区的调度。现在返回参考图2和图1,每个PPU 202均包括经由连接到存储器桥105 (或者,在一个替代性实施例中,直接连接到CPU 102)的通信路径113与计算机系统100的其余部分通信的I/O (输入/输出)单元205。PPU202到计算机系统100的其余部分的连接也可以变化。在一些实施例中,并行处理子系统112可作为外插卡来实现,所述外插卡可被插入到计算机系统100的扩展槽中。在其他实施例中,PPU 202可以和诸如存储器桥105或I/0桥107的总线桥一起集成在单个芯片上。而在其他实施例中,PPU202的一些或所有元件可以和CPU 102—起集成在单个芯片上。

在一个实施例中,通信路径113是PC1-EXPRESS链路,如本领域所知的,其中专用通道被分配到每个PPU 202。也可以使用其他通信路径。I/O单元205生成用于在通信路径113上传输的数据包(或其他信号),并且还从通信路径113接收所有传入的数据包(或其他信号),将传入的数据包引导到PPU 202的适当部件。例如,可将与处理任务相关的命令引导到主机接口 206,而可将与存储器操作相关的命令(例如,对并行处理存储器204的读取或写入)引导到存储器交叉开关单元210。主机接口 206读取每个入栈缓冲区,并且将存储在入栈缓冲区中的命令流输出到前端212。有利地,每个PPU 202都实现高度并行处理架构。如详细示出的,PPU202 (0)包括处理集群阵列230,该阵列230包括C个通用处理集群(GPC) 208,其中C彡I。每个GPC 208都能够并发执行大量的(例如,几百或几千)线程,其中每个线程均是程序的实例(instance)。在各种应用中,可分配不同的GPC 208用于处理不同类型的程序或用于执行不同类型的计算。取决于因每种类型的程序或计算所产生的工作量,GPC 208的分配可以变化。GPC 208从任务/工作单元207内的工作分布单元接收所要执行的处理任务。所述工作分布单元接收指向编码为任务元数据(TMD)并存储在存储器中的处理任务的指针。指向TMD的指针包括在存储为入栈缓冲区并由前端单元212从主机接口 206接收的命令流中。可以编码为TMD的处理任务包括所要处理的数据的索引,以及定义数据将被如何处理(例如,什么程序将被执行)的状态参数和命令。任务/工作单元207从前端212接收任务并确保在每一个TMD所指定的处理发起前,将GPC 208配置为有效状态。可以为每个TMD指定用来调度处理任务的执行的优先级。还可从处理集群阵列230接收处理任务。可选地,TMD可包括控制是否将TMD添加到处理任务列表(或指向处理任务的指针列表)的头部或尾部的参数,从而提供除优先级以外的另一级别的控制。存储器接口 214包括D个分区单元215,每个分区单元215均直接耦合到一部分并行处理存储器204,其中DS I。如所示的,分区单元215的数量一般等于动态随机存取存储器(DRAM) 220的数量。在其他实施例中,分区单元215的数量也可以不等于存储器设备的数量。本领域的技术人员应该理解DRAM 220可以用其他合适的存储设备来替代并且可以是一般常规的设计。因此省略了详细描述。诸如帧缓冲区或纹理映射图的渲染目标可以跨DRAM 220加以存储,这允许分区单元215并行写入每个渲染目标的各部分以有效地使用并行处理存储器204的可用带宽。任意一个GPC 208都可以处理要被写到并行处理存储器204内的任意DRAM 220的数据。交叉开关单元210配置为路由每个GPC 208的输出到任意分区单元215的输入或到另一个GPC 208用于进一步处理。GPC 208通过交叉开关单元210与存储器接口 214通信,以对各种外部存储器设备进行读取或写入。在一个实施例中,交叉开关单元210具有到存储器接口 214的连接以和I/O单元205通信,以及到本地并行处理存储器204的连接,从而使得在不同GPC 208内的处理内核能够与系统存储器104或对于PPU 202而言非本地的其他存储器通信。在图2所示的实施例中,交叉开关单元210直接与I/O单元205连接。交叉开关单元210可使用虚拟信道来分开GPC 208与分区单元215之间的业务流。另外,GPC 208可被编程以执行与种类繁多的应用相关的处理任务,包括但不限于,线性和非线性数据变换、视频和/或音频数据过滤、建模操作(例如,应用物理定律以确定对象的位置、速率和其他属性)、图像渲染操作(例如,曲面细分(tessellation)着色、顶点着色、几何着色、和/或像素着色程序)等等。PPU 202可将数据从系统存储器104和/或本地并行处理存储器204转移到内部(片上)存储器中,处理所述数据,并且将结果数据写回到系统存储器104和/或本地并行处理存储器204,其中这样的数据可以由其他系统部件访问,所述其他系统部件包括CPU 102或另一个并行处理子系统112。PPU 202可配备有任意容量(amount)的本地并行处理存储器204,包括没有本地存储器,并且可以以任意组合方式使用本地存储器和系统存储器。例如,在统一存储器架构(UMA)实施例中,PPU 202可以是图形处理器。在这样的实施例中,将不提供或几乎不提供专用的图形(并行处理)存储器,并且PPU 202会以排他或几乎排他的方式使用系统存储器。在UMA实施例中,PPU 202可集成到桥式芯片中或处理器芯片中,或作为具有高速链路(例如,PC1-EXPRESS)的分立芯片提供,所述高速链路经由桥式芯片或其他通信手段将PPU 202连接到系统存储器。如上所述,在并行处理子系统112中可以包括任意数量的PPU 202。例如,可在单个外插卡上提供多个PPU 202、或可将多个外插卡连接到通信路径113、或可将一个或多个PPU 202集成到桥式芯片中。在多PI3U系统中的PPU 202可以彼此相同或不同。例如,不同的PPU 202可能具有不同数量的处理内核、不同容量的本地并行处理存储器等等。在存在多个PPU 202的情况下,可并行操作那些PPU从而以高于单个PPU 202所可能达到的吞吐量来处理数据。包含一个或多个PPU 202的系统可以以各种配置和形式因素来实现,包括台式电脑、笔记本电脑或手持式个人计算机、服务器、工作站、游戏控制台、嵌入式系统等

多个并发任务调度可以在GPC 208上并发执行多个处理任务并且处理任务在执行期间可以生成一个或多个“子”处理任务。任务/工作单元207接收任务并动态调度处理任务和子处理任务以由GPC 208执行。图3A为根据本发明一个实施例的图2的任务/工作单元207的框图。任务/工作单元207包括任务管理单元300和工作分布单元340。任务管理单元300基于执行优先级级别来组织所要调度的任务。对于每个优先级级别,任务管理单元300将指向与任务相对应的TMD 322的指针列表存储在调度器表321中,其中所述列表可以实现为链表。可以将TMD 322存储在PP存储器204或系统存储器104中。任务管理单元300接受任务并将任务存储在调度器表321中的速度与任务管理单元300调度任务以执行的速度是解耦的。因此,任务管理单元300可以在调度 任务之前收集若干任务。之后可以基于优先级信息或使用其他技术诸如循环调度来调度所收集的任务。工作分布单元340包括具有槽的任务表345,每个槽均可以被用于正在执行的任务的TMD 322所占用。当任务表345中有空闲槽时,任务管理单元300可以调度任务以执行。当没有空闲槽时,未占用槽的较高优先级任务可以驱逐占用槽的较低优先级任务。当任务被驱逐时,该任务被停止,并且如果该任务的执行没有完成,则将指向该任务的指针添加到所要调度的任务指针列表以使得任务的执行稍后将恢复。当生成子处理任务时,在任务的执行期间,将指向该子任务的指针添加到所要调度的任务指针列表。可以由在处理集群阵列230中执行的TMD 322生成子任务。不同于由任务/工作单元207从前端212接收的任务,子任务从处理集群阵列230接收。子任务不被插入帧缓冲区或传输到前端。当生成子任务或将用于子任务的数据存储在存储器中时不通知CPU 102。通过帧缓冲区提供的任务与子任务之间的另一个区别是通过帧缓冲区提供的任务由应用程序来定义而子任务是在任务执行期间自动生成的。任务处理概述图3B为根据本发明一个实施例的在图2的PPU 202之一内的GPC208的框图。每个GPC 208均可配置为并行执行大量线程,其中术语“线程”是指在特定输入数据集上执行的特定程序的实例。在一些实施例中,单指令、多数据(SIMD)指令发出技术用于在不提供多个独立指令单元的情况下支持大量线程的并行执行。在其他实施例中,单指令、多线程(SIMT)技术用于使用配置为向GPC 208中的每一个内的处理引擎集发出指令的共有指令单元来支持大量一般来说同步的线程的并行执行。不同于所有处理引擎通常都执行相同指令的SMD执行机制,SIMT执行通过给定线程程序允许不同线程更容易跟随分散执行路径。本领域普通技术人员应该理解SMD处理机制代表SMT处理机制的功能子集。经由将处理任务分布到流多处理器(SM)310的管线管理器305来有利地控制GPC208的操作。管线管理器305还可配置为通过为由SM 310所输出的处理数据指定目的地来控制工作分布交叉开关330。在一个实施例中,每个GPC 208均包括M个SM 310,其中M≥1,每个SM 310均配置为处理一个或多个线程组。另外,如本领域已知的,每个SM 310均有利地包括可以管线化的相同的功能执行单元集(例如执行单元和加载-存储单元一作为Exec单元302和LSU 303在图3C中示出),其允许在前一个指令完成之前发出新指令。可提供功能执行单元的任意组合。在一个实施例中,功能单元支持各种各样的操作,包括整数和浮点运算(例如加法和乘法)、比较操作、布尔操作(AND、OR、XOR)、移位和各种代数函数的计算(例如平面插值、三角函数、指数函数和对数函数等等);以及相同的功能单元硬件可可均衡的用来(beleveraged to)实施不同的操作。如本文之前所定义的,传输到特定GPC 208的一系列指令构成线程,以及跨SM310内的并行处理引擎(未示出)的某一数量的并发执行线程的集合在本文中称为“warp”或“线程组”。如本文所使用的,“线程组”是指对不同输入数据并发执行相同程序的一组线程,所述组的一个线程被指派到SM 310内的不同处理引擎。线程组可以包括比SM 310内的处理引擎数量少的线程,在这种情况下一些处理引擎将在该线程组正在被处理的周期期间处于闲置状态。线程组还可以包括比SM 310内的处理引擎数量多的线程,在这种情况下处理将在连续的时钟周期内发生。因为每个SM310均可以并发支持多达G个线程组,结果是在任意给定时间在GPC 208中可以执行多达G*M个线程组。此外,多个相关线程组可以在SM 310内同时活动(在执行的不同阶段)。该线程组集合在本文中称为“协作线程阵列”(“CTA”)或“线程阵列”。特定CTA的大小等于m*k,其中k是线程组中并发执行线程的数量并且通常是SM 310内的并行处理引擎数量的整数倍,以及m是SM310内同时活动的线程组的数量。CTA的大小一般由编程者以及可用于CTA的硬件资源诸如存储器或寄存器的容量来确定。每个SM 310均包含一级(LI)高速缓存(图3C所示)或使用用于实施加载和存储操作的SM 310外部的相应LI高速缓存中的空间。每个SM 310都还有权访问在所有GPC208之间共享并且可用于在线程之间转移数据的二级(L2)高速缓存。最后,SM 310还有权访问片外“全局”存储器,所述“全局”存储器可以包括例如并行处理存储器204和/或系统存储器104。应该理解,PPU 202外部的任意存储器均可用作全局存储器。此外,一点五级(L1.5)高速缓存335可以包括在GPC 208内,其配置为接收并保持由SM 310所请求的经由存储器接口 214从存储器获取的数据,包括指令、标准(uniform)数据和常数数据,并将所请求的数据提供给SM 310。在GPC 208中具有多个SM 310的实施例有利地共享了高速缓存在L1.5高速缓存335中的共有指令和数据。每个GPC 208均可以包括配置为将虚拟地址映射到物理地址中的存储器管理单元(MMU) 328。在其他实施例中,MMU 328可以驻留在存储器接口 214内。MMU 328包括用于将虚拟地址映射到像素块(tile)的物理地址的页表条目(PTE)集和可选地包括高速缓存线索引。MMU 328可以包括地址转换后备缓冲区(TLB)或可以驻留在多处理器SM 310或LI高速缓存或GPC 208内的高速缓存。物理地址经处理以分布表面数据访问位置来允许高效请求在分区单元215之间交错。高速缓存线索引可用于确定用于高速缓存线的请求是否命中或未命中。在图形和计算应用中,GPC 208可配置为使得每个SM 310均耦合到用于实施纹理映射操作例如确定纹理样本位置、读出纹理数据以及过滤该纹理数据的纹理单元315。从内部纹理LI高速缓存(未示出)或者在一些实施例中从SM 310内的LI高速缓存读出纹理数据并根据需要从在所有GPC 208之间共享的L2高速缓存、并行处理存储器204或系统存储器104中获取纹理数据。为了经由交叉开关单元210将所处理的任务提供给另一个GPC208用于进一步处理或为了将所处理的任务存储在L2高速缓存、并行处理存储器204或系统存储器104中,每个SM 310均将所处理的任务输出到工作分布交叉开关330。preROP(预光栅操作)325配置为从SM310接收数据、将数据引导到分区单元215内的ROP单元以及针对颜色混合实施优化、组织像素颜色数据和实施地址转译。应该理解本文所述的内核架构是示例性的并且各种变化和修改都是可能的。任意数量的处理单元例如SM 310或纹理单元315、preR0P 325均可以包括在GPC 208内。进一步地,如图2所示,PPU 202可以包括任意数量的GPC 208,所述GPC 208有利地在功能上彼此相似以使得执行行为不取决于哪个GPC 208接收特定处理任务。进一步地,每个GPC 208有利地均使用单独的和各异的处理单元、LI高速缓存来独立于其他GPC208操作以为一个或多个应用程序执行任务。本领域普通技术人员应该理解图1、2、3A和3B所描述的架构决不限制本发明的范围并且在不脱离本发明范围的情况下本文所教导的技术可以在任意经适当配置的处理单元上实现,所述处理单元包括但不限于一个或多个CPU、一个或多个多核CPU、一个或多个PPU 202、一个或多个GPC 208、一个或多个图形或专用处理单元等等。在本发明的实施例中,使用PPU 202或计算系统的其他处理器以使用线程阵列执行通用计算是可取的。为线程阵列中的每个线程均指派在线程的执行期间对于线程可访问的唯一的线程标识符(“线程ID”)。可被定义为一维或多维数值的线程ID控制线程处理行为的各方面。例如,线程ID可用于确定线程将要处理输入数据集的哪部分和/或确定线程将要产生或写输出数据集的哪部分。每线程指令序列可包括定义代表性线程和线程阵列的一个或多个其他线程之间的协作行为的至少一个指令。例如,每线程指令序列可能包括在序列中的特定点处挂起用于代表性线程的操作执行直到诸如其他线程的一个或多个到达该特定点的时间为止的指令、用于代表性线程将数据存储在其他线程的一个或多个有权访问的共享存储器中的指令、用于代表性线程自动读出和更新存储在其他线程的一个或多个基于它们的线程ID有权访问的共享存储器中的数据的指令等等。CTA程序还可以包括计算数据将从其读出的共享存储器中的地址的指令,该地址是线程ID的函数。通过定义合适的函数并提供同步技术,可以以可预测的方式由CTA的一个线程将数据写入共享存储器中的给定位置并由同一个CTA的不同线程从该位置读出数据。因此,数据在线程之间共享的任意期望形式可以得到支持,以及CTA中的任意线程可以与同一个CTA中的任意其他线程分享数据。如果存在数据在CTA的线程之间的共享,则其范围由CTA程序确定;因此,应该理解在使用CTA的特定应用中,CTA的线程可能会或可能不会真正互相分享数据,这取决于CTA程序,术语“CTA”和“线程阵列”在本文作为同义词使用。图3C为根据本发明一个实施例的图3B的SM 310的框图。SM 310包括配置为经由L1.5高速缓存335从存储器接收指令和常数的指令LI高速缓存370。warp调度器和指令单元312从指令LI缓冲370接收指令和常数并根据该指令和常数控制本地寄存器堆304和SM 310功能单元。SM310功能单元包括N个exec (执行或处理)单元302和P个加载-存储单元(LSU) 303。SM 310提供具有不同级别的可访问性的片上(内部)数据存储。特殊寄存器(未示出)对于LSU 303可读但不可写并且用于存储定义每个线程的“位置”的参数。在一个实施例中,特殊寄存器包括每线程(或SM 310内的每exec单元302)—个的存储线程ID的寄存器;每个线程ID寄存器仅由各自的exec单元302可访问。特殊寄存器还可以包括附加寄存器,其对于执行由TMD 322所代表的同一个处理任务的所有线程(或由所有LSU303)可读,其存储CTA标识符、CTA维数、CTA所属网格(grid)的维数(或队列位置,如果TMD 322编码队列任务而不是网格任务的话)、以及CTA被指派到的TMD 322的标识符。如果TMD 322是网格TMD,则TMD 322的执行会启动和执行固定数量的CTA以处理存储在队列525中的固定量的数据。将CTA的数量指定为网格宽度、高度和深度的乘积。可以将固定量的数据存储在TMD 322中或TMD 322可以存储指向将由CTA所处理的数据的指针。TMD 322还存储由CTA所执行的程序的开始地址。如果TMD 322是队列TMD,那么使用TMD 322的队列特点,这意味着将要被处理的数据量不一定是固定的。队列条目存储用于由指派到TMD 322的CTA所处理的数据。队列条目还可以代表在线程执行期间由另一个TMD 322所生成的子任务,从而提供嵌套并行性。通常线程或包括线程的CTA的执行被挂起直到子任务的执行完成。可以将队列存储在TMD 322中或与TMD 322分开存储,在该情况下TMD 322存储指向该队列的指针。有利地,当代表子任务的TMD 322正在执行时可以将由子任务所生成的数据写到队列。队列可以实现为循环队列以使得数据的总量不限于队列的大小。属于网格的CTA具有指示网格内各自CTA的位置的隐含网格宽度、高度和深度参数。在初始化期间响应于经由前端212从设备驱动程序103所接收的命令来写特殊寄存器并且在处理任务的执行期间特殊寄存器不改变。前端212调度每个处理任务用于执行。每个CTA均与特定TMD 322相关联用于一个或多个任务的并发执行。此外,单个GPC 208可以并发执行多个任务。参数存储器(未示出)存储可由同一个CTA内的任意线程(或任意LSU 303)读取但不可由其写入的运行时间参数(常数)。在一个实施例中,设备驱动程序103在引导SM 310开始执行使用参数的任务之前将这些参数提供给参数存储器。任意CTA内的任意线程(或SM 310内的任意exec单元302)均可以通过存储器接口 214访问全局存储器。可以将全局存储器的各部分存储在LI高速缓存320中。每个线程均将本地寄存器堆304用作暂存空间;每个寄存器被分配以专用于一个线程,并且在本地寄存器堆304的任意一个中的数据仅对于寄存器被分配到的线程可访问。本地寄存器堆304可以实现为物理上或逻辑上分为P个通道的寄存器堆,每个通道具有一定数量的条目(其中每个条目可以存储例如32位字)。将一个通道指派到N个exec单元中和P个下载-存储单元LSU 303的每一个,并且利用用于执行同一个程序的不同线程的数据来填充不同通道中的相应条目以帮助SIMD执行。可以将通道的不同部分分配到G个并发线程组中的不同线程组,以使得本地寄存器堆304中的给定条目仅对于特定线程可访问。在一个实施例中,保留本地寄存器堆304内的某些条目用于存储线程标识符,这实现特殊寄存器之一。此外,标准LI高速缓存375存储用于N个exec单元302和P个下载-存储单元LSU 303的每个通道的标准或常数值。共享存储器306对于单个CTA内的线程可访问;换言之,共享存储器306中的任意位置对于同一个CTA内的任意线程(或对于SM 310内的任意处理引擎)可访问。共享存储器306可以实现为具有允许任意处理引擎对共享存储器中的任意位置读取或写入的互连的共享寄存器堆或共享片上高速缓存存储器。在其他实施例中,共享状态空间可能映射到片外存储器的每CTA区域上并被高速缓存在LI高速缓存320中。参数存储器可以实现为在实现共享存储器306的同一个共享寄存器堆或共享高速缓存存储器内的指定部分,或者实现为LSU 303对其具有只读访问权限的单独的共享寄存器堆或片上高速缓存存储器。在一个实施例中,实现参数存储器的区域还用于存储CTA ID和任务ID,以及CTA和网格维数或队列位置,这实现特殊寄存器的各部分。SM 310中的每个LSU 303均耦合到统一地址映射单元352,统一地址映射单元352将为在统一存储器空间中所指定的加载和存储指令所提供的地址转换为每个相异存储器空间中的地址。因此,指令可以用于通过指定统一存储器空间中的地址来访问本地、共享或全局存储器空间中的任意一个。每个SM 310中的LI高速缓存320可以用于高速缓存私有的每线程本地数据还有每应用全局数据。在一些实施例中,可以将每CTA共享数据高速缓存在LI高速缓存320中。LSU 303经由存储器和高速缓存互连380耦合到共享存储器306和LI高速缓存320。发散操作的分批重播图4示出了根据本发明一个实施例的配置为实现发散操作的分批重播的多级管线400。如图所示,多级管线400包括管线级402、逻辑元件404、分批重播单元406和重播多路复用器408。在各种实现方式中,多级管线400可以驻留在图3C所示的流多处理器(SM)310 的 Exec 单元 302 或 LSU 303 内。管线级402随着各指令经过多级管线400为各指令存储中间结果。管线级402在多级管线400的每个时钟周期的开始存储中间结果。多个指令可以在各前进阶段存在于多级管线400中。例如,在特定时钟周期的开始指令进入多级管线并被存储进管线级402(0)。在下一个时钟周期的开始,该指令前进到管线级402 (I)而另一个指令进入多级管线并被存储进管线级402 (O)。对于多级管线400的每个时钟周期来说每个指令通常前进一个管线级402。逻辑元件404分隔管线级402。逻辑元件404可以实施SM 310所需的任意功能,包括但不限于算数操作、逻辑操作和加载/存储操作。例如,将存储进管线级402 (0)的指令呈现为到逻辑元件404 (0)的输入。在一段时间的延迟之后,逻辑元件404 (0)作为函数结果呈现给管线级402 (I)的输入。之后在多级管线400的下一个时钟周期将该结果存储在管线级402 (I)中。以此方式,随着指令沿着管线级402前进,指令实施由逻辑元件404所确定的各功能。指令随着每个时钟周期而通过多级管线400前进直到指令已经通过了所有管线级402为止。一般地,通过多级管线400的总延迟等于多级管线400内的管线级402的数量乘以在连续管线时钟周期之间的时间段。为了最小化到管线级402的时钟周期时间从而最大化管线性能,通过逻辑元件404的延迟通常是低的。一旦指令到达管线级
402(S-l),LSU 303就确定指令是存储器访问操作。LSU 303传送至少一个线程所引用的高速缓存线并为正在访问相同的高速缓存线的所有线程服务。如本文之前所述,如果指令是发散操作,那么按照定义,一些线程保留未服务状态。在这种情况下,LSU 303为重播操作选择一个或多个引发线程,其中引发线程是未服务线程中的任意一个。每个引发线程均轮流代表引发线程族,其中引发线程族包括需要访问与同该引发线程族相关联的引发线程相同的高速缓存线的线程集。在某些情况下,引发线程族可以除相应引发线程外不具有其他成员。将与所选择的引发线程相关联的重播操作分批用于重播并经由重播循环410将其传递到分批重播单元406。分批重播单元406经由重播循环410接收分批重播操作并将不同的重播操作插回到多线程管线400中。另外,对于涉及需要由不同线程访问的多个高速缓存线的存储器访问操作,将重播操作实现为发散操作的结果。分批重播单元406经由重播多路复用器408的输入416将多达B个重播操作连续插入多级管线400,其中B是在给定批次中可处理的重播操作的最大数量。特定批次中的重播操作串行通过多级管线400前进。一旦该批次内的重播操作到达逻辑元件404 (S-l),LSU 303就确定是否任意未服务线程保留。如果是,那么LSU 303以上述方式准备多达B个重播操作的另一个批次。重播多路复用器408选择是否允许一个或多个新指令412或者一个或多个重播操作在管线级402 (0)处进入多级管线400的。重播多路复用器408由重播指示符414所控制。最初,设置重播指示符414以选择重播多路复用器408的输入418,因此当传入的新指令412出现在重播多路复用器408的输入418时,新指令412通过重播多路复用器408的输入418传递并呈现于第一管线级402 (0)的输入处。如上所述,如果LSU 303检测到发散操作,那么可能需要一个或多个重播操作以跨所有线程完成指令。在这种情况下,LSU 303置位(assert)重播指示符414以选择重播多路复用器408的输入416。作为响应,来自分批重播单元406的一个或多个重播操作通过重播循环410进行传递并被准许通过重播多路复用器408进行传递用于在多级管线400中处理。一旦重播操作已进入多级管线400,LSU303就可移除重播指示符414,这允许新指令412再次经由重播多路复用器408的输入418进入多级管线400。一旦重播操作已经通过多级管线400得到处理之后,LSU 303就确定是否所有线程已经被服务。如果一些线程保留未服务状态,那么LSU 303置位重播操作符414,将重播操作的另一批次通过重播循环410进行传递,并之后移除重播操作符414。该过程继续直到所有线程都被服务为止,即所有线程都已执行包含存储器访问操作的指令。以下示例示出如何在示例性的多级管线400中处理分批重播操作,其中B=2。新指令412可以经由重播多路复用器408的输入418进入多级管线400。之后可以在下一个时钟周期将指令存储在管线级402 (0)中。之后可以通过产生中间结果的逻辑元件404 (0)处理指令。可以在下一个时钟周期将该中间结果存储在管线级402 (I)中。指令可以通过多级管线400前进直到指令到达管线级402 (S-1)并之后呈现给逻辑元件404 (S-1)0在多级管线400的这一级,LSU 303可能检测到指令经编程以启动存储器访问操作,诸如从共享存储器加载数据。一旦存储器访问操作已经执行,以及如果指令是发散操作,那么一些线程可以保留未服务状态。在这种情况下,LSU 303可以从仍然需要服务的线程之间选择多达两个引发线程。可以经由重播循环400将两个重播操作传输到分批重播单元406。LSU 303可以置位重播指示符414以使得可以将重播操作通过重播多路复用器408从分批重播单元406进行路由并将其存储在管线级402 (O)。可以将两个重播操作的第一个在管线级402 (0)处插入多级管线400。一个时钟周期之后,可以将第一重播存储在管线级402 (I)中,而可以将第二重播在管线级402 (0)处插入多级管线400。LSU 303可以移除重播指示符414并释放多级管线400以允许新指令412进入多级管线400。两个重播操作可以间隔一个管线级402而通过多级管线400前进直到第一重播到达逻辑元件404 (S-1)0这时LSU 303可以再次确定是否附加线程需要服务,以及如果是的话,则可以准备另一个分批重播。该过程继续直到所有线程都已经被服务为止。因此,在最大重播批次大小B=2,并且重播循环410的长度是六个管线级的情况下,不需要重播操作的存储器访问操作可以在单次传递或六个时钟周期中从管线级402(0)传递到402(S)。在需要单个重播的情况下,存储器访问操作可以在两次传递或十二个时钟周期中从管线级402 (0)传递到402 (S)。如果需要两个重播操作,那么可以在第一重播之后的一个周期将第二重播插入重播循环410,这产生了十三个时钟周期的总延迟。需要三个或四个重播操作的存储器访问操作可分别产生十八个或十九个时钟周期的延迟等等。应该理解本文所述的架构仅是示意性的并且各种变化和修改都是可能的。例如,本文所述的技术应用到具有任意长度的重播循环410的多级管线400并且不限于包括六个管线级402的重播循环410。在另一示例中,本文所述的架构呈现在流多处理器310的加载-存储单元303内的多级管线的上下文环境中。该架构可以但不限于与中央处理单元(CPU )、通用处理单元(GPU )联合采用或在任意技术可行的计算环境中采用。在另一示例中,在最大重播批次B大于2的情况下可以达到更大的效率。实际情况是,在B=S的情况下重播循环410可以被充分利用。本领域普通技术人员应该理解用于B的最佳值由重播循环410的长度S、通过多级管线400前进的指令的性质和其他因素确定。在又一示例中,通常将分批重播内的重播操作在连续的时钟周期插入多级管线400,使得批次内的相邻重播操作彼此相距一个管线级402而通过多级管线400前进。然而,连续插入可以以大于一个时钟周期的其他间隔发生。在又一示例中,本文所述的技术呈现于LSU 303的上下文环境中,但是可以应用于访问共享资源的任意多级管线400。此外,本文所述的技术假定在与存储器访问操作相关联的所有重播操作完成时释放管线。然而,多级管线400可经设计以将新指令412与重播操作交错,进一步改善性能。本文所述的技术就在线程访问存储器位置跨发散高速缓存线的情况下的跨多个线程的存储器访问操作进行了描述。该技术足够灵活以用在存在发散操作的其他应用中。在一个示例中,本文所述的技术不限于线程的执行,而可以用于可经由通过多级管线的一级或多级的多次传递来前进的任意操作。在另一示例中,线程或其他操作可以跨除高速缓存线以外的资源而发散,因此得益于分批重播操作。这类资源可以包括但不限于高速缓存标签、高速缓存数据和共享存储器。在又一示例中,本文所述的技术当线程跨一个以上高速缓存线而发散时采用重播操作。在一些应用中,多级管线可以在任意给定的传递过程中检索一个以上高速缓存线。在可能无法在多个高速缓存线被检索的单次传递中检索线程访问资源的情况下仍然可以采用分批重播操作。本领域普通技术人员应该理解引发线程可以被确定并被选择用于处理的方式。在一个示例中,可以在相同的时钟周期中确定引发线程和相应的引发线程族的总数。可以标记一个或多个线程用于在通过多级管线400的当前传递中处理而剩余线程保留未服务状态直到随后的传递。在另一示例中,可以在给定时钟周期期间选择单个引发线程。当该引发线程开始处理时,可以在接下来的时钟周期期间选择下一个引发线程,如果有的话。这样,可以按照需要每次确定一个引发线程直到所有线程都被服务为止。除这两个方法之外,可以采用选择引发线程和确定引发线程族的任意技术可行的方法。任意合理标准均可用于在已经选择多个引发线程的情况下选择特定线程用于处理。因此,可以从需要服务的线程中间随机选择引发线程。可替代地,可以基于哪个线程产生最大的引发线程族或此外以任意其他合理的方式来选择引发线程。图5为根据本发明一个实施例的用于在多级管线400中执行分批重播操作的方法步骤的流程图。尽管结合图1-4的系统描述了该方法步骤,但是本领域普通技术人员应该理解配置为按照任意顺序执行该方法步骤的任意系统均落入本发明的范围内。该方法始于步骤502,其中LSU 303接收存储器访问操作,诸如在指定地址处从共享存储器加载数据值的指令。每个线程均可经编程以从在相同或不同高速缓存线上的地址来加载数据。在步骤504,LSU 303从需要服务以完成存储器访问操作的各线程中间选择引发线程。可以基于若干标准或原则选择引发线程,所述标准或原则包括但不限于选择在具有用于特定存储器操作的最高数量的目标地址的高速缓存线上的线程。在步骤506,LSU303确定引发线程族。该引发线程族包括需要访问与同该线程族相关联的引发线程相同的高速缓存线的线程集。在一些情况下,引发线程族可以除相应引发线程之外不具有其他成员。在步骤508,LSU 303通过传送由引发线程所寻址的高速缓存线并完成针对引发线程族内的所有线程的存储器访问操作来执行针对弓I发线程族的存储器访问操作。在步骤510,LSU 303确定是否有未服务的任意剩余线程。未服务线程是尚未完成存储器访问操作的线程。如果没有线程是未服务的,那么方法终止。如果还有未服务线程,那么方法前进到步骤512,其中LSU 303从未服务线程集选择下一个引发线程。在步骤514,LSU 303确定由下一个引发线程所代表的引发线程族。在步骤516,LSU 303确定所选择的引发线程的数量是否等于B,其中B是可以在重播循环410中分批进行的重播操作的最大数量。如果已经选择了 B个线程,那么方法前进到步骤520,其中LSU 303通过将B个引发线程的集(和其族)连续地插入重播多路复用器408来执行针对该B个引发线程的集(和其族)的存储器访问操作。如果已经选择少于B个线程,那么方法前进到步骤518,其中LSU303确定是否有既没有被服务也没有被选择用于服务的附加线程。如果还有附加线程,那么方法返回步骤512,其中选择另一引发线程。如果没有附加线程剩余,那么方法前进到步骤520,其中LSU 303通过将最后的引发线程集(和其族)连续地插入重播多路复用器408来执行用于该最后的引发线程集(和其族)的存储器访问操作。在步骤520执行存储器访问操作之后,方法返回到步骤510,其中过程继续直到所有线程都已经被服务为止,此时方法终止。总而言之,所公开的技术提供用于在并行处理子系统中为发散操作执行重播操作的优化方式。具体地,流多处理器(SM) 310包括配置为经由重播循环410来分批进行两个或两个以上重播操作用于处理的多级管线400。多级管线400内的逻辑元件404检测当前管线级402是否正在访问共享资源,诸如从共享存储器加载数据。如果线程正在访问跨两个高速缓存线分布的数据,那么在通过多级管线400的第一传递过程中为第一线程族服务。需要单个重播操作来为剩余线程服务。如果线程正在访问跨两个以上高速缓存线分布的数据,那么在通过多级管线400的第一传递过程中为第一线程族服务。在这种情况下,需要两个或两个以上的重播操作来为剩余线程服务。多级管线400通过重播循环410分批进行两个或两个以上的重播操作,其中将重播操作一个接一个插入管线。如果在第一分批重播之后附加线程需要服务,那么过程继续直到所有线程被服务为止。有利地,需要两个或两个以上重播操作的发散操作伴随着减小的延迟而操作。在存储器访问操作需要传送两个以上高速缓存线来为所有线程服务的情况下,完成所有重播操作所需的时钟周期的数量减少。因为两个或两个以上的重播操作同时通过重播循环410前进,所以多级管线400被更有效地利用。此外,在重播插入点处等待进入多级管线400的新指令412体验到由重播操作导致的减小的延迟。虽然前述针对的是本发明的实施例,但是在不脱离其基本范围的情况下可以设计本发明其他和进一步的实施例,以及本发明的范围由随后的权利要求确定。
权利要求
1.一种用于重播共同资源访问操作的计算机实现的方法,所述方法包括: 从配置为在多级管线中执行指令的一组线程中选择第一线程和第二线程,其中所述第一线程和所述第二线程都还未执行所述指令; 选择第一线程集以与所述第一线程相关联; 选择第二线程集以与所述第二线程相关联; 将与所述第一线程和所述第一线程集相关联的第一重播操作插入所述多级管线以执行所述指令;以及 将与所述第二线程和所述第二线程集相关联的第二重播操作插入所述多级管线以执行所述指令,其中所述第二重播操作相对于所述第一重播操作串行插入所述多级管线。
2.根据权利要求1所述的方法,其中所述第一线程和所述第一线程集中的每个线程均配置为访问第一共同共享资源,以及所述第二线程和所述第二线程集中的每个线程均配置为访问第二共同共享资源。
3.一种用于重播共同资源访问操作的子系统,包括: 加载-存储单元(LSU),其配置为: 从配置为在多级管线中执行指令的一组线程中选择第一线程和第二线程,其中所述第一线程和所述第二线程都还未执行所述指令; 选择第一线程集以与所述第一线程相关联; 选择第二线程集以与所述第二线程相关联; 将与所述第一线程和所述第一线程集相关联的第一重播操作插入所述多级管线以执行所述指令;以及 将与所述第二线程和所述第二线程集相关联的第二重播操作插入所述多级管线以执行所述指令,其中所述第二重播操作相对于所述第一重播操作串行插入所述多级管线。
4.根据权利要求3所述的子系统,其中所述共同资源是高速缓存线。
5.根据权利要求3所述的子系统,其中所述第一线程和所述第一线程集不与所述第二线程和所述第二线程集共享共同线程。
6.根据权利要求3所述的子系统,其中所述第一线程集与所述第一线程的所述选择并发地被选择,以及所述第二线程集与所述第二线程的所述选择并发地被选择。
7.根据权利要求3所述的子系统,其中在与所述第一线程和所述第一线程集相关联的所述第一重播操作的一个管线级之后,与所述第二线程和所述第二线程集相关联的所述第二重播操作插入所述多级管线。
8.根据权利要求3所述的子 系统,其中所述第一线程和所述第一线程集中的每个线程均配置为访问第一共同共享资源,以及所述第二线程和所述第二线程集中的每个线程均配置为访问第二共同共享资源。
9.根据权利要求8所述的子系统,其中经由在所述多级管线的第一级之后的管线级,与所述第一线程和所述第一线程集相关联的所述第一重播操作以及与所述第二线程和所述第二线程集相关联的所述第二重播操作插入所述多级管线。
10.根据权利要求8所述的子系统,其中相对于与所述第二线程和所述第二线程集相关联的所述第二重播操作,第二指令串行插入所述多级管线。
全文摘要
本发明的一个实施例提出在并行处理子系统中为发散操作执行重播操作的优化方式。具体地,流多处理器(SM)包括配置为经由重播循环分批进行两个或两个以上的重播操作的多级管线。该多级管线内的逻辑元件检测是否当前的管线级正在访问共享资源,诸如从共享存储器加载数据。如果线程正在访问跨多个高速缓存线分布的数据,那么多级管线分批进行两个或两个以上的重播操作,其中将重播操作一个接一个插入管线。有利地,需要两个或两个以上重播操作的发散操作伴随着减小的延迟而操作。在存储器访问操作需要传送两个以上缓存线以服务所有线程的情况下,完成所有重播操作所需的时钟周期的数量减少。
文档编号G06F9/46GK103218253SQ201210548669
公开日2013年7月24日 申请日期2012年12月17日 优先权日2011年12月16日
发明者迈克尔·费特曼, 杰克·希莱尔·肖凯特, 奥姆卡尔·帕兰杰佩, 阿杰纳·拉杰卓, 埃里克·莱尔·希尔, 斯图尔特·格伦·卡尔顿, 拉杰史沃拉·塞尔瓦桑, 道格拉斯·J·哈恩, 史蒂文·詹姆斯·海因里希 申请人:辉达公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1