促进在计算装置上的图形处理单元的命令分组的动态并行调度的制作方法

文档序号：11935122阅读：210来源：国知局

本文描述的实施例一般涉及计算机。更具体地说，实施例涉及一种用于促进在计算装置上的图形处理单元的命令分组的动态并行调度的机制。

背景技术：

常规技术提供了在与迫使驱动逻辑在单个中央处理单元（CPU）核上执行的应用相同的线程上运行的图形驱动。在常规技术中，分派信息或命令分组被放在缓冲器（称为队列缓冲器）中，并且因为仅单个CPU线程被用于执行驱动逻辑，因此这种队列缓冲器按先进先出（FIFO）的类似顺序创建，这是低效的，因为它引起重要系统资源（诸如时间、功率等）的瓶颈和损耗。例如，由于可能存在任何数量的命令分组在队列中等待由图形驱动处理，因此处理和分派在队列中低的命令分组的总调度时间乘以在队列中在它前面等待要处理和分派的所有命令分组所花的时间量。

附图说明

实施例在附图的图形中作为示例而非作为限制图示，附图中相似的附图标记指的是类似的元素。

图1是根据实施例的数据处理系统的框图。

图2是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的实施例的框图。

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的一个实施例的框图。

图4是图形处理器的图形处理引擎的实施例的框图。

图5是图形处理器的另一实施例的框图。

图6图示了包含在图形处理引擎的一个实施例中采用的处理元素阵列的线程执行逻辑。

图7是图示根据实施例的图形处理器执行单元指令格式的框图。

图8是包含图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一实施例的框图。

图9A是图示根据实施例的图形处理器命令格式的框图，并且图9B是图示根据实施例的图形处理器命令序列的框图。

图10图示了根据实施例的数据处理系统的示范图形软件架构。

图11是根据一个实施例的采用基于图形处理单元的并行调度机制的计算装置。

图12A图示了根据一个实施例的基于图形处理单元的并行调度机制。

图12B图示了用于如图12A的并行调度机制所促进的动态命令缓冲器创建的事务序列。

图13A图示了用于如图12A的并行调度机制所促进的基于图形处理单元的并行调度的方法。

图13B图示了用于如图12A的并行调度机制所促进的基于图形处理单元的并行调度的方法。

图13C图示了用于如图12A的并行调度机制所促进的包含硬件线程同步的基于图形处理单元的并行调度的方法。

图13D图示了用于如图12A的并行调度机制所促进的包含用于资源获取的过程的基于图形处理单元的并行调度的方法。

图13E图示了用于如图12A的并行调度机制所促进的包含用于队列缓冲器解析过程的基于图形处理单元的并行调度的方法。

具体实施方式

在如下描述中，阐述了众多特定细节。然而，如本文所描述的实施例可在没有这些特定细节的情况下实践。在其它实例中，众所周知的电路、结构和技术尚未详细显示，以免模糊了对此说明书的理解。

实施例通过将图形处理单元（''GPU''）从是CPU的服务装置推进成是独立的并行调度装置而提供促进计算装置上的图形处理单元的并行命令缓冲器的动态创建和应用以允许相对于常规基于CPU的顺序的调度更有效的并行调度。在一个实施例中，驱动逻辑可从CPU域移动到GPU域，使得CPU的常规线程限制不可应用，并且相比之下，可使多个GPU线程并行工作。

另外，例如，被视为用于GPU有关的计算的工业标准应用编程接口（API）的开放计算语言（OpenCL™）（诸如OpenCL™ 2.0），提供了嵌套并行性（nested parallelism）的新图形范例，其允许内核入队（enqueue），而不必须返回到主机。嵌套并行性可用于提供具体类型问题的解决方案，其中工作的规模和量级可能只在执行工作载荷期间或者在处理节点之后已知（诸如在图遍历的情况下）。在一个实施例中，使用嵌套并行性，可在GPU并由GPU（与在CPU并由CPU相对）进行并执行动态且并行调度判定。

一些常规技术提供了仿真逻辑，但使用CPU用于控制命令执行的仿真逻辑在时间和功率方面仍都是低效的，因为其中许多昂贵的命令分组仍会通过内核模式驱动转变，并且CPU仍会不得不处理驱动逻辑。更进一步，大多数常规技术都需要给计算装置增加成本和大小的附加硬件部分。

例如，在一个实施例中，OpenCL™ 2.0可用于提供内核的直接存取和使用，而不必须涉及CPU，其采用新硬件（例如能够创建命令分组的硬件调度器）。这样，避免了在执行此类工作载荷期间主机CPU的直接涉及和干预，这防止CPU引起不必要的延迟和延时并且消耗（burn）先前的功率仅用以支持GPU执行。另外，关于向批量缓冲器写，第二级批量可用于保有各种命令并由GPU写。

实施例提供了采用用于促进命令包并行调度而不必须要求任何附加硬件的机制的GPU计算运行时间/驱动逻辑。在一个实施例中，如之前提到的，驱动逻辑可从常规CPU域移动到GPU域以从GPU的单指令多数据（SIMD）架构获益，并使用任何数量的GPU硬件线程在短时间量内处置任何量的用户入队请求。实施例提供了在时间、功率和资源等方面明显有效的技术，并且进一步提供了无缝和生效的处理路径。

概览——图1-3

图1是根据实施例的数据处理系统100的框图。数据处理系统100包含一个或多个处理器102和一个或多个图形处理器108，并且可以是单个处理器桌上型系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中，数据处理系统100是用在移动、手持或嵌入式装置中的片上系统（SOC）集成电路。

数据处理系统100的实施例可包含基于服务器的游戏平台或游戏控制台（包含游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台）或结合在其内。在一个实施例中，数据处理系统100是移动电话、智能电话、平板计算装置或移动因特网装置。数据处理系统100还可包含可穿戴装置（诸如智能手表可穿戴装置、智能眼镜装置、增强现实装置或虚拟现实装置）、与其耦合或集成在其内。在一个实施例中，数据处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒装置。

一个或多个处理器102各包含用于处理指令的一个或多个处理器核107，所述指令当执行时执行用于系统和用户软件的操作。在一个实施例中，一个或多个处理器核107中的每个都配置成处理特定指令集109。指令集109可促进复杂指令集计算（CISC）、缩减指令集计算（RISC）或经由超长指令字(VLIW)的计算。多个处理器核107各可处理不同指令集109（其可包含用于促进其它指令集仿真的指令）。处理器核107还可包含其它处理装置，诸如数字信号处理器(DSP)。

在一个实施例中，处理器102包含高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。在一个实施例中，高速缓冲存储器在处理器102的各种组分之间共享。在一个实施例中，处理器102还使用外部高速缓存（例如3级（L3）高速缓存或末级高速缓存（LLC））（未示出），其可使用已知高速缓存一致性技术在处理器核107之间共享。寄存器文件106附加地被包含在处理器102中，其可包含用于存储不同类型数据的不同类型寄存器（例如整数寄存器、浮点寄存器、状况(status)寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其它寄存器可以是对处理器102的设计特定的。

处理器102耦合到处理器总线110，以在处理器102与系统100中的其它组分之间传送数据信号。系统100使用示范“集线器”系统架构，包含存储器控制器集线器116和输入输出（I/O）控制器集线器130。存储器控制器集线器116促进存储器装置与系统100的其它组分之间的通信，同时I/O控制器集线器（ICH）130提供了经由局部I/O总线到I/O装置的连接。

存储器装置120可以是动态随机存取存储器（DRAM）装置、静态随机存取存储器（SRAM）装置、闪存装置或具有充当过程存储器的适合性能的某一其它存储器装置。存储器120可存储当处理器102执行过程时供使用的数据122和指令121。存储器控制器集线器116还与可选的外部图形处理器112耦合，其可与处理器102中的一个或多个图形处理器108通信以执行图形和媒体操作。

ICH 130使外围设备能够经由高速I/O总线连接到存储器120和处理器102。I/O外围设备包含音频控制器146、固件接口128、无线收发器126（例如Wi-Fi、蓝牙）、数据存储装置124（例如硬盘驱动器、闪存等）以及用于将传统（例如个人系统2(PS/2)）装置耦合到系统的传统I/O控制器。一个或多个通用串行总线（USB）控制器142连接输入装置，诸如键盘和鼠标144组合。网络控制器134还可耦合到ICH 130。在一个实施例中，高性能网络控制器（未示出）耦合到处理器总线110。

图2是具有一个或多个处理器核202A-N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可包含附加核（多达且包含由虚线框表示的附加核202N）。核202A-N中的每个核都包含一个或多个内部高速缓存单元204A-N。在一个实施例中，每个核还可以使用一个或多个共享高速缓存单元206。

内部高速缓存单元204A-N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包含每个核内的至少一级指令和数据高速缓存和一级或多级共享中级高速缓存，诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存，其中在外部存储器前面的最高级高速缓存被分类为末级高速缓存(LLC)。在一个实施例中，高速缓存一致性逻辑保持各种高速缓存单元206与204A-N之间的一致性。

处理器200还可包含一组一个或多个总线控制器单元216和系统代理210。一个或多个总线控制器单元管理一组外围设备总线，诸如一个或多个外围组分互连总线（例如PCI、PCI Express）。系统代理210提供各种处理器组分的管理功能性。在一个实施例中，系统代理210包含一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的存取。

在一个实施例中，核202A-N中的一个或多个包含对于同时多线程的支持。在此类实施例中，系统代理210包含用于在多线程处理期间协调和操作核202A-N的组分。系统代理210附加地可包含功率控制单元（PCU），其包含用于调节核202A-N和图形处理器208的功率状态的逻辑和组分。

处理器200附加地包含用于执行图形处理操作的图形处理器208。在一个实施例中，图形处理器208与该组共享高速缓存单元206以及包含一个或多个集成存储器控制器214的系统代理单元210耦合。在一个实施例中，显示控制器211与图形处理器208耦合以驱动到一个或多个耦合显示器的图形处理器输出。显示控制器211可以是经由至少一个互连与图形处理器耦合的单独模块，或者可集成在图形处理器208或系统代理210内。

在一个实施例中，使用基于环的互连单元212耦合处理器200的内部组分，然而可使用备选互连单元，诸如点对点互连、切换的（switched）互连或其它技术，包含本领域众所周知的技术。在一个实施例中，图形处理器208经由I/O链路213与环（ring）互连212耦合。

示范I/O链路213表示I/O互连的多个种类中的至少一个，包含促进各种处理器组分与高性能嵌入式存储器模块218（诸如eDRAM模块）之间通信的包上(on package)I/O互连。在一个实施例中，核202-N和图形处理器208中的每个都使用嵌入式存储器模块218作为共享末级高速缓存。

在一个实施例中，核202A-N是执行相同指令集架构的同质核。在另一实施例中，核202A-N在指令集架构(ISA)方面是异质的，其中核202A-N中的一个或多个执行第一指令集，而至少一个其它核执行第一指令集的子集或不同指令集。

处理器200可以是一个或多个衬底的一部分，或使用若干处理技术（例如互补金属氧化物半导体(CMOS)、双极结型/互补金属氧化物半导体(BiCMOS)或N型金属氧化物半导体逻辑(NMOS)）中的任何技术实现在其上。此外，处理器200可实现在一个或多个芯片上或作为片上系统（SOC）集成电路（除其它组分之外还具有所图示的组分）。

图3是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器300的一个实施例的框图。在一个实施例中，图形处理器通过经由到图形处理器上寄存器的存储器映射的I/O接口并经由置入处理器存储器中的命令进行通信。图形处理器300包含存储器接口314以存取存储器。存储器接口314可以是到局部存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

图形处理器300还包含显示控制器302以将显示输出数据驱动到显示装置320。显示控制器302包含用于用户界面元素或视频的多层的合成和显示器的一个或多个覆盖平面的硬件。在一个实施例中，图形处理器300包含视频编解码器引擎306以对媒体进行编码、解码或代码转换到一个或多个媒体编码格式、从一个或多个媒体编码格式进行编码、解码或代码转换或在一个或多个媒体编码格式之间进行编码、解码或代码转换，所述编码格式包含但不限于运动画面专家组（MPEG）格式（诸如MPEG-2）、高级视频译码（AVC）格式（诸如H.264/MPEG-4 AVC）以及电影与电视工程师协会(SMPTE)421M/VC-1和联合影像专家组(JPEG)格式（诸如JPEG）以及运动JPEG (MJPEG)格式。

在一个实施例中，图形处理器300包含块图像传输（BLIT）引擎304以执行二维(2D)光栅化器（rasterizer）操作，例如包含位边界块传输。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组分执行2D图形操作。图形处理引擎310是用于执行图形操作（包含三维（3D）图形操作和媒体操作）的计算引擎。

GPE 310包含用于执行3D操作的3D流水线312，诸如使用对3D原语形状（例如长方形、三角形等）起作用的处理功能渲染三维图像和场景。3D流水线312包含可编程和固定功能元素，它们在元素内执行各种任务和/或产生到3D/媒体子系统315的执行线程。虽然3D流水线312可用于执行媒体操作，但GPE 310的实施例还包含具体地说用于执行诸如视频后处理和图像增强的媒体操作的媒体流水线316。

在一个实施例中，媒体流水线316包含固定功能或可编程逻辑单元以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织（deinterlace）和视频编码加速。在一个实施例中，媒体流水线316附加地包含线程产生单元以产生线程以便在3D/媒体子系统315上执行。产生的线程在包含在3D/媒体子系统中的一个或多个图形执行单元上执行媒体操作的计算。

3D/媒体子系统315包含用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，其包含线程分派逻辑以便仲裁(arbitrate)和分派各种请求给可用的线程执行资源。执行资源包含用于处理3D和媒体线程的图形执行单元的阵列。在一个实施例中，3D/媒体子系统315包含用于线程指令和数据的一个或多个内部高速缓存。在一个实施例中，子系统还包含共享存储器(包含寄存器和可寻址存储器)以在线程之间共享数据并存储输出数据。

媒体处理-图4

图4是图形处理器的图形处理引擎410的实施例的框图。在一个实施例中，图形处理引擎(GPE)410是在图3中示出的GPE 310的版本。GPE 410包含3D流水线412和媒体流水线416，它们中的每个都可不同于或类似于图3的3D流水线312和媒体流水线316的实现。

在一个实施例中，GPE 410与命令流播器403耦合，命令流播器403向GPE 3D和媒体流水线412、416提供命令流播。命令流播器403耦合到存储器，其可以是系统存储器或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。命令流播器403从存储器接收命令，并向3D流水线412和/或媒体流水线416发送命令。3D和媒体流水线通过经由相应流水线内的逻辑执行操作或通过向执行单元阵列414分派一个或多个执行线程来处理命令。在一个实施例中，执行单元阵列414是可缩放的，使得阵列基于GPE 410的目标功率和性能等级包含可变数量的执行单元。

采样引擎430与存储器（例如高速缓冲存储器或系统存储器）和执行单元阵列414耦合。在一个实施例中，采样引擎430提供了允许执行阵列414从存储器读取图形和媒体数据的可缩放执行单元阵列414的存储器存取机制。在一个实施例中，采样引擎430包含用于执行媒体的专用图像采样操作的逻辑。

采样引擎430中的专用媒体采样逻辑包含去噪声/去交织模块432、运动估计模块434和图像缩放和滤波模块436。去噪声/去交织模块432包含用于对解码的视频数据执行去噪声或去交织算法中的一个或多个的逻辑。去交织逻辑将交织的视频内容的交替（alternating）字段组合成单个帧视频。去交织逻辑降低或移除来自视频和图像数据中的数据噪声。在一个实施例中，去噪声逻辑和去交织逻辑是运动自适应的，并基于在视频数据中检测的运动的量使用空间或时间滤波。在一个实施例中，去噪声/去交织模块432包含专用运动检测逻辑（例如在运动估计引擎434内）。

运动估计引擎434通过对视频数据执行视频加速功能（诸如运动向量估计和预测）来提供视频操作的硬件加速。运动估计引擎确定描述在接连视频帧之间的图像数据变换的运动向量。在一个实施例中，图形处理器媒体编解码器使用视频运动估计引擎434在宏块级对视频执行操作，其否则可能使用通用处理器对执行在计算上加强。在一个实施例中，运动估计引擎434一般可用于图形处理器组分以辅助视频解码和处理功能，这些功能对视频数据内的运动的方向或幅度是敏感的或自适应的。

图像缩放和滤波模块436执行图像处理操作以增强所生成的图像和视频的视觉质量。在一个实施例中，缩放和滤波模块436在向执行单元阵列414提供数据之前的采样操作期间处理图像和视频数据。

在一个实施例中，图形处理引擎410包含数据端口444，其提供图形子系统存取存储器的附加机制。数据端口444促进对于包含渲染目标写、常量缓冲器读、临时（scratch）存储器空间读/写和媒体表面存取的操作的存储器存取。在一个实施例中，数据端口444包含高速缓冲存储器空间以对存储器高速缓存存取。高速缓冲存储器可以是单个数据高速缓存，或者对于经由数据端口存取存储器的多个子系统分成多个高速缓存（例如渲染缓冲器高速缓存、常量缓冲器高速缓存等）。在一个实施例中，在执行单元阵列414中的执行单元上执行的线程通过经由耦合图形处理引擎410的每一个子系统的数据分布互连来交换消息与数据端口通信。

执行单元——图5-7

图5是图形处理器的另一实施例的框图。在一个实施例中，图形处理器包含环互连502、流水线前端504、媒体引擎537和图形核580A-N。环互连502将图形处理器耦合到其它处理单元(包含其它图形处理器或一个或多个通用处理器核)。在一个实施例中，图形处理器是集成在多核处理系统内的许多处理器中的一个。

图形处理器经由环互连502接收批量命令。传入命令由流水线前端504中的命令流播器503解释。图形处理器包含可缩放执行逻辑以经由一个或多个图形核580A-N执行3D几何处理和媒体处理。对于3D几何处理命令，命令流播器503向几何流水线536供应命令。对于至少一些媒体处理命令，命令流播器503将命令供应给视频前端534，其与媒体引擎537耦合。媒体引擎537包含用于视频和图像后处理的视频质量引擎(VQE) 530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。几何流水线536和媒体引擎537各生成用于由至少一个图形核580A提供的线程执行资源的执行线程。

图形处理器包含以模块的核580A-N（各具有多个子核550A-N、560A-N（有时称为核子切片））（有时称为核切片）为特征的可缩放线程执行资源。图形处理器可具有任何数量的图形核580A至580N。在一个实施例中，图形处理器包含至少具有第一子核550A和第二核子核560A的图形核580A。在另一实施例中，图形处理器是具有单个子核（例如550A）的低功率处理器。在一个实施例中，图形处理器包含多个图形核580A-N，各包含一组第一子核550A-N和一组第二子核560A-N。该组第一子核550A-N中的每个子核都至少包含第一组执行单元552A-N和媒体/纹理采样器554A-N。该组第二子核560A-N中的每个子核都至少包含第二组执行单元562A-N和采样器564A-N。在一个实施例中，每个子核550A-N、560A-N共享一组共享资源570A-N。在一个实施例中，共享资源包含共享高速缓冲存储器和像素操作逻辑。其它共享资源也可被包含在图形处理器的各种实施例中。

图6图示了包含在图形处理引擎的一个实施例中采用的处理元素阵列的线程执行逻辑600。在一个实施例中，线程执行逻辑600包含像素着色器602、线程分派器604、指令高速缓存606、包含多个执行单元608A-N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，所包含的组分经由链接到每一个组分的互连组构互连。线程执行逻辑600包含通过指令高速缓存606、数据端口614、采样器610和执行单元阵列608A-N中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。在一个实施例中，每个执行单元（例如608A）是能够执行多个同时线程并且对于每个线程并行处理多个数据元素的单独向量处理器。执行单元阵列608A-N包含任何数量的单独执行单元。

在一个实施例中，执行单元阵列608A-N主要用于执行“着色器”程序。在一个实施例中，阵列608A-N中的执行单元执行包含对于许多标准3D图形着色器指令的原生支持的指令集，使得用最小的转变执行来自图形库（例如Direct3D 和OpenGL）的着色器程序。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。

执行单元阵列608A-N中的每个执行单元都操作在数据元素阵列上。数据元素数量是“执行尺寸”，或者指令的通道数量。执行通道是用于数据元素存取、掩蔽和指令内流控制的执行的逻辑单元。通道数量可独立于具体图形处理器的物理ALU或FPU的数量。执行单元608 A-N支持整数和浮点数据类型。

执行单元指令集包含单指令多数据(SIMD)指令。各种数据元素可作为压缩数据类型存储在寄存器中，并且执行单元将基于元素的数据尺寸处理各种元素。例如，当操作在256位宽向量上时，向量的256位被存储在寄存器中，并且执行单元操作在向量上作为4个单独的64位压缩数据元素（四字（QW）尺寸数据元素）、8个单独的32位压缩数据元素（双字（DW）尺寸数据元素）、16个单独的16位压缩数据元素（字（W）尺寸数据元素）或32个单独的8位数据元素（字节（B）尺寸数据元素）。然而，不同的向量宽度和寄存器尺寸是可能的。

一个或多个内部指令高速缓存（例如606）被包含在线程执行逻辑600中以高速缓存执行单元的线程指令。在一个实施例中，包含一个或多个数据高速缓存（例如612）以在线程执行期间对线程数据高速缓存。包含采样器610以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一个实施例中，采样器610包含专用纹理或媒体采样功能性，以在向执行单元提供采样数据之前的采样过程期间处理纹理或媒体数据。

在执行期间，图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。线程执行逻辑600包含局部线程分派器604，其仲裁来自图形和媒体流水线的线程发起请求，并在一个或多个执行单元608A-N上例示请求的线程。例如，几何流水线（例如图5的536）向线程执行逻辑600分派顶点处理、曲面细分或几何处理线程。线程分派器604还可处理来自正在执行的着色器程序的运行时间线程产生请求。

一旦一组几何对象已经被处理并且光栅化成像素数据，则调用像素着色器602以进一步计算输出信息，并使结果被写到输出表面（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。在一个实施例中，像素着色器602计算要跨光栅化对象内插的各种顶点属性的值。像素着色器602然后执行API供应的像素着色器程序。为了执行像素着色器程序，像素着色器602经由线程分派器604向执行单元（例如608A）分派线程。像素着色器602使用采样器610中的纹理采样逻辑以存取存储在存储器中的纹理映射中的纹理数据。纹理数据和输入几何数据上的算术运算计算每个几何片段的像素颜色数据，或者从进一步处理中丢弃一个或多个像素。

在一个实施例中，数据端口614提供用于线程执行逻辑600将处理的数据输出到存储器以便在图形处理器输出流水线上进行处理的存储器存取机制。在一个实施例中，数据端口614包含或耦合到一个或多个高速缓冲存储器（例如数据高速缓存612）以高速缓存数据以便经由数据端口的存储器存取。

图7是图示根据实施例的图形处理器执行单元指令格式的框图。在一个实施例中，图形处理器执行单元支持具有以多种格式的指令的指令集。实线框图示了一般被包含在执行单元指令中的组分，而虚线包含可选的或者仅包含在指令子集中的组分。所图示和所描述的指令格式是宏指令，因为一旦指令被处理，它们则是供应给执行单元的指令，与从指令解码得到的微操作相对。

在一个实施例中，图形处理器执行单元原生（natively）支持128位格式710的指令。64位紧致（compact）指令格式730基于选择的指令、指令选项和若干操作数对于一些指令可用。原生128位格式710提供对所有指令选项的存取，而一些选项和操作被约束在64位格式730。在64位格式730中可用的原生指令按实施例变化。在一个实施例中，部分使用索引字段713中的一组索引值使指令紧致。执行单元硬件参考基于索引值的一组紧致表，并使用紧致表输出重构以128位格式710的原生指令。

对于每个格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于加指令，执行单元跨表示纹理元素或画面元素的每个颜色通道执行同时加操作。作为默认，执行单元跨操作数的所有数据通道执行每个指令。指令控制字段712实现了对某些执行选项（诸如通道选择（例如预测）和数据通道次序（例如拌和（swizzle）））的控制。对于128位指令710，执行尺寸字段716限制将并行执行的数据通道的数量。执行尺寸字段716对于在64位紧致指令格式730中的使用不可用。

一些执行单元指令具有多达3个操作数，包含2个源操作数、src0 722、src1 722和一个目的地718。在一个实施例中，执行单元支持双目的地指令，其中暗示了其中一个目的地。数据操纵指令可具有第三源操作数（例如SRC2 724），其中指令操作码JJ12确定源操作数的数量。指令的最后源操作数可以是用指令传递的立即（例如硬编码）值。

在一个实施例中，指令可基于操作码位字段进行编组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示出的精确的操作码编组是示范性的。在一个实施例中，移动和逻辑操作码组742包含数据移动和逻辑指令（例如mov、cmp）。移动和逻辑组742共享5个最高有效位（MSB），其中移动指令以0000xxxxb(例如0x0x)形式，并且逻辑指令以0001xxxxb (例如0x01)形式。流控制指令组744（例如调用，jmp）包含以0010xxxxb (例如0x20)形式的指令。混杂指令组746包含指令的混合，包含以0011xxxxb(例如0x30)形式的同步指令（例如等待、发送）。并行数学指令组748包含以0100xxxxb(例如0x40)形式的逐个分量的算术指令（例如加、乘）。并行数学组748跨数据通道并行执行算术运算。向量数学组750包含以0101xxxxb(例如0x50)形式的算术指令（例如dp4）。向量数学组执行算术，诸如在向量操作数上的点积计算。

图形流水线——图8

图8是包含图形流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870的图形处理器的另一实施例的框图。在一个实施例中，图形处理器是包含一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器通过寄存器写到一个或多个控制寄存器（未示出）或借助于经由环互连802向图形处理器发出的命令而控制。环互连802将图形处理器耦合到其它处理组分，诸如其它图形处理器或通用处理器。来自环互连的命令由命令流播器803解释，命令流播器803将指令供应给媒体流水线830或图形流水线820的各个组分。

命令流播器803指导顶点提取器（fetcher）805组分的操作，其从存储器读顶点数据，并执行由命令流播器803提供的顶点处理命令。顶点提取器805将顶点数据提供给顶点着色器807，其执行到每个顶点的协调空间变换和照亮（lighting）操作。顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852A、852B分派执行线程来执行顶点处理指令。

在一个实施例中，执行单元852A、852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。执行单元825A、852B具有附连的L1高速缓存851，其对于每个阵列都是特定的，并且在阵列之间共享。高速缓存可配置为数据高速缓存、指令高速缓存或被分割(partition)成在不同分区（partition）中含有数据和指令的单个高速缓存。

在一个实施例中，图形流水线820包含曲面细分组分以执行3D对象的硬件加速曲面细分。可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向操作，并且含有专用逻辑以基于作为图形流水线820的输入提供的粗略几何模型生成一组详细的几何对象。如果未使用曲面细分，则可旁路曲面细分组分811、813、817。

完整几何对象可由几何着色器819经由分派给执行单元852A、852B的一个或多个线程处理，或者可直接前往修剪器（clipper）829。几何着色器操作在整个几何对象上，而不是与图形流水线的先前阶段一样操作在顶点或顶点的补丁上。如果曲面细分被禁用，则几何着色器819从顶点着色器807接收输入。如果曲面细分单元被禁用，则几何着色器819由几何着色器程序可编程来执行几何曲面细分。

在光栅化之前，顶点数据由修剪器829处理，其或者是固定功能修剪器，或者是具有修剪和几何着色器功能的可编程修剪器。在一个实施例中，渲染输出流水线870中的光栅化器873分派像素着色器以将几何对象转换成它们的每像素表示。在一个实施例中，像素着色器逻辑被包含在线程执行逻辑850中。

图形引擎具有互连总线、互连组构或允许数据和消息在图形引擎的主要组分之间传递的某一其它互连机制。在一个实施例中，执行单元852A、852B和关联的高速缓存（一个或多个）851、纹理和媒体采样器854以及纹理/采样器高速缓存858经由数据端口856互连以执行存储器存取，并与图形引擎的渲染输出流水线组分通信。在一个实施例中，采样器854、高速缓存851、858和执行单元852A、852B各具有单独的存储器存取路径。

在一个实施例中，渲染输出流水线870含有光栅化器和深度测试组分873，其将基于顶点的对象转换成它们关联的基于像素的表示。在一个实施例中，光栅化器逻辑包含视窗/掩蔽器单元以执行固定功能三角形或线光栅化。在一个实施例中，关联的渲染和深度缓冲器高速缓存878、879也是可用的。像素操作组分877在数据上执行基于像素的操作，尽管在一些实例中，与2D操作关联的像素操作（例如具有混合的位块图像传输）由2D引擎841执行，或者在显示时间由显示控制器843使用覆盖显示器平面替代。在一个实施例中，共享L3高速缓存875对所有图形组分都可用，允许在不使用主要系统存储器的情况下共享数据。

图形处理器媒体流水线830包含媒体引擎337和视频前端834。在一个实施例中，视频前端834从命理流播器803接收流水线命令。然而，在一个实施例中，媒体流水线830包含单独的命令流播器。视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一个实施例中，媒体引擎包含线程产生功能性以产生经由线程分派器831分派到线程执行逻辑850的线程。

在一个实施例中，图形引擎包含显示引擎840。在一个实施例中，显示引擎840在图形处理器的外部，并经由环互连802或某一其它互连总线或组构与图形处理器耦合。显示引擎840包含2D引擎841和显示控制器843。显示引擎840含有能够独立于3D流水线操作的专用逻辑。显示控制器843与显示装置（未示出）耦合，显示装置可与膝上型计算中一样是系统集成的显示装置，或者是经由显示装置连接器附连的外部显示装置。

图形流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作，并且对任一个应用编程接口（API）都不是特定的。在一个实施例中，用于图形处理器的驱动软件将对具体图形或媒体库特定的API调用翻译成可由图形处理器处理的命令。在各种实施例中，对于由Khronos组织支持的开放图形库(OpenGL)和开放计算语言(OpenGL™)、来自微软公司的Direct3D库或者在一个实施例中OpenGL和D3D两者提供支持，也可对于开放源计算机视觉库(OpenCV)提供支持。如果可进行从将来API的流水线映射到图形处理器的流水线，则也会支持具有可兼容3D流水线的将来API。

图形流水线编程——图9A-B

图9A是图示根据实施例的图形处理器命令格式的框图，并且图9B是图示根据实施例的图形处理器命令序列的框图。图9A中的实线框图示了一般被包含在图形命令中的组分，而虚线包含可选的或者仅包含在图形命令的子集中的组分。图9A的示范性图形处理器命令格式900包含数据字段以识别命令的目标客户端902、命令操作代码（操作码）904以及针对命令的相关的数据906。在一些命令中还包含子操作码905和命令尺寸908。

客户端902规定处理命令数据的图形装置的客户端单元。在一个实施例中，图形处理器命令解析器检查每个命令的客户端字段，以调节命令的进一步处理，并将命令数据路由到适当客户端单元。在一个实施例中，图形处理器客户端单元包含存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元则读操作码904，如果存在的话，还有子操作码905，以确定要执行的操作。客户端单元使用命令的数据906字段中的信息执行命令。对于一些命令，期望明确命令尺寸908以规定命令的尺寸。在一个实施例中，命令解析器基于命令操作码自动确定至少一些命令的尺寸。在一个实施例中，命令经由双字的倍数对准。

图9B中的流程图示出了样本命令序列910。在一个实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本设立、执行和终止一组图形操作。为了示范目的示出并描述了样本命令序列，然而，实施例不限于这些命令或者这个命令序列。而且，命令可作为命令序列中的成批命令发出，使得图形处理器将以至少部分同时发生的方式处理命令序列。

样本命令序列910可开始于流水线刷新命令912，以使任何活动图形流水线都完成流水线的当前挂起的命令。在一个实施例中，3D流水线922和媒体流水线924不同时操作。执行流水线刷新以使活动图形流水线完成任何挂起的命令。响应于流水线刷新，图形处理器的命令解析器将暂停命令处理，直到活动绘图引擎完成挂起的操作，并且相关的读高速缓存无效。可选地，可对存储器刷新被标记为“脏（dirty）”的渲染高速缓存中的任何数据。流水线刷新命令912可用于流水线同步或在使图形处理器置于低功率状态之前使用。

流水线选择命令913被用在命令序列要求图形处理器在流水线之间明确地切换时。流水线选择命令913在执行上下文内在发出流水线命令之前仅要求一次，除非上下文是发出用于两个流水线的命令。在一个实施例中，就在经由流水线选择命令913的流水线切换之前要求流水线刷新命令912。

流水线控制命令914配置图形流水线以便操作，并且用于对3D流水线922和媒体流水线924编程。流水线控制命令914配置活动流水线的流水线状态。在一个实施例中，流水线控制命令914用于流水线同步，并在活动流水线内在处理一批命令之前从一个或多个高速缓冲存储器中清除数据。

返回缓冲器状态命令916用于将相应流水线的一组返回缓冲器配置成写数据。一些流水线操作要求分配、选择或配置操作在处理期间将中间数据写入的一个或多个返回缓冲器。图形处理器还使用一个或多个返回缓冲器来存储输出数据，并执行交叉线程通信。返回缓冲器状态916包含选择要用于一组流水线操作的返回缓冲器的尺寸和数量。

命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，命令序列被调整成开始于3D流水线状态930的3D流水线922，或者开始于媒体流水线状态940的媒体流水线924。

用于3D流水线状态930的命令包含用于顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D原语命令之前配置的其它状态变量的3D状态设置命令。这些命令的值至少部分基于使用中的具体3D API而确定。3D流水线状态930命令也能够有选择地禁用或旁路某些流水线元素，如果那些元素将不使用的话。

3D原语932命令用于提交3D原语以由3D流水线处理。经由3D原语932命令传递到图形处理器的命令以及关联参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3D原语932命令数据生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。3D原语932命令用于经由顶点着色器对3D原语执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

3D流水线922经由执行934命令或事件触发。在一个实施例中，寄存器写触发命令执行。在一个实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令通过图形流水线刷新命令序列来触发命令执行。3D流水线将执行3D原语的几何处理。一旦操作完成，得到的几何对象被光栅化，并且像素引擎给得到的像素上色。对于那些操作还可包含控制像素着色和像素后端操作的附加命令。

当执行媒体操作时，样本命令序列910遵循媒体流水线924路径。一般而言，媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。特定媒体解码操作可在媒体解码期间被卸载到媒体流水线。媒体流水线也可被旁路，并且媒体解码可使用由一个或多个通用处理核提供的资源全部或部分执行。在一个实施例中，媒体流水线还包含用于通用图形处理器单元(GPGPU)操作的元素，其中图形处理器用于使用与图形原语的渲染不明确有关的计算着色器程序执行SIMD向量操作。

媒体流水线924以与3D流水线922类似的方式配置。一组媒体流水线状态命令940被分派或置入命令队列中（在媒体对象命令942之前）。媒体流水线状态命令940包含用于配置将用于处理媒体对象的媒体流水线元素的数据。这包含用于配置媒体流水线内视频解码和视频编码逻辑（诸如编码和解码格式）的数据。媒体流水线状态命令940还支持将一个或多个指针用于“间接”状态元素（state element），它们含有一批状态设置。

媒体对象命令942将指针供应给媒体对象以便由媒体流水线进行处理。媒体对象包含含有要处理的视频数据的存储器缓冲器。在一个实施例中，在发出媒体对象命令942之前，所有媒体流水线状态都必须是有效的。一旦配置了流水线状态并对媒体对象命令942排队了，就经由执行934命令或等效执行事件（例如寄存器写）触发媒体流水线924。来自媒体流水线924的输出然后就可通过由3D流水线922或媒体流水线924提供的操作进行后处理。在一个实施例中，GPGPU操作以与媒体操作类似的方式配置和执行。

图形软件架构——图10

图10图示了根据实施例的数据处理系统的示范图形软件架构。软件架构包含3D图形应用1010、操作系统1020和至少一个处理器1030。处理器1030包含图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各在数据处理系统的系统存储器1050中执行。

在一个实施例中，3D图形应用1010含有包含着色器指令1012的一个或多个着色器程序。着色器语言指令可以采用高级着色器语言，诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。应用还包含用适合于由通用处理器核1034执行的机器语言的可执行指令1014。应用还包含由顶点数据定义的图形对象1016。

操作系统1020可以是来自微软公司的Microsoft® Windows®操作系统、专有UNIX样操作系统或使用Linux内核的变形的开源UNIX样的操作系统。当Direct3D API在使用时，操作系统1020使用前端着色器编译器1024将HLSL中的任何着色器指令1012编译成较低级着色器语言。编译可以是及时编译，或者应用可执行共享预先编译。在一个实施例中，高级着色器在编译3D图形应用1010期间被编译成低级着色器。

用户模式图形驱动1026可含有后端着色器编译器1027以将着色器指令1012转换成硬件特定表示。当OpenGL API在使用时，用GLSL高级语言中的着色器指令1012被传递到用户模式图形驱动1026进行编译。用户模式图形驱动使用操作系统内核模式功能1028与内核模式图形驱动1029通信。内核模式图形驱动1029与图形处理器1032通信以分派命令和指令。

某种程度上，本文描述了各种操作或功能，它们可描述或者定义为硬件电路、软件代码、指令、配置和/或数据。在用于特定处理器或图形核的指令集中，内容可用硬件逻辑实施，或者实施为直接可执行软件（“对象”或“可执行”形式）、源代码、对于在图形引擎上的执行设计的高级着色器代码或者低级汇编语言代码。本文描述的实施例的软件内容可经由制品（将要内容存储在其上）或经由操作通信接口以经由通信接口发送数据的方法提供。

非暂时性机器可读存储介质可使机器执行所描述的功能或操作，并且包含存储以机器（例如计算装置、电子系统等）可存取形式的信息的任何机制，诸如可记录/不可记录媒体（例如只读存储器（ROM）、随机存取存储器（RAM）、磁盘存储媒体、光存储媒体、闪存装置等）。通信接口包含与任何硬连线、无线、光学等介质对接以与另一装置（诸如存储器总线接口、处理器总线接口、因特网连接、盘控制器等）通信的任何机制。通信接口通过提供配置参数或发送信号以准备通信接口提供描述软件内容的数据信号来提供。通信接口可经由发送到通信接口的一个或更多个命令或信号存取。

所描述的各种组分可以是用于执行所描述的操作或功能的部件。本文描述的每个部件都包含软件、硬件或这些的组合。组分可实现为软件模块、硬件模块、专用硬件（例如应用特定硬件、专用集成电路（ASIC）、数字信号处理器（DSP）等）、嵌入式控制器、硬连线电路等。除了本文所描述的内容以外，可对所公开的本发明的实施例和实现进行各种修改，而并不脱离它们的范围。因此，本文的图示和示例应该以说明性的，而非约束性意义来解释。本发明的范围应该仅参考如下权利要求进行度量。

图11图示根据一个实施例的采用基于图形处理单元的并行调度机制1110的计算装置1100。计算装置1100（例如移动计算装置）可以与图1的数据处理系统100相同，并且因而，为了理解的简洁和容易，上面参考图1-10叙述的其中许多细节在此不进一步论述或重复。计算装置1100可包含移动计算装置（例如智能电话、平板计算机、膝上型电脑、游戏控制台、便携式工作站等），其充当用于托管用于促进命令包（也称为“命令分组”、“分组”、“包”或简单地称为“命令”）的基于动态图形域的并行调度的基于GPU的并行调度机制（“并行调度机制”）1110的主机机器。并行调度机制1110可包含任何数量和类型的组分，以执行各种任务以促进各种计算装置中（诸如在计算装置1100的GPU 1114）的有效的基于GPU的并行调度，如将在此文档通篇进一步描述的。要指出的是，在此文档通篇，术语“图形域”可与“图形处理单元”或简单地“GPU”可互换地提及，并且类似地，“CPU域”或“主机域”可与“计算机处理单元”或简单地“CPU”可互换地提及。

计算装置1100可包含任何数量和类型的通信装置，诸如大型计算系统，诸如服务器计算机、桌上型计算机等，并且可进一步包含机顶盒（例如基于因特网的有线电视机顶盒等）、基于全球定位系统（GPS）的装置等。计算装置1100可包含充当通信装置的移动计算装置，诸如蜂窝电话，包含智能电话（例如Apple®的iPhone®、Research in Motion®的BlackBerry®等）、个人数字助理（PDA）、平板计算机（例如Apple®的iPad®、Samsung®的Galaxy 3®等）、膝上型计算机（例如笔记本、上网本、Ultrabook™系统等）、电子阅读器（例如Amazon®的Kindle®、Barnes and Nobles®的Nook®等）、智能电视、电视平台、可穿戴装置（例如手表、腕带、智能卡、首饰、衣物等）、媒体播放器等。例如，在一个实施例中，计算装置1100可包含移动计算装置，其采用集成电路（"IC"）（诸如片上系统("SoC"或"SOC")）（其将计算装置1100的各种硬件和/或软件组分集成在单个芯片上）。

如所图示的，在一个实施例中，除了采用并行调度机制1110以外，计算装置1100可进一步包含任何数量和类型的硬件组分和/或软件组分，诸如（但不限于）CPU 1112、具有托管并行调度机制1110的图形驱动逻辑1116的GPU 1114、存储器1108、网络装置、驱动等，以及输入/输出（I/O）源1104，诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等。计算装置1100可包含充当用户和计算装置1100的硬件和/或物理资源之间接口的操作系统(OS) 1106。预见的是，CPU 1112可包含一个或多个处理器，诸如图1的处理器（一个或多个）102，而GPU 1114可包含一个或多个图形处理器，诸如图1的图形处理器（一个或多个）108。在一个实施例中，并且如将参考随后附图进一步描述的，并行调度机制1110可与其主机驱动逻辑1116通信，主机驱动逻辑1116与GPU 1114协作以促进任何数量和类型的任务（其促进命令的基于GPU的并行调度），如通过此文档描述的。

要指出，像“节点”、“计算节点”、“服务器”、“服务器装置”、“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机机器”、“装置”、“计算装置”、“计算机”、“计算系统”等术语在此文档通篇可互换使用。要进一步指出，像“应用”、“软件应用”、“程序”、“软件程序”、“包（package）”、“软件包”等术语在此文档通篇可互换使用。还有，像“工作”、“输入”、“请求”、“消息”等术语在此文档通篇可互换使用。

可以预见的，并且如参考图1-10进一步描述的，如上面所描述的图形流水线的一些过程用软件实现，而其余过程用硬件实现。图形流水线可实现在图形协处理器设计中，其中CPU 1112设计成与GPU 1114一起工作，GPU 1114可包含在CPU 1112中或与其协同定位。在一个实施例中，GPU 1114可采用任何数量和类型的常规软件和硬件逻辑来执行与图形渲染有关的常规功能，以及采用新颖的软件和硬件逻辑来执行任何数量和类型的指令（诸如图1的指令121），以执行如此文档通篇所公开的并行调度机制1110的各种新颖功能。

如前面所提到的，存储器1108可包含包括具有对象信息的应用数据库的随机存取存储器（RAM）。存储器控制器集线器（诸如图1的存储器控制器集线器116）可存取RAM中的数据，并将它转发到GPU 1114用于图形流水线处理。RAM可包含双数据速率RAM(DDR RAM)、扩展的数据输出RAM(EDO RAM)等。CPU 1112与硬件图形流水线交互，如参考图3所图示的，以共享图形流水线功能性。处理的数据被存储在硬件图形流水线中的缓冲器中，并且状态信息被存储在存储器1108中。得到的图像然后被传送到显示组分或装置（诸如图3的显示装置320）用于显示。预见的是，显示装置可以是各种类型（诸如阴极射线管（CRT）、薄膜晶体管（TFT）、液晶显示器（LCD）、有机发光二极管（OLED）阵列等）以向用户显示信息。

存储器1108可包括缓冲器（例如帧缓冲器）的预先分配的区域；然而，本领域技术人员应该理解，实施例不如此限制，并且对较低图形流水线可存取的任何存储器都可使用。计算装置1100可进一步包含如在图1中所提及的输入/输出（I/O）控制集线器（ICH）130、一个或更多个I/O装置等。

CPU 1112可包含执行指令的一个或更多个处理器以便执行计算系统实现的任何软件例程。指令频繁地涉及对数据执行的某种操作。数据和指令都可以存储在系统存储器1108和任何关联的高速缓存中。高速缓存通常设计成比系统存储器1108具有更短的延时时间；例如，高速缓存可被集成到与处理器（一个或多个）相同的硅芯片（一个或多个）上，和/或用较快的静态RAM(SRAM)单元构造，同时系统存储器1108可能用较慢的动态RAM(DRAM)单元构造。通过倾向于将更频繁使用的指令和数据存储在高速缓存中（如与系统存储器1108相对），计算装置1100的总体性能效率改进了。预见的是，在一些实施例中，GPU 1114可以作为CPU 1112的一部分（诸如物理CPU包的一部分）存在，在此情况下，存储器1108可由CPU 1112和GPU 1114共享，或保持分开。

可使系统存储器1108对于计算装置1100内的其它组分可用。例如，从计算装置1100的各种接口（例如键盘和鼠标、打印机端口、局域网（LAN）端口、调制解调器端口等）接收的或者从计算装置1100的内部存储元素（例如硬盘驱动器）中检索的任何数据（例如输入图形数据）在它们由一个或更多个处理器（一个或多个）在实现软件程序时被操作之前，经常被暂时排队进入系统存储器1108中。类似地，软件程序确定应该从计算装置1100通过计算系统接口之一发送到外面实体或者存储到内部存储元素中的数据在其被传送或存储之前，经常被暂时排队进入系统存储器1108中。

另外，例如，ICH（诸如图1的ICH 130）可用于确保此类数据被恰当地在系统存储器1108与其适当的对应计算系统接口（以及内部存储装置，如果计算系统如此设计的话）之间传递，并且可在它自身与观测的I/O装置之间具有双向点对点链接。类似地，MCH（诸如图1的MCH 116）可用于管理对于在可在时间上相对于彼此近似出现的CPU 1112和GPU 1114、接口和内部存储元素之间的系统存储器1108存取的各种竞争请求。

I/O资源1104可包含一个或更多个I/O装置，它们实现用于向和/或从计算装置1100（例如连网适配器）传送数据；或者用于计算装置1100内的大规模非易失性存储装置（例如硬盘驱动器）。用户输入装置，包含字母数字和其它键，可用于向GPU 1114传递信息和命令选择。另一种类型用户输入装置是光标控制，诸如鼠标、跟踪球、触摸屏、触摸板或光标方向键，以向GPU 1114传递方向信息和命令选择，并控制显示装置上的光标移动。可采用计算机装置1100的相机和麦克风阵列来观测手势、记录音频和视频并接收和传送视觉和音频命令。

计算装置1100可进一步包含网络接口（一个或多个），以提供对网络（诸如LAN、广域网（WAN）、城域网（MAN）、个域网（PAN）、蓝牙、云网络、移动网络（例如第三代(3G)等）、内联网、因特网等）的访问。网络接口（一个或多个）例如可包含具有天线的无线网络接口，天线可表示一个或更多个天线。网络接口（一个或多个）例如也可包含有线网络接口以经由网络电缆与远程装置通信，网络电缆例如可以是以太网电缆、同轴电缆、光纤电缆、串行电缆或并行电缆。

网络接口（一个或多个）例如可通过遵照IEEE 802.11b和/或IEEE 802.11g标准来提供对LAN的访问，和/或无线网络接口例如可通过遵照蓝牙标准来提供对个域网的访问。也可支持其它无线网络接口和/或协议，包含标准的先前版本和随后版本。除了经由无线LAN标准的通信之外或者作为其替代，网络接口（一个或多个）例如可使用时分多址（TDMA）协议、全球移动通信系统（GSM）协议、码分多址（CDMA）协议和/或任何其它类型的无线通信协议提供无线通信。

网络接口（一个或多个）可包含一个或更多个通信接口，诸如调制解调器、网络接口卡或其它众所周知的接口装置（诸如用于耦合到以太网、令牌环的那些）或其它类型物理有线或无线附件（用于提供例如支持LAN或WAN的通信链路的接口装置的目的）。以此方式，计算机系统还可经由常规网络基础设施（例如包含内联网或因特网）耦合到若干外围装置、客户端、控制面、控制台或者服务器。

要认识到，比上面描述的示例更少或更多配备的系统可能对于某些实现是优选的。因此，计算装置1100的配置可取决于众多因素（诸如价格限制、性能要求、技术上的改进或者其它境况）从实现到实现而变化。电子装置或计算机系统1100的示例可包含（而不限制）移动装置、个人数字助理、移动计算装置、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息传递装置、计算机、个人计算机（PC）、桌上型计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器农场、万维网服务器、网络服务器、因特网服务器、工作站、迷你计算机、主框架计算机、超级计算机、网络设施、万维网设施、分布式计算系统、微处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥、交换机、机器或其组合。

实施例可实现为如下任一项或其组合：使用母板（parentboard）互连的一个或更多个微芯片或集成电路、硬连线逻辑、由存储器装置存储并由微处理器执行的软件、固件、专用集成电路（ASIC）和/或现场可编程门阵列（FPGA）。术语“逻辑”作为示例可包含软件或硬件和/或软件和硬件的组合。

实施例例如可作为计算机程序产品提供，其可包含一个或更多个机器可读媒体（其上存储了机器可执行指令），所述指令当由一个或更多个机器诸如计算机、计算机网络或其它电子装置执行时可导致一个或更多个机器执行按照本文描述的实施例的操作。机器可读介质可包含但不限于软盘、光盘、CD-ROM（光盘只读存储器）和磁光盘、ROM、RAM、EPROM（可擦除可编程只读存储器）、EEPROM（电可擦除可编程只读存储器）、磁卡或光卡、闪存或者适合于存储机器可执行指令的其它类型媒体/机器可读介质。

此外，实施例可作为计算机程序产品下载，其中程序可通过包含在载波或其它传播介质中的和/或由其调制的一个或更多个数据信号，经由通信链路（例如调制解调器和/或网络连接）从远程计算机（例如服务器）传输到请求计算机（例如客户端）。

图12A图示了根据一个实施例的基于图形处理单元的并行调度机制1110。在一个实施例中，并行调度机制1110可包含任何数量和类型的组分以执行与促进在计算装置（诸如图11的计算装置1100）的基于GPU的命令包的并行调度有关的各种任务。例如，并且在一个实施例中，并行调度机制1110可包含（但不限于）：检测和验证逻辑1202；包含局部同步逻辑1206和全局同步逻辑1208的同步引擎1204；包含解析逻辑1212的并行调度引擎1210、命令缓冲器生成逻辑1214、资源管理逻辑1216和调度与处理逻辑1218；以及通信/兼容性逻辑1220。进一步图示，并且如参考图11前面所提到的，并行调度机制1110可以是驱动逻辑1116的一部分，驱动逻辑1116与GPU 1114协作，GPU 1114又促进与基于GPU的并行调度有关的一个或多个任务的性能。

在一个实施例中，检测和验证逻辑1202用于检测和/或验证由内核（诸如子内核）添加的每个新的（或存储的）命令，诸如图12B的命令1252A-1252N。预见的是，新命令可以是之前存储的命令，其现在准备进行处理，并且相应地，检测和验证逻辑1202也可用于检测和/或验证一个或多个事件和/或它们的事件状况，其中事件要在处理对应命令之前处置，如参考图13B进一步描述的。

在检测和/或验证事件、新的/存储的命令等时，在一个实施例中，同步引擎1204被触发以促进与各种组分有关的同步过程，诸如GPU硬件线程，如参考图13B所图示的。另外，例如，同步引擎1204可包含：局部同步逻辑1206，用以促进与每个工作组内的同步，诸如通过触发可由硬件直接支持的障壁(barrier)函数调用：以及全局同步逻辑1208，用以促进跨多个工作组的同步，而不必须采用专用硬件资产，如参考图13C进一步图示的。

在一个实施例中，并行调度引擎1210的解析逻辑1212可用于解析队列缓冲器的内容，并与命令缓冲器生成逻辑1214一起工作以便生成GPU命令缓冲器，诸如图12B的命令缓冲器1256A-1256N，如参考图13B和13E进一步描述的。例如，内容的解析可包含检查以确定命令是否有效，并且然后，进一步检查以确定是否命令的所有事件相关性（dependency）都满足，因为如果此类事件相关性不满足，则当时可能未处理该命令。

而且，在一个实施例中，资源管理逻辑1216可用于确保，必要的资源被及时且充分地获取以及分布以及甚至放弃，以促进命令的有效且无缝并行调度。例如，并且如参考图13D所图示的，当在GPU 1114上执行工作载荷时可能需要任何数量和类型的资源，其中此类资源可包含（但不限于）可执行代码、缓冲器和图像、堆、命令缓冲器等。

在一个实施例中，资源管理逻辑1216促进所有必要资源的获取，并且随后执行这些资源跨多个客户端内核调用的分布和指配，诸如，命令缓冲器空间可被获取用于命令，然后适当地（诸如在其大小、适时性等方面）指配给该命令，使得该命令可以是无缝的，并且在运行时间上，与和其它命令缓冲器关联的其它命令并行处理。另外，在一个实施例中，处理任何数量和类型的命令并且分派与此类命令关联的数据可由调度和处理逻辑1218促进。

通信/兼容性逻辑1220可用于促进一个或多个计算装置（诸如图11的计算装置1100）与任何数量和类型的其它计算装置（诸如移动计算装置、桌上型计算机、服务器计算装置等）、处理装置（诸如中央处理单元（CPU）、图形处理单元（GPU）等）、图像捕获装置（诸如相机）、显示元素（诸如显示组分、显示装置、显示屏等）、用户/上下文感知组分和/或识别/验证传感器/装置（诸如生物传感器/检测器、扫描仪等）、存储器或存储装置、数据库和/或数据源（诸如数据存储装置、硬驱、固态驱动器、硬盘、存储卡或装置、存储器电路等）、网络（例如云网络、因特网、内联网、蜂窝网络、接近网络诸如蓝牙、蓝牙低能（BLE）、蓝牙智能、Wi-Fi接近、射频识别（RFID）、近场通信（NFC）、体域网（BAN）等）、无线或有线通信以及相关的协议（例如Wi-Fi®、WiMAX、以太网等）、连接性和位置管理技术、软件应用/网站（例如社交和/或商业连网网站，诸如Facebook®、Linkedln®、Google+®、Twitter®等、商业应用、游戏以及其它娱乐应用等）、编程语言等之间的动态通信和兼容性，同时确保与改变的技术、参数、协议、标准等的兼容性。

在此文档通篇，像“逻辑”、“组分”、“模块”、“框架”、“引擎”等术语可互换提及，并且作为示例包含软件、硬件和/或软件和硬件的任何组合，诸如固件。另外，具体品牌、字、术语、短语、名称和/或缩写的任何使用，诸如“GPU”、“GPU域”、“CPU”、“CPU域”、“线程”、“缓冲器”、“命令”、“并行”、“调度”、“嵌套并行性”、“同步”、“OpenCL™”、“内核”、“障壁”等不应该被解读成将实施例局限于在产品中或在此文档外部的文献中携带该标签的软件或装置。

预见的是，任何数量和类型的组分都可被添加到并行调度机制1110，和/或从中移除，以促进各种实施例，包含添加、移除和/或增强某些特征。为了理解并行调度机制1110的简洁、清楚和容易，许多标准和/或已知组分（诸如计算装置的那些组分）在此未显示或论述。预见的是，如本文所描述的实施例不限于任何具体技术、拓扑、系统、架构和/或标准，并且足够动态以采纳和适应于任何将来改变。

图12B图示了用于如图12 A的并行调度机制1110所促进的动态命令缓冲器创建的事务序列。在一个实施例中，对于GPU友好环境，可通过让充当并行调度器的驱动逻辑1116主机并行调度机制1110支持驱动代码GPU架构，来调整图11的GPU 1114的驱动逻辑1116。例如，使用OpenCL™，并行工作可被分成共享局部存储器的任何数量的局部工作组，其中每个工作组可含有固定数量的工作项目，具有由一个或多个局部函数（例如get_local_id）和/或一个或多个全局函数（例如get_global_id）获得的专用工作项目标识（identification）（id），使得并行性通过创建工作在跨局部工作组共享数据的多个工作项目上的算法达成。

在一个实施例中，一个或多个专用机制可被提供用于促进写并行代码（诸如共享局部存储器），其可以是例如可直接用在OpenCL内核中的L3高速缓存的一部分。类似地，例如，并行调度机制1110包含用于工作组内跨多个硬件线程1254A-1254N同步的同步引擎1204（如由障壁函数调用进一步达成和支持的）。而且，一个或多个命令（诸如GPGPU_ WALKER）可用于产生跨多个GPU执行单元的多个硬件线程1254A-1254N。

在常规技术中，仅使用单个常规CPU线程，其负责一次处理一个命令，并且从而为了服务于这个命令，采用顺序驱动，其不能够接受新命令，直到新命令之前的所有老命令/挂起命令完全被处理并且分派。

相比之下，如所图示的，在一个实施例中，可使用多个基于GPU的线程1254A-1254N同时或者并行分派几个命令1252A-1252N，如并行调度机制1110的各种组分所促进的，如参考图12A和图13A-E进一步描述的。预见的是，多个工作项形成局部工作组，其中多个工作组形成总执行域。在一个实施例中，可生成大命令缓冲器，使得可并行并且作为这个大命令缓冲器的部分，生成任何数量的命令信息分派1256A-1256N。例如，在图示的实施例中，多个GPU线程1254A-1254N被选择并行用于命令1252A-1252N，并且进一步，并行创建命令信息分派1256A-1256N，其中每个线程（诸如GPU线程6 1245N）可使用它自己的专用空间用于写和处理新命令（诸如命令6 1252N），而不必须等待命令（命令1-5 1252A-1252E）前面的其它任何命令的处理结束，其可继续并行处理，而对于新处理，调度并接受新命令6 1252N。换言之，这意味着，对于GPU命令缓冲器创建需要的总时间按可用线程（诸如与命令信息分派256A-1256N对应的线程1254A-1254N）的数量划分，这显著降低了处理时间，并且因此降低了其它系统资源（诸如功率、存储器等）的使用。

图13A图示了用于如图12A的并行调度机制1110所促进的基于图形处理单元的并行调度的方法1300。方法1300可由处理逻辑执行，处理逻辑可包括硬件（例如电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。在一个实施例中，方法1300可由图12A的并行调度机制1110执行。方法1300的过程为了呈现方面的简洁和清楚起见按线性顺序图示；然而，预见的是，任何数量的它们可并行、异步或按不同次序执行。为了简洁起见，参考前面附图论述的其中许多细节后文可以不论述或重复。

如所图示的，方法1300在框1301以解决相关性开始，诸如检查在处理任何命令之前需要解决的任何事件的状况，并且进一步检查以确定已经完成它们的处理的任何命令，如参考图13B所进一步图示的。在框1302过程以检查以确定是否已经添加了任何新工作/命令继续，诸如检查已经被添加到队列缓冲器的任何新的子内核。在框1303，找到下一内核，诸如通过浏览内部结构以确定一个或多个子内核是否准备好执行。在框1304，命令被调度并分派以便经由它们的对应命令缓冲器处理，诸如，当对应状态为它们做好准备时，调度并处理子内核。在框1305，过程以处理任何挂起作业/命令的结束并且没有任何新作业/命令而结束。然而，预见的是，如果检测到新作业/命令，则该过程可继续。

图13B图示了用于如图12A的并行调度机制1110所促进的基于图形处理单元的并行调度的方法1310。方法1310可由处理逻辑执行，处理逻辑可包括硬件（例如电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。在一个实施例中，方法1310可由图12A的并行调度机制1110执行。方法1310的过程为了呈现方面的简洁和清楚起见按线性顺序图示；然而，预见的是，任何数量的它们可并行、异步或按不同次序执行。为了简洁起见，参考前面附图论述的许多细节后文可以不论述或重复。

在框1311，方法1310以发起并行调度过程开始。在框1312，进行有关是否存在要更新的事件的确定。例如，每个命令可与任何对应事件的使用同步，其中每个命令可返回事件、其反映执行状况，并且当调度另一命令时，每个事件可作为输入传递。换言之，直到给定事件完成，其对应命令都可以不被视为完成，并且并不是等待这个事件完成的所有命令都可能准备好运行。相应地，在一个实施例中，如果存在任何事件要更新，则在框1313更新它们的事件状况，并且在框1314同步所有对应的GPU硬件线程。当在框1314同步硬件线程时，或者另一方面，如果没有事件要更新，则在框1315过程继续，在此进行确定是否存在任何新的命令准备好处理。

预见的是，1315中的新命令可包含由子内核新添加的命令。在一个实施例中，在框1315，对于队列缓冲器上的任何新命令执行检查，并且如果存在任何新命令，则在框1316，在此在队列缓冲器处理它们，这意味着，执行检查事件相关性，并且如果不存在事件相关性，或者它们被视为已经被解决，则对于那些命令生成命令缓冲器。相比之下，如果事件相关性存在并且不满足和/或充分资源不可用，则命令被移动到存储装置。相应地，如果有新命令被添加并且其事件相关性满足，则获取所有必要的和/或相关的资源（例如可执行代码、缓冲器和图像、存储器堆、命令缓冲器等），并创建命令缓冲器，并且在框1317同步所有对应的GPU硬件线程。当在框1317同步硬件线程时，或者另一方面，如果没有新命令，则在框1318过程继续，在此进行确定是否存在准备好要处理的任何存储的命令。

如所前面所提到的，可能存在未被视为纯新的但它们之前是新的并且然后存储用于随后出于任何数量和类型的原因而处理的命令，诸如在命令可被处理之前它们的事件不得不更新或完成，并且相应地，当相关的原因已经解决（诸如对应事件已经完成）时，此类存储的命令在一点可能准备好要处理。换言之，在一个实施例中，在当新命令可能未准备好运行时（诸如当它取决于另一基本/父命令时，其处理仍待完成或者由于缺乏足够资源要立刻调度新命令等）的情形下，新命令在那些情形下可被移动到存储介质，并且存储在那儿进行解析，并且随后处理（诸如当基本命令已经被处理或者已经使足够资源可用等）。

在一个实施例中，如果存在准备好要处理的任何存储的命令，则在框1319，那些命令从存储装置（例如数据库或其它存储介质）获得，并发送到它们的对应命令缓冲器进行处理，并且在框3120，同步所有对应的GPU硬件线程。当在框1320同步硬件线程时，或者另一方面，如果没有存储的命令要处理，则在框1321过程以清除区段结束检查继续，诸如回收、调度器自入队等，并且然后在框1322过程结束。进一步预见，存储在存储装置中的那些命令，在它们能被处理之前，还可能不得不检查事件相关性和资源可用性。

图13C图示了用于如图12A的并行调度机制1110所促进的包含硬件线程同步的基于图形处理单元的并行调度的方法1330。方法1330可由处理逻辑执行，处理逻辑可包括硬件（例如电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。在一个实施例中，方法1330可由图12A的并行调度机制1110执行。方法1330的过程为了呈现方面的简洁和清楚起见按线性顺序图示；然而，预见的是，任何数量的它们可并行、异步或按不同次序执行。为了简洁起见，参考前面附图论述的许多细节后文可以不论述或重复。

如上面关于图12A所提到的，硬件线程的同步可局部执行（诸如在每个工作组内），其可通过障壁函数调用（或简单地“障壁”）达成，并且如可由计算装置的现有硬件直接支持的。在一个实施例中，硬件线程的同步也可全局执行，诸如跨多个工作组，其可以在没有对于新硬件资产的任何需要的情况下并使用方法1330的一个或多个过程达成。在框1331，方法1330以过程的开始而开始，其中在框1332所有硬件线程（例如GPU硬件线程）可能需要在继续任何工作组信号之前击中(hit)障壁。

在框1333，在一个实施例中，进行关于局部id是否等于零0的确定。如果是，则局部id确实等于0，在框1334，取决于组id（例如get_group_id），过程继续在同步表面上写信号位。例如，并且在一个实施例中，一个工作项目可以写反映这个工作组已经击中全局同步点的信号状态，其中同步表面可具有用于每个工作组的单独空间以写信号状态。一旦框1334的过程完成，或者如果局部id不等于0，则过程在框1335继续，其中进行关于组id是否等于控制或者控制工作组（例如CONTROL_GROUP）的确定。例如，可能存在专用工作组，其等待直到所有其它工作组都已经写了它们的信号标记。

如果是，组id等于control_group，则在框1336，进行关于是否已经发信号通知了所有其它工作组的另一确定。如果未发信号通知，则过程在循环中提供框1336继续，以继续确定是否已经发信号通知了所有其它工作组。如果是，已经发信号通知了所有其它工作组，则在框1337触发障壁，并且在框1338，对于所有工作组都将同步都设置成go状态。例如，并且在一个实施例中，当控制工作组检测到所有其它工作组都已经置（put）信号状态时，它可将所有状态改变成go状态，这可意味着，所有工作组都被同步，并且可继续以便进一步处理。

在框1338，一旦同步表面对于所有工作组都设置成go状态，或者参考回框1335，如果组id不等于control_group，则在框1339，过程可继续关于局部id是否等于0的另一确定。如果局部id不等于0，则在框1341触发另一障壁，并且在框1342过程结束。

例如，并且在一个实施例中，如果它们工作组内的所有硬件线程都击中这个障壁，则它可意味着，同步过程已经完成并且结束。然而，如果局部id等于0，则框1340该过程可以以关于工作组信号是否准备好该过程继续的另一确定而继续。例如，并且在一个实施例中，所有工作组都可等待直到控制组改变这个工作组的专用状态从发信号通知到go。如果该状态未准备好，或者不是go，或者仍保持发信号通知，则过程可在循环中通过框1340继续。另一方面，如果状态已经改变成go，则该过程可在框1341以触发另一障壁继续，并且在框1342，过程结束。在另一实施例中，工作组可含有多个工作项目，其中每个项目具有单独的局部id。另外，障壁函数可同步工作组内的所有工作项目，这意味着，无论何时工作项目击中障壁，然后硬件都可确保这个具体工作项目不进一步继续，除非工作组内的所有其它工作项目也已经击中障壁。换言之，例如，如果仅一个具有局部id 0的工作项目在循环中等待，则所有其它工作项目在继续之前，也可以在障壁上等待这个工作项目。

图13D图示了用于如图12A的并行调度机制1110所促进的包含资源获取过程的基于图形处理单元的并行调度的方法1350。方法1350可由处理逻辑执行，处理逻辑可包括硬件（例如电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。在一个实施例中，方法1350可由图12A的并行调度机制1110执行。方法1350的过程为了呈现方面的简洁和清楚起见按线性顺序图示；然而，预见的是，任何数量的它们可并行、异步或按不同次序执行。为了简洁起见，参考前面附图论述的其中许多细节后文可以不论述或重复。

在一个实施例中，GPU的驱动逻辑（诸如图12A的GPU 1114的1116的驱动逻辑）可能需要获取并释放资源，使得可在GPU上执行命令/工作载荷的无缝且动态并行调度。例如，如前面所提到的，这些资源可包含任何数量和类型的组分，诸如（但不限于）执行代码、缓冲器和图像、堆、命令缓冲器等。在一个实施例中，方法1350提供了若干过程以促进任何数量和类型的资源在多个客户端内核调用上的获取、分布和/或放弃以促进命令的基于GPU的并行调度。

在框1351方法1350以发起资源获取和分布的过程开始。在框1352，继续关于局部id是否等于零0的确定。如果局部id等于0，则在框1353，可使用原子操作获取任何数量或类型的资源。在框1354，继续关于是否已经获取资源的另一确定。例如，并且在一个实施例中，工作组的所有其它工作项目都可在障壁上等待框1353的操作结果。如果成功获取了资源，则在框1355，与获取的资源有关的任何信息都被转发到局部存储器。该信息可识别获取的资源，并且包含与如何使用获取的资源等有关的数据。然而，如果未获取资源，则在框1356，故障状况被转发到局部存储器。

在一个实施例中，在完成框1355和1356的过程或者参考回框1352之后，如果局部id等于0，则在框1357，障壁被触发并且遇到。这个障壁确保，来自工作组的所有工作项目都已经更新了局部存储器中的信息。在遇到障壁时，在框1358，继续关于是否已经获取资源的另一确定。如果已经获取了资源，则在框1359，基于在局部存储的更新的信息分布和使用获取的资源，并且随后，在框1361过程结束。另一方面，如果未获取资源，则在框1360，在工作的任何工作项目上都不使用资源，并且随后，在框1361过程结束。

图13E图示了用于如图12A的并行调度机制1110所促进的包含用于队列缓冲器解析过程的基于图形处理单元的并行调度的方法1370。方法1370可由处理逻辑执行，处理逻辑可包括硬件（例如电路、专用逻辑、可编程逻辑等）、软件（诸如在处理装置上运行的指令）或其组合。在一个实施例中，方法1370可由图12A的并行调度机制1110执行。方法1370的过程为了呈现方面的简洁和清楚起见按线性顺序图示；然而，预见的是，任何数量的它们可并行、异步或按不同次序执行。为了简洁起见，参考前面附图论述的其中许多细节后文可以不论述或重复。

在框1371方法1370可以发起用于解析队列缓冲器的过程而开始。在一个实施例中，新命令分组可驻留在队列缓冲器中，其中使用如在方法1370的各种过程中所提供的GPU线程解析缓冲器。在一个实施例中，在框1372，基于工作组id，计算队列缓冲器的初始偏移。在框1373，继续关于是否存在用于其对应计算的初始偏移的命令进的确定。如果不存在对应于偏移的命令，则过程可在框1374结束。在一个实施例中，如果存在对应于初始偏移的命令，则在框1375，取决于计算的偏移获得命令。

在一个实施例中，过程在框1376继续，其中继续关于对于该命令是否满足所有事件相关性的确定。如果满足事件相关性，则在框1377，获取任何必要的和/或相关的资源，并且调度命令/工作载荷进行处理。过程继续框1378，其中继续关于是否成功获取了前面提到的资源的另一确定。如果成功获取了资源，则在框1379，该过程可继续调度命令并且编程堆和命令缓冲器，并且更新相关的状态信息。然后在框1381，该过程继续计算命令缓冲器上的新偏移，并且然后继续框1373。类似地，在一个实施例中，参考回框1376和1378，如果事件相关性不满足，或者尚未获取必要的资源，则命令可被移动到队列存储缓冲器，在此它被存储用于在框1380的将来处理，并且在框1381计算新偏移。过程然后可在框1373继续。在一个实施例中，过程1377、1379和1381的一个或多个指示工作组同步已经发生。

对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的提及指示，如此描述的实施例（一个或多个）可包含具体特征、结构或特性，但不是每一个实施例都有必要包含这些具体特征、结构或特性。另外，一些实施例可具有对于其它实施例描述的一些特征、所有特征，或没有这些特征。

在前述说明书中，已经参考其特定示范实施例描述了实施例。然而，将显然的是，在不脱离如所附权利要求书中所阐述的实施例的更广泛的精神和范围的情况下，可对其进行各种修改和改变。说明书和附图因而被视为说明性的，而非约束性意义。

在如下描述和权利要求中，可使用术语“耦合”连同其派生词。“耦合”用于指示两个或更多个元素彼此协作或交互，但它们在它们之间可以具有或者可以不具有中间物理或电气组分。

如在权利要求书中使用的，除非另有规定，否则使用序数形容词“第一”、 “第二”、“第三”等来描述普通元素，只是指示相同元素的不同实例被提及，并不打算暗示如此描述的元素必须处于给定顺序（或者在时间上、空间上处于排序，或者处于任何其它方式）。

如下语句和/或示例涉及另外实施例或示例。示例中的特定细节可用在一个或多个实施例中的任何地方。不同实施例或示例的各种特征可以以各种方式与所包含的一些特征和所排除的其它特征组合，以适用各种不同的应用。示例可包含根据本文描述的实施例和示例的主题：诸如方法、用于执行方法动作的部件、包含指令（所述指令当由机器执行时使机器执行用于促进混合通信的设备或系统的动作或方法的动作）的至少一种机器可读介质。

一些实施例涉及示例1，其包含用于促进计算装置上多个命令的并行调度的设备，所述设备包括：检测和验证逻辑，用于检测在图形处理单元（GPU）要处理的多个命令中的命令；资源管理逻辑，用于获取多个资源中的一个或多个资源，所述一个或多个资源用于处理所述命令，其中所述多个资源包含用于处理所述多个命令中其它命令的其它资源；以及调度和处理逻辑，用于促进使用所述一个或多个资源处理所述命令，其中处理所述命令与使用所述其它资源处理所述其它命令并行进行。

示例2包含示例1的主题，进一步包括：命令缓冲器生成逻辑，用于生成对应于所述命令的命令缓冲器，并且其中所述多个资源包括GPU硬件线程、命令缓冲器、可执行代码和存储器堆中的一个或多个。

示例3包含示例1或2的主题，其中所述命令经由GPU硬件线程处理，并且其中所述调度和处理逻辑进一步促进经由所述命令缓冲器分派与所述处理的命令有关的数据。

示例4包含示例1的主题，进一步包括全局同步逻辑，用于在多个工作组上同步所述多个PGU硬件线程，其中每个工作组包含与所述多个命令中的两个或更多个并行处理的所述多个GPU硬件线程中的两个或更多个。

示例5包含示例1的主题，进一步包括：解析逻辑，用于解析命令队列以检测在发送所述命令进行处理之前要满足的一个或多个相关性事件。

示例6包含示例5的主题，其中如果检测到所述一个或多个相关性事件，则所述调度和处理逻辑延迟所述命令的处理，并将所述命令存储在存储介质。

示例7包含示例5的主题，其中如果未检测到所述一个或多个相关性事件，则所述调度和处理逻辑没有延迟地调度所述命令的处理。

示例8包含示例5或7的主题，其中所述命令经由所述调度和处理逻辑重新调度以在满足所述一个或多个相关性事件时进行处理，其中所述一个或多个相关性事件包含父命令处理的未完成和所述多个资源中的资源的不可用性中的至少一项。

示例9包含示例8的主题，其中所述父命令表示基本命令，所述命令与所述基本命令相关（dependent upon），并且其中所述不可用资源包含用于处理所述命令的必需的（essential）资源。

一些实施例涉及示例10，其包含用于促进计算装置上多个命令的并行调度的方法，所述方法包括：检测在图形处理单元（GPU）要处理的多个命令中的命令；获取多个资源中的一个或多个资源以处理所述命令，其中所述多个资源包含用于处理所述多个命令中其它命令的其它资源；以及促进使用所述一个或多个资源处理所述命令，其中处理所述命令与使用所述其它资源处理所述其它命令并行进行。

示例11包含示例10的主题，进一步包括：生成对应于所述命令的命令缓冲器，并且其中所述多个资源包括GPU硬件线程、命令缓冲器、可执行代码和存储器堆中的一个或多个。

示例12包含示例10或11的主题，其中所述命令经由GPU硬件线程处理，并且其中所述方法进一步包括：促进经由所述命令缓冲器分派与所述处理的命令有关的数据。

示例13包含示例10的主题，进一步包括：在多个工作组上同步所述多个GPU硬件线程，其中每个工作组包含与所述多个命令中的两个或更多个并行处理的所述多个GPU硬件线程中的两个或更多个。

示例14包含示例10的主题，进一步包括：解析命令队列以检测在发送所述命令进行处理之前要满足的一个或多个相关性事件。

示例15包含示例14的主题，其中如果检测到所述一个或多个相关性事件，则所述调度和处理逻辑延迟所述命令的处理，并将所述命令存储在存储介质。

示例16包含示例14的主题，其中如果未检测到所述一个或多个相关性事件，则所述调度和处理逻辑没有延迟地调度所述命令的处理。

示例17包含示例14或16的主题，其中所述命令重新调度以在满足所述一个或多个相关性事件时进行处理，其中所述一个或多个相关性事件包含父命令处理的未完成和所述多个资源中的资源的不可用性中的至少一项。

示例18包含示例17的主题，其中所述父命令表示基本命令，所述命令与所述基本命令相关，并且其中所述不可用资源包含用于处理所述命令的必需的资源。

示例19包含至少一种机器可读介质，其包括多个指令，所述指令当在计算装置上执行时，实现或执行如上述任何权利要求中所述的方法，或实现如上述任何权利要求中所述的设备。

示例20包含至少一个非暂时性或有形机器可读介质，其包括多个指令，所述指令当在计算装置上执行时，实现或执行如上述任何权利要求中所述的方法，或实现如上述任何权利要求中所述的设备。

示例21包含一种系统，其包括实现或执行如上述任何权利要求中所述的方法或实现如上述任何权利要求中所述的设备的机制。

示例22包含一种设备，其包括执行如上述任何权利要求中所述的方法的部件。

示例23包含：一种计算装置，布置成实现或执行如上述任何权利要求中所述的方法或实现如上述任何权利要求中所述的设备。

示例24包含：一种通信装置，布置成实现或执行如上述任何权利要求中所述的方法或实现如上述任何权利要求中所述的设备。

一些实施例涉及示例25，其包含一种系统，所述系统包括：具有指令的存储装置；以及处理器，用于执行所述指令以促进执行一个或多个操作的机制，所述操作包括：检测在图形处理单元（GPU）要处理的多个命令中的命令；获取多个资源中的一个或多个资源，所述一个或多个资源用于处理所述命令，其中所述多个资源包含用于处理所述多个命令中其它命令的其它资源；以及促进使用所述一个或多个资源处理所述命令，其中处理所述命令与使用所述其它资源处理所述其它命令并行进行。

示例26包含示例25的主题，其中一个或多个操作进一步包括：生成对应于所述命令的命令缓冲器，并且其中所述多个资源包括GPU硬件线程、命令缓冲器、可执行代码和存储器堆中的一个或多个。

示例27包含示例25或26的主题，其中所述命令经由GPU硬件线程处理，并且其中一个或多个操作进一步包括：促进经由所述命令缓冲器分派与所述处理的命令有关的数据。

示例28包含示例25的主题，其中一个或多个操作进一步包括：在多个工作组上同步所述多个PGU硬件线程，其中每个工作组包含与所述多个命令中的两个或更多个并行处理的所述多个GPU硬件线程中的两个或更多个。

示例29包含示例25的主题，其中一个或多个操作进一步包括：解析命令队列以检测在发送所述命令进行处理之前要满足的一个或多个相关性事件。

示例30包含示例29的主题，其中如果检测到所述一个或多个相关性事件，则所述调度和处理逻辑延迟所述命令的处理，并将所述命令存储在存储介质。

示例31包含示例29的主题，其中如果未检测到所述一个或多个相关性事件，则所述调度和处理逻辑没有延迟地调度所述命令的处理。

示例32包含示例29或31的主题，其中所述命令重新调度以在满足所述一个或多个相关性事件时进行处理，其中所述一个或多个相关性事件包含父命令处理的未完成和所述多个资源中的资源的不可用性中的至少一项。

示例33包含示例32的主题，其中所述父命令表示基本命令，所述命令与所述基本命令相关，并且其中所述不可用资源包含用于处理所述命令的必需的资源。

一些实施例涉及示例34，其包含一种设备，所述设备包括：用于检测在图形处理单元（GPU）要处理的多个命令中的命令的部件；用于获取多个资源中的一个或多个资源的部件（所述一个或多个资源用于处理所述命令），其中所述多个资源包含用于处理所述多个命令中其它命令的其它资源；以及用于促进使用所述一个或多个资源处理所述命令的部件，其中处理所述命令与使用所述其它资源处理所述其它命令并行进行。

示例35包含示例34的主题，进一步包括：用于生成对应于所述命令的命令缓冲器的部件，并且其中所述多个资源包括GPU硬件线程、命令缓冲器、可执行代码和存储器堆中的一个或多个。

示例36包含示例34或36的主题，其中所述命令经由GPU硬件线程处理，并且其中所述设备进一步包括用于促进经由所述命令缓冲器分派与所述处理的命令有关的数据的部件。

示例37包含示例34的主题，进一步包括：用于在多个工作组上同步所述多个PGU硬件线程的部件，其中每个工作组包含与所述多个命令中的两个或更多个并行处理的所述多个GPU硬件线程中的两个或更多个。

示例38包含示例34的主题，进一步包括：用于解析命令队列以检测在发送所述命令进行处理之前要满足的一个或多个相关性事件的部件。

示例39包含示例38的主题，其中如果检测到所述一个或多个相关性事件，则所述调度和处理逻辑延迟所述命令的处理，并将所述命令存储在存储介质。

示例40包含示例38的主题，其中如果未检测到所述一个或多个相关性事件，则所述调度和处理逻辑没有延迟地调度所述命令的处理。

示例41包含示例38或40的主题，其中所述命令重新调度以在满足所述一个或多个相关性事件时进行处理，其中所述一个或多个相关性事件包含父命令处理的未完成和所述多个资源中的资源的不可用性中的至少一项。

示例42包含示例41的主题，其中所述父命令表示基本命令，所述命令与所述基本命令相关，并且其中所述不可用资源包含用于处理所述命令的必需的资源。

附图和前面的描述给出了实施例的示例。本领域技术人员将认识到，所描述元素的一个或多个可很好地组合到单个功能元素中。备选地，某些元素可以被分成多个功能元素。来自一个实施例的元素可被添加到另一个实施例。例如，本文描述的过程的次序可以改变，并不限于本文描述的方式。而且，任何流程图中的动作都不必按显示的次序实现；也不一定所有动作都需要执行。还有，与其它动作不相关的那些动作可以与其它动作并行执行。实施例的范围决不受这些特定示例限制。不管在说明书中是否明确给出，诸如在结构、尺寸和材料使用方面的差异的众多变化都是有可能的。实施例的范围至少与如下权利要求所给出的范围一样宽。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·A·姆鲁泽克
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。