基于云的实时光线追踪的制作方法

文档序号:21444333发布日期:2020-07-10 17:33阅读:298来源:国知局
基于云的实时光线追踪的制作方法
本发明一般涉及图形处理器的领域。更特别地,本发明涉及用于执行更高效光线追踪操作的装置和方法。
背景技术
:光线追踪是其中通过基于物理地渲染来模拟光传输的技术。被广泛用在电影渲染中,直到仅几年前,它还被认为对于实时性能来说过于资源密集。光线追踪中的关键操作之一是处理针对被称为“光线遍历(raytraversal)”的光线场景交叉(intersection)的可见性查询,所述“光线遍历”通过遍历和交叉包围体积层级(boundingvolumehierarchy)(bvh)中的节点来计算光线场景交叉。去噪已变成对于利用平滑、无噪图像的实时光线追踪的关键特征。渲染可以跨多个设备上的分布式系统进行,但迄今为止,现有的去噪框架全部在单个机器上的单个实例上操作。如果渲染跨多个设备进行,则它们可能没有使所有经渲染的像素可访问来计算图像的去噪部分。附图说明可以结合附图从以下详细描述中获得对本发明的更好理解,在附图中:图1是具有处理器的计算机系统的实施例的框图,该处理器具有一个或多个处理器核和图形处理器;图2是处理器的一个实施例的框图,该处理器具有一个或多个处理器核、集成存储器控制器,以及集成图形处理器;图3是图形处理器的一个实施例的框图,该图形处理器可以是分立的图形处理单元,或者可以是与多个处理核一起集成的图形处理器;图4是用于图形处理器的图形处理引擎的实施例的框图;图5是图形处理器的另一实施例的框图;图6a-b图示执行电路和逻辑的示例;图7图示了根据实施例的图形处理器执行单元指令格式;图8是图形处理器的另一实施例的框图,该图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑以及渲染输出流水线;图9a是图示了根据实施例的图形处理器命令格式的框图;图9b是图示了根据实施例的图形处理器命令序列的框图;图10图示了根据实施例的用于数据处理系统的示例性图形软件架构;图11a-b图示了可以被用来制造集成电路和示例性封装组装件的示例性ip核开发系统;图12图示了根据实施例的可以使用一个或多个ip核来制造的示例性片上系统集成电路;图13a-b图示了可以使用一个或多个ip核来制造的片上系统集成电路的示例性图形处理器;图14a-b图示了示例性图形处理器架构;图15图示了用于执行机器学习架构的初始训练的架构的一个实施例;图16图示了其中机器学习引擎在运行时期间被持续训练和更新的一个实施例;图17图示了其中机器学习引擎在运行时期间被持续训练和更新的另一实施例;图18a-b图示了其中在网络上共享机器学习数据的实施例;以及图19图示了用于训练机器学习引擎的方法的一个实施例;图20图示了其中节点交换重影区(ghostregion)数据来执行分布式去噪操作的一个实施例;图21图示了其中图像渲染和去噪操作跨多个节点分布的架构的一个实施例;图22图示了用于分布式渲染和去噪的架构的附加细节;图23图示了根据本发明的一个实施例的方法;图24图示了机器学习方法的一个实施例;图25图示了多个互连通用图形处理器;图26图示了用于机器学习实现的一组卷积层和完全连接层;图27图示了卷积层的一个实施例;图28图示了机器学习实现中的一组互连节点的示例;图29图示了训练框架的实施例,在该训练框架内神经网络使用训练数据集来学习;图30a图示了模型并行和数据并行的示例;图30b图示了片上系统(soc)的示例;图31图示了处理架构的示例,该处理框架包括光线追踪核和张量核;图32图示了光束的示例;图33图示了用于执行光束追踪的装置的实施例;图34图示了光束层级的示例;图35图示了用于执行光束追踪的方法;图36图示了分布式光线追踪引擎的示例;图37-38图示了在光线追踪系统中执行的压缩的示例;图39图示了根据本发明的一个实施例的方法;图40图示了示例性混合光线追踪装置;图41图示了用于光线追踪操作的堆栈的示例;图42图示了对于混合光线追踪装置的一个实施例的附加细节;图43图示了包围体积层级的示例;图44图示了调用堆栈和遍历状态存储的示例;图45图示了用于分布式实时光线追踪的方法和装置的一个实施例;以及图46图示了用于分布式实时光线追踪的系统的一个实施例的附加细节。具体实施方式在以下描述中,出于解释的目的,阐述众多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而,对于本领域技术人员来说将显然的是,可以在没有这些具体细节中的某些具体细节的情况下实践本发明的实施例。在其它实例中,以框图形式示出公知的结构和设备以避免使本发明的实施例的根本原理模糊。示例性图形处理器架构和数据类型系统概述图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102以及一个或多个图形处理器108,并且可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中,系统100是被结合在供移动设备、手持式设备或嵌入式设备中使用的片上系统(soc)集成电路内的处理平台。在一个实施例中,系统100可以包括下述各项或被结合在下述各项内:基于服务器的游戏平台;游戏控制台,其包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动因特网设备。处理系统100还可以包括可穿戴设备、与其耦合或被集成在其内,该可穿戴设备诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中,处理系统100是电视或机顶盒设备,该电视或机顶盒设备具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面。在一些实施例中,一个或多个处理器102各自包括用以处理指令的一个或多个处理器核107,所述指令在被执行时执行系统和用户软件的操作。在一些实施例中,一个或多个处理器核107中的每个处理器核被配置成处理专用指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(cisc)、精简指令集计算(risc)、或经由超长指令字(vliw)的计算。多个处理器核107可以各自处理不同的指令集109,该指令集109可以包括用以促进其它指令集的仿真的指令。处理器核107还可以包括其它处理设备,诸如数字信号处理器(dsp)。在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102可以具有单个内部高速缓存或多级内部高速缓存。在一些实施例中,在处理器102的各种组件当中共享高速缓冲存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(l3)高速缓存或末级高速缓存(llc))(未示出),可以使用已知的高速缓存一致性技术来在处理器核107当中共享该外部高速缓存。附加地,寄存器堆106被包括在处理器102中,其可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可以专用于处理器102的设计。在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其它组件之间传送通信信号,诸如地址、数据或控制信号。在一个实施例中,接口总线110可以是处理器总线,诸如一种版本的直接媒体接口(dmi)总线。然而,处理器总线不限于dmi总线,并且可以包括一个或多个外围组件互连总线(例如,pci、pciexpress)、存储器总线或其它类型的接口总线。在一个实施例中,(一个或多个)处理器102包括集成存储器控制器116和平台控制器中枢130。存储器控制器116促进存储器设备与系统100的其它组件之间的通信,而平台控制器中枢(pch)130提供经由本地i/o总线到i/o设备的连接。存储器设备120可以是动态随机存取存储器(dram)设备、静态随机存取存储器(sram)设备、闪速存储器设备、相变存储器设备或具有合适的性能以用作处理存储器的某个其它存储器设备。在一个实施例中,存储器设备120可以作为系统100的系统存储器进行操作,以存储数据122和指令121以供在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器112耦合,该可选的外部图形处理器112可以与处理器102中的一个或多个图形处理器108通信,从而执行图形和媒体操作。在一些实施例中,显示设备111可以连接到(一个或多个)处理器102。显示设备111可以是如在移动电子设备或膝上型设备中的内部显示设备或经由显示接口(例如,displayport等)附接的外部显示设备中的一个或多个。在一个实施例中,显示设备111可以是头戴式显示器(hmd),诸如供虚拟现实(vr)应用或增强现实(ar)应用中使用的立体显示设备。在一些实施例中,平台控制器中枢130使得外围设备能够经由高速i/o总线连接到存储器设备120和处理器102。i/o外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如,硬盘驱动器,闪速存储器等)。数据存储设备124可以经由存储接口(例如,sata)或经由外围总线(诸如外围组件互连总线(例如,pci、pciexpress))连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是wi-fi收发器、蓝牙收发器或移动网络收发器,诸如3g、4g或长期演进(lte)收发器。固件接口128使得能够实现与系统固件的通信,并且可以例如是统一的可扩展固件接口(uefi)。网络控制器134可以使得能够实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多声道高清晰度音频控制器。在一个实施例中,系统100包括可选的传统i/o控制器140,其用于将传统(例如,个人系统2(ps/2))设备耦合到系统。平台控制器中枢130还可以连接到一个或多个通用串行总线(usb)控制器142、连接输入设备(诸如键盘和鼠标143组合)、拍摄装置144或其它usb输入设备。将领会的是,所示出的系统100是示例性的而非限制性的,因为还可以使用不同地配置的其它类型的数据处理系统。例如,存储器控制器116和平台控制器中枢130的实例可以被集成到分立的外部图形处理器中,该分立的外部图形处理器诸如外部图形处理器112。在一个实施例中,平台控制器中枢130和/或存储器控制器116可以在一个或多个处理器102的外部。例如,系统100可以包括:外部存储器控制器116和平台控制器中枢130,其可以被配置为与(一个或多个)处理器102通信的系统芯片组内的存储器控制器中枢和外围控制器中枢。图2是具有一个或多个处理器核202a-202n、集成存储器控制器214以及集成图形处理器208的处理器200的实施例的框图。图2的具有与本文中任何其它附图的元件相同的参考编号(或名称)的那些元件可以采用与在本文中其它地方描述的方式类似的任何方式来操作或起作用,但是不限于这样。处理器200可以包括多达附加核202n且包括附加核202n(由虚线框表示)的附加核。处理器核202a-202n中的每一个包括一个或多个内部高速缓存单元204a-204n。在一些实施例中,每个处理器核还可以访问一个或多个共享高速缓存单元206。内部高速缓存单元204a-204n和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括在每个处理器核内的至少一级指令和数据高速缓存以及一级或多级共享中级高速缓存,诸如2级(l2)、3级(l3)、4级(l4)或其它级的高速缓存,其中,在外部存储器前的最高级的高速缓存被分类为llc。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206与204a-204n之间的一致性。在一些实施例中,处理器200还可以包括一组一个或多个总线控制器单元216以及系统代理核210。一个或多个总线控制器单元216管理一组外围总线,诸如一个或多个pci或pciexpress总线。系统代理核210提供对各种处理器组件的管理功能。在一些实施例中,系统代理核210包括用以管理对各种外部存储器设备(未示出)的访问的一个或多个集成存储器控制器214。在一些实施例中,处理器核202a-202n中的一个或多个处理器核包括对同步多线程的支持。在这样的实施例中,系统代理核210包括:用于在多线程处理期间协调和操作核202a-202n的组件。系统代理核210可以附加地包括功率控制单元(pcu),该功率控制单元(pcu)包括用以调节处理器核202a-202n和图形处理器208的功率状态的逻辑和组件。在一些实施例中,处理器200附加地包括用以执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与该组共享高速缓存单元206以及系统代理核210耦合,该系统代理核210包括一个或多个集成存储器控制器214。在一些实施例中,系统代理核210还包括显示控制器211,其用以将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块,或者可以集成在图形处理器208内。在一些实施例中,基于环的互连单元212被用来耦合处理器200的内部组件。然而,可以使用替换的互连单元,诸如点到点互连、切换式互连、或其它技术,包括本领域中公知的技术。在一些实施例中,图形处理器208经由i/o链路213与环形互连212耦合。示例性i/o链路213表示多个种类的i/o互连中的至少一种,其包括封装上i/o互连,所述封装上i/o互连促进各种处理器组件与高性能嵌入式存储器模块218(诸如edram模块)之间的通信。在一些实施例中,处理器核202a-202n中的每个处理器核以及图形处理器208将嵌入式存储器模块218用作共享末级高速缓存。在一些实施例中,处理器核202a-202n是执行相同指令集架构的同构核。在另一实施例中,处理器核202a-202n在指令集架构(isa)方面是异构的,其中,处理器核202a-202n中的一个或多个执行第一指令集,而其它核中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核202a-202n在微架构方面是同构的,其中,具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。附加地,处理器200可以被实现在一个或多个芯片上或者被实现为除其它组件之外还具有所图示的组件的soc集成电路。图3是图形处理器300的框图,该图形处理器300可以是分立的图形处理单元、或者可以是与多个处理核一起集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射i/o接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用以访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存、和/或到系统存储器的接口。在一些实施例中,图形处理器300还包括显示控制器302,该显示控制器302用以将显示输出数据驱动到显示设备320。显示控制器302包括用于显示器的一个或多个覆盖平面的硬件,以及多层视频或用户接口元件的组成。显示设备320可以是内部或外部显示设备。在一个实施例中,显示设备320是头戴式显示设备,诸如虚拟现实(vr)显示设备或增强现实(ar)显示设备。在一些实施例中,图形处理器300包括视频编解码器引擎306,其用以将媒体编码到一个或多个媒体编码格式、从一个或多个媒体编码格式对媒体进行解码、或者在一个或多个媒体编码格式之间对媒体进行代码转换,该一个或多个媒体编码格式包括但不限于:运动图像专家组(mpeg)格式(诸如mpeg-2)、高级视频编码(avc)格式(诸如h.264/mpeg-4avc)、以及电影与电视工程师协会(smpte)421m/vc-1、和联合图像专家组(jpeg)格式(诸如jpeg)、和运动jpeg(mjpeg)格式。在一些实施例中,图形处理器300包括用以执行二维(2d)栅格化器操作(包括例如位边界块传输)的块图像传输(blit)引擎304。然而,在一个实施例中,使用图形处理引擎(gpe)310的一个或多个组件来执行2d图形操作。在一些实施例中,gpe310是用于执行图形操作的计算引擎,该图形操作包括三维(3d)图形操作和媒体操作。在一些实施例中,gpe310包括:用于执行3d操作的3d流水线312,诸如使用作用于3d图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3d流水线312包括可编程和固定功能元件,其执行元件内的各种任务和/或将执行线程产生(spawn)到3d/媒体子系统315。虽然3d流水线312可以被用来执行媒体操作,但是gpe310的实施例还包括媒体流水线316,该媒体流水线316被具体地用来执行媒体操作,诸如视频后处理和图像增强。在一些实施例中,媒体流水线316包括固定功能或可编程逻辑单元,其用以代替或代表视频编解码器引擎306来执行一个或多个专门的媒体操作,诸如视频解码加速、视频反交错(de-interlace)以及视频编码加速。在一些实施例中,媒体流水线316附加地包括线程产生单元以产生用于在3d/媒体子系统315上执行的线程。所产生的线程执行针对在3d/媒体子系统315中所包括的一个或多个图形执行单元上的媒体操作的计算。在一些实施例中,3d/媒体子系统315包括:用于执行3d流水线312和媒体流水线316所产生的线程的逻辑。在一个实施例中,流水线向3d/媒体子系统315发送线程执行请求,该3d/媒体子系统315包括用于仲裁各种请求并将各种请求分派到可用的线程执行资源的线程分派逻辑。执行资源包括用以处理3d和媒体线程的图形执行单元的阵列。在一些实施例中,3d/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,该子系统还包括共享存储器(包括寄存器和可寻址存储器)以在线程之间共享数据并存储输出数据。图形处理引擎图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(gpe)410是图3中所示出的gpe310的一种版本。图4的具有与本文中任何其它附图的元件相同的参考编号(或名称)的元件可以采用与在本文中其它地方描述的方式类似的任何方式来操作或起作用,但是不限于这样。例如,图示了图3的3d流水线312和媒体流水线316。媒体流水线316在gpe410的一些实施例中是可选的,并且可以不显式地包括在gpe410内。例如并且在至少一个实施例中,单独的媒体和/或图形处理器被耦合至gpe410。在一些实施例中,gpe410与命令流转化器(streamer)403耦合或包括命令流转化器403,该命令流转化器403向3d流水线312和/或媒体流水线316提供命令流。在一些实施例中,命令流转化器403与存储器耦合,该存储器可以是系统存储器、或者内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流转化器403从存储器接收命令,并且将命令发送到3d流水线312和/或媒体流水线316。该命令是从环形缓冲器提取的指示,该环形缓冲器存储用于3d流水线312和媒体流水线316的命令。在一个实施例中,环形缓冲器可以附加地包括存储多批多个命令的批命令缓冲器。用于3d流水线312的命令还可以包括对存储在存储器中的数据的引用,该数据诸如但不限于用于3d流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3d流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作,或者通过将一个或多个执行线程分派至图形核阵列414来处理命令和数据。在一个实施例中,图形核阵列414包括图形核(例如,(一个或多个)图形核415a、(一个或多个)图形核415b)的一个或多个块,每个块包括一个或多个图形核。每个图形核包括:一组图形执行资源,其包括用以执行图形和计算操作的通用和图形特定执行逻辑,以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。在各种实施例中,3d流水线312包括:用以通过处理指令和将执行线程分派到图形核阵列414来处理一个或多个着色器(shader)程序的固定功能和可编程逻辑,该着色器程序诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序。图形核阵列414提供执行资源的统一块供处理这些着色器程序中使用。图形核阵列414的(一个或多个)图形核415a-414b内的多用途执行逻辑(例如,执行单元)包括对各种3dapi着色器语言的支持,并且可以执行与多个着色器相关联的多个同时执行线程。在一些实施例中,图形核阵列414还包括用以执行诸如视频和/或图像处理之类的媒体功能的执行逻辑。在一个实施例中,执行单元附加地包括可编程以执行除图形处理操作外的并行通用计算操作的通用逻辑。通用逻辑可以与图1的(一个或多个)处理器核107或如图2中的核202a-202n内的通用逻辑并行地或结合地执行处理操作。由在图形核阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(urb)418中的存储器。urb418可以存储多个线程的数据。在一些实施例中,urb418可以被用来在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中,urb418可以附加地被用于图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。在一些实施例中,图形核阵列414是可缩放的,使得该阵列包括可变数量的图形核,这些图形核各自基于gpe410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可以按需要来启用或禁用执行资源。图形核阵列414与共享功能逻辑420耦合,该共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(itc)423逻辑。附加地,一些实施例实现共享功能逻辑420内的一个或多个高速缓存425。在对于给定专用功能的需求对于图形核阵列414内的内含物而言不足够的情况下,实现共享功能。代替地,该专用功能的单个实例化被实现为共享功能逻辑420中的独立实体,并且在图形核阵列414内的执行资源当中共享。在图形核阵列414之间共享并且被包括在图形核阵列414内的精确的一组功能跨实施例而变化。在一些实施例中,图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可以被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中,图形核阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中,共享功能逻辑420内的全部逻辑元件可以在图形核阵列414的共享功能逻辑416内复制。在一个实施例中,排除共享功能逻辑420以支持图形核阵列414内的共享功能逻辑416。图5是根据本文中描述的一些实施例的图形处理器核500的硬件逻辑的框图。图5的具有与本文中任何其它附图的元件相同的参考编号(或名称)的元件可以采用与在本文中其它地方描述的方式类似的任何方式来操作或起作用,但是不限于这样。在一些实施例中,图示的图形处理器核500被包括在图4的图形核阵列414内。图形处理器核500(有时被称为核薄片(coreslice))可以是模块化图形处理器内的一个或多个图形核。图形处理器核500是示例性的一个图形核薄片,并且如本文中描述的图形处理器基于目标功率和性能包线可以包括多个图形核薄片。每个图形处理器核500可以包括与多个子核501a-501f(也被称为子薄片)耦合的固定功能块530,其包括通用和固定功能逻辑的模块化块。在一些实施例中,固定功能块530包括:几何/固定功能流水线536,其可以由图形处理器核500中的全部子核共享,例如,在较低性能和/或较低功率图形处理器实现中。在各种实施例中,几何/固定功能流水线536包括3d固定功能流水线(例如,如图3和图4中的3d流水线312),视频前端单元、线程产生器(spawner)和线程分派器,以及统一返回缓冲器管理器,其管理统一返回缓冲器,诸如图4的统一返回缓冲器418。在一个实施例中,固定功能块530还包括图形soc接口537、图形微控制器538和媒体流水线539。图形soc接口537提供图形处理器核500与片上系统集成电路内的其它处理器核之间的接口。图形微控制器538是可编程子处理器,其可配置成管理图形处理器核500的各种功能,其包括线程分派、调度和抢占(pre-emption)。媒体流水线539(例如,图3和图4的媒体流水线316)包括用以促进对多媒体数据(包括图像和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对子核501a-501f内计算或采样逻辑的请求来实现媒体操作。在一个实施例中,soc接口537使得图形处理器核500能够与通用应用处理器核(例如,cpu)和/或soc内的其它组件进行通信,该其它组件包括存储器层级元件,诸如共享的末级高速缓冲存储器、系统ram和/或嵌入式片上或封装上dram。soc接口537还可以使得能够实现与soc内的固定功能设备(诸如拍摄装置成像流水线)的通信,并且使得能够实现全局存储器原子的使用和/或实现所述全局存储器原子,所述全局存储器原子可以在图形处理器核500与soc内的cpu之间共享。soc接口537还可以实现图形处理器核500的功率管理控制,并且使得能够实现图形核500的时钟域与soc内的其它时钟域之间的接口。在一个实施例中,soc接口537使得能够从命令流转化器和全局线程分派器接收命令缓冲器,所述命令流转化器和全局线程分派器被配置成向图形处理器内的一个或多个图形核中的每一个提供命令和指令。当要执行媒体操作时,可以将命令和指令分派给媒体流水线539,或者当要执行图形处理操作时,可以将命令和指令分派给几何和固定功能流水线(例如,几何和固定功能流水线536、几何和固定功能流水线514)。图形微控制器538可以被配置成执行图形处理器核500的各种调度和管理任务。在一个实施例中,图形微控制器538可以在子核501a-501f内的执行单元(eu)阵列502a-502f、504a-504f内的各种图形并行引擎上执行图形和/或计算工作负荷调度。在该调度模型中,在包括图形处理器核500的soc的cpu核上执行的主机软件可以将工作负荷提交给调用适当的图形引擎上的调度操作的多个图形处理器门铃之一。调度操作包括确定接下来要运行哪一个工作负荷、将工作负荷提交给命令流转化器、抢占在引擎上运行的现有工作负荷、监控工作负荷的进展以及在工作负荷完成时通知主机软件。在一个实施例中,图形微控制器538还可以促进图形处理器核500的低功率或空闲状态,从而为图形处理器核500提供跨低功率状态转换独立于操作系统和/或系统上的图形驱动程序软件而保存和恢复图形处理器核500内的寄存器的能力。图形处理器核500可以具有大于或小于图示的子核501a-501f的子核,高达n个模块化子核。对于每组n个子核,图形处理器核500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514,以及用以加速各种图形并计算处理操作的附加固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420相关联的逻辑单元(例如,采样器、数学和/或线程间通信逻辑),其可以由图形处理器核500内的每n个子核共享。共享和/或高速缓冲存储器512可以是图形处理器核500内的该组n个子核501a-501f的末级高速缓存,并且还可以用作可由多个子核访问的共享存储器。几何/固定功能流水线514可以替代几何/固定功能流水线536而被包括在固定功能块530内,并且可以包括相同或类似的逻辑单元。在一个实施例中,图形处理器核500包括:附加的固定功能逻辑516,其可以包括供图形处理器核500使用的各种固定功能加速逻辑。在一个实施例中,附加固定功能逻辑516包括供仅位置着色(positiononlyshading)中使用的附加几何流水线。在仅位置着色中,存在两个几何流水线,几何/固定功能流水线516、536内的完整几何流水线以及剔除(cull)流水线,其是可以被包括在附加固定功能逻辑516内的附加几何流水线。在一个实施例中,剔除流水线是完整几何流水线的削减版本。完整流水线和剔除流水线可以执行同一应用的不同实例,每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃三角形的长剔除运行,从而使得在某些实例中能够更早地完成着色。例如并且在一个实施例中,附加固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执行位置着色器,并且通常比完整流水线更快地生成关键结果,因为剔除流水线仅提取并着色顶点的位置属性,而不执行像素到帧缓冲的栅格化和渲染。剔除流水线可以使用生成的关键结果来计算全部三角形的可见性信息,而不管那些三角形是否被剔除。完整流水线(其在这种实例中可以被称为重放流水线)可以消耗可见性信息以跳过剔除的三角形,从而仅着色被最终传递到栅格化阶段的可见三角形。在一个实施例中,附加固定功能逻辑516还可以包括机器学习加速逻辑,诸如固定功能矩阵乘法逻辑,用于包括对机器学习训练或推理的优化的实现。在每个图形子核501a-501f内包括一组执行资源,其可以被用来响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核501a-501f包括多个eu阵列502a-502f、504a-504f、线程分派和线程间通信(td/ic)逻辑503a-503f、3d(例如,纹理)采样器505a-505f、媒体采样器506a-506f、着色器处理器507a-507f和共享本地存储器(slm)508a-508f。eu阵列502a-502f、504a-504f各自包括多个执行单元,所述执行单元是能够在包括图形、媒体或计算着色器程序的图形、媒体或计算操作的服务中执行浮点和整数/定点逻辑操作的通用图形处理单元。td/ic逻辑503a-503f执行用于子核内的执行单元的本地线程分派和线程控制操作,并且促进在子核的执行单元上执行的线程之间的通信。3d采样器505a-505f可以将纹理或其它3d图形相关数据读取到存储器中。3d采样器可以基于配置的样本状态和与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器506a-506f可以基于与媒体数据相关联的类型和格式执行类似的读取操作。在一个实施例中,每个图形子核501a-501f可以交替地包括统一的3d和媒体采样器。在子核501a-501f中的每个子核内的执行单元上执行的线程可以利用每个子核内的共享本地存储器508a-508f,以使得在线程组内执行的线程能够使用芯片上存储器的公共池来执行。执行单元图6a-6b图示了线程执行逻辑600,其包括根据本文中描述的实施例的图形处理器核中采用的处理元件的阵列。图6a-6b的具有与本文中任何其它附图的元件相同的参考编号(或名称)的元件可以采用与在本文中其它地方描述的方式类似的任何方式来操作或起作用,但是不限于这样。图6a图示了线程执行逻辑600的概述,其可以包括利用图5的每个子核501a-501f图示的硬件逻辑的变体。图6b图示了执行单元的示例性内部细节。如在图6a中图示的,在一些实施例中,线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608a-608n的可缩放执行单元阵列、采样器610、数据高速缓存612以及数据端口614。在一个实施例中,可缩放执行单元阵列可以通过基于工作负荷的计算需求来启用或禁用一个或多个执行单元(例如,执行单元608a、608b、608c,608d,一直到608n-1和608n中的任一个)来动态地缩放。在一个实施例中,所包括的组件经由互连结构而互连,该互连结构链接到组件中的每个组件。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610以及执行单元阵列608a-608n中的一个或多个到存储器(诸如系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,608a)是能够执行多个同时硬件线程而同时针对每个线程并行地处理多个数据元素的独立可编程通用计算单元。在各种实施例中,执行单元608a-608n的阵列是可缩放的以包括任何数量的个体执行单元。在一些实施例中,执行单元608a-608n被主要用来执行着色器程序。着色器处理器602可以处理各种着色器程序并经由线程分派器604来分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括如下逻辑:用以对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元608a-608n中的一个或多个执行单元上使所请求的线程实例化。例如,几何流水线可以将顶点、曲面细分(tessellation)或几何着色器分派至线程执行逻辑以供处理。在一些实施例中,线程分派器604还可以处理来自执行着色器程序的运行时线程产生请求。在一些实施例中,执行单元608a-608n支持指令集(该指令集包括对许多标准3d图形着色器指令的本机支持),使得在最小的转化情况下执行来自图形库(例如,direct3d和opengl)的着色器程序。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)以及通用处理(例如,计算和媒体着色器)。执行单元608a-608n中的每一个都能够多发布(multi-issue)单指令多数据(simd)执行,并且多线程操作使得能够在面对较高时延存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和相关联的独立线程状态。对能够进行整数、单精度和双精度浮点运算、simd分支能力、逻辑运算、超越数运算和其它杂项运算的流水线来说,执行是每时钟多发布。在等待来自存储器或共享功能之一的数据时,执行单元608a-608n内的依赖性逻辑使等待线程休眠,直到所请求的数据已返回为止。在等待线程正在休眠时,硬件资源可以致力于处理其它线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可以执行针对像素着色器、片段着色器或者另一种类型的着色器程序(包括不同顶点着色器)的操作。执行单元608a-608n中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”、或指令的通道数。执行通道是针对数据元素访问、掩蔽和指令内的流控制的执行的逻辑单元。通道的数量可以与针对特定图形处理器的物理算术逻辑单元(alu)或浮点单元(fpu)的数量无关。在一些实施例中,执行单元608a-608n支持整数和浮点数据类型。执行单元指令集包括simd指令。各种数据元素可以作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,当对256位宽的向量进行操作时,向量的256个位被存储在寄存器中,并且执行单元按四个分离64位打包数据元素(四字(qw)大小数据元素)、八个分离32位打包数据元素(双字(dw)大小数据元素)、十六个分离16位打包数据元素(字(w)大小数据元素)、或三十二个分离8位数据元素(字节(b)大小数据元素)来对该向量进行操作。然而,不同的向量宽度和寄存器大小是可能的。在一个实施例中,一个或多个执行单元可以组合成具有线程控制逻辑(607a-607n)的融合执行单元609a-609n,该线程控制逻辑对于融合的eu是公共的。多个eu可以融合成eu组。融合的eu组中的每个eu可以被配置成执行单独的simd硬件线程。根据实施例,融合eu组中的eu的数量可以变化。附加地,每个eu可以执行各种simd宽度,包括但不限于simd8、simd16和simd32。每个融合图形执行单元609a-609n包括至少两个执行单元。例如,融合执行单元609a包括第一eu608a、第二eu608b和线程控制逻辑607a,其对于第一eu608a和第二eu608b是公共的。线程控制逻辑607a控制在融合图形执行单元609a上执行的线程,从而允许融合执行单元609a-609n内的每个eu使用公共指令指针寄存器来执行。在线程执行逻辑600中包括用以高速缓存执行单元的线程指令的一个或多个内部指令高速缓存(例如,606)。在一些实施例中,包括一个或多个数据高速缓存(例如,612)以在线程执行期间高速缓存线程数据。在一些实施例中,包括采样器610以为3d操作提供纹理采样并且为媒体操作提供媒体采样。在一些实施例中,采样器610包括专门的纹理或媒体采样功能性,以在向执行单元提供采样数据之前的采样过程期间处理纹理或媒体数据。在执行期间,图形和媒体流水线经由线程产生和分派逻辑向线程执行逻辑600发送线程发起请求。一旦一组几何对象已被处理并且被栅格化成像素数据,着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)就被调用以进一步计算输出信息并且使得结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板印刷缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨栅格化对象而被内插的各种顶点属性的值。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(api)供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604将线程分派至执行单元(例如,608a)。在一些实施例中,着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算了每个几何片段的像素颜色数据,或丢弃一个或多个像素而不进行进一步处理。在一些实施例中,数据端口614提供存储器访问机制,以供线程执行逻辑600将经处理的数据输出至存储器以供在图形处理器输出流水线上进一步处理。在一些实施例中,数据端口614包括或耦合至一个或多个高速缓冲存储器(例如,数据高速缓存612)以对数据进行高速缓存从而用于经由数据端口的存储器访问。如图6b中图示的,图形执行单元608可以包括指令提取单元637、通用寄存器堆阵列(grf)624、架构寄存器堆阵列(arf)626、线程仲裁器622、发送单元630、分支单元632、一组simd浮点单元(fpu)634,并且在一个实施例中为一组专用整数simdalu635。grf624和arf626包括与在图形执行单元608中可以有效的每个同时硬件线程相关联的一组通用寄存器堆和架构寄存器堆。在一个实施例中,每个线程架构状态在arf626中被维持,而在线程执行期间使用的数据被存储在grf624中。每个线程的执行状态(包括每个线程的指令指针)可以保存在arf626中的线程特定寄存器中。在一个实施例中,图形执行单元608具有架构,该架构是同步多线程(smt)和细粒度交错多线程(imt)的组合。该架构具有模块化配置,其可以在设计时间基于同时线程的目标数量和每个执行单元的寄存器数量进行微调,其中执行单元资源跨被用来执行多个同时线程的逻辑而被划分。在一个实施例中,图形执行单元608可以共同发布多个指令,其每个可以是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令分派给发送单元630、分支单元6342或(一个或多个)simdfpu634中的一个以供执行。每个执行线程可以访问grf624内的128个通用寄存器,其中每个寄存器可以存储32个字节,可按32位数据元素的simd8元素向量进行访问。在一个实施例中,每个执行单元线程可以访问grf624内的4千字节,但是实施例不如此限制,并且在其它实施例中可以提供更多或更少的寄存器资源。在一个实施例中,高达七个线程可以同时执行,但是每个执行单元的线程数量也可以根据实施例而变化。在其中七个线程可以访问4千字节的实施例中,grf624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以有效地构建更宽的寄存器或表示跨越式矩形块数据结构。在一个实施例中,经由被消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其它较长时延系统通信。在一个实施例中,将分支指令分派给专用分支单元632以促进simd发散和最终收敛。在一个实施例中,图形执行单元608包括一个或多个simd浮点单元((一个或多个)fpu)634以执行浮点运算。在一个实施例中,(一个或多个)fpu634还支持整数计算。在一个实施例中,(一个或多个)fpu634可以simd执行高达m个32位浮点(或整数)操作,或者simd执行高达2m16位整数或16位浮点操作。在一个实施例中,(一个或多个)fpu中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度64位浮点。在一些实施例中,一组8位整数simdalu635还存在,并且可以具体地被优化以执行与机器学习计算相关联的操作。在一个实施例中,图形执行单元608的多个实例的阵列可以在图形子核分组(例如,子薄片)中被实例化。对于可扩缩性,产品架构师可以选择每个子核分组确切的执行单元数量。在一个实施例中,执行单元608可以跨多个执行通道执行指令。在另外的实施例中,在图形执行单元608上执行的每个线程在不同的通道上执行。图7是图示了根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框图示了通常被包括在执行单元指令中的组件,而虚线包括可选的或仅被包括在指令的子集中的组件。在一些实施例中,所描述和图示的指令格式700是宏指令,因为它们是被供应至执行单元的指令,这与由在指令被处理以后指令进行解码而产生的微操作相反。在一些实施例中,图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选指令、指令选项和操作数的数量,64位压缩指令格式730可用于一些指令。本机128位指令格式710提供对全部指令选项的访问,而一些选项和操作被限制在64位格式730中。采用64位格式730的可用的本机指令根据实施例而变化。在一些实施例中,使用索引字段713中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来参考一组压缩表,并且使用压缩表输出来重构采用128位指令格式710的本机指令。针对每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素来并行地执行每个指令。例如,响应于加法指令,执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同步加法运算。默认地,执行单元跨操作数的全部数据通道来执行每个指令。在一些实施例中,指令控制字段714启用对某些执行选项的控制,所述某些执行选项诸如通道选择(例如,预测)以及数据通道次序(例如,搅和)。针对采用128位指令格式710的指令,执行大小字段716限制了将并行执行的数据通道的数量。在一些实施例中,执行大小字段716不可供64位压缩指令格式730中使用。一些执行单元指令具有高达三个操作数,包括两个源操作数src0720、src1722和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中目的地之一是隐含的。数据操纵指令可以具有第三源操作数(例如,src2724),其中,指令操作码712确定源操作数的数量。指令的最后的源操作数可以是利用指令传递的立即(例如,硬编码的)值。在一些实施例中,128位指令格式710包括访问/寻址模式字段726,该访问/寻址模式字段726例如指定了使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时,由指令中的位来直接提供一个或多个操作数的寄存器地址。在一些实施例中,128位指令格式710包括访问/寻址模式字段726,该访问/寻址模式字段726指定指令的寻址模式和/或访问模式。在一个实施例中,访问模式被用来限定针对指令的数据访问对齐。一些实施例支持包括16字节对齐访问模式和1字节对齐访问模式的访问模式,其中,访问模式的字节对齐确定了指令操作数的访问对齐。例如,当在第一模式中时,针对源和目的地操作数,指令可以使用字节对齐寻址,并且当在第二模式中时,针对全部源和目的地操作数,指令可以使用16字节对齐寻址。在一个实施例中,访问/寻址模式字段726的寻址模式部分确定指令要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。在一些实施例中,基于操作码712位字段对指令进行分组,以简化操作码解码740。对于8位操作码,位4、5和6允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑组742共享五个最高有效位(msb),其中移动(mov)指令采用0000xxxxb的形式,而逻辑指令采用0001xxxxb的形式。流控制指令组744(例如,调用(call)、跳(jmp))包括采用0010xxxxb(例如,0x20)的形式的指令。混杂指令组746包括指令的混合,包括采用0011xxxxb(例如,0x30)的形式的同步指令(例如,等待、发送)。并行数学指令组748包括采用0100xxxxb(例如,0x40)的形式的逐组件的算术指令(例如,加、乘(mul))。并行数学组748跨数据通道并行执行算术运算。向量数学组750包括采用0101xxxxb(例如,0x50)的形式的算术指令(例如,dp4)。向量数学组对向量操作数执行诸如点积计算之类的算术。图形流水线图8是图形处理器800的另一实施例的框图。图8的具有与本文中任何其它附图的元件相同的参考编号(或名称)的元件可以采用与在本文中其它地方描述的方式类似的任何方式来操作或起作用,但是不限于这样。在一些实施例中,图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850、以及渲染输出流水线870。在一些实施例中,图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器受至一个或多个控制寄存器(未示出)的寄存器写入控制或者经由通过环形互连802而发布至图形处理器800的命令而被控制。在一些实施例中,环形互连802将图形处理器800耦合至其它处理组件,诸如其它图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译,该命令流转化器将指令供应至几何流水线820或媒体流水线830的个体组件。在一些实施例中,命令流转化器803指导顶点提取器805的操作,该顶点提取器805从存储器读取顶点数据并且执行由命令流转化器803提供的顶点处理命令。在一些实施例中,顶点提取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和光照操作。在一些实施例中,顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852a-852b分派执行线程来执行顶点处理指令。在一些实施例中,执行单元852a-852b是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852a-852b具有附接的l1高速缓存851,其专用于每个阵列或在阵列之间共享。高速缓存可以被配置为数据高速缓存、指令高速缓存、或单个高速缓存,该单个高速缓存被分区以在不同分区中包含数据和指令。在一些实施例中,几何流水线820包括用以执行3d对象的硬件加速曲面细分的曲面细分组件。在一些实施例中,可编程的外壳着色器811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向处进行操作并且包含专用逻辑,该专用逻辑用以基于粗略几何模型来生成一组详细几何对象,该粗略几何模型作为输入而被提供至几何流水线820。在一些实施例中,如果未使用曲面细分,则可以绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。在一些实施例中,完整的几何对象可以由几何着色器819经由被分派至执行单元852a-852b的一个或多个线程来处理、或者可以直接行进至裁剪器(clipper)829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前级中对顶点或顶点的补丁进行操作。如果禁用曲面细分,那么几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程以便在曲面细分单元被禁用的情况下执行几何曲面细分。在栅格化之前,裁剪器829处理顶点数据。裁剪器829可以是固定功能裁剪器或者具有裁剪和几何着色器功能的可编程裁剪器。在一些实施例中,渲染输出流水线870中的栅格化器和深度测试组件873分派像素着色器以将几何对象转换成逐像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可以绕过栅格化器和深度测试组件873,并且经由流出单元823访问未栅格化的顶点数据。图形处理器800具有互连总线、互连结构、或某个其它的互连机构,该互连机构允许数据和消息在处理器的主要组件当中传递。在一些实施例中,执行单元852a-852b和相关联的逻辑单元(例如,l1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中,采样器854、高速缓存851、858以及执行单元852a-852b各自具有单独的存储器访问路径。在一个实施例中,纹理高速缓存858还可以被配置为采样器高速缓存。在一些实施例中,渲染输出流水线870包含栅格化器和深度测试组件873,该栅格化器和深度测试组件873将基于顶点的对象转换成相关联的基于像素的表示。在一些实施例中,栅格化器逻辑包括用以执行固定功能三角形和线栅格化的窗口/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,然而在一些实例中,与2d操作相关联的像素操作(例如,利用混合的位块图像传输)由2d引擎841执行、或者在显示时间处由显示控制器843使用重叠显示平面来代替。在一些实施例中,共享的l3高速缓存875可用于全部图形组件,从而允许在不使用主系统存储器的情况下共享数据。在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834从命令流转化器803接收流水线命令。在一些实施例中,媒体流水线830包括单独的命令流转化器。在一些实施例中,视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括用以产生线程以用于经由线程分派器831分派至线程执行逻辑850的线程产生功能。在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800外部并且经由环形互连802、或某个其它互连总线或结构与图形处理器耦合。在一些实施例中,显示引擎840包括2d引擎841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3d流水线而操作的专用逻辑。在一些实施例中,显示控制器843与显示设备(未示出)耦合,该显示设备可以是系统集成显示设备(如在膝上型计算机中)、或者经由显示设备连接器附接的外部显示设备。在一些实施例中,几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作,并且不特定于任何一种应用编程接口(api)。在一些实施例中,图形处理器的驱动器软件将特定于特定图形或媒体库的api调用转化成可以由图形处理器处理的命令。在一些实施例中,为全部来自khronosgroup的开放图形库(opengl)、开放计算语言(opencl)和/或vulkan图形和计算api提供支持。在一些实施例中,还可以为来自微软公司的direct3d库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库(opencv)提供支持。如果可以做出从未来api的流水线到图形处理器的流水线的映射,则具有兼容3d流水线的未来api也将被支持。图形流水线编程图9a是图示了根据一些实施例的图形处理器命令格式900的框图。图9b是图示了根据实施例的图形处理器命令序列910的框图。图9a中的实线框图示了通常被包括在图形命令中的组件,而虚线包括可选的或者仅被包括在图形命令的子集中的组件。图9a的示例性图形处理器命令格式900包括用以识别命令的客户端902、命令操作代码(操作码)904和数据906的数据字段。在一些命令中,还包括子操作码905和命令大小908。在一些实施例中,客户端902指定了处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器(parser)检查每个命令的客户端字段以调节对命令的进一步处理,并且将命令数据路由至适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2d单元、3d单元和媒体单元。每个客户端单元具有对命令进行处理的对应的处理流水线。一旦客户端单元接收到命令,客户端单元就读取操作码904和子操作码905(如果存在的话)以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,预期显式命令大小908来指定命令的大小。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些命令的大小。在一些实施例中,经由双字的倍数来对命令进行对齐。图9b中的流程图图示了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的一种版本的命令序列来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或者该命令序列。而且,命令可以作为采用命令序列的批命令来发布,使得图形处理器将至少部分并发地处理命令的序列。在一些实施例中,图形处理器命令序列910可以以流水线转储清除命令912开始以便使得任何活动图形流水线完成针对该流水线的当前未决命令。在一些实施例中,3d流水线922和媒体流水线924不同时进行操作。执行流水线转储清除以使得活动图形流水线完成任何未决命令。响应于流水线转储清除,图形处理器的命令解析器将暂停命令处理,直到活动绘图引擎完成未决操作并且相关读取高速缓存无效为止。可选地,可以将被标记为“脏”的渲染高速缓存中的任何数据转储清除到存储器。在一些实施例中,流水线转储清除命令912可以被用于流水线同步或者在将图形处理器置于低功率状态中之前使用。在一些实施例中,当命令序列要求图形处理器在流水线之间显式地切换时,使用流水线选择命令913。在一些实施例中,在发布流水线命令之前,在执行上下文内仅需要流水线选择命令913一次,除非该上下文要发布针对两条流水线的命令。在一些实施例中,在经由流水线选择命令913进行的流水线切换之前,立即需要流水线转储清除命令912。在一些实施例中,流水线控制命令914配置图形流水线以供操作,并且被用来对3d流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914配置活动流水线的流水线状态。在一个实施例中,流水线控制命令914被用于流水线同步,并且在处理一批命令之前从活动流水线内的一个或多个高速缓冲存储器清除数据。在一些实施例中,返回缓冲器状态命令916被用来配置一组返回缓冲器以供相应的流水线写入数据。一些流水线操作需要分配、选择或配置一个或多个返回缓冲器,所述操作在处理期间将中间数据写入到所述一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择返回缓冲器的大小和数量以用于一组流水线操作。命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920,该命令序列被调整到以3d流水线状态930开始的3d流水线922或者在媒体流水线状态940处开始的媒体流水线924。用以配置3d流水线状态930的命令包括:用于顶点缓冲器状态、顶点元素状态、常量颜色状态、深度缓冲器状态、以及要在处理3d图元命令之前配置的其它状态变量的3d状态设置命令。这些命令的值至少部分地基于使用中的特定3dapi来确定。在一些实施例中,3d流水线状态930命令还能够选择性地禁用或绕过某些流水线元件,如果将不使用那些元件的话。在一些实施例中,3d图元932命令被用来提交要由3d流水线处理的3d图元。将经由3d图元932命令传递给图形处理器的命令和相关联的参数转发给图形流水线中的顶点提取功能。顶点提取功能使用3d图元932命令数据来生成顶点数据结构。将顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中,3d图元932命令被用来经由顶点着色器来对3d图元执行顶点操作。为了处理顶点着色器,3d流水线922将着色器执行线程分派至图形处理器执行单元。在一些实施例中,经由执行934命令或事件来触发3d流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“去”(“go”)或“踢”(“kick”)命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行,以通过图形流水线来转储清除命令序列。3d流水线将执行针对3d图元的几何处理。一旦运算完成,便对所得几何对象进行栅格化,并且像素引擎给所得像素涂颜色。用以控制像素着色和像素后端操作的附加命令还可以被包括以用于那些操作。在一些实施例中,当执行媒体操作时,图形处理器命令序列910跟随在媒体流水线924路径之后。一般而言,媒体流水线924的特定使用和编程方式取决于要执行的媒体或计算操作。在媒体解码期间,可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还可以绕过媒体流水线,并且可以整体地或部分地使用由一个或多个通用处理核提供的资源来执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(gpgpu)操作的元件,其中,该图形处理器被用来使用计算着色器程序来执行simd向量运算,该计算着色器程序与图形图元的渲染不是显式相关的。在一些实施例中,以与3d流水线922类似的方式对媒体流水线924进行配置。将用以配置媒体流水线状态940的一组命令分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中,针对媒体流水线状态940的命令包括:用以配置媒体流水线元件的数据,所述媒体流水线元件将被用来处理媒体对象。这包括用以在媒体流水线内配置视频解码和视频编码逻辑的数据,诸如编码或解码格式。在一些实施例中,针对媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元件的一个或多个指针。在一些实施例中,媒体对象命令942将指针供应至媒体对象以供媒体流水线处理。媒体对象包括存储器缓冲器,该存储器缓冲器包含要处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,全部媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队,就经由执行命令944或等效的执行事件(例如,寄存器写入)来触发媒体流水线924。然后可以通过由3d流水线922或媒体流水线924提供的操作对来对从媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式来配置和执行gpgpu操作。图形软件架构图10图示了根据一些实施例的数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括:3d图形应用1010、操作系统1020、以及至少一个处理器1030。在一些实施例中,处理器1030包括:图形处理器1032以及一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。在一些实施例中,3d图形应用1010包含一个或多个着色器程序,该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言(hlsl)或opengl着色器语言(glsl)。该应用还包括采用适用于由通用处理器核1034执行的采用机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。在一些实施例中,操作系统1020是来自微软公司的microsoft®windows®操作系统、专有unix式操作系统、或使用linux内核的变体的开源unix式操作系统。操作系统1020可以支持图形api1022,诸如direct3dapi、openglapi或vulkanapi。当direct3dapi在使用中时,操作系统1020使用前端着色器编译器1024来将采用hlsl的任何着色器指令1012编译为较低级着色器语言。该编译可以是即时(jit)编译,或者该应用可以执行着色器预编译。在一些实施例中,在对3d图形应用1010进行编译期间,将高级着色器编译成低级着色器。在一些实施例中,着色器指令1012是以中间形式(诸如,由vulkanapi使用的一种版本的标准便携式中间表示(spir))提供的。在一些实施例中,用户模式图形驱动器1026包含后端着色器编译器1027,该后端着色器编译器1027用以将着色器指令1012转换成硬件特定的表示。当openglapi在使用中时,将采用glsl高级语言的着色器指令1012传递给用户模式图形驱动器1026以供编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中,内核模式图形驱动器1029与图形处理器1032进行通信以分派命令和指令。ip核实现至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码来实现,该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如,机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时,该指令可以使得机器制造用以执行本文中描述的技术的逻辑。这样的表示(被称为“ip核”)是用于集成电路的逻辑的可重复使用单元,该可重复使用单元可以作为对集成电路的结构进行描述的硬件模型而存储在有形机器可读介质上。可以将硬件模型供应至各种客户或制造设施,其将硬件模型加载在制造集成电路的制造机器上。可以制造集成电路,使得电路执行与本文中描述的实施例中的任何实施例相关联地描述的操作。图11a是图示了根据实施例的可以被用来制造用以执行操作的集成电路的ip核开发系统1100的框图。ip核开发系统1100可以被用来生成可以并入到更大的设计中或被用来构造整个集成电路(例如,soc集成电路)的模块化、可重复使用设计。设计设施1130可以采用高级编程语言(例如,c/c++)来生成对ip核设计的软件仿真1110。软件仿真1110可以被用来使用仿真模型1112来设计、测试并验证ip核的行为。仿真模型1112可以包括功能、行为和/或时序仿真。然后可以根据仿真模型1112来创建或合成寄存器传输级(rtl)设计1115。rtl设计1115是对硬件寄存器之间的数字信号的流进行建模的集成电路的行为的抽象,包括使用建模的数字信号执行的相关联逻辑。除rtl设计1115外,还可以创建、设计或合成逻辑级或晶体管级的较低级设计。因此,初始设计和仿真的特定细节可以发生变化。可以由设计设施将rtl设计1115或等效物进一步合成为硬件模型1120,该硬件模型1120可以采用硬件描述语言(hdl)或物理设计数据的某种其它表示。可以进一步仿真或测试hdl以验证ip核设计。可以使用非易失性存储器1140(例如,硬盘、闪速存储器、或任何非易失性存储介质)来存储ip核设计以供递送至第三方制造设施1165。替换地,可以通过有线连接1150或无线连接1160来传送(例如,经由因特网)ip核设计。制造设施1165然后可以制造至少部分地基于ip核设计的集成电路。所制造的集成电路可以被配置成执行根据本文中描述的至少一个实施例的操作。图11b图示了根据本文中描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170图示了如本文中描述的一个或多个处理器或加速器设备的实现。封装组装件1170包括:连接到基板1180的多个硬件逻辑1172、1174的单元。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件来实现,并且可以包括(一个或多个)处理器核、(一个或多个)图形处理器或本文中描述的其它加速器设备中的任何的一个或多个部分。逻辑1172、1174的每个单元可以在半导体管芯内实现,并且经由互连结构1173与基板1180耦合。互连结构1173可以被配置成在逻辑1172、1174与基板1180之间路由电信号,并且可以包括互连,该互连诸如但不限于凸块或柱。在一些实施例中,互连结构1173可以被配置成路由电信号,诸如例如与逻辑1172、1174的操作相关联的功率或接地信号和/或输入/输出(i/o)信号。在一些实施例中,该基板1180是环氧基层压基板。在其它实施例中,封装基板1180可以包括其它适合类型的基板。封装组装件1170可以经由封装互连1183连接到其它电气设备。封装互连1183可以耦合到基板1180的表面,以将电信号路由到其它电子设备,诸如母板、其它芯片组或多芯片模块。在一些实施例中,逻辑1172、1174的单元与桥接器1182电耦合,该桥接器1182被配置成在逻辑1172、1174之间路由电信号。桥接器1182可以是密集互连结构,其提供用于电信号的路径。桥接器1182可以包括由玻璃或合适的半导体材料构成的桥接器基板。可以在桥接器基板上形成电路由特征,以在逻辑1172、1174之间提供芯片到芯片连接。尽管图示了两个逻辑1172、1174的单元和桥接器1182,但是本文中描述的实施例可以包括在一个或多个管芯上的更多或更少逻辑单元。一个或多个管芯可以通过零个或更多桥接器连接,因为当逻辑被包括在单个管芯上时可以排除桥接器1182。替换地,多个管芯或逻辑的单元可以通过一个或多个桥接器连接。附加地,多个逻辑单元、管芯和桥接器可以用包括三维配置的其它可能的配置连接在一起。示例性片上系统集成电路图12-14图示了根据本文中描述的各种实施例的可以使用一个或多个ip核来制造的示例性集成电路和相关联图形处理器。除了所图示的内容之外,还可以包括其它逻辑和电路,包括附加的图形处理器/核、外围接口控制器或通用处理器核。图12是图示了根据实施例的可以使用一个或多个ip核来制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,cpu)、至少一个图形处理器1210,并且可以附加地包括图像处理器1215和/或视频处理器1220,其中的任何都可以是来自相同或多个不同设计设施的模块化ip核。集成电路1200包括:外围或总线逻辑,其包括usb控制器1225、uart控制器1230、spi/sdio控制器1235和i2s/i2c控制器1240。附加地,集成电路可以包括显示设备1245,该显示设备1245耦合至高清晰度多媒体接口(hdmi)控制器1250和移动产业处理器接口(mipi)显示界面1255中的一个或多个。可以由闪速存储器子系统1260(包括闪速存储器和闪速存储器控制器)来提供存储。可以经由存储器控制器1265来提供存储器接口以访问sdram或sram存储器设备。一些集成电路附加地包括嵌入式安全引擎1270。图13a-13b是图示了根据本文中描述的实施例的供soc内使用的示例性图形处理器的框图。图13a图示了根据实施例的可以使用一个或多个ip核来制造的片上系统集成电路的示例性图形处理器1310。图13b图示了根据实施例的可以使用一个或多个ip核来制造的片上系统集成电路的附加示例性图形处理器1340。图13a的图形处理器1310是低功率图形处理器核的示例。图13b的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。如在图13a中示出的,图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315a-1315n(例如,1315a、1315b、1315c、1315d,一直到1315n-1和1315n)。图形处理器1310可以经由单独的逻辑来执行不同的着色器程序,使得顶点处理器1305被优化以执行针对顶点着色器程序的操作,而一个或多个片段处理器1315a-1315n执行针对片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3d图形流水线的顶点处理级,并且生成图元和顶点数据。(一个或多个)片段处理器1315a-1315n使用由顶点处理器1305生成的图元和顶点数据来产生显示在显示设备上的帧缓冲。在一个实施例中,(一个或多个)片段处理器1315a-1315n被优化以执行如为openglapi中提供的片段着色器程序,所述片段着色器程序可以被用来执行与如为direct3dapi中提供的像素着色器程序相似的操作。图形处理器1310附加地包括一个或多个存储器管理单元(mmu)1320a-1320b、(一个或多个)高速缓存1325a-1325b和(一个或多个)电路互连1330a-1330b。该一个或多个mmu1320a-1320b为图形处理器1310(包括为顶点处理器1305和/或(一个或多个)片段处理器1315a-1315n)提供虚拟到物理地址映射,该虚拟到物理地址映射除了存储在一个或多个高速缓存1325a-1325b中的顶点或图像/纹理数据之外还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中,一个或多个mmu1320a-1320b可以与系统内的其它mmu同步,所述其它mmu包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个mmu,使得每个处理器1205-1220可以参与到共享或统一的虚拟存储器系统中。根据实施例,一个或多个电路互连1330a-1330b使得图形处理器1310能够经由soc的内部总线或经由直接连接来与soc内的其它ip核对接。如图13b所示出的,图形处理器1340包括图13a的图形处理器1310的一个或多个mmu1320a-1320b、高速缓存1325a-1325b和电路互连1330a-1330b。图形处理器1340包括:一个或多个着色器核1355a-1355n(例如,1455a、1355b、1355c、1355d、1355e、1355f、一直到1355n-1和1355n),其提供统一的着色器核架构,其中单个核或类型或核可以执行全部类型的可编程着色器代码,包括用以实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可以在实施例和实现当中发生变化。附加地,图形处理器1340包括核间任务管理器1345,该核间任务管理器1345充当用以将执行线程分派给一个或多个着色器核1355a-1355n的线程分派器以及用以对针对基于贴片(tile)的渲染的拼贴(tiling)操作进行加速的拼贴单元1358,在所述基于贴片的渲染中,场景的渲染操作在图像空间中被细分,例如以便利用场景内的局部空间一致性或以便优化内部高速缓存的使用。图14a-14b图示了根据本文中描述的实施例的附加的示例性图形处理器逻辑。图14a图示了图形核1400,其可以被包括在图12的图形处理器1210内,并且可以是如图13b中的统一着色器核1355a-1355n。图14b图示了附加的高度并行的通用图形处理单元1430,其是适合于部署在多芯片模块上的高度并行的通用图形处理单元。如在图14a示出的,图形核1400包括:共享指令高速缓存1402、纹理单元1418和高速缓存/共享存储器1420,它们对于图形核1400内的执行资源是公共的。图形核1400可以包括针对每个核的多个薄片1401a-1401n或分区,并且图形处理器可以包括图形核1400的多个实例。薄片1401a-1401n可以包括支持逻辑,该支持逻辑包括本地指令高速缓存1404a-1404n、线程调度器1406a-1406n、线程分派器1408a-1408n和一组寄存器1410a-1440n。为了执行逻辑操作,薄片1401a-1401n可以包括一组附加功能单元(afu1412a-1412n)、浮点单元(fpu1414a-1414n)、整数算术逻辑单元(alu1416-1416n)、地址计算单元(acu1413a-1413n)、双精度浮点单元(dpfpu1415a-1415n)和矩阵处理单元(mpu1417a-1417n)。计算单元中的一些以特定精度进行操作。例如,fpu1414a-1414n可以执行单精度(32位)和半精度(16位)浮点运算,而dpfpu1415a-1415n执行双精度(64位)浮点运算。alu1416a-1416n可以用8位、16位和32位精度来执行可变精度整数运算,并且可以被配置用于混合精度运算。mpu1417a-1417n还可以被配置用于混合精度矩阵运算,包括半精度浮点和8位整数运算。mpu1417-1417n可以执行各种各样的矩阵操作以对机器学习应用框架进行加速,包括使得能够实现对经加速的通用矩阵到矩阵乘法(gemm)的支持。afu1412a-1412n可以执行浮点或整数单元不支持的附加逻辑运算,包括三角运算(例如,正弦、余弦等)。如在图14b中示出的,通用处理单元(gpgpu)1430可以被配置成使得高度并行的计算操作能够由图形处理单元的阵列执行。附加地,gpgpu1430可以直接链接至gpgpu的其它实例以创建多gpu集群,从而改进特别深的神经网络的训练速度。gpgpu1430包括:用以使得能够实现与主机处理器的连接的主机接口1432。在一个实施例中,主机接口1432是pciexpress接口。然而,主机接口还可以是供应方特定的通信接口或通信结构。gpgpu1430从主机处理器接收命令,并且使用全局调度器1434来将与那些命令相关联的执行线程分发给一组计算集群1436a-1436h。计算集群1436a-1436h共享高速缓冲存储器1438。高速缓冲存储器1438可以用作计算集群1436a-1436h内的高速缓冲存储器的高级高速缓存。gpgpu1430包括:存储器14434a-14434b,它们经由一组存储器控制器1442a-1442b与计算集群1436a-1436h耦合。在各种实施例中,存储器1434a-1434b可以包括各种类型的存储器设备,包括动态随机存取存储器(dram)或图形随机存取存储器,诸如同步图形随机存取存储器(sgram),包括图形双数据速率(gddr)存储器。在一个实施例中,计算集群1436a-1436h各自包括一组图形核,诸如图14a的图形核1400,其可以包括多种类型的整数和浮点逻辑单元,所述整数和浮点逻辑单元可以按包括适合于机器学习计算的一系列精度来执行计算操作。例如且在一个实施例中,至少计算集群1436a-1436h中的每个计算集群中的浮点单元的一子集可以被配置成执行16位或32位浮点运算,而浮点单元的不同子集可以被配置成执行64位浮点运算。gpgpu1430的多个实例可以被配置成作为计算集群进行操作。由计算集群用于同步和数据交换的通信机制跨实施例而变化。在一个实施例中,gpgpu1430的多个实例通过主机接口1432进行通信。在一个实施例中,gpgpu1430包括:使gpgpu1430与gpu链路1440耦合的i/o中枢1439,该gpu链路1440使得能够实现至gpgpu的其它实例的直接连接。在一个实施例中,gpu链路1440耦合至专用gpu至gpu桥接器,该桥接器使得能够实现gpgpu1430的多个实例之间的通信和同步。在一个实施例中,gpu链路1440与高速互连相耦合,以将数据传送至其它gpgpu或并行处理器以及接收数据。在一个实施例中,gpgpu1430的多个实例位于单独的数据处理系统中并且经由网络设备进行通信,该网络设备可经由主机接口1432来访问。在一个实施例中,除主机接口1432之外或作为对主机接口1432的替换物,gpu链路1440可以被配置成使得能够实现至主机处理器的连接。虽然gpgpu1430的图示配置可以被配置成训练神经网络,但是一个实施例提供了gpgpu1430的替代配置,其可以被配置用于部署在高性能或低功率推理平台内。在推理配置中,gpgpu1430包括:相对于训练配置更少的计算集群1436a-1436h。附加地,与存储器1434a-1434b相关联的存储器技术可以在推理与训练配置之间不同,其中更高带宽的存储器技术致力于训练配置。在一个实施例中,gpgpu1430的推理配置可以支持推理特定的指令。例如,推理配置可以提供对一个或多个8位整数点积指令的支持,所述8位整数点积指令通常在针对已部署的神经网络的推理操作期间使用。带有机器学习的光线追踪如上文提到的,光线追踪是一种图形处理技术,其中通过基于物理地渲染来模拟光传输。光线追踪中的关键操作之一是处理可见性查询,该可见性查询需要对包围体积层级(bvh)中的节点进行遍历和交叉测试。基于光线和基于路径追踪的技术通过追踪通过每个像素的光线和路径、以及使用随机采样计算诸如阴影、光泽度、间接照明等高级效果来计算图像。只使用几个样本是快速的,但产生有噪图像,而使用许多样本产生高质量图像,但成本过高。最近几年,针对实时使用的光线/路径追踪的突破性技术方案以“去噪”的形式出现—使用图像处理技术来产生高质量的从有噪、低样本计数输入中被过滤/去噪的图像的过程。最有效的去噪技术依赖于机器学习技术,其中机器学习引擎学习到如果有噪图像已利用更多样本而被计算则它可能看起来像什么。在一个特定实现中,机器学习由卷积神经网络(cnn)执行;然而,本发明的根本原理不限于cnn实现。在这样的实现中,用低样本计数输入和地面真值(ground-truth)产生训练数据。cnn被训练以根据围绕所涉及像素的有噪像素输入的邻域预测收敛像素。虽然不完美,但该基于ai的去噪技术已被证明出奇有效。然而,要注意的是,需要良好的训练数据,因为网络可能另外预测错误的结果。例如,如果动画电影工作室在具有陆地上场景的过去电影上训练去噪cnn并且然后试图使用该经过训练的cnn来使帧从新的水上电影布景去噪,则去噪操作将表现欠佳。为了解决该问题,本发明的一个实施例在渲染时动态收集学习数据,并且基于机器学习引擎当前运行所针对的数据来持续训练该机器学习引擎,诸如cnn,从而为了手头任务而不断改进机器学习引擎。该实施例在运行时之前仍然可以执行训练阶段,但在运行时期间根据需要持续调整机器学习权重。附加地,该实施例通过每个帧或每n个帧地将学习数据的生成限制到图像的子区而避免了计算训练所需参考数据的高成本。特别地,生成帧的有噪输入,以用于利用当前网络使全帧去噪。附加地,生成小区域的参考像素并且将其用于持续训练,如下文描述那样。尽管关于某些实施例描述了cnn实现,但可以使用任何形式的机器学习引擎,包括但不限于以下系统:其执行受监督学习(例如,构建包含输入和期望输出的一组数据的数学模型)、无监督学习(例如,其对某些类型的结构评估输入数据)和/或受监督和无监督学习的组合。现有的去噪实现在训练阶段和运行时阶段操作。在训练阶段期间,定义网络拓扑,该网络拓扑接收具有诸如像素颜色、深度、法线、法线偏差、图元id和反射率之类的各种逐像素数据通道的n×n个像素的区域,并且生成最终像素颜色。使用价值为一个帧的低样本计数输入来生成一组“代表性”训练数据,并且引用利用非常高样本计数来计算的“期望”像素颜色。针对这些输入来训练网络,从而对网络生成一组“理想”权重。在这些实现中,参考数据用于训练网络的权重,以使网络的输出最紧密地与期望结果匹配。在运行时,加载给定的经预先计算的理想网络权重并且使网络初始化。对于每个帧,生成去噪输入(即,与用于训练的一样)的低样本计数图像。对于每个像素,像素的输入的给定邻域通过网络来运行以预测“去噪”像素颜色,从而生成去噪帧。图15图示了初始训练实现的一个实施例。机器学习引擎1500(例如,cnn)接收n×n个像素的区域作为具有诸如像素颜色、深度、法线、法线偏差、图元id和反射率之类的各种逐像素数据通道的的高样本计数图像数据1702,并且生成最终像素颜色。使用价值为一个帧的低样本计数输入1501生成代表性训练数据。针对这些输入来训练网络,从而生成一组“理想”权重1505,机器学习引擎1500随后将该组权重1505用于在运行时对低样本计数图像去噪。为了改进上文的技术,本发明的一个实施例增强了去噪阶段以每个帧或帧的子集(例如,每n个帧,其中n=2、3、4、10、25等)生成新的训练数据。特别地,如在图16中图示的,该实施例在每个帧中选择一个或多个区域,这里称为“新参考区”1602,用高样本计数将该新参考区1602渲染成单独的高样本计数缓冲器1604。低样本计数缓冲器1603存储低样本计数输入帧1601(其包括对应于新参考区1602的低样本区1604)。在一个实施例中,随机选择新参考区1602的位置。替换地,新参考区1602的位置可以对每个新帧采用预先规定的方式(例如,使用帧之间的区域的预定义移动,帧之间的该区域不限于帧中心的规定区域,等)来调整。不管如何选择新参考区,它都被机器学习引擎1600用来持续改善和更新用于去噪的经过训练的权重1605。特别地,来自每个新参考区1602的参考像素颜色和来自对应低样本计数区1607的有噪参考像素输入被渲染。然后使用高样本计数参考区1602和对应的低样本计数区1607对机器学习引擎1600执行补充训练。与初始训练相比之下,在运行时期间对每个新参考区1602持续执行该训练--由此确保机器学习引擎1600被精确训练。例如,可以评估逐像素数据通道(例如,像素颜色、深度、法线、法线偏差等),机器学习引擎1600使用这些逐像素数据通道来对经过训练的权重1605进行调整。正如在训练情况(图15)中一样,针对一组理想权重1605训练机器学习引擎1600,以用于从低样本计数输入帧1601去除噪声以生成去噪帧1620。然而,在该实施例中,基于新类型的低样本计数输入帧1601的新图像特性,经过训练的权重1605被持续更新。在一个实施例中,机器学习引擎1600执行的重新训练操作在后台进程中在图形处理器单元(gpu)或主机处理器上被并发执行。可以被实现为驱动器组件和/或gpu硬件组件的渲染循环持续产生新的训练数据(例如,采用新参考区1602的形式),渲染循环将该新的训练数据置于队列中。在gpu或主机处理器上执行的后台训练进程持续从该队列读取新的训练数据、重新训练机器学习引擎1600并且在适当的间隔用新的权重1605来更新它。图17图示其中后台训练进程1700由主cpu1710实现的一个这样的实现的示例。特别地,在该实施例中,后台训练进程1700使用高样本计数新参考区1602和对应的低样本区1604来持续更新经过训练的权重1605,由此更新机器学习引擎1600。如图18a中图示的,在一个实现中,诸如在多玩家在线游戏中,不同的主机1820-1822各自生成参考区,后台训练进程1700a-c将这些参考区传送到服务器1800(例如,诸如游戏服务器)。服务器1800然后使用从主机1821-1822中的每个主机接收的新参考区对机器学习引擎1810执行训练,从而如之前描述的那样更新权重1805。它将这些权重1805传送到存储权重1605a-c的主机1820,由此更新每个个体机器学习引擎(未示出)。因为服务器1800可以在短时期内提供大量参考区,因此它可以高效且精确地对由用户执行的任何给定应用(例如,在线游戏)更新权重。如图18b中图示的,不同的主机可以生成新的经过训练的权重(例如,基于如之前描述的训练/参考区1602)并且与服务器1800(例如诸如游戏服务器)共享新的经过训练的权重,或者替换地,使用对等共享协议。服务器上的机器学习管理组件1810使用从主机中的每个主机接收的新的权重生成一组组合权重1805。组合权重1805例如可以是从新权重生成并且如本文描述的那样被持续更新的平均值。一旦生成,组合权重1605a-c的副本就可以被传送并且存储在主机1820-1821中的每个主机上,该主机1820-1821中的每个主机然后可以使用如之前描述的组合权重来执行去噪操作。在一个实施例中,该半闭环更新机构可以被硬件制造商使用。例如,可以包括参考网络作为硬件制造商所分配的驱动器的部分。在驱动器使用本文描述的技术生成新的训练数据并且将这些持续提交回硬件制造商时,硬件制造商使用该信息来针对下一个驱动器更新继续改进它的机器学习实现。在一个实现中(例如,在渲染场上的批量电影渲染中),渲染器将新生成的训练区传送到专用服务器或数据库(在该工作室的渲染场中),其随时间使来自多个渲染节点的该数据聚集。单独机器上的单独进程持续改进工作室的专用去噪网络,并且新的渲染作业总是使用最新的经过训练的网络。根据本发明的一个实施例的方法在图19中图示。该方法可以在本文描述的架构上实现,但不限于任何特定系统或图形处理架构。在1901,作为初始训练阶段的部分,对多个图像帧生成低样本计数图像数据和高样本计数图像数据。在1902,使用高/低样本计数图像数据训练机器学习去噪引擎。在一个实施例中,例如,与像素特征相关联的一组卷积神经网络权重可以根据训练被更新。然而,可以使用任何机器学习架构。在1903,在运行时,生成低样本计数图像帧连同具有高样本计数的至少一个参考区。在1904,高样本计数参考区被机器学习引擎和/或单独训练逻辑(例如,后台训练模块1700)用来持续改善机器学习引擎的训练。例如,在一个实施例中,高样本计数参考区结合低样本计数图像的对应部分一起使用以持续教导机器学习引擎1904如何有效地执行去噪。在cnn实现中,例如,这可以牵涉更新与cnn相关联的权重。可以实现上文描述的实施例的多个变体,诸如配置到机器学习引擎的反馈环所采用的方式、生成训练数据的实体、训练数据被反馈给训练引擎所采用的方式以及如何向渲染引擎提供经改进的网络。附加地,尽管上文描述的上述实施例使用单个参考区执行持续训练,但可以使用任何数量的参考区。而且,如之前提到的,参考区可以具有不同大小,可以在不同数量的图像帧上使用,并且可以使用不同技术(例如,随机、根据预定模式等)被放置在图像帧内的不同位置中。附加地,尽管卷积神经网络(cnn)被描述为机器学习引擎1600的一个示例,但本发明的根本原理可以使用任何形式的机器学习引擎(其能够使用新的训练数据持续改善它的结果)来被实现。通过示例并且没有限制,举几个例子,其他机器实现包括数据处理组合方法(gmdh)、长期短期记忆、深储层计算、深度信念网络、张量深堆叠网络和深度预测编码网络。用于高效分布式去噪的装置和方法如上文描述的,去噪已变成利用平滑、无噪图像的实时光线追踪的一个关键特征。可以跨多个设备上的分布式系统进行渲染,但迄今为止现有的去噪框架全部对单个机器上的单个实例进行操作。如果跨多个设备进行渲染,则它们可能没有使所有经渲染的像素可访问以用于计算图像的去噪部分。本发明的一个实施例包括与基于人工智能(ai)和非ai的去噪技术一起运作的分布式去噪算法。图像的区域已经跨来自分布式渲染操作的节点而分布,或从单个帧缓冲器被拆分和分布。对于计算充分去噪所需要的相邻区的重影区在需要时从相邻节点收集,并且最终所得的贴片被合成最终图像。分布式处理图20图示了本发明的一个示例,其中多个节点2021-2023执行渲染。尽管为了简单起见只图示了三个节点,但本发明的根本原理不限于任何特定数量的节点。实际上,单个节点可以用于实现本发明的某些实施例。节点2021-2023各自渲染图像的一部分,从而在该示例中产生区2011-2013。尽管在图20中示出矩形区2011-2013,但可以使用具有任何形状的区并且任何设备可以处理任何数量的区。节点用以执行足够平滑的去噪操作所需要的区被称为重影区2011-2013。也就是说,重影区2001-2003表示在规定的质量水平执行去噪所需要的全部数据。降低质量水平使重影区的大小减少并且因此使所需要的数据量减少,并且提升质量水平使重影区和所需要的对应数据增加。在一个实施例中,如果诸如节点2021之类的节点确实具有重影区2001的一部分的本地副本(在规定质量水平使它的区2011去噪所需要),则节点将从一个或多个“邻近”节点检索所需要的数据,该一个或多个邻近节点诸如节点2022,其拥有如图示的重影区2001的一部分。相似地,如果节点2022确实具有重影区2002的一部分的本地副本(在规定质量水平使它的区2012去噪所需要),则节点2022将从节点2021检索所需要的重影区数据2032。检索可以通过总线、互连、高速存储器组构、网络(例如,高速以太网)执行,或可以甚至是能够在多个节点当中分配渲染工作的多核芯片中的片上互连(例如,用于以极端分辨率或按时间变化来渲染大的图像)。在一个实施例中,每个节点2021-2023包括个体执行单元或图形处理器内规定集合的执行单元。要发送的特定数据量取决于在使用的去噪技术。而且,来自重影区的数据可以包括改进每个相应区的去噪所需要的任何数据。在一个实施例中,例如,重影区数据包括图像颜色/波长、强度/阿尔法数据和/或法线。然而,本发明的根本原理不限于任何特定组的重影区数据。一个实施例的附加细节对于较慢网络或互连,可以使用现有的通用无损或有损压缩来利用该数据的压缩。示例包括但不限于zlib、gzip和lempel-ziv-markov链算法(lzma)。通过注意到帧之间的光线命中信息之间的增量(δ)可能非常稀疏,可以使用进一步的内容特定压缩,并且在节点已经具有从之前帧收集的增量时只需要发送有助于该增量的样本。这些可以被选择性地推送到收集那些样本的节点i,或节点i可以请求来自其他节点的样本。在一个实施例中,无损压缩用于某些类型的数据和程序代码,而有损数据用于其他类型的数据。图21图示了根据本发明的一个实施例的节点2021-2022之间的交互的附加细节。每个节点2021-2022包括用以渲染相应的图像区2011-2012和重影区2001-2002的光线追踪渲染电路2081-2082。去噪器2100-2111分别对区2011-2012执行去噪操作,该每个节点2021-2022负责渲染和去噪。去噪器2021-2022例如可以包括电路、软件或其任何组合,分别用以生成去噪区2121-2122。如提到的,在生成去噪区时,去噪器2021-2022可需要依靠不同节点所拥有的重影区内的数据(例如,去噪器2100可能需要来自节点2022所拥有的重影区2002的数据)。从而,在一个实施例中,去噪器2100-2111分别使用来自区2011-2012和重影区2001-2002的数据生成去噪区2121-2122,该来自区2011-2012和重影区2001-2002的数据的至少一部分可以从另一个节点接收。区数据管理器2101-2102管理来自重影区2001-2002的数据传输,如本文描述那样。在一个实施例中,压缩器/解压器单元2131-2132分别执行在节点2021-2022之间交换的重影区数据的压缩和解压。例如,节点2021的区数据管理器2101可以在从节点2022请求时将数据从重影区2001发送到压缩器/解压器2131,该压缩器/解压器2131压缩数据来生成它要传送到节点2022的经压缩数据2106,由此使互连、网络、总线或其他数据通信链路上的带宽减少。节点2022的压缩器/解压器2132然后对经压缩数据2106解压并且去噪器2111使用经解压的重影数据(ghostdata)来生成比仅利用来自区2012的数据将可能具有的质量更高的去噪区2012。区数据管理器2102可以将来自重影区2001的经解压数据存储在高速缓存、存储器、寄存器堆或其他存储中以使得它在生成去噪区2122时对去噪器2111可用。可以执行一组相似的操作来将数据从重影区2002提供给节点2021上的去噪器2100,该去噪器2100使用数据结合来自区2011的数据以生成更高质量的去噪区2121。抓取数据或渲染如果诸如节点2021-2022之类的设备之间的连接是慢的(即,低于阈值时延和/或阈值带宽),则可以更快地在本地渲染重影区而不是请求来自其他设备的结果。这可以在运行时通过追踪网络事务速度并且针对重影区大小而线性外推的渲染次数来确定。在这样的更快渲染出整个重影区的情况下,多个设备可以以渲染图像的相同部分而结束。重影区的经渲染部分的分辨率可以基于基区的方差和所确定的模糊程度来调整。负荷平衡在一个实施例中,静态和/或动态负荷平衡方案可以用于在各种节点2021-2023当中分配处理负荷。对于动态负荷平衡,去噪滤波器确定的方差可能在去噪中都需要更多时间,但用需要较少样本的图像的低方差和模糊区来驱动用于渲染场景的特定区的样本量。指派给特定节点的特定区可以基于来自先前帧的数据而动态调整或在渲染它们时跨设备动态地通信使得所有设备具有同样的工作量。图22图示其中在每个相应节点2021-2022上运行的监视器2201-2202收集性能度量数据的一个实施例,该性能度量数据包括但不限于通过网络接口2211-2212传送数据消耗的时间、在使区(具有和没有重影区数据)去噪时消耗的时间以及渲染每个区/重影区消耗的时间。监视器2201-2202向管理器或负荷平衡器节点2201汇报这些性能度量,该管理器或负荷平衡器节点2201分析数据来识别每个节点2021-2022上的当前工作负荷并且潜在地确定处理各种去噪区2121-2122的更高效模式。管理器节点2201然后根据所检测的负荷将对于新区的新工作负荷分配到节点2021-2022。例如,管理器节点2201可以向负荷不重的那些节点传送更多工作和/或重新分派来自过载的那些节点的工作。附加地,负荷平衡器节点2201可以传送重配置命令来调整节点中的每个节点执行渲染和/或去噪所采用的特定方式(其中的一些示例在上文描述)。确定重影区在一个实施例中,基于去噪器2100-2111实现的去噪算法来确定重影区2001-2002的大小和形状。它们的相应大小然后可以基于正在被去噪的样本的所检测方差而动态修改。用于ai去噪的学习算法本身可以用于确定合适的区大小,或在诸如双向模糊之类的其他情况下,预定滤波器宽度将确定重影区2001-2002的大小。在使用学习算法的实现中,机器学习引擎可以在管理器节点2201上执行和/或机器学习的部分可以在个体节点2021-2023中的每个节点上执行(参见例如图18a-b和上文的相关联文本)。收集最终图像在一个实施例中,通过从节点2021-2023中的每个节点收集经渲染和去噪的区而不需要重影区或法线,生成最终图像。在图22中,例如,将去噪区2121-2122传送到管理器节点2201的区处理器2280,其使区组合来生成最终去噪图像2290,该最终去噪图像2290然后在显示器2290上显示。区处理器2280可以使用多种2d合成技术来使区组合。虽然被图示为单独的组件,但区处理器2280和去噪图像2290可以与显示器2290一体化。在该实施例中,各种节点2021-2022可以使用直接发送技术来传送去噪区2121-2122并且潜在地使用区数据的各种有损或无损压缩。ai去噪仍然是高成本操作并且作为游戏移进云中。如此,使去噪的处理跨多个节点2021-2022分布可成为需要较高帧率的传统游戏或虚拟现实(vr)实现实时帧率所需的。电影工作室经常还在可以被利用于较快去噪的大型渲染场中渲染。用于执行分布式渲染和去噪的方法的一个实施例在图23中图示。该方法可以在上文描述的系统架构的上下文内实现,但不限于任何特定系统架构。在2301,向执行光线追踪操作来渲染图像帧的区域的多个节点分派图形工作。在一个实施例中,每个节点可已经在存储器中具有执行操作所需要的数据。例如,节点中的两个或以上可以共享公共存储器或节点的本地存储器可已经存储了来自之前光线追踪操作的数据。替换地,或附加地,某些数据可以被传送到每个节点。在2302,确定对于规定去噪水平(即,在可接受的性能水平)所需要的“重影区”。重影区包括执行规定去噪水平所需要的任何数据,包括一个或多个其他节点拥有的数据。在2303,与重影区(或其部分)有关的数据在节点之间交换。在2304,每个节点对它的相应区执行去噪(例如,使用经交换的数据)并且在2305使结果组合来生成最终去噪图像帧。在一个实施例中,诸如图22中示出的管理器节点或主节点向节点分派工作并且然后使节点执行的工作组合来生成最终图像帧。在另一个实施例中,使用基于对等体的架构,其中节点是交换数据来渲染最终图像帧并且使其去噪的对等体。本文描述的节点(例如,节点2021-2023)可以是经由高速网络互连的图形处理计算系统。替换地,节点可以是耦合至高速存储器组构的个体处理元件。在该实施例中,全部的节点可以共享公共虚拟存储器空间和/或公共物理存储器。在另一个实施例中,节点可以是cpu和gpu的组合。例如,上文描述的管理器节点2201可以是cpu和/或在cpu上执行的软件并且节点2021-2022可以是gpu和/或在gpu上执行的软件。可以使用各种不同类型的节点,同时仍然遵从本发明的根本原理。示例神经网络实现有许多类型的神经网络;简单类型的神经网络是前馈网络。前馈网络可以实现为其中节点以层设置的非循环图。典型地,前馈网络拓扑包括被至少一个隐藏层分开的输入层和输出层。隐藏层将输入层接收的输入变换为对在输出层中生成输出有用的表示。网络节点经由到邻近层中的节点的边缘而完全连接,但在每个层内的节点之间没有边缘。在前馈网络的输入层的节点处接收的数据经由激活函数被传播(即,“前馈”)到输出层的节点,该激活函数基于分别与连接层的边缘中的每个边缘相关联的系数(“权重”)来计算网络中每个连续层的节点的状态。根据在执行的算法所表示的特定模型,来自神经网络算法的输出可以采取各种形式。在机器学习算法可以用于对特定问题建模之前,使用训练数据集来训练算法。训练神经网络牵涉选择网络拓扑、使用代表正被网络建模的问题的一组训练数据以及调整权重直到网络模型对训练数据集的所有实例以最小误差运作。例如,在对神经网络的受监督学习训练过程期间,网络响应于代表训练数据集中的实例而产生的输出与对该实例的“正确的”经标记输出比较,计算代表输出与经标记输出之间的差异的误差信号,并且调整与连接相关联的权重以在误差信号通过网络层向后传播时使该误差最小化。在对于从训练数据集的实例生成的输出中的每个输出的误差被最小化时,网络被认为“经过训练”。机器学习算法的精确性可以明显受到用于训练算法的数据集的质量的影响。训练过程在计算上可以是密集的并且在常规的通用处理器上可能需要大量时间。因此,并行处理硬件用于训练许多类型的机器学习算法。这对于优化神经网络的训练特别有用,因为在调整神经网络中的系数中所执行的计算使得它们本身很自然地有助于并行实现。具体地,许多机器学习算法和软件应用已适应于在通用图形处理设备内利用并行处理硬件。图24是机器学习软件堆栈2400的通用图。机器学习应用2402可以配置成使用训练数据集来训练神经网络或使用经过训练的深度神经网络来实现机器智能。机器学习应用2402可以包括可以用于在部署之前训练神经网络的专用软件和/或神经网络的训练和推理功能性。机器学习应用2402可以实现任何类型的机器智能,包括但不限于图像识别、映射和定位、自主导航、语音合成、医学成像或语言翻译。对于机器学习应用2402的硬件加速可以经由机器学习框架2404而启用。机器学习框架2404可以提供机器学习图元的库。机器学习图元是机器学习算法通常执行的基本操作。在没有机器学习框架2404的情况下,机器学习算法的开发人员将需要创建和优化与机器学习算法相关联的主要计算逻辑,然后在开发新的并行处理器时重新优化计算逻辑。代替地,机器学习应用可以配置成使用机器学习框架2404提供的图元来执行必要的计算。示例性图元包括张量卷积、激活函数和池化,它们是在训练卷积神经网络(cnn)时执行的计算操作。机器学习框架2404还可以提供图元来实现由许多机器学习算法执行的基本线性代数子程序,诸如矩阵和向量运算。机器学习框架2404可以处理从机器学习应用2402接收的输入数据并且生成到计算框架2406的合适输入。计算框架2406可以抽取提供给gpgpu驱动器2408的底层指令以使机器学习框架2404能够经由gpgpu硬件2410利用硬件加速而不需要机器学习框架2404深入了解gpgpu硬件2410的架构。附加地,计算框架2406可以对机器学习框架2404实现跨多种类型和世代的gpgpu硬件2410的硬件加速。gpgpu机器学习加速图25图示了根据实施例的多gpu计算系统2500。该多gpu计算系统2500可以包括处理器2502,其经由主机接口切换装置2504而耦合至多个gpgpu2506a-d。在一个实施例中,主机接口切换装置2504是pciexpress切换设备,其使处理器2502耦合至pciexpress总线,处理器2502可以通过该pciexpress总线而与该组gpgpu2506a-d通信。多个gpgpu2506a-d中的每个gpgpu可以是上文描述的gpgpu的实例。gpgpu2506a-d可以经由一组高速点到点gpu到gpu链路2516而互连。高速gpu到gpu链路可以经由专用gpu链路连接到gpgpu2506a-d中的每个gpgpu。p2pgpu链路2516使得能够在gpgpu2506a-d中的每个gpgpu之间实现直接通信而不需要通过处理器2502所连接到的主机接口总线而通信。利用被引导到p2pgpu链路的gpu到gpu业务,主机接口总线仍然对系统存储器访问可用或与多gpu计算系统2500的其他实例通信,例如经由一个或多个网络设备。尽管在图示的实施例中gpgpu2506a-d经由主机接口切换装置2504连接到处理器2502,但在一个实施例中,处理器2502包括对p2pgpu链路2516的直接支持并且可以直接连接到gpgpu2506a-d。机器学习神经网络实现本文描述的实施例提供的计算架构可以配置成执行特别适合于训练和部署神经网络以用于机器学习的那些类型的并行处理。神经网络可以概括为具有图表关系的功能的网络。如本领域内公知的,有多种类型的神经网络实现在机器学习中使用。一个示例性类型的神经网络是前馈网络,如之前描述的。第二个示例性类型的神经网络是卷积神经网络(cnn)。cnn是用于处理具有已知的网格状拓扑的数据(诸如图像数据)的专门的前馈神经网络。因此,cnn通常用于计算视觉和图像识别应用,但它们也可以用于其他类型的模式识别,诸如语音和语言处理。cnn输入层中的节点被组织为一组“滤波器”(受在视网膜中发现的接受域启发的特征检测器),并且每组滤波器的输出被传播到网络的连续层中的节点。对于cnn的计算包括对每个滤波器应用卷积数学运算来产生该滤波器的输出。卷积是由两个函数执行来产生第三函数的一种专门的数学运算,该第三函数是该两个原始函数中的一个的修改版本。在卷积网络术语中,到卷积的第一函数可以称为输入,而第二函数可以称为卷积内核。输出可以称为特征图。例如,到卷积层的输入可以是限定输入图像的各种颜色分量的多维阵列的数据。卷积内核可以是多维阵列的参数,其中这些参数通过对于神经网络的训练过程而适配。递归神经网络(rnn)是前馈神经网络系列,其包括层之间的反馈连接。rnn通过跨神经网络的不同部分共享参数数据而使得能够实现对序贯数据建模。rnn的架构包括循环。循环代表变量的当前值在未来时间对它自身的值的影响,这是因为来自rnn的输出数据的至少一部分被用作反馈以用于处理序列中的后续输入。该特征由于可以在其中组成语言数据的可变性质而使得rnn对于语言处理特别有用。下文描述的图呈现示例性前馈、cnn和rnn网络,以及描述用于分别训练和部署那些类型的网络中的每个网络的一般过程。将理解这些描述关于本文描述的任何特定实施例是示例性且非限制性的并且所图示的概念一般大体上可以适用于深度神经网络和机器学习技术。上文描述的示例性神经网络可以用于执行深度学习。深度学习是使用深度神经网络的机器学习。在深度学习中使用的深度神经网络是由多个隐藏层组成的人工神经网络,这与只包括单个隐藏层的浅层神经网络相反。更深层神经网络通常在计算上更密集用以训练。然而,网络的附加隐藏层使得能够实现多步模式识别,其与浅层机器学习技术相比导致减少的输出误差。在深度学习中使用的深度神经网络典型地包括耦合至后端网络的前端网络,用于执行特征识别,该后端网络代表可以基于提供给模型的特征表示来执行操作(例如,对象分类、语音识别等)的数学模型。深度学习能够使机器学习被执行而不需要对模型执行手工特征工程化。代替地,深度神经网络可以基于输入数据内的统计结构或相关性来学习特征。学得的特征可以提供给数学模型,其可以将所检测的特征映射到输出。网络使用的数学模型一般专门针对要执行的特定任务,并且不同的模型将用于执行不同任务。一旦神经网络被构造,学习模型就可以应用于网络来训练网络以执行特定任务。学习模型描述了如何调整模型内的权重来减少网络的输出误差。误差后向传播是用于训练神经网络的常见方法。向网络呈现输入向量以用于处理。使用损耗函数将网络的输出与期望输出比较并且对输出层中的神经元中的每个神经元计算误差值。这些误差值然后被向后传播直到每个神经元具有相关联的误差值,其大致表示它对原始输出的贡献。网络然后可以使用算法(诸如随机梯度下降算法)从那些误差中学习,从而更新神经网络的权重。图26-27图示了示例性卷积神经网络。图26图示了cnn内的各种层。如在图26中示出的,用于对图像处理建模的示例性cnn可以接收输入2602,其描述输入图像的红、绿和蓝(rgb)分量。输入2602可以被多个卷积层(例如,卷积层2604、卷积层2606)处理。来自多个卷积层的输出可以可选地被一组完全连接层2608所处理。完全连接层中的神经元具有到之前的层中的所有激活的完全连接,如之前对于前馈网络描述那样。来自完全连接层2608的输出可以用于从网络生成输出结果。完全连接层2608内的激活可以使用矩阵乘法而不是卷积来计算。不是所有的cnn实现都利用完全连接层。例如,在一些实现中,卷积层2606可以对cnn生成输出。卷积层稀疏连接,这与在完全连接层2608中发现的传统神经网络配置不同。传统神经网络层完全连接,使得每个输出单元与每个输入单元交互。然而,因为场的卷积的输出是到后续层的节点的输入(而不是场中的节点中的每个节点的相应状态值),如图示那样,卷积层因此稀疏连接。与卷积层相关联的内核执行卷积运算,其输出被发送给下一个层。在卷积层内执行的降维是使cnn能够缩放成处理大的图像的一个方面。图27图示了cnn的卷积层内的示例性计算级。到cnn的卷积2712的输入可以在卷积层2714的三个级中被处理。这三个级可以包括卷积级2716、检测器级2718和池化级2720。卷积层2714然后可以向连续卷积层输出数据。网络的最后的卷积层可以生成输出特征图数据或向完全连接层提供输入,例如以针对到cnn的输入生成分类值。在卷积级2716中可以与产生一组线性激活并行地执行若干卷积。卷积级2716可以包括仿射变换,其是可以规定为线性变换加平移(translation)的任何变换。仿射变换包括旋转、平移、缩放和这些变换的组合。卷积级计算连接到输入中的特定区域的功能元件(例如,神经元)的输出,该特定区域可以被确定为与神经元相关联的局部区域。神经元计算神经元所连接到的局部输入中的区域与神经元的权重之间的点积。来自卷积级2716的输出限定了被卷积层2714的连续级所处理的一组线性激活。线性激活可以被检测器级2718处理。在检测器级2718中,每个线性激活被非线性激活函数处理。该非线性激活函数使整体网络的非线性性质增加而不影响卷积层的相应场。可以使用若干类型的非线性激活。一个特定类型是修正线性单元(relu),其使用定义为的激活函数,使得激活在零处被阈值化。池化级2720使用池化函数,其用附近输出的汇总统计来代替卷积层2706的输出。池化函数可以用于将平移不变性引入神经网络中,使得对输入的小的平移不改变池化输出。局部平移的不变性在其中输入数据中特征的存在比特征的精确位置更重要的情景中可以是有用的。在池化级2720期间可以使用各种类型的池化函数,其包括最大池化、平均池化和l2范数池化。附加地,一些cnn实现不包括池化级。代替地,这样的实现替代相对于之前的卷积级具有增加步幅的附加卷积级。来自卷积层2714的输出然后可以被下一个层2722处理。下一个层2722可以是附加卷积层或完全连接层2708中的一个完全连接层。例如,图27的第一卷积层2704可以向第二卷积层2706输出,而第二卷积层可以向完全连接层2808的第一层输出。图28图示了示例性递归神经网络2800。在递归神经网络(rnn)中,网络的之前状态影响网络的当前状态的输出。rnn可以使用多种函数采用多种方式来构建。rnn的使用一般围绕着使用数学模型以基于输入的先验序列来预测未来。例如,rnn可以用于执行统计语言建模来预测即将出现的词,这里给定之前的词序列。所图示的rnn2800可以被描述为具有接收输入向量的输入层2802、实现递归功能的隐藏层2804、启用之前状态的‘记忆’的反馈机构2805和输出结果的输出层2806。rnn2800基于时间步骤操作。rnn在给定时间步骤的状态基于之前的时间步骤经由反馈机构2805而受影响。对于给定时间步骤,隐藏层2804的状态被之前的状态和当前时间步骤的输入所限定。在第一时间步骤的初始输入(x1)可以被隐藏层2804处理。第二输入(x2)可以被隐藏层2804使用在初始输入(x1)的处理期间所确定的状态信息而处理。给定状态可以计算为,其中u和w是参数矩阵。函数f一般是非线性的,诸如双曲正切函数(tanh)或修正函数的变体。然而,在隐藏层2804中使用的特定数学函数可以根据rnn2800的特定实现细节而变化。除所描述的基本cnn和rnn网络外,可以启用这些网络的变化。一个示例rnn变体是长短期记忆(lstm)rnn。lstmrnn能够学习长期依赖性,其对于处理较长语言序列是必要的。cnn的变体是卷积深度信念网络,其具有与cnn相似的结构并且采用与深度信念网络相似的方式来训练。深度信念网络(dbn)是生成式神经网络,其由多层的概率性的(随机)变量组成。dbn可以使用贪婪的无监督学习而逐层训练。dbn所学得的权重然后可以用于通过对神经网络确定一组最佳初始的权重而提供预先训练神经网络。图29图示了深度神经网络的训练和部署。一旦为任务构造给定网络,就使用训练数据集2902来训练神经网络。已开发各种训练框架2904使得能够实现训练过程的硬件加速。例如,上文描述的机器学习框架可以配置为训练框架。训练框架2904可以挂到未经训练的神经网络2906中并且使该未经训练的神经网能够使用本文描述的并行处理资源而被训练以生成经过训练的神经网2908。为了开始训练过程,可以随机或通过使用深度信念网络而预先训练来选择初始权重。然后采用受监督或无监督方式执行训练循环。受监督学习是训练作为居间操作而被执行的一种学习方法,诸如当训练数据集2902包括与对输入的期望输出配对的输入的时候,或在训练数据集包括具有已知输出的输入并且神经网络的输出被人工分级的情况下。网络处理输入并且将所得的输出与一组预期或期望输出相比较。误差然后通过系统被向后传播。训练框架2904可以调整来调整控制未经训练的神经网络2906的权重。训练框架2904可以提供工具用以监测未经训练的神经网络2906在多大程度上朝向适合基于已知输入数据生成正确应答的模型收敛。随着调整网络的权重来改善神经网络生成的输出,训练过程反复出现。训练过程可以持续直到神经网络达到与经训练的神经网2908相关联的统计上期望的精确性。然后可以部署经过训练的神经网络2908来实现任何数量的机器学习操作。无监督学习是网络尝试使用未标记数据来训练它自己的一种学习方法。从而,对于无监督学习,训练数据集2902将包括输入数据而没有任何相关联的输出数据。未经训练的神经网络2906可以学习未标记输入内的分组并且可以确定个体输入如何与整体数据集相关。无监督训练可以用于生成自组织图,其是能够执行在数据的降维方面有用的操作的一类经过训练的神经网络2907。无监督训练还可以用于执行异常检测,其允许识别输入数据集中偏离数据的正常模式的数据点。还可以采用受监督和无监督训练的变化。半监督学习是其中训练数据集2902包括相同分布的标记和无标记数据的混合的一种技术。增量式学习是受监督学习的变体,其中输入数据被持续用于进一步训练模型。增量式学习使经过训练的神经网络2908能够适应于新的数据2912而不会忘记初始训练期间在网络内灌输的知识。无论是受监督还是无监督,尤其针对深度神经网络的训练过程对于单个计算节点来说在计算上可能太密集。代替使用单个计算节点,计算节点的分布式网络可以用于加速训练过程。图30a是图示分布式学习的示例性框图。分布式学习是使用诸如上文描述的节点之类的多个分布式计算节点来执行神经网络的受监督或无监督训练的一种训练模型。分布式计算节点各自可以包括一个或多个主机处理器以及通用处理节点中的一个或多个通用处理节点,诸如高度并行通用图形处理单元。如图示的,分布式学习可以是所执行的模型并行3002、数据并行3004或模型和数据并行的组合。在模型并行3002中,分布式系统中的不同计算节点可以对单个网络的不同部分执行训练计算。例如,神经网络的每个层可以由分布式系统的不同处理节点训练。模型并行的益处包括扩展到特别大的模型的能力。拆分与神经网络的不同层相关联的计算使得能够实现其中所有层的权重将不适合单个计算节点的存储器的超大神经网络的训练。在一些实例中,模型并行在执行大的神经网络的无监督训练中可以特别有用。在数据并行3004中,分布式网络的不同节点具有模型的完整实例并且每个节点接收数据的不同部分。来自不同节点的结果然后被组合。尽管不同的方法对于数据并行是可能的,但数据并行训练方法全部需要使结果组合并且使每个节点之间的模型参数同步的技术。使数据组合的示例性方法包括参数平均化和基于更新的数据并行。参数平均化在训练数据的子集上训练每个节点并且将全局参数(例如,权重、偏向)设置成来自每个节点的参数的平均值。参数平均化使用中央参数服务器,其维持参数数据。基于更新的数据并行与参数平均化相似,所不同的是对模型的更新被传输,而不是将来自节点的参数传输到参数服务器。另外,基于更新的数据并行可以采用去中心化方式执行,其中更新被压缩并且在节点之间传输。组合模型和数据并行3006可以例如在其中每个计算节点包括多个gpu的分布式系统中实现。每个节点可以具有模型的完整实例,其中每个节点内的单独gpu用于训练模型的不同部分。分布式训练相对于在单个机器上的训练具有增加的开销。然而,本文描述的并行处理器和gpgpu各自可以实现各种技术以减少分布式训练的开销,各种技术包括启用高带宽gpu到gpu数据传输和加速远程数据同步的技术。示例性机器学习应用机器学习可以应用于解决多种技术问题,其包括但不限于计算机视觉、自主驾驶和导航、语音识别和语言处理。计算机视觉传统上是机器学习应用的最活跃研究领域之一。计算机视觉的应用范围从再现人类视觉能力(诸如识别面部)到创建新类别的视觉能力。例如,计算机视觉应用可以配置成识别来自视频中可见的对象中引发的振动的声波。并行处理器加速机器学习使计算机视觉应用能够使用比之前可行的明显更大的训练数据集来训练并且使推理系统能够使用低功率并行处理器来部署。并行处理器加速机器学习具有自主驾驶应用,其包括车道和道路标志识别、避障、导航和驾驶控制。加速机器学习技术可以用于基于定义对特定训练输入的合适响应的数据集来训练驾驶模型。本文描述的并行处理器可以实现对用于自主驾驶技术方案的日益复杂的神经网络的快速训练并且实现在适合于集成到自主载具内的移动平台中的低功率推理处理器的部署。并行处理器加速深度神经网络已经实现了对于自动语音识别(asr)的机器学习方法。asr包括创建一种函数,其计算最可能语言序列,这里给定输入声序列。使用深度神经网络的加速机器学习使得能够实现对之前用于asr的隐藏马尔可夫模型(hmm)和高斯混合模型(gmm)的替换。并行处理器加速机器学习还可以用于加速自然语言处理。自动学习规程可以利用统计推理算法来产生对错误或不熟悉输入具有鲁棒性的模型。示例性自然语言处理器应用包括人类语言之间的自动机器翻译。用于机器学习的并行处理平台可以分成训练平台和部署平台。训练平台一般是高度并行并且包括优化来加速多gpu单节点训练和多节点多gpu训练。适合于训练的示例性并行处理器包括本文描述的高度并行通用图形处理单元和/或多gpu计算系统。相反,所部署的机器学习平台一般包括适合于在诸如拍摄装置、自主机器人和自主载具等产品中使用的较低功率并行处理器。图30b图示了适合于使用经过训练的模型来执行推理的示例性推理片上系统(soc)3100。soc3100可以集成处理组件,其包括媒体处理器3102、视觉处理器3104、gpgpu3106和多核处理器3108。soc3100可以附加地包括片上存储器3105,其可以启用被处理组件中的每个组件可访问的共享片上数据池。处理组件可以对低功率操作优化以使得能够实现到多种机器学习平台的部署,机器学习平台包括自主载具和自主机器人。例如,soc3100的一个实现可以用作自主载具的主控制系统的一部分。在soc3100配置成供在自主载具中使用的情况下,soc被设计且配置成符合部署权限的相关功能安全标准。在操作期间,媒体处理器3102和视觉处理器3104可以协同工作来加速计算机视觉操作。媒体处理器3102可以启用多个高分辨率(例如,4k、8k)视频流的低时延解码。经解码的视频流可以被写入片上存储器3105中的缓冲器。视觉处理器3104然后可以对经解码的视频解析并且使用经过训练的图像识别模型在准备处理帧时对经解码的视频的帧执行初步处理操作。例如,视觉处理器3104可以对用于在高分辨率视频数据上执行图像识别的cnn加速卷积运算,而后端模型计算由gpgpu3106执行。多核处理器3108可以包括控制逻辑用以帮助媒体处理器3102和视觉处理器3104所执行的数据传输和共享存储器操作的定序和同步。多核处理器3108还可以充当应用处理器以执行可以利用gpgpu3106的推理计算能力的软件应用。例如,导航和驾驶逻辑的至少一部分可以在多核处理器3108上执行的软件中实现。这样的软件可以直接向gpgpu3106发布计算工作负荷或可以将计算工作负荷发布到多核处理器3108,该多核处理器3108然后可以向gpgpu1306卸载那些操作的至少一部分。gpgpu3106可以包括计算集群,诸如高度并行通用图形处理单元dplab00内的计算集群dplab06a-dplab06h的低功率配置。gpgpu3106内的计算集群可以支持被专门优化以在经过训练的神经网络上执行推理计算的指令。例如,gpgpu3106可以支持执行诸如8位和4位整数向量运算之类的低精度计算的指令。光线追踪架构在一个实现中,图形处理器包括用以执行实时光线追踪的电路和/或程序代码。在一些实施例中,在图形处理器中包括一组专用光线追踪核以执行本文描述的各种光线追踪操作,包括光线遍历和/或光线交叉操作。除光线追踪核之外,一个实施例还包括多组图形处理核以用于执行可编程着色操作以及包括多组张量核以用于对张量数据执行矩阵操作。图31图示了一个这样的图形处理单元(gpu)3105的示例性部分,该图形处理单元(gpu)3105包括设置成多核组3100a-n的多组专用图形处理资源。尽管只提供了单个多核组3100a的细节,但将领会的是,其他多核组3100b-n可以配备有多组相同或相似的图形处理资源。如图示的,多核组3100a可以包括一组图形核3130、一组张量核3140和一组光线追踪核3150。调度器/分派器3110调度和分派图形线程以供在各种核3130、3140、3150上执行。一组寄存器堆3120存储在执行图形线程时供核3130、3140、3150使用的操作数值。这些可以包括例如用以存储整数值的整数寄存器、用以存储浮点值的浮点寄存器、用以存储打包数据元素(整数和/或浮点数据元素)的向量寄存器和用以存储张量/矩阵值的贴片寄存器。在一个实施例中,贴片寄存器实现为组合的多组向量寄存器。一个或多个1级(l1)高速缓存和纹理单元3160将诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等图形数据本地存储在每个多核组3100a内。被所有多核组3100a-n或其子集共享的2级(l2)高速缓存3180存储对于多个并发图形线程的图形数据和/或指令。如图示的,l2高速缓存3180可以跨多个多核组3100a-n共享。一个或多个存储器控制器3170使gpu3105耦合至存储器3198,其可以是系统存储器(例如,dram)和/或专用图形存储器(例如,gddr6存储器)。输入/输出(i/o)电路3195使gpu3105耦合至一个或多个io设备3195,诸如数字信号处理器(dsp)、网络控制器或用户输入设备。片上互连可以用于使i/o设备3190耦合至gpu3105和存储器3198。io电路3195的一个或多个io存储器管理单元(iommu)3170使io设备3190直接耦合至系统存储器3198。在一个实施例中,iommu3170管理多组页表来将虚拟地址映射到系统存储器3198中的物理地址。在该实施例中,io设备3190、cpu3199和gpu3105可以共享相同的虚拟地址空间。在一个实现中,iommu3170支持虚拟化。在该情况下,它可以管理第一组页表来将客户机(guest)/图形虚拟地址映射到客户机/图形物理地址并且管理第二组页表来将客户机/图形物理地址映射到系统/主机物理地址(例如,在系统存储器3198内)。该第一和第二组页表中的每个页表的基址可以被存储在控制寄存器中并且在上下文切换时被换出(例如,使得新的上下文被提供有对相关组的页表的访问)。尽管在图31中未图示,但多核组3100a-n和/或核3130、3140、3150中的每个可以包括转化后备缓冲器(tlb),以高速缓存客户机虚拟到客户机物理转化、客户机物理到主机物理转化和客户机虚拟到主机物理转化。在一个实施例中,cpu3199、gpu3105和io设备3190集成在单个半导体芯片和/或芯片封装上。所图示的存储器3198可以集成在相同的芯片上或可以经由片外接口耦合至存储器控制器3170。在一个实现中,存储器3198包括gddr6存储器,其共享与其他物理系统级存储器相同的虚拟地址空间,但本发明的根本原理不限于该特定实现。在一个实现中,张量核3140包括专门设计成执行矩阵操作的多个执行单元,这些矩阵操作是用于执行深度学习操作的基本计算操作。例如,同时矩阵乘运算可以用于神经网络训练和推理。张量核3140可以使用多种操作数精度来执行矩阵处理,这些操作数精度包括单精度浮点(例如,32位)、半精度浮点(例如,16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中,神经网络实现提取每个渲染场景的特征(潜在地使来自多个帧的细节组合)来构造高质量的最终图像。在深度学习实现中,可以调度并行矩阵乘工作以供在张量核3140上执行。神经网络的训练特别需要大量矩阵点积运算。为了处理n×n×n矩阵乘法的内积公式,张量核3140可以包括至少n个点积处理元素。在矩阵乘法开始之前,一个完整的矩阵被加载到贴片寄存器中并且针对n个循环的每个循环加载第二矩阵的至少一列。每个循环有n个点积要被处理。矩阵元素可以以不同的精度来存储,这取决于特定实现,这些精度包括16位字、8位字节(例如,int8)和4位半字节(例如,int4)。可以对张量核3140规定不同的精度模式来确保最高效的精度被用于不同的工作负荷(例如,诸如可以容忍量化到字节和半字节的推理工作负荷)。在一个实施例中,光线追踪核3150对于实时光线追踪和非实时光线追踪实现都使光线追踪操作加速。特别地,光线追踪核3150包括光线遍历/交叉电路,以用于使用包围体积层级(bvh)来执行光线遍历并且识别被包封在bvh体积内的光线与图元之间的交叉。光线追踪核3150还可以包括用以执行深度测试和剔除(例如,使用z缓冲器或相似的设置)的电路。在一个实现中,光线追踪核3150结合本文描述的图像去噪技术来执行遍历和交叉操作,这些遍历和交叉操作的至少一部分可以在张量核3140上执行。例如,在一个实施例中,张量核3140实现深度学习神经网络来执行对由光线追踪核3150生成的帧进行去噪。然而,cpu3199、图形核3130和/或光线追踪核3150还可以实现去噪和/或深度学习算法的全部或一部分。附加地,如上文描述的,可以采用这样的分布式方法去噪,其中gpu3105在计算设备中,该计算设备通过网络或高速互连而耦合至其他计算设备。在该实施例中,互连的计算设备共享神经网络学习/训练数据来提高整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪所利用的速度。在一个实施例中,光线追踪核3150处理所有bvh遍历和光线-图元交叉,从而使图形核3130避免过载有每光线的数千个指令。在一个实施例中,每个光线追踪核3150包括第一组专用电路以用于执行包围盒测试(例如,对于遍历操作)以及包括第二组专用电路以用于执行光线-三角交叉测试(例如,已被遍历的交叉光线)。从而,在一个实施例中,多核组3100a可以仅仅启动光线探测,并且光线追踪核3150独立地执行光线遍历和交叉并且向线程上下文返回命中数据(例如,命中、没有命中、多次命中等)。其他核3130、3140被释放来执行其他图形或计算工作,而光线追踪核3150执行遍历和交叉操作。在一个实施例中,每个光线追踪核3150包括遍历单元以执行bvh测试操作,以及交叉单元,其执行光线-图元交叉测试。交叉单元生成它提供给合适线程的“命中”、“没有命中”或“多次命中”响应。在遍历和交叉操作期间,其他核(例如,图形核3130和张量核3140)的执行资源被释放来执行其他形式的图形工作。在下文描述的一个特定实施例中,使用混合栅格化/光线追踪方法,其中工作分布在图形核3130与光线追踪核3150之间。在一个实施例中,光线追踪核3150(和/或其他核3130、3140)包括对光线追踪指令集的硬件支持,该光线追踪指令集诸如microsoft的directx光线追踪(dxr),其包括dispatchrays命令,以及光线生成、最接近命中、任意命中和未命中着色器,其使得能够对每个对象指派唯一多组着色器和纹理。光线追踪核3150、图形核3130和张量核3140可以支持的另一个光线追踪平台是vulkan1.1.85。然而,注意本发明的根本原理不限于任何特定光线追踪isa。一般而言,各种核3150、3140、3130可以支持光线追踪指令集,其包括针对光线生成、最接近命中、任意命中、光线-图元交叉、每图元和层级包围盒构造、未命中、访问和异常的指令/功能。更具体地,一个实施例包括光线追踪指令以执行下列功能:光线生成--可以对每个像素、样本或其他用户定义的工作指派执行光线生成指令。最接近命中--可以执行最接近命中指令来用场景内的图元定位光线的最接近交叉点。任意命中--任意命中指令识别场景内的图元与光线之间的多个交叉,潜在地识别新的最接近交叉点。交叉--交叉指令执行光线-图元交叉测试并且输出结果。每图元包围盒构造--该指令围绕给定图元或图元组构建包围盒(例如,在构建新的bvh或其他加速数据结构的时候)。未命中--指示光线未命中场景内的所有几何,或场景的规定区域。访问--指示光线将遍历的子代体积。异常--包括各种类型的异常处理程序(例如,针对各种错误条件而被调用)。层级光束追踪包围体积层级通常用于提高对图形图元和其他图形对象执行操作的效率。bvh是层级树结构,其基于一组几何对象而被构建。树结构的顶部是根节点,其包封给定场景中的所有几何对象。个体几何对象被包裹在形成树的叶节点的包围体积中。这些节点然后分组为多个小的组并且被包封在较大包围体积内。这些进而也被分组并且采用递归方式被包封在其他较大包围体积内,从而最终在树的顶部产生具有单个包围体积的树结构,其由根节点表示。包围体积层级用于高效地支持对多组几何对象的多种操作,诸如冲突检测、图元剔除和在光线追踪中使用的光线遍历/交叉操作。在光线追踪架构中,光线遍历通过bvh来确定光线-图元交叉。例如,如果光线未经过bvh的根节点,则光线没有与bvh所包封的图元中的任一个交叉并且关于该组图元不需要对光线进一步处理。如果光线经过bvh的第一子代节点而不是第二子代节点,则不需要针对第二子代节点所包封的任何图元测试光线。采用该方式,bvh提供高效机制来对光线-图元交叉进行测试。在本发明的一个实施例中,针对bvh测试连续光线组(称为“光束”),而不是个体光线。图32图示了被四个不同光线勾勒的示例性光束3201。与这四个光线所限定的补丁3200交叉的任何光线被认为在相同的光束内。尽管图32中的光束3201由矩形设置的光线所限定,但光束可以采用各种其他方式限定而同时仍符合本发明的根本原理(例如,圆、椭圆等)。图33图示了其中gpu3320的光线追踪引擎3310实现本文描述的光束追踪技术的示例性实施例。特别地,光线生成电路3304生成多个光线,其中要对该多个光线执行遍历和交叉操作。然而,所图示的实施例使用由光束层级构造电路3305生成的光束层级3307来执行遍历和交叉,而不是对个体光线执行遍历和交叉操作。在一个实施例中,光束层级与包围体积层级(bvh)类似。例如,图34提供初级光束3400的示例,该初级光束3400可以细分成多个不同的分量。特别地,初级光束3400可以分成象限3401-3404并且每个象限本身可以分成子象限,诸如象限3404内的子象限a-d。初级光束可以采用多种方式细分。例如,在一个实施例中,初级光束可以分成两半(而不是象限)并且每一半可以分成两半,以此类推。不管如何进行细分,在一个实施例中,采用与bvh相似的方式生成层级结构,例如具有代表初级光束3400的根节点、第一级的子代节点(每个由象限3401-3404表示)、对于每个子象限a-d的第二级的子代节点,以此类推。在一个实施例中,一旦构造了光束层级3307,遍历/交叉电路3306就使用光束层级3307和bvh3308执行遍历/交叉操作。特别地,它可以针对bvh来测试光束并且剔除未与bvh的任何部分交叉的光束的部分。使用图34中示出的数据,例如,如果与子区3402和3403相关联的子光束未与bvh或bvh的特定分支交叉,则可以关于bvh或分支来剔除它们。通过执行深度优先搜索或其他搜索算法,可以针对bvh测试余下的部分3401、3404。根据本发明的一个实施例的方法在图35中图示。该方法可以在上文描述的图形处理架构的上下文内实现,但不限于任何特定架构。在3500,构造初级光束,其包括多个光线,并且在3501,光束被细分并且生成层级数据结构来创建光束层级。在一个实施例中,操作3500-3501作为从多个光线构造光束层级的单个集成操作而被执行。在3502,光束层级与bvh一起使用来从bvh剔除节点/图元和/或光线(从光束层级)。在3503,针对余下的光线和图元确定光线-图元交叉。分布式光线追踪系统中的有损和无损包(packet)压缩在一个实施例中,光线追踪操作跨通过网络耦合在一起的多个计算节点而分布。图36例如图示光线追踪集群3600,其包括并行执行光线追踪操作的多个光线追踪节点3610-3613,从而潜在地使结果在节点中的一个上组合。在图示的架构中,光线追踪节点3610-3613经由网关通信地耦合至客户端光线追踪应用3630。关于分布式架构的难点之一是必须在光线追踪节点3610-3613中的每个光线追踪节点之间传送的大量分组化(packetized)数据。在一个实施例中,无损压缩技术和有损压缩技术都用于减少在光线追踪节点3610-3613之间传送的数据。为了实现无损压缩,发送允许接收节点重建结果的数据或命令,而不是发送用某些类型的操作的结果填充的包。例如,随机采样的区域光和环境遮挡(ambientocclusion)(ao)操作不一定需要方向。因此,在一个实施例中,传送节点将仅仅发送随机种子,其然后被接收节点用于执行随机采样。例如,如果场景跨节点3610-3612分布,以在点p1-p3处对光1采样,则只需要向节点3610-3612发送光id和原点。节点中的每个节点然后可以独立地对光随机采样。在一个实施例中,随机种子由接收节点生成。相似地,对于初级光线命中点,可以在节点3610-3612上计算环境遮挡(ao)和软阴影采样而无需等待连续帧的原点。附加地,如果知道一组光线将去往相同的点光源,则可以向接收节点发送识别该光源的指令,该接收节点将指令应用于该组光线。作为另一个示例,如果有n个环境遮挡光线透过单个点,则可以发送命令以从该点生成n个样本。各种附加技术可以应用于有损压缩。例如,在一个实施例中,可以采用量化因子来使与bvh、图元和光线相关联的所有坐标值量化。附加地,用于数据(诸如bvh节点和图元)的32位浮点值可以转换成8位整数值。在一个特定实现中,光线包的边界以全精度方式而被存储,但个体光线点p1-p3作为对于边界的索引化偏移而被传送。相似地,可以生成多个局部坐标系,其使用8位整数值作为局部坐标。这些局部坐标系中的每个局部坐标系的原点的位置可以使用全精度(例如,32位浮点)值来被编码,从而有效地连接全局和局部坐标系。下面是在本发明的一个实施例中采用的无损压缩的示例。在光线追踪程序中内部使用的光线数据格式的示例如下:代替发送所生成的每一个节点的原始数据,该数据可以通过使值分组并且通过使用可适用元数据来创建隐式光线(在可能的情况下)而被压缩。捆绑光线数据以及对光线数据分组一个实施例对具有修饰符的掩码或公共数据使用标志。例如:原点全部被共享所有光线数据被打包,但例外的是单个原点跨所有光线被存储。为raypacket_common_origin设置raypacket.flags。在接收raypacket时对其拆包的时候,原点由单个原点值填充。原点只在一些光线当中共享所有光线数据被打包,但例外的是共享原点的光线。对于每组唯一被共享的原点,操作符被打包,在其上识别操作(被共享的原点)、存储原点并且掩蔽共享信息的那些光线。这样的操作可以在节点当中对任何共享值进行,这些共享值诸如材料id、图元id、原点、方向、法线等。发送隐式光线通常,在接收端上利用用于生成光线数据的最小元信息来导出该光线数据。很常见的示例是生成多个次级光线来对区域随机采样。代替发送器生成次级光线、发送它并且接收器对它进行操作,发送器可以发送需要用任何相关信息生成光线的命令,并且光线在接收端上生成。在光线需要首先被发送器生成来确定要将它发送到哪个接收器的情况下,生成光线并且可以发送随机种子来重新生成确切相同的光线。例如,为了对命中点采样(其中64个阴影光线对区域光源采样),全部64个光线与来自相同计算n4的区交叉。创建具有共同原点和法线的raypacket。如果有人希望接收器对所得的像素贡献(contribution)着色则可以发送更多数据,但对于该示例则让我们假设我们希望只返回光线是否命中另一个节点数据。对生成阴影光线操作创建rayoperation,并且对其指派要被采样的lightid的值和随机数种子。当n4接收光线包时,它通过对所有光线填充共享原点数据并且基于用随机数种子随机采样的lightid设置方向来生成原始发送器所生成的相同光线而生成完全填充的光线数据。当返回结果时,只需要返回对于每个光线的二进制结果,该二进制结果可以由掩码通过光线递交。在该示例中发送原始的64个光线将使用104个字节*64个光线=6656个字节。如果返回光线也采用它们的原始形式来被发送,则这也可以被加倍到13312个字节。使用无损压缩,其中仅发送具有种子和id的光线生成操作、共同光线原点和法线,只发送29个字节,其中为交叉掩码返回8个字节。这导致需要通过网络发送~360:1的数据压缩率。这不包括开销来处理消息本身,其需要采用某一方式而被识别,但这取决于实现。可以进行其他操作以用于从初级光线的pixelid重新计算光线原点和方向、基于光线包中的范围重新计算pixelid,以及用于重新计算值的需求其他可能实现。相似的操作可以用于所发送的任何单个或组的光线,其包括阴影、反射、折射、环境遮挡、交叉、体积交叉、着色、路径追踪中的反弹反射,等。图37图示了执行光线追踪包的压缩和解压的两个光线追踪节点3710-3711的附加细节。特别地,在一个实施例中,当第一光线追踪引擎3730准备向第二光线追踪引擎3731传送数据时,光线压缩电路3720执行如本文描述的光线追踪数据的有损和/或无损压缩(例如,将32位值转换成8位值、用原始数据替代指令来重建数据,等)。经压缩的光线包3701通过局域网(例如,10gb/s、100gb/s以太网)从网络接口3725传送到网络接口3726。光线解压电路然后在适当的时候对光线包解压。例如,它可以执行命令来重建光线追踪数据(例如,使用随机种子来执行随机采样以用于光照操作)。光线追踪引擎3731然后使用所接收的数据来执行光线追踪操作。在相反方向上,光线压缩电路3741压缩光线数据,网络接口3726通过网络传送经压缩的光线数据(例如,使用本文描述的技术),光线解压电路3740在必要时对光线数据解压并且光线追踪引擎3730使用数据(在光线追踪操作中)。尽管在图37中图示为单独的单元,光线解压电路3740-3741可分别集成在光线追踪引擎3730-3731内。例如,在经压缩的光线数据包括命令以重建光线数据的程度上,这些命令可以由每个相应的光线追踪引擎3730-3731执行。如在图38中图示的,光线压缩电路3720可以包括有损压缩电路3801以用于执行本文描述的有损压缩技术(例如,将32位浮点坐标转换成8位整数坐标)以及包括无损压缩电路3803以用于执行无损压缩技术(例如,传送命令和数据以允许光线再压缩电路3821重建数据)。光线解压电路3721包括有损解压电路3802以及用以执行无损解压的无损解压电路3804。在图39中图示根据一个实施例的方法。该方法可以在本文描述的光线追踪架构上实现,但不限于任何特定架构。在3900,接收光线数据,该光线数据将从第一光线追踪节点被传送到第二光线追踪节点。在3901,有损压缩电路对第一光线追踪数据执行有损压缩,并且在3902,无损压缩电路对第二光线追踪数据执行无损压缩。在3903,经压缩的光线追踪数据被传送到第二光线追踪节点。在3904,有损/无损解压电路执行光线追踪数据的有损/无损解压,并且在3905,第二光线追踪节点使用解压数据执行光线追踪操作。具有硬件加速混合光线追踪的图形处理器本发明的一个实施例包括混合渲染流水线,其在图形核3130上执行格栅化并且在光线追踪核3150、图形核3130和/或cpu3199核上执行光线追踪操作。例如,可以在图形核3130上执行栅格化和深度测试,来代替初级光线投射级。光线追踪核3150然后可以生成次级光线以用于光线反射、折射和阴影。附加地,某些实施例可以选择场景的某些区域,其中光线追踪核3150将执行光线追踪操作(例如,基于材料性质阈值,诸如高反射率水平),而该场景的其他区域将随着在图形核3130上的栅格化而被渲染。在一个实施例中,该混合实现用于实时光线追踪应用--其中时延是一个关键问题。下文描述的光线遍历架构的一个实施例使用现有的单指令多数据(simd)和/或单指令多线程(simt)图形处理器执行光线遍历的控制和可编程着色,而同时使用专用硬件加速关键功能,诸如bvh遍历和/或交叉。在该实施例中,对于非相干路径的simd占有率通过在遍历期间和着色之前在特定点对产生的着色器重新分组而得到提高。这是使用在片上对着色器动态分类的专用硬件而实现的。通过将函数拆分成在返回时执行的延拓(continuation)并且在针对提高的simd占有率而执行之前对延拓重新分组来管理递归。通过将遍历功能性分解成可以实现为固定功能硬件的内遍历和在gpu处理器上执行且通过用户定义的遍历着色器而启用可编程控制的外遍历,实现光线遍历/交叉的可编程控制。在硬件与软件之间传输遍历上下文的成本通过在内外遍历之间的转变期间适当地截断内遍历状态而得到减少。光线追踪的可编程控制可以通过下文的表a中列出的不同着色器类型来表达。针对每个类型可以有多个着色器。例如每个材料可以具有不同的命中着色器。着色器类型功能性初级启动初级光线命中双向反射分布函数(brdf)采样,启动次级光线任意命中计算阿尔法纹理几何的透射率未命中计算来自光源的辐射交叉交叉自定义形状遍历实例选择和变换可调用通用功能表a在一个实施例中,递归光线追踪由api函数发起,该api函数命令图形处理器启动一组主着色器或交叉电路,其可以对初级光线产生光线-场景交叉。这进而产生其他着色器,诸如遍历、命中着色器或未命中着色器。产生子代着色器的着色器还可以从该子代着色器接收返回值。可调用的着色器是通用函数,其可以被另一个着色器直接产生并且也向调用着色器返回值。图40图示了图形处理架构的实施例,该图形处理架构包括着色器执行电路4000和固定功能电路4010。通用执行硬件子系统包括多个单指令多数据(simd)和/或单指令多线程(simt)核/执行单元(eu)4001(即,每个核可以包括多个执行单元)、一个或多个采样器4002,以及1级(l1)高速缓存4003或其他形式的本地存储器。固定功能硬件子系统4010包括消息单元4004、调度器4007、光线-bvh遍历/交叉电路4005、分类电路4008和本地l1高速缓存4006。在操作中,主分派器4009向调度器4007分配一组初级光线,该调度器4007向在simd/simt核/eu4001上执行的着色器调度工作。simd核/eu4001可以是上文描述的光线追踪核3150和/或图形核3130。主着色器的执行产生附加工作待执行(例如,要由一个或多个子代着色器和/或固定功能硬件执行)。消息单元4004向调度器4007(根据需要访问自由堆栈池)、分类电路4008或光线-bvh交叉电路4005分配simd核/eu4001所产生的工作。如果附加工作被发送给调度器4007,则它被调度以用于在simd/simt核/eu4001上进行处理。在调度之前,分类电路4008可以将光线分类为如本文描述的组或面元(bin)(例如,对具有相似特性的光线分组)。光线-bvh交叉电路4005使用bvh体积执行光线的交叉测试。例如,光线-bvh交叉电路4005可以将光线坐标与bvh的每个水平比较来识别被光线交叉的体积。着色器可以使用着色器记录、用户分配的结构(其包括指向入口函数的指针)、供应商特定的元数据和对由simd核/eu4001执行的着色器的全局自变量(argument)而被引用。着色器的每个执行实例与调用堆栈相关联,该调用堆栈可以用于存储在父代着色器与子代着色器之间传递的自变量。调用堆栈还可以存储对在调用返回时执行的延拓函数的引用。图41图示了示例的一组指派堆栈4101,其包括主着色器堆栈、命中着色器堆栈、遍历着色器堆栈、延拓函数堆栈和光线-bvh交叉堆栈(其如描述那样可以由固定功能硬件4010执行)。新的着色器调用可以从自由堆栈池4102实现新的堆栈。调用堆栈可以在本地l1高速缓存4003、4006中高速缓存来减少访问的时延。在一个实施例中,存在有限数量的调用堆栈,每个具有在存储器的连续区域中分配的固定最大大小的“sstack”。因此,堆栈的基址可以根据堆栈索引(sid)直接计算为基址=sid*sstack。在一个实施例中,堆栈id由调度器4007在向simd核/eu4001调度工作时被分配和解除分配。在一个实施例中,主分派器4009包括图形处理器命令处理器,其响应于来自主机(例如,cpu)的分派命令来分派主着色器。调度器4007接收这些分派请求并且在simd处理器线程上启动主着色器(如果它可以为每个simd通道分配堆栈id的话)。从自由堆栈池4102分配堆栈id,该自由堆栈池4102在分派命令开始时被初始化。执行着色器可以通过向消息传递单元4004发送产生消息来产生子代着色器。该命令包括与着色器相关联的堆栈id并且还包括指向每个活动simd通道的子代着色器记录的指针。父代着色器可以对活动通道仅发布该消息一次。在一个实施例中,在针对所有相关通道发送产生消息后,父代着色器终止。在simd核/eu4001上执行的着色器还可以使用具有为固定功能硬件保留的着色器记录指针的产生消息来产生固定功能任务,诸如光线-bvh交叉。如提到的,消息传递单元4004向固定功能光线-bvh交叉电路4005发送所产生的光线-bvh交叉工作且直接向分类电路4008发送可调用着色器。在一个实施例中,分类电路通过着色器记录指针对着色器分组来得出具有相似特性的simd批。因此,来自不同父代着色器的堆栈id可以在同批中被分类电路4008分组。分类电路4008向调度器4007发送经分组的批,该调度器4007访问来自图形存储器2511或末级高速缓存(llc)4020的着色器记录并且在处理器线程上启动着色器。在一个实施例中,延拓被视为可调用着色器并且还可以通过着色器记录来引用。当产生子代着色器并且向父代着色器返回值时,指向延拓着色器的指针被推送在调用堆栈4101上。当子代着色器返回时,延拓着色器记录从调用堆栈4101退栈并且产生延拓着色器。所产生的延拓经过分类单元(与可调用着色器相似)并且在处理器线程上得到启动。如在图42中图示的,分类电路4008的一个实施例通过着色器记录指针4201a、4201b、4201n对所产生的任务分组来创建simd批以用于着色。经分类的批中的堆栈id或上下文id可以根据不同的分派和不同的输入simd通道来分组。在一个实施例中,分组电路4210使用内容可寻址存储器(cam)结构4201来执行分类,该内容可寻址存储器结构4201包括多个条目,其中每个条目用标签4201来标识。如提到的,在一个实施例中,标签4201是对应的着色器记录指针4201a、4201b、4201n。在一个实施例中,cam结构4201存储有限数量的标签(例如,32、64、128个等),每个与对应于着色器记录指针的不完整simd批相关联。对于到来的产生命令,每个simd通道具有对应的堆栈id(在每个cam条目中示出为16个上下文id0-15)和着色器记录指针4201a-b、…、n(充当标签值)。在一个实施例中,分组电路4210将对于每个通道的着色器记录指针与cam结构4201中的标签4201相比较来找到匹配批。如果找到了匹配批,则将堆栈id/上下文id被添加到该批。否则创建具有新着色器记录指针标签的新条目,可能是用不完整的批驱逐较旧的条目。执行着色器可以通过向消息单元发送解除分配消息而对调用堆栈解除分配(在调用堆栈为空的时候)。解除分配消息被中继给调度器,其向自由池返回对于活动simd通道的堆栈id/上下文id。本发明的一个实施例使用固定功能光线遍历和软件光线遍历的组合来实现光线遍历操作的混合方法。因此,它提供软件遍历的灵活性而同时维持固定功能遍历的效率。图43示出可以用于混合遍历的加速结构,该加速结构是具有单个顶层bvh4300和若干底层bvh4301和4302的两级树。在右边示出图形元素来指示内遍历路径4303、外遍历路径4304、遍历节点4305、具有三角形的叶节点4306和具有自定义图元的叶节点4307。在顶层bvh4300中具有三角形的叶节点4306可以引用三角形、对于自定义图元的交叉着色器记录或遍历着色器记录。具有顶层bvh4301-4302的三角形的叶节点4306可以仅引用三角形和对于自定义图元的交叉着色器记录。引用的类型在叶节点4306内被编码。内遍历4303指每个bvh4300-4302内的遍历。内遍历操作包括光线-bvh交叉的计算并且跨bvh结构4300-4302的遍历称为外遍历。可以在固定功能硬件中高效实现内遍历操作,而可以用可编程着色器以可接受的性能执行外遍历操作。因此,本发明的一个实施例使用固定功能电路4010执行内遍历操作并且使用着色器执行电路4000执行外遍历操作,该着色器电路4000包括simd/simt核/eu4001以用于执行可编程着色器。注意为了简单起见,simd/simt核/eu4001有时在本文简称为“核”、“simd核”、“eu”或“simd处理器”。相似地,光线-bvh遍历/交叉电路4005有时简称为“遍历单元”、“遍历/交叉单元”或“遍历/交叉电路”。当使用替换术语时,用于命名相应电路/逻辑的特定名称并未更改该电路/逻辑执行的根本功能,如本文描述那样。此外,尽管出于解释目的在图40中图示为单个组件,遍历/交叉电路4005可以包括截然不同的遍历单元和单独的交叉单元,其中的每个单元可以在如本文描述的电路和/或逻辑中实现。在一个实施例中,当在内遍历期间光线与遍历节点交叉时,产生遍历着色器。分类电路4008通过着色器记录指针4201a-b、n对这些着色器分组来创建simd批,其由调度器4007启动以用于在图形simd核/eu4001上的simd执行。遍历着色器可以采用若干方式修改遍历,从而使得能够实现广泛的应用。例如,遍历着色器可以在更粗糙的细节级别(lod)选择bvh或变换光线使得能够实现刚体变换(rigidbodytransformation)。遍历着色器然后对所选的bvh产生内遍历。内遍历通过遍历bvh并且计算光线箱和光线三角交叉来计算光线-bvh交叉。采用与着色器相同的方式通过向消息传递电路4004发送消息而产生内遍历,该消息传递电路4004将对应的产生消息中继到计算光线-bvh交叉的光线-bvh交叉电路4005。在一个实施例中,对于内遍历的堆栈被本地存储在固定功能电路4010中(例如,在l1高速缓存4006内)。当光线与对应于遍历着色器或交叉着色器的叶节点交叉时,内遍历终止并且内部堆栈被截断。被截断的堆栈连同指向光线和bvh的指针在通过调用着色器而规定的位置处被写入存储器并且然后产生对应的遍历着色器或交叉着色器。如果光线在内遍历期间与任何三角交叉,则对应的命中信息作为对于这些着色器的输入自变量而被提供,如在下文的代码中示出那样。这些产生的着色器被分类电路4008分组来创建simd批以用于执行。截断内遍历堆栈减少使内遍历堆栈溢向(spillto)存储器的成本。本发明的一个实施例使用在《高性能图形》(2010)第107-111页的“restarttrailforstacklessbvhtraversal(无堆栈bvh遍历的重启跟踪)”中描述的方法来将堆栈截断成堆栈顶部的少量条目,一个42位重启跟踪和一个6位深度值。重启跟踪指示已在bvh内部采取的分支并且深度值指示对应于最后一个堆栈条目的遍历深度。这对于在之后恢复内遍历是充足的信息。当内部堆栈为空并且没有更多bvh节点来测试时完成内遍历。在该情况下,产生外部堆栈处理程序,其退栈外部堆栈的顶部并且恢复遍历(如果外部堆栈不为空的话)。在一个实施例中,外遍历执行主遍历状态机并且在由着色器执行电路4000执行的程序代码中实现。它在下列条件下产生内遍历查询:(1)当命中着色器或主着色器产生新的光线时;(2)当遍历着色器选择bvh以用于遍历时;以及(3)当外部堆栈处理程序恢复bvh的内遍历时。如在图44中图示的,在产生内遍历之前,在调用堆栈4405上为固定功能电路4010分配空间来存储被截断的内部堆栈4410。到调用堆栈和内部堆栈顶部的偏移4403-4404被维持在遍历状态4400,其也被存储在存储器2511中。遍历状态4400还包括世界空间4401和对象空间4402中的光线以及对于最接近交叉图元的命中信息。遍历着色器、交叉着色器和外部堆栈处理程序全部由光线-bvh交叉电路4005产生。遍历着色器在对第二级bvh发起新的内遍历之前在调用堆栈4405上分配。外部堆栈处理程序是负责更新命中信息并且恢复任何待定内遍历任务的着色器。外部堆栈处理程序还负责在完成遍历时产生命中或未命中着色器。当没有待定内遍历查询要产生时完成遍历。当遍历完成并且找到交叉时,产生命中着色器;否则产生未命中着色器。尽管上文描述的混合遍历方案使用两级bvh层级,但本文描述的本发明的实施例可以使用在外遍历实现中具有对应改变的任意数量的bvh级别。附加地,尽管在上文的实施例中描述固定功能电路4010以用于执行光线-bvh交叉,但在固定功能电路中还可以实现其他系统组件。例如,上文描述的外部堆栈处理程序可以是内部的(不是用户可见的)着色器,其可以潜在地在固定功能bvh遍历/交叉电路4005中实现。该实现可以用于减少所分派的着色器级以及固定功能交叉硬件4005与处理器之间的往返行程的数量。这里描述的本发明的实施例使得能够使用可以在现有和未来gpu处理器上以更大simd效率执行的用户定义功能来实现可编程着色和光线遍历控制。光线遍历的可编程控制使得能够实现若干重要特征,诸如程序实例化、随机的细节级选择、自定义图元交叉和迟缓的bvh更新。基于云的光线追踪上面描述了某些分布式光线追踪实现,诸如压缩某些类型的数据的实施例、以及智能地确定需要在节点之间共享的数据并动态地分布所需数据的实施例。以下描述的实施例可以与上述技术中的一个或多个结合使用,以对云中的低分辨率有噪数据进行编码,并然后在解码之后在客户端上执行去噪。对于凹式渲染(foveatedrendering),在一个实施例中局部地渲染凹区域(即,用户的注视被引导所向的区域)以避免压缩伪影。在多观看者实现中,在云中执行光线追踪的、视角无关的光照,并且每个客户端本地应用视角相关的光照效果。将针对图45来描述一个实施例,其中节点4590是客户端系统(例如,具有头戴式显示器的计算机系统)中的本地gpu设备的进程和/或电路;节点4591是客户端的系统中的第二本地gpu设备、边缘设备(例如,用户的网络的边界处的设备)中的gpu设备、或云服务器场中的gpu设备中的任一个上的进程和/或电路;并且节点4592包括在“边缘”设备中的第二gpu设备或在云服务器场中的gpu设备中的任一个上运行的电路和/或进程。作为示例,云服务器场可使用虚拟化技术以将gpu的虚拟化部分(vgpu)分配给诸如节点4591客户端之类的客户端。各种布置是可能的,所述布置包括基于由节点4591的用户或由拥有该客户端的组织/企业所支付的订阅量来细分多个gpu的处理资源。这些gpu虚拟化技术是公知的,并且这里将不进一步描述以免使本发明的基本原理晦涩。在一个实施例中,节点4592包括持久运行的进程和/或关联的电路,其使用光线追踪技术来生成高保真度、视角无关表面。因此,节点4592可以用图形处理资源来实现,该图形处理资源包括专用光线追踪电路(例如,诸如本文描述的遍历和交叉电路)以及利用足够低的时延为一个或多个用户执行实时光线追踪所需的高带宽/高速存储器和io能力。在4501处,节点4590在其本地图形处理资源上执行独立渲染。例如,它可以使用本地图形数据的指定集合来执行本地虚拟现实应用或其他形式的图形应用。在4502,节点4590传送用户的当前视角的指示。例如,可以使用各种形式的视角追踪,包括头部追踪(其中传感器确定用户的面部的方向)和/或眼睛追踪(其中摄像机或其他传感器追踪用户的视网膜的方向)。不管追踪的类型是什么,节点4591在4502处接收当前视角的指示,并在4503处响应性地向节点4592传送对视角无关表面的请求。节点4592在4504处可操作以对当前场景执行视角无关的光线追踪操作(例如,遍历bvh并标识光线-图元交叉)以生成压缩表面,节点4592在4505处向节点4591传送所述压缩表面。在一个实施例中,节点4592使用视频编码和压缩技术(诸如h.264编码)以生成压缩表面4505。可以使用各种其它编码技术,同时仍然符合本发明的基本原理。此后一段时间,在4507处,节点4590传送对视角相关表面的请求(例如,基于用户的视线的当前方向)。在4506处,节点4591使用压缩表面4505来执行视角相关的转化(translation)。在一个实施例中,节点4591执行转化操作,其中根据用户的当前视角将与压缩表面4505一起提供的视角无关的坐标转化成视角相关的坐标。在一个实施例中,节点4591解码和解压缩由节点4592返回的表面。如果用视频编码生成了压缩表面,则节点4591可以采用对应的视频解码(例如,h.264解码),并生成表面,其表示针对正由节点4590所渲染的场景的视角相关信息(诸如光照)。在一个实施例中,节点4591也可以使用机器学习技术(诸如本文描述的那些技术)来生成高分辨率压缩(或未压缩)表面4508,节点4590使用该高分辨率压缩(或未压缩)表面4508来完成视角相关的渲染4509。特别地,在节点4590完成与4501处的光线追踪无关的渲染之后,它等待节点4591在4508处提供高分辨率的、视角相关的表面。一旦节点4591将高分辨率表面4508返回到节点4590,节点4590就使用诸如视频解压缩的技术对压缩表面4508进行解压缩(如果该表面被压缩的话),并且通过将高分辨率压缩表面4508集成到最终渲染图像中来完成对场景的最终渲染。图46图示了用于使用混合光线追踪实现来执行图形渲染的客户端-服务器架构的一个实施例。客户端4680包括用于执行存储在存储器4690中的图形应用4625的gpu4601。gpu4601上的本地渲染引擎4620开始渲染帧,其(在一个实施例中)与光线追踪无关,诸如不取决于光照而进行渲染。本地渲染引擎4620向第二gpu4602上的视角无关处理电路/逻辑4630发送异步消息,从而向它通知要被渲染的场景的用户当前视角。如所提及的,第二gpu4602可被集成为客户端4680内的第二图形处理器或可在与客户端4680相同的本地网络上的另一设备上。在一个实施例中,视角无关电路/逻辑4630向服务器4681传送针对表面的请求,所述表面表示针对正被渲染的场景的视角无关信息(诸如光照)。配备有至少一个gpu4603和存储器4691的服务器4681使用与正被渲染的场景相关的本地图形数据4621来执行视角无关的光线追踪4640。在一个实施例中,视角无关的光线追踪4640持久地在gpu4603上运行,并使用光线追踪技术来生成高保真、视角无关的表面。服务器4681可以例如是基于云的数据中心内的服务器。视角无关的光线追踪4640将低分辨率且经压缩的表面返回到视角相关的处理电路/逻辑4630,其使用可以实现视频解码技术的解码器4621来解压缩该表面。视角相关处理电路/逻辑4630生成表面,其表示针对正由本地渲染引擎4620所渲染的场景的视角相关信息(诸如光照)。在一个实施例中,视角相关处理电路/逻辑4630还使用机器学习或类似技术来改进图像质量。本地渲染引擎4620完成与光线追踪无关的任何渲染,并且等待视角相关处理电路/逻辑4630提供视角相关的且高分辨率的压缩表面。在一个实施例中,视角相关表面被压缩并被传送到包括用于解码该表面的解码器4621的客户端4680。本地渲染引擎4620然后使用该表面在本地显示器上完成对场景的最终渲染。上述技术为虚拟化图形处理服务器4681的高性能(high-powered)图形处理资源提供了一种用于为多个此类客户端4680执行表面的视角无关的渲染的方式。视角无关表面被转换成视角相关表面,该视角相关表面然后被本地渲染引擎4620集成到当前帧中,由此使能实时光线追踪实现,而不需要本地客户端4680上的大量硬件支持。在实施例中,术语“引擎”或“模块”或“逻辑”可以指下述各项、是下述各项的一部分或包括下述各项:执行一个或多个软件或固件程序的专用集成电路(asic)、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供所描述的功能性的其他适合组件。在实施例中,引擎、模块或逻辑可以在固件、硬件、软件或固件、硬件和软件的任何组合中实现。本发明的实施例可以包括各种步骤,这些步骤已经在上文描述。步骤可以体现在机器可执行指令中,这些机器可执行指令可以用于促使通用或专用处理器执行步骤。替换地,这些步骤可以由包含硬接线逻辑用以执行步骤的特定硬件组件或通过经编程的计算机组件和自定义硬件组件的任何组合来执行。如本文描述的,指令可以指硬件的特定配置,该硬件诸如专用集成电路(asic),其配置成执行某些操作或具有预定功能性或存储在非暂时性计算机可读介质中所体现的存储器中的软件指令。从而,图中示出的技术可以使用所存储且在一个或多个电子设备(例如,终端站、网络元件等)上执行的代码和数据来实现。这样的电子设备使用计算机机器可读介质存储和传达(在内部传达和/或通过网络与其他电子设备通信而传达)代码和数据,该计算机机器可读介质诸如非暂时性计算机机器可读存储介质(例如,磁盘;光盘;随机存取存储器;只读存储器;闪速存储器设备;相变存储器)和暂时性计算机机器可读通信介质(例如,电、光、声或其他形式的传播信号--诸如载波、红外信号、数字信号等)。附加地,这样的电子设备典型地包括一组一个或多个处理器,其耦合至一个或多个其他组件,诸如一个或多个存储设备(非暂时性机器可读存储介质)、用户输入/输出设备(例如,键盘、触摸屏和/或显示器)和网络连接。该组处理器和其他组件的耦合典型地通过一个或多个总线和桥接器(也称作总线控制器)。存储设备和携带网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。从而,给定电子设备的存储设备典型地存储代码和/或数据以供在该电子设备的那组一个或多个处理器上执行。当然,本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合实现。贯穿该详细描述中,出于解释的目的,阐述众多具体细节以便提供对本发明的透彻理解。然而,对于本领域技术人员来说将显然的是,可以在没有这些具体细节中的某些的情况下实践本发明。在某些实例中,未详尽地描述公知的结构和功能以避免使本发明的主旨模糊。因此,本发明的范围和精神应该根据附随权利要求来判断。本发明提供一组技术方案,如下:1.一种系统,包括:第一图形处理节点,所述第一图形处理节点用于执行图形处理操作的第一集合以渲染图形场景,图形处理操作的所述第一集合包括光线追踪无关的操作;互连或网络接口,所述互连或网络接口将所述第一图形处理节点耦合到第二图形处理节点;所述第二图形处理节点,所述第二图形处理节点用于接收所述第一图形处理节点的用户的当前视角的指示,并用于接收或构造由视角无关的光线遍历和交叉操作所生成的视角无关表面;所述第二图形处理节点用于基于所述用户的所述当前视角来响应性地执行所述视角无关表面的视角相关转化以生成视角相关表面,并将所述视角相关表面提供给所述第一图形处理节点;以及所述第一图形处理节点用于执行图形处理操作的第二集合以使用所述视角相关表面来完成对所述图形场景的渲染。2.如技术方案1所述的系统,其中图形处理操作的所述第一集合包括光线追踪无关的操作。3.如技术方案2所述的系统,其中图形处理操作的所述第一集合包括与光照无关的渲染操作。4.如技术方案1所述的系统,还包括:第三图形处理节点,所述第三图形处理节点用于执行所述视角无关的光线遍历和交叉操作以生成所述视角无关表面。5.如技术方案4所述的系统,其中所述第三图形处理节点要压缩所述视角无关表面以生成压缩的视角无关表面,并将所述压缩的视角无关表面传送到所述第二图形处理节点。6.如技术方案5所述的系统,其中所述第三图形处理节点包括云服务的图形处理资源,所述第三图形处理节点通过网络接口而被耦合到所述第二图形处理节点。7.如技术方案6所述的系统,其中所述第三图形处理节点要执行视频编码以压缩所述视角无关表面,并且其中所述第二图形处理节点要执行视频解码以解压缩所述视角无关表面。8.如技术方案1所述的系统,其中所述第一图形处理节点包括第一图形处理单元(gpu),所述第一图形处理单元包括图形处理核的第一集合,图形处理核的所述第一集合用于执行图形处理操作的所述第一集合。9.如技术方案8所述的系统,其中所述第二图形处理节点包括第二gpu,所述第二gpu包括图形处理核的第二集合,图形处理核的所述第二集合用于执行所述视角相关转化。10.一种方法,包括:在第一图形处理节点上执行图形处理操作的第一集合以渲染图形场景,图形处理操作的所述第一集合包括光线追踪无关的操作;确定所述第一图形处理节点的用户的当前视角;在第二图形处理节点处接收所述用户的所述当前视角的指示,所述第二图形处理节点接收或构造由视角无关的光线遍历和交叉操作所生成的视角无关表面;在所述第二图形处理节点上基于所述用户的所述当前视角来执行所述视角无关表面的视角相关转化以生成视角相关表面,并将所述视角相关表面提供给所述第一图形处理节点;以及在所述第一图形处理节点上执行图形处理操作的第二集合以使用所述视角相关表面来完成对所述图形场景的渲染。11.如技术方案10所述的方法,其中图形处理操作的所述第一集合包括光线追踪无关的操作。12.如技术方案11所述的方法,其中图形处理操作的所述第一集合包括与光照无关的渲染操作。13.如技术方案10所述的方法,还包括:在第三图形处理节点上执行所述视角无关的光线遍历和交叉操作以生成所述视角无关表面。14.如技术方案13所述的方法,其中所述第三图形处理节点要压缩所述视角无关表面以生成压缩的视角无关表面,并将所述压缩的视角无关表面传送到所述第二图形处理节点。15.如技术方案14所述的方法,其中所述第三图形处理节点包括云服务的图形处理资源,所述第三图形处理节点通过网络接口而被耦合到所述第二图形处理节点。16.如技术方案15所述的方法,其中所述第三图形处理节点要执行视频编码以压缩所述视角无关表面,并且其中所述第二图形处理节点要执行视频解码以解压缩所述视角无关表面。17.如技术方案10所述的方法,其中所述第一图形处理节点包括第一图形处理单元(gpu),所述第一图形处理单元包括图形处理核的第一集合,图形处理核的所述第一集合用于执行图形处理操作的所述第一集合。18.如技术方案17所述的方法,其中所述第二图形处理节点包括第二gpu,所述第二gpu包括图形处理核的第二集合,图形处理核的所述第二集合用于执行所述视角相关转化。19.一种在其上存储有程序代码的机器可读介质,所述程序代码在由机器执行时使所述机器执行以下操作:在第一图形处理节点上执行图形处理操作的第一集合以渲染图形场景,图形处理操作的所述第一集合包括光线追踪无关的操作;确定所述第一图形处理节点的用户的当前视角;在第二图形处理节点处接收所述用户的所述当前视角的指示,所述第二图形处理节点接收或构造由视角无关的光线遍历和交叉操作所生成的视角无关表面;在所述第二图形处理节点上基于所述用户的所述当前视角来执行所述视角无关表面的视角相关转化以生成视角相关表面,并将所述视角相关表面提供给所述第一图形处理节点;以及在所述第一图形处理节点上执行图形处理操作的第二集合以使用所述视角相关表面来完成对所述图形场景的渲染。20.如技术方案19所述的机器可读介质,其中图形处理操作的所述第一集合包括光线追踪无关的操作。21.如技术方案20所述的机器可读介质,其中图形处理操作的所述第一集合包括与光照无关的渲染操作。22.如技术方案19所述的机器可读介质,还包括程序代码以使所述机器执行以下操作:在第三图形处理节点上执行所述视角无关的光线遍历和交叉操作以生成所述视角无关表面。23.如技术方案22所述的机器可读介质,其中所述第三图形处理节点要压缩所述视角无关表面以生成压缩的视角无关表面,并将所述压缩的视角无关表面传送到所述第二图形处理节点。24.如技术方案23所述的机器可读介质,其中所述第三图形处理节点包括云服务的图形处理资源,所述第三图形处理节点通过网络接口而被耦合到所述第二图形处理节点。25.如技术方案24所述的机器可读介质,其中所述第三图形处理节点要执行视频编码以压缩所述视角无关表面,并且其中所述第二图形处理节点要执行视频解码以解压缩所述视角无关表面。26.如技术方案19所述的机器可读介质,其中所述第一图形处理节点包括第一图形处理单元(gpu),所述第一图形处理单元包括图形处理核的第一集合,图形处理核的所述第一集合用于执行图形处理操作的所述第一集合。27.如技术方案26所述的机器可读介质,其中所述第二图形处理节点包括第二gpu,所述第二gpu包括图形处理核的第二集合,图形处理核的所述第二集合用于执行所述视角相关转化。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1