一种基于统一染色技术的gpu体系架构的制作方法

文档序号:9865166阅读:284来源:国知局
一种基于统一染色技术的gpu体系架构的制作方法
【技术领域】
[0001]本发明涉及计算机硬件技术领域,尤其涉及一种基于统一染色技术的GHJ体系架构。
【背景技术】
[0002]随着图形化应用的不断增加,早期单靠CPU进行图形绘制的解决方案已经难以满足成绩和技术增长的图形处理需求,图形处理器(Graphic Processing Unit,GPU)应运而生。从1999年Nvidia发布第一款GPU产品至今,GPU技术的发展主要经历了固定功能流水线阶段、分离染色器架构阶段、统一染色器架构阶段,其图形处理能力不断提升,应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU流水线高速、并行的特征和灵活的可编程能力,为图形处理和通用并行计算提供了良好的运行平台。
[0003]目前,我国尚无基于统一染色架构的GPU,各领域显示控制系统中大量采用国外进口的商用GHJ芯片。尤其是在军用领域中,国外进口商用GPU芯片存在温度和环境适应性差、无法保证电路本身或配套软件没有“后门”、包含大量军用领域不需要的冗余功能单元,功耗指标无法满足要求、商用GPU芯片更新换代快,随时面临停产、断档,难以满足武器装备持续保障等缺陷,在安全性、可靠性、保障性等方面的存在重大隐患。而且,出于政治、军事、经济等原因,国外对我国实行技术“封锁”和产品“垄断”,难以获得GPU芯片的底层技术资料,如寄存器资料、详细内部微架构、核心软件源码等,导致GPU功能、性能无法充分发挥,且移植性较差;上述问题严重制约了我国显示系统的独立研制和自主发展,突破基于统一染色架构的图形处理器关键技术、研制统一染色架构的高性能图形处理器芯片迫在眉睫。

【发明内容】

[0004]本发明为解决【背景技术】中存在的上述技术问题,而提供一种基于统一染色技术的GHJ体系架构,能够实现OpenGLAPI的硬件加速。
[0005]本发明的技术解决方案是:本发明为一种基于统一染色技术的GPU体系架构,其特殊之处在于:该架构包括基于PCI e的主机接口模块、基于统一染色架构的3D引擎模块、基于AXI的存储控制与管理模块及两路独立显示控制模块,所述主机接口模块和3D引擎模块连接,所述主机接口模块、3D引擎模块、显示控制模块均和存储控制与管理模块连接。
[0006]上述主机接口模块与主机进行OpenGL图形命令和数据传输,其包括PCIe总线接口,命令处理器、通用输入输出模块、两路I2C总线控制器以及外部ROM接口 ;所述PCIe总线接口后端逻辑包括DMA控制器,该PCIe总线接口用于接收PCIe主设备发送的OpenGL图形命令和数据,同时该PCIe总线接口还用于将图形处理器的图形状态参数和图像数据传送回主设备;所述PCIe总线接口后端DMA控制器由命令处理RISC内核进行参数配置,实现PCIe主设备与GPU芯片内部其它模块的数据传输;所述命令处理器包括预处理单元和命令处理RISC内核,用于接收PCIe总线接口传输的OpenGL图形命令和数据并对其进行解释和预处理,将预处理单元产生的图形绘制命令发送给3D引擎模块中的OpenGL图形绘制命令处理单元⑶U;同时预处理单元产生的OpenGL图形功能命令发送到命令处理RISC内核进行译码处理,并提取图形功能码发送给图形功能管理单元GFU;0penGL图形绘制命令的参数设置功能由GDU单元完成;OpenGL图形功能命令的参数设置功能由命令处理RISC内核完成;所述通用输入输出模块与PCIe总线接口相连,由PCIe主设备进行配置,实现与GPU芯片相连的外部设备的访问和控制;所述两路I2C总线控制器与PCIe总线接口相连,由PCIe主设备进行配置,实现与GPU芯片相连的外部A/D芯片和D/AS片的配置。
[0007]上述3D引擎模块根据接收到的图形绘制命令和图形功能码进行3D图形处理;其中,对于图形绘制命令,3D引擎模块将图形绘制结果通过存储控制与管理模块最终写入到显示存储器中;对于图形功能码,3D引擎模块中的特定模块完成对应图形功能;所述3D引擎模块包括8个功能单元,分别是:状态参数与图形处理管理模块SGU、任务调度单元JSU、几何引擎GEU、图像处理子集IPU、统一染色阵列USA、纹理贴图单元TMU、染色器输出控制单元SEU、片段处理阵列单元R0U;所述S⑶单元完成对图形绘制命令和图形功能码的管理,决定何时进行图形的绘制,以及何时执行图形功能;同时SGU单元实现了对3D引擎内部所有OpenGL状态参数的窗口访问机制,可以根据命令处理RISC内核对窗口寄存器的配置,完成对3D引擎内部所有OpenGL状态参数的读写访问;所述JSU单元完成对顶点染色任务和像素染色任务的调度功能,能够根据当前USA单元中多个处理内核的忙闲状态,以及负载平衡情况,将顶点染色任务和像素染色任务动态的分配到USA的处理资源上,并能够根据主机的配置动态的开启或关闭USA部分或全部执行资源;所述GEU单元是一个功能级流水线,完成几何图元的生成和处理功能;从前到后依次包括投影变换单元、图元装配单元、背面消隐单元、平面剪裁单元、三维剪裁单元、齐次坐标变换单元、视窗变换单元和光栅化单元;所述IPU单元包括图像管线单元和图像处理子集单元;所述图像管线单元主要完成图像数据的打包/解包、像素传输、像素映射、像素缩放等操作;所述图像处理子集单元主要完成颜色查找表、卷积、缩放偏移、颜色矩阵、柱状图和最小最大值功能;所述USA单元是统一染色架构的处理内核阵列,至少包含I个由16个染色处理器内核构成的单指令多线程SMT(SingleInstruct1n Mult1-Threading)染色处理单元簇,至少支持64个线程以SIMT的方式并行执行,在JSU单元的协同和调度下,并行的执行顶点染色和像素染色任务;所述TMU单元是实现纹理映射功能的硬件加速单元,包含由多个并行的纹理贴图单元组成的纹理贴图单元阵列;每个纹理贴图单元是一个功能级的流水线,根据来自USA单元的纹理访问地址,计算出显示存储器中的对应纹素地址,并将该纹素地址对应的纹素数据从显示存储器取出并返回给USA单元;所述SEU单元分别检测并记录顶点染色任务和像素染色任务进入USA的顺序,并按照该顺序将顶点染色任务的执行结果数据送入GEU单元,将像素染色任务的执行结果数据送入到ROU单元;所述ROU单元包括多个片段处理单元FOP,构成片段处理阵列,实现OpenGL所规定的片段操作,包括测试(裁剪测试、Alpha测试、深度测试、模板测试)、混合、屏蔽、逻辑等操作,以及针对缓冲区的清除操作和累积操作;所述ROU单元还包括像素Cache、像素数据压缩&解压单元、Z-buffer Cache、Z数据压缩&解压单元;所述像素Cache、Z-buffer Cache用于实现颜色数据和深度数据的片上缓冲,并为3D引擎模块的颜色和深度缓冲区访问提供颜色和深度数据,所述像素数据压缩&解压单元、Z数据压缩&解压单元用于减少显示存储器带宽的占用,降低存储器访问延迟。
[0008]上述存储控制与管理模块MMU用于显示存储器访问控制,其包括两路独立的第一AXI仲裁器和第二 AXI仲裁器、独立的第一 DDR3控制器和第二 DDR3控制器;所述第一 AXI仲裁器负责3D引擎模块在图形处理过程中需要存取的图形命令和图像数据的传输,同时接收来自像素Cache的最终图形绘制结果,并发送到对应的第一 DDR3控制器中;所述第二 AXI仲裁器负责接收来自显示控制模块的外部图像数据,并发送给对应的第二DDR3控制器;第一DDR3控制器连接在第一AXI仲裁器和第一路外部DDR3存储器芯片之间,用于实现第一AXI仲裁器对第一路外部DDR3存储器芯片的访问和控制;第二 DDR3控制器2连接在第二 AXI仲裁器和第一路外部DDR3存储器芯片之间,用于实现第二AXI仲裁器对第二路外部DDR3存储器芯片的访问和控制。
[0009]上述显示控制模块包括数字视频输入接口、至少一个显示控制单元和图像数据控制单元;所述数字视频输入接口用于接收两路外部视频信号,并将该两路视频信号发送给第二 AXI仲裁
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1