一种面向统一染色架构的gpu3d引擎片上存储层次结构的制作方法

文档序号:9788102阅读:404来源:国知局
一种面向统一染色架构的gpu3d引擎片上存储层次结构的制作方法
【技术领域】
[0001]本发明涉及计算机硬件技术领域,尤其涉及一种面向统一染色架构的GPU3D引擎片上存储层次结构。
【背景技术】
[0002]随着图形化应用的不断增加,早期单靠CPU进行图形绘制的解决方案已经难以满足成绩和技术增长的图形处理需求,图形处理器(Graphic Processing Unit,GPU)应运而生。从1999年Nvidia发布第一款GPU产品至今,GPU技术的发展主要经历了固定功能流水线阶段、分离染色处理器架构阶段、统一染色处理器架构阶段,其图形处理能力不断提升,应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU流水线高速、并行的特征和灵活的可编程能力,为图形处理和通用并行计算提供了良好的运行平台。
[0003]图形处理器的存储层次结构设计是GPU设计过程中的关键技术,也是GPU设计的难点之一,其设计的优劣直接影响图形处理性能。统一染色架构的GPU中,统一染色阵列资源利用率高,顶点和像素染色任务吞吐量大,对存储带宽和数据量的需求相对于分离染色架构GPU来说大幅提升,面向统一染色架构GPU3D引擎的高性能片上存储层次结构设计更为重要、也更加复杂。因此,如何通过合理的片上存储层次结构来捕捉数据访问局部性,从而隐藏数据访问延迟,以及如何对所读写的存储器数据进行缓冲,从而提升显示存储器数据带宽利用率是统一染色架构GPU设计的核心内容之一。

【发明内容】

[0004]本发明为解决【背景技术】中存在的上述技术问题,而提供一种面向统一染色架构的GPU 3D引擎片上存储层次结构,从而能够降低图形处理过程中的数据访问延迟,提升显示存储器的数据带宽利用率。
[0005]本发明的技术解决方案是:本发明为一种面向统一染色架构的GPU3D引擎片上存储层次结构,其特殊之处在于:该结构从上到下包括四层存储结构,依次为寄存器层、片上SRAM&LlCache层,L2Cache层及显不存储器层;
[0006]所述寄存器层与片上SRAM&LlCache层相连,所述片上SRAM&LlCache层与L2Cache层或显示存储器层相连,所述L2Cache层与显示存储器层相连。
[0007]上述寄存器层包括多个图形功能单元中的寄存器,如片段处理单元中的像素属性寄存器、统一染色阵列中的定点/浮点寄存器组和纹理贴图阵列中的纹素寄存器。
[0008]上述片上SRAM&LlCache层包括多个高速缓冲器和至少一个图像数据缓冲器,如片段处理单元中的像素Cache和Z-buffer Cache、统一染色阵列中的Local SRAM/共享存储器/指令LlCache/常量LICache、纹理贴图阵列中的纹理LICache。
[0009]上述L2Cache层包含统一染色阵列中的常量SRAM、纹理贴图阵列中的纹理L2Cache0
[0010]上述显示存储器层包括两个存储仲裁管理单元、第一存储器和第二存储器,所述存储管理单元包括两路独立的第一 AXI访存仲裁管理单元和第二 AXI访存仲裁管理单元、两路独立的第一存储控制器和第二存储控制器;
[0011 ]所述两路独立的存储控制器实现外部存储器芯片的数据访问和时序控制;
[0012]所述第一 AXI访存仲裁管理单元I根据来自片上SRAM&LlCache层或L2Cache层的访问请求,控制第一存储控制器I从相应的第一存储器I中读写数据;
[0013]所述第二 AXI访存仲裁管理单元2根据来自片上SRAM&LlCache层或L2Cache层的访问请求,控制第二存储控制器2从相应的第二存储器2中读写数据。
[0014]上述层次结构包含5中不同功能的存储层次结构,分别是:像素数据层次化存储结构、染色器阵列数据的层次化存储结构、纹理数据的层次化存储结构、主机接口数据的层次化存储结构、视频显示数据的层次化存储结构;
[0015]所述像素数据层次化存储结构由寄存器层、片上SRAM&LlCache层和显示存储器层构成;寄存器层中的ROP单元数据处理寄存器与片上SRAM&LlCache层的Z-buffer Cache和像素Cache分别相连,片上SRAM&LlCache层的Z-buffer Cache和像素Cache均与显不存储器层直接相连;
[0016]所述染色器阵列数据层次化存储结构由寄存器层、片上SRAM&LlCache层、L2Cache层和显示存储器层构成;寄存器层中染色器单元的定点/浮点寄存器分别与片上SRAM&LlCache层染色器单元的LocalSRAM、共享存储器、指令LICache、常量LlCache相连,片上SRAM&LlCache层的指令LlCache与显示存储器层相连,片上SRAM&LlCache层的常量LlCache与L2Cache层的常量SRAM相连;
[0017]所述纹理数据的层次化存储结构由寄存器层、片上SRAM&LlCache层、L2Cache层和显示存储器层构成;寄存器层中纹理单元O和纹理单元I的纹素寄存器分别与片上SRAM&LlCache层的纹理LlCacheO和纹理LlCachel相连,片上SRAM&LlCache层的纹理LlCacheO和纹理1^10&(31161相连均与1^20&0116层的纹理1^20&0116相连丄20&0116层的纹理1^20&0116与显不存储器层相连;
[0018]所述主机接口数据的层次化存储结构由寄存器层和显示存储器层构成;寄存器层中命令处理器寄存器、DMA控制器寄存器、DDR3调试通路寄存器、H.264寄存器与显示存储器层相连;
[0019]所述视频显示数据的层次化存储结构由寄存器层、片上SRAM&LlCache层和显示存储器层构成;寄存器层中的显示控制模块处理寄存器与片上SRAM&LlCache层的视频写行缓冲器和视频读行缓冲器相连,片上SRAM&LlCache层的视频写行缓冲器和视频读行缓冲器与显示存储器层相连。
[0020]本发明具有以下优点:
[0021]1、本发明提供的GPU 3D引擎四层存储结构不但能够降低图形绘制和图形功能执行过程中的数据访问延迟,充分捕捉图形处理数据访问的局部性,还能够在图形处理器进行存储器数据访问时实现高效的数据缓冲,从而提升存储器数据带宽利用率。
[0022]2、寄存器层可以直接对片上SRAM&LlCache层进行数据读写访问,也可以通过片上SRAM&LlCache层对L2Cache层进行访问,L2Cache层对显示存储器层进行访问;片上SRAM&LlCache层可以直接对显示存储器层进行读写访问,大幅提升显示存储器层的存储器数据带宽利用率,降低数据访问延迟。
[0023]3、当寄存器层数据访问存在局部性时,片上SRAM&LlCache层能够捕捉到这种局部性,能够大幅减少对L2Cache层和显示存储器层的访问请求数量,提高数据返回速度,从而提高访问速度。
[0024]4、当片上SRAM&LlCache层数据访问发生缺失时,L2Cache层仍能够捕剩余的局部性,能够大幅减少对显示存储器层的访问请求数量,提高数据返回速度,从而提高访问速度。
【附图说明】
[0025]图1是本发明的层次结构框图;
[0026]图2是本发明的显示存储器层中存储访问控制和管理模块结构框图。
【具体实施方式】
[0027]下面结合附图和具体实施例,对本发明的技术方案进行清楚、完整地表述。显然,所表述的实施例仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提所获得的所有其他实施例,都属于本发明的保护范围。
[0028]参见图1,本发明的结构包括四层存储结构,分别是:寄存器层、片上SRAM&LlCache层,L2Cache层,以及显示存储器层。寄存器层与片上SRAM层相连,片上SRAM层&LlCache层与L2Cache层或显示存储器层相连,L2Cache与显示存储器层相连。所述寄存器层可以直接对片上SRAM&LlCache层进行数据读写访问,也可以通过片上SRAM&LlCache层对
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1