多处理器架构与方法

文档序号:9288388阅读:525来源:国知局
多处理器架构与方法
【专利说明】
[0001] 本申请是申请号为200980147694. 9,申请日为2009年10月5日,发明名称为"多 处理器架构与方法"的中国专利申请的分案申请。
技术领域
[0002] 本申请是关于计算器与其他数字系统中数据转换的领域。
【背景技术】
[0003] 本申请主张2008年10月3日申请的美国申请案12/245, 686为优先权案。本申 请也主张2008年12月19日申请的美国申请案12/340, 510为优先权案,这是美国申请案 12/245,686的部分连续案。这两件申请整体内容皆并入本申请作为参考。
[0004] 随着计算器与其他数字系统变得更复杂与更有能力,在系统成分或组件之间促进 数据转换的方法与硬件持续演化。要被转换的数据包含代表数据、指令或是其他信号的信 号。在运作非常大数据量应用的系统中,例如制图应用的系统中,数据转换的速度与效率 特别关键。在典型系统中,制图处理能力是中心处理单元(CPU)的一部分,或是分别的特 殊目的处理器,,例如制图处理单元(GPU)与CPU通讯且辅助处理用于例如视频游戏应用 的制图数据。可在系统中包含一或多个GPU。在习知多GPU系统中,桥接宿主接口(例如 PCI快速(PCIe?)总线)接口必须在点对点(peertoper)交通与宿主交通之间分享带宽。 交通主要包括内存数据转换,但通常可包含指令。图1是习知系统100的方块图,包含根 (root) 102。典型根102试算机芯片组,包含中心处理器(CPU)、宿主桥104以及两个终端 EPO106a与106b。终端是总线终端,以及可以是多种周边组件,例如特殊目的处理器,例如 制图处理单元GPU)。根102通过一或多个总线而耦合至桥104,以与周边组件通讯。一些 周边组件终端(例如GPUs)由于功能涉及大量数据,所以需要总线上相对大量的带宽。理 想是提供较少组件数目的架构,以及在组件之间提供有效率的数据转换。例如,桥集成电路 (ICs)的成本相对高。除此之外,典型桥1C的尺寸可和制图处理单元(GPU)相比,制图处 理单元需要额外的印刷电路板面积以即可加至层数。桥1C也需要额外的环绕组件,用于电 力、带子(straps)、时钟以及可能是只读内存(ROM)。

【发明内容】

[0005] 本发明提供一种系统,所述系统包括周边组件总线;以及多个周边组件,通过多个 个别的传送/接收(TX/RX)道直接耦合至所述周边组件总线,因而所述多个周边组件与所 述周边组件总线连接且通讯而作为一周边装置;其中,所述多个周边组件包括多个处理器; 以及其中,所述多个周边组件更通过个别的传送/接收(TX/RX)道直接彼此耦合,且每一 个处理器从所述周边总线接收数据、将从所述周边总线接收的所有数据转送至剩余的处理 器。
[0006] 本发明还提供一种计算器可读取的媒体,具有指令储存在所述计算器可读取的媒 体上,当在多处理器系统中执行时,造成进行一种方法,所述方法包括在多个处理器与周边 总线之间通过总线的传送/接收(TX/RX)道的个别组通讯总线数据;在所述多个处理器之 间通过未耦合至所述总线的传送/接收(TX/RX)道通讯数据;利用地址判断所述多个处理 器的其中一个与所述周边总线通讯;以及其中,每一个处理器从所述周边总线接收数据、将 从所述周边总线接收的所有数据转送至所述处理器。
[0007] 本发明又提供一种电路,包括:周边组件连接器,耦合至周边组件总线;多个周边 组件,通过多个个别的传送/接收(TX/RX)道直接耦合至所述周边组件连接器,其中所述 多个周边组件更通过个别的传送/接收(TX/RX)道而直接彼此耦合,且每一个周边组件 将从所述周边组间连接器接收的所有数据转送至剩余的周边组件;其中,所述周边组件利 用地址决定是否接收所述数据;以及其中,所述多个周边组件包括至少一个制图处理单元 (GPU)〇
【附图说明】
[0008] 图1是具有周边组件的习知处理系统的方块图。
[0009]图2是根据实施例,说明具有多任务周边组件的多处理器系统的部分的方块图。
[0010]图3是根据实施例,说明具有周边组件的处理系统的部分的方块图。
[0011]图4是根据实施例,说明具有周边组件的处理系统的更详细方块图。
[0012]图5是实施例的方块图,其中一总线终点包含内部桥。
[0013]图6是实施例的方块图,其包括多于两个总线终点,各总线终点包含内部桥。 图7是根据实施例,显示总线地址空间架构,从系统中不同组件的透视说明内存空间 的方块图。
【具体实施方式】
[0014] 本申请揭露多处理器架构与方法的实施例。实施例提供替代使用外部桥集成电路 (1C)架构。例如,实施例多任务(multiplex)周边总线,因而多处理器可使用一个周边接口 槽,而不需要外部桥1C。其他实施例包含系统,所述系统具有多个总线终点通过宿主总线桥 而耦合至总线根,所述宿主总线桥是内部连接到至少一个总线终点。除此之外,总线终点直 接彼此親合。实施例可使用已知的总线规则(busprotocol)。
[0015] 图2是根据实施例的示意方块图,说明具有多任务周边组件总线的多处理器系统 700的部分。在这个范例系统中,有两个GPU、主GPU702A以及从GPU702B。每一个GPU 702具有16个周边组件互连快送(PCIe?)传送(TX)道以及16个pcie?接收(RX)道。每 一个GPU702包含个别的数据链接层706以及个别的物理层(PHY) 704。GPU702A的八个 TX/RX道连接至X16PCIe?:连接器一半的TX/RX道或是槽708。GPU702B的八个TX/RX道 连接至X16PCIe?连接器剩余的TX/RX道或是槽708。GPU702A与GPU702B各自的剩余 TX/RX道是彼此连接,在GPU702之间提供直接高速连接。
[0016]PCIe?xl6槽708 (正常连至一个GPU)分为两个部分,槽的一半是连接至GPU 702A,以及另一半是连接至GPU702B。每一个GPU702基本上回响另一个GPU702的另一 半数据。亦即GPU接收的数据会传送至另一个。每一个GPU702见到PCIe?.总线接收的 所有数据,每一个GPU702内部决定是否回答请求或意见。而后每一个GPU702适当响应 或是不做任何事。可使用一些数据或指令,例如"重新启动"用于所有的GPU702。
[0017] 从系统阶层观点,或是从周边总线的观点,PGIe?、总线上只有一个PCIe?:负载 (装置)。GPU702A或GPU702B以地址为基础被存取。例如,对于地址区存取(Address DomainAccess),主GPU702A可被分配一半的地址区,以及从GPU702B可分配到另一半。 系统可在主/从模式中运作,或是在单/多GPU模式中操作,以及可用带子(straps)辨识 模式。
[0018] 由参考数目辨识不同的数据路径。711是指参考时序(REFCLK)路径。709是指 8道RX-2路径。713是指8道RX-1路径。715是指8道TX-1路径。控制信号710是非 PCIe??信号,例如带子(straps)。每一个GPU702中的PHY704回响数据至适当的道或通 道。可以依序完成道连接,帮助优化系设计与/或支持具有少于16道的PCTo?槽。两个 GPU显示为系统的范例,但是架构可扩充至n-GPUs。除此之外,GPU702是周边组件的一个 范例,如前所述可被耦合。与周边组件总线正常通讯的任何其他周边组件可同样被耦合。
[0019] 图3根据实施例所示的方块图,说明具有周边组件的处理系统200的部分。系统 200包含总线根(busroot) 202,这与图1的总线根102类似。实施例中的总线根202是 包含CPU与系统内存的芯片组。根202通过总线209耦和至包含内部桥205a的终端EP0 206a。实施例中的总线209是PCI快送(PCIe?)总线,但并不受限于此实施例。EPO206a耦合至另一终端EP1 206b。EP1 206b包含内部桥205b。EPO205a与EP1 205B通过总线 207穿过个别
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1