具有集成高速分组交换串行接口的处理器芯片架构的制作方法

文档序号:6476369阅读:176来源:国知局
专利名称:具有集成高速分组交换串行接口的处理器芯片架构的制作方法
技术领域
本发明总体上涉及计算及通信架构领域,尤其涉及用于处理器和内存访问的架 构,其使用直接集成在与处理器结构同一芯片上的高速分组交换串行接口。
背景技术
广义地讲,术语计算机架构意味着包括处理子系统、内存子系统和输入/输出(1/ 0)子系统的一组核心功能部件的互相连接,处理子系统执行指令并作用于数据,内存子系 统与处理子系统协作以使所选数据和指令能被保存并在这两个子系统之间传输,及输入/ 输出子系统至少使处理子系统能与计算机外部的网络和外围环境交换数据和指令。该组核 心功能部件可使用各种控制功能部件之间的通信互换的通信互连方案构造在不同的计算 机系统拓扑中。例如,处理器及其内存可在电路卡中本地连接,或者经底板互连而地理上越 过系统底架布置。个人计算机(PC)代表最成功及最广泛使用的计算机架构。从架构上而言,自PC在 20世纪80年代首次提出以来没有太大变化。其核心是,典型的PC由单一电路板即母板组 成,其包括用作中央处理单元(CPU)的微处理器、系统内存及在位于母板上的CPU芯片和系 统内存芯片之间提供互连的本地或系统总线、及通常由沿母板边缘的连接器形成的I/O端 口。PC架构成功的关键原因之一为部件互连的工业标准化方式。流行的基于底架的计算机架构的一个最近的例子可在高性能计算(HPC)领域找 到。在HPC领域中,架构创新之一为服务器刀片构型的采用,其中一个或多个刀片如服务器 刀片、内存刀片、I/O刀片、PC刀片插入基于工业标准的公用机架。代替将计算机系统的所 有芯片放在单一母板上,计算机系统的功能元件被分在更小的称为刀片的电路卡中,这些 刀片然后由在不同刀片之间发送大量数据的底板连接在一起。在这些HPC刀片构型的大部 分中,公用机架的底板结构已通过标准化并行总线互连技术如PCI总线实施。将功能部件 分在多个刀片上使部件构造更灵活,同时,使用标准化互连如PCI总线使来自不同提供商 的刀片能在同一公用机架中构造在一起。与成功的PC架构一样,标准化本地或系统总线接 口如PCI总线的使用对HPC和服务器计算机系统的刀片架构的成功非常关键。对系统性能和实施具有重大影响的参数之一为处理器使用的内存访问方法。有两 种基本的访问内存的架构。这样的架构之一为VonNeumarm架构,其中一个共享内存用于保 存指令(程序)和数据,在处理器和内存之间具有一根数据总线和一根地址总线。该架构 要求指令和数据顺序读取,这导致通常称为“Von Neumann瓶颈”的工作带宽限制。第二访 问内存的架构称为Harvard架构,其使用物理上分开的内存及用于它们的指令和数据的专 用总线。因此,指令和操作数可被同时读取。两种架构均包括在处理器和内存之间传输信 息的总线。本领域技术人员应意识到,不管处理器和内存速度如何,处理器和内存之间的信 息传输速度实质上影响计算机系统的性能。在计算机系统的各个部件的可用CPU功率、内存容量和内存速度方面已有重大进 展的同时,处理器-内存互连及内存访问在本地或系统并行总线的速度方面的进展已远远落后。众所周知,处理器和内存可在3GHz时钟以上运行,而能以与处理器速度匹配的速度 运行为并行总线互连的本地系统总线极为稀少,因为这样的高速总线很难实现。例如,称为 前端总线的、用于外部连接到Pentium 4微处理器芯片的系统总线以比处理器速度慢的速 度运行。传统上,母板外部的I/O装置在连接到母板上的称为电桥的芯片组的慢速I/O总 线上通信,如外围部件互连(PCI)总线,进而在前端总线上与CPU通信。在I/O装置以比 处理器和主内存的速度慢得多的速度通信时该方法能良好运转的同时,当前I/O技术的发 展,如Infiniband和多千兆以太网,可以接近几吉比特每秒以上的速率传送I/O通信。这 些发展已使CPU-内存和CPU-I/0事务之间的传统区别模糊不清,及否定了将I/O通信委托 给单独的更慢的遗留I/O总线如PCI总线的基本原理。试图增加I/O总线如PCI总线和PCI扩展(PCI X)总线的速度的难题之一在于并 行总线方案易于在分开的并行数据通路中的数据流之间出现时钟脉冲相位差问题,例如, 所述数据通路相互之间相差非常小的通路长度。随着通路长度、数据传输速度和/或并行 通路的数量增加,已证明时钟恢复和数据重构将逐渐有问题及不可靠。另外,并行总线占用 相当的电路板资源。对前端总线和I/O总线的并行总线速度增加引起的问题的现有技术解决方案在 极大程度上已涉及专有协议的使用,这些协议专用于微处理器芯片和芯片组的特定提供 商。例如,由Advanced Micro Devices生产的Athelon 64/FX/0pteron上的先进版前端总 线对于32位宽的并行总线的14400 MB/s的理论带宽可以接近1GHz的速度运行。可惜的 是,这是与趋于采用工业广泛标准的一般趋势不兼容的专有解决方案,前述标准鼓励厂商 开发可与其它厂商的解决方案共同使用的产品以降低新产品推向市场的时间和成本。因处理器速度和内存访问速度之间的差异引起的问题众所周知,并在现有技术中 已被称为内存间隙或内存墙问题。例如,参见Cuppa等在1999年11月于University of Maryland Systems & ComputerArchitecture Group Technical Report UMD-SCA-1999-2
"Organizational Design Trade-Offs at the DRAM, Memory Bus andMemory Controller Level Jnitial Results”。内存间隙问题还与解决大内存容量的需要混合。 在现有技术中采用的一种克服内存墙/内存间隙问题的解决方案是消除处理器和内存之 间的并行总线接口并使用串行底板接口而不是并行总线如PCI总线。在处理器和内存之间建立标准化串行底板接口的一个早期尝试为可扩展一致性 接口(SCI)。参见 Gustavson,D.和 Li,Q.在 1996 年 8 月于 IEEE Communications 上发表 的"The Scalable Coherent Interface (SCI) ”。可惜的是,该提议未被广泛采用。最近,芯片制造商已开发多种处理器和内存之间的专有高速串行接口,如AMD HyperTransport和Intel 全缓冲Dimm(FB DIMM)。其它备选方案已按串行芯片间接口的形 式提出,如 Trynosky 在"SerialBackplane Interface to a Shared Memory,,中所述,申请 附注2004 年 11 月 30 日,Virtex-II Pro FPGA Family, XILINX ;或者如 SummitComputer Systems, Inc.的 Davis 在 2004 年 9 月 19 日的 ‘‘The MemoryChannel,,中描述的多个单字 节串行处理器-内存接口的形式。在计算架构中的部件之间从并行到串行接口的迁移不只是处理器/内存接口才 这样。对于包括底板在内的几乎所有1/0通信通道,串行接口已成为标准接口。高级交换 互连(ASI)交换结构利用层次及多个高速时钟控制的串行数据通道或专有分组交换DMA技术,例如美国专利6,766,383所述。工业标准I/O协议,如Infiniband、光纤通道和吉比特 以太网,可以接近几吉比特每秒以上的速率传送I/O通信。在串行I/O协议的速度理论上可接近处理器/内存接口所需要的速度的同时,与 串行I/O协议相关联的通信开销已免去了考虑使用串行I/O协议作为处理器/内存接口的 基础的任何严肃努力。串行I/O通信协议通常具有更大的分组和地址大小,这样的大小很 适于访问磁盘上保存的大量数据或在网络上访问大量数据。更大的分组和地址大小导致通 信开销惩罚增加。处理器/内存接口传统上已要求对单一地址位置在处理器和内存之间传 输数据的能力,I/O传输和协议的开销要求已被看作十分过分的行为。此外,有许多传输阻 塞和内存争用顾虑,相较处理器-内存接口,对I/O通信更需要解决这些顾虑。已提出一些对底板连接使用串行I/O接口协议而不是并行总线互连技术的备选 方案。美国公开申请20050091304公开了电信入口的控制系统,其包括具有以太网底板和 平台管理总线的模块化底架,该底架宿留至少一应用模块、至少一功能模块和入口执行器。 在该专利申请中,相比于传统并行总线连接如PCI总线,lOOOBaseT (吉比特以太网)底板提 供分组交换的网络,其中每一连接的模块用作网络上的单个节点。美国公开申请20060123021公开了电子设备的层次封装方案,其利用高级夹层卡 (AMC)中的子板的高级电信计算架构(TCA)方案,子板与基于层次分组的互连结构如以太 网、RapidIO、高速PCI或Inf iniband互连。在该方案中,每一局部方块中的AMC由在局部 方块内进行连接的第一慢速接口如吉比特以太网按层次结构进行连接及由第二高速接口 如10G以太网在方块之间进行连接。以太网交换的底板架构在潜伏时间、流控制、拥塞管理和服务质量方面的问题 众所周知,并在 Lee 于 2005 年冬季的 Embedded IntelSolutions 的"Computation and Communication Systems Need AdvancedSwitching,,中描述。这些问题已妨碍在处理器和 内存之间采用串行1/0通信协议,尽管这样的串行1/0协议正在较小物理尺寸的电路板或 计算机或具有多个由底板互连的卡/刀片的通信机架或机柜中使用。相反,增加单个芯片 的容量及每一服务器刀片的物理尺寸已成为趋势,以在单一芯片或电路板上容纳更多的处 理器和内存,从而减少必须以底板作为媒介的处理器和内存互连的需要。随着处理器速度、内存速度和网络速度继续增加,及随着外部1/0逐渐能够以超 过吉比特速度的速率传送数据,目前的用于将子系统安排在计算和通信架构内的架构不再 有效。在芯片中具有多个处理器内核时,如Von Newman和Harvard架构的内存访问问题进 一步加剧处理器和内存互连技术。因此,需要不受当前架构限制约束并可提供与工业配置 标准兼容的解决方案的计算和通信芯片架构,所述解决方案可升级以与下一代计算机和通 信设备的集中计算环境的速度、容量和处理内核要求匹配。

发明内容
本发明致力于计算和通信芯片架构,其中处理器和内存芯片的片外接口实施为作 为半导体封装中的每一芯片的一部分的高速分组交换串行接口。在一实施例中,高速分组 交换串行接口为由与芯片封装内的至少一处理器内核共处一处的分组处理器实施的吉比 特以太网接口。串行接口配置成传输数据、地址和控制信息,及要求使用串行分组协议从外 部内存器件如系统主内存读取数据和将数据写到外部内存器件。至少一处理器和外部内存器件之间的通信可由至少一网桥器件和交换器件(可选)传递,所述网桥器件能够在多个 串行化协议之间进行翻译,所述交换器件适于传递片内实体如处理器内核、高速缓存和分 组处理器之间的通信及片内实体和片外器件如系统主内存之间的通信。在示例性实施例中,分组处理器实施成集成为芯片的一部分的运行中可编程位流 协议处理器。在一实施例中,具有高速缓存的处理器芯片可经组合为微处理器芯片的一部 分的位流协议处理器连接到系统或主内存芯片组。在一实施例中,处理器串行接口可以是 10吉比特以太网接口。在这些实施例中,协议处理器将内存地址和控制信息如读、写、相继 字节的数量等封装为以太网分组以在位于同一芯片上、同一母板上或不同电路卡上的处理 器和内存芯片之间进行通信。在一实施例中,通过使用增强的以太网协议进一步减少以太 网协议的通信开销,增强的以太网协议在约束邻域内具有变短的数据帧;和/或通过使用 位流交换器进一步减少,其中可在包括计算和通信架构的元件之间建立直接连接通路。上面对本发明的不同实施例的概述并不意于描述每一所说明的实施例或本发明 的每一实施方式。下面详细描述中的附图将更具体地例证这些实施例。


通过考虑下面结合附图对本发明的各个实施例进行的详细描述可更完整地理解 本发明,其中图1A、1B、1C、1D和1E示出了现有技术处理器芯片组架构的前端总线布置的不同结构。图2A示出了根据本发明一方面的芯片架构,其中处理器芯片封装经从基于分组 处理器的并行总线到位于芯片上的串行接口转换器的至少一串行线路外部通信。图2B为根据本发明一实施例的多内核处理器芯片封装的框图表示,其经从交换 器和并行总线延伸到位于芯片封装内的串行接口模块的至少一可编程串行互连通信上连 接到芯片外部的器件。图2C为根据本发明一实施例的多内核处理器芯片封装的框图表示,其经从位于 封装内并适于用作组合交换器和并行总线的模块延伸到串行接口的至少一串行线路通信 上连接到芯片外部的器件。图2D为基于分组处理器的以太网网桥的框图表示,其提供协议翻译并用作处理 器芯片中以统一计算、底板和网络架构为特征的“南桥”。图3A为根据本发明一实施例的基于分组处理器的并行总线_串行接口转换器的 详细框图,其在系统中的产生和消费节点的通信之间的以太网中组合基于权标的点对点通
fn °图3B为根据本发明一实施例的基于分组处理器的并行总线到串行接口的详细框 图,其基于预定串行分组协议在并行总线通信和串行分组通信之间转换。图3C为基于分组处理器的并行总线_串行接口转换器的示意性表示,其中来自转 换器的串行分组协议输出可编程。图4示出了本发明的实施例组合到三维芯片架构内。图5A为根据本发明一实施例的包含单一处理器“内核”的处理器芯片封装的框 图,其经至少一串行线路外部通信。
图5B为包含多个处理器“内核”的处理器芯片封装的框图,每一内核放置成与外 部交换器上的端口串行通信,外部交换器进而与芯片封装外部的器件通信。图5C为包含多个处理器“内核”的处理器芯片封装的框图,每一内核与包含在 芯片封装内并放置成经至少一串行线路与芯片封装外部的器件串行通信的多端口并行总 线-串行接口转换器通信。在本发明顺从各种修改和备选形式的同时,其特征已在附图中作为例子展示并将 进行详细描述。然而,应当理解,本发明不限于所述的具体实施例。相反,本发明覆盖落在 所附权利要求确定的发明精神和范围内的所有修改、等效方案和备选方案。
具体实施例方式图1A、1B、1C、1D和1E示出了现有技术处理器芯片组架构的前端总线(也称“通 道”)方案的各种构型。在这些构型的每一个中,在处理器芯片15和一个或多个支持芯片 20之间使用时钟控制总线接口 10,用于在计算机架构5的各个元件之间发送数据和指令。传统的架构以通道(也称为前端总线(FSB))、处理器侧总线、内存总线、数据总线 或系统总线为特征,例如,CPU基于这些总线与母板芯片组如北桥和南桥控制器通信,如图 1D中所示。北桥25经FSB将CPU15互连到RAM内存30。北桥还经高速通道如AGP和高速 PCI连接外设如图形卡35。南桥控制器40经运行通信协议如以太网和高速PCI的其它通 道处理1/0,包括硬盘驱动器、USB、串行和并行端口、及外部存储装置。目前,大多数前端总线(FSB)不能传送设计成符合现代工业广泛标准的电信及计 算应用所需要的性能。例如,PICMG 高级夹层卡(AMC)规约定义了广大下一代高速夹 层卡的基本要求。例如,AMC卡互连指定为12. 5Gbps每差别对。Xilinx在8Gbps运行,及 Fujitsu提供10吉比特以太网交换器。作为比较,Intel Itanium 2处理器前端总线(FSB) 速度约为667MHz,AMD Opteron (TM)前端总线频率约为1. 4-2. 8GHz ;及Intel集线器架构 (IHA),其用内存控制器和I/O控制器代替北桥和南桥控制器,以CPU和内存控制器之间的 系统总线为特征,即使双RDRAM通过内存控制器集线器(MCH)25运行,该系统总线也能以 400GHz的速度运行,以传送3. 2GB/s的内存带宽,如图1D中所示。图1E示出了本领域已知 的基于IHA的多处理器架构。本领域的技术人员将意识到,基于FSB及通过图1E的内存控制器集线器45的通 信引起RAM内存读操作中的潜伏时间。此外,RAM内存访问和I/O共享FSB带宽,这可进一 步使FSB的性能降级。显然,设计成符合上述工业规约的电信及高性能计算应用需要比上 述互连的性能极限更快并能够在大量工业标准协议如以太网和高速PCI下运行的架构。参考图2A-2C,示出了根据本发明主要实施例的多核处理器架构50。所示多核处 理器架构50的一个方面采取单一物理封装55的形式(也称为“处理器芯片封装”),其被 接收在单一处理器插座内(未示出)。该单一物理封装55包括多个执行内核(或者,计算 引擎或处理引擎)60,但外部操作系统将所述封装看作单一处理器。在一实施例中,内核60 的插针可与现有处理器插座兼容。每一执行内核60包括其自己的处理器专用功能块如高 速缓存、运算逻辑部件(ALU)、优先中断控制器、架构寄存器、流水线预测机构、及指令集,如 图5A-5C中所示。每一执行内核能够在外部操作系统的导控下独立执行程序指令和多个线 程。在相关实施例中,内核可与封装中的其余内核协作执行内部和/或外部指令,操作系统可在每一内核提供的服务之间进行区分,及内核可访问共享资源如高速缓存和外部系统内 存70,如图2A和2C中所示。在其它实施例中,操作系统能够支持多个内核之间的并行执 行,每一内核或内核的各个组合可由操作系统看作分开的并行处理单元。应意识到,本发明不受可驻留在单一物理封装55内的任何特定内核或内核数量 限制。具体地,执行内核可以是下述之一或多个内核在Intel的90纳米奔腾D和奔腾超 级版840中使用的Smithfield内核,在Intel的65纳米奔腾超级版955处理器中使用的 Presler内核、AMD的90纳米埃及和丹麦内核。在本发明范围内也可使用其它内核。本发明的重要特征在于处理器55和系统器件80之间的数据通信经至少一串行互 连90进行,在至少一实施例中,其由与交换器架构105通信的网桥架构100传递,如图5C 中所示。交换器架构5C是网关,系统中的其余器件80和处理器经网关进行通信。在一实 施例中,网桥架构100及交换器架构105(或统称为“并行总线-串行接口转换器”)位于 集成结构中的处理器芯片上,如图2C中所示。在这些情形下,网桥架构和交换器架构中的 一个或多个可按芯片上的另外的内核的形式实施。处理器芯片构型的示例性实施例如图 5A-5C中所示。在另一构型中,交换器可位于芯片之外,如图2A、2B、5A和5B中所示。本领 域技术人员将容易意识到,网桥架构和交换器架构的所有这样的构型均包括在本发明范围 之内。必须强调的是,尽管上述实施例针对多核架构进行描述,但所公开的发明可同样应用 于处理器封装仅包括一个内核(单一处理器)的情形及同样应用于网桥架构和交换器架构 为单一模块的情形,如图2C和5C中所示的并行总线_串行接口转换器120。在一实施例中,网桥架构使用如图3A-3C中所示的分组处理器架构实施。图3B为 根据本发明的典型分组处理器的具体实施例。在并行总线150上从处理器传输的通信,如 与由示例性处理器芯片封装55中的处理器内核60发给外部系统内存的“写”命令有关的数 据、地址和控制信息,由分组处理器部分180处理以产生经一个或多个串行线路90传输到 芯片封装55外面的串行分组通信155 (165)。从芯片封装55外面接收的串行通信160 (170) 由分组处理器部分188处理为在并行总线150上传给处理器的并行通信,如图3A和3B中 所示。应意识到,串行-并行变换可应用于芯片封装、处理器内核和包括本发明范围内的其 它芯片封装和I/O装置的外部装置内的处理器内核之间的通信。图3A和3B的功能块可根 据位流处理器(BSP)架构进行调整,如图3C中所示。位流处理器为使用高性能流水线分组 交换架构的运行中可编程集成分组处理器、安全引擎和流量管理器。位流处理器可物理上 实施为另外的“内核”,与处理器芯片或独立芯片上的其它逻辑器件集成,同时保持在本发 明的范围之内。在本发明的一实施例中,位流处理器使用可编程流水线架构执行正向和反向桥接 功能,其提供高度适应遗留、现有和新兴插件板级和网络级数据通信/信令协议的灵活性。 流水线内的每一级/模块具有使任何有关信息可用于随后的模块的特定功能或责任。由 此,每一级的架构不同并被优化以处理给定功能。每一级可在逐一分组的基础上动态编程, 同时处理器内核通过在并行通信链路上一次发送几个比特进行数据/指令传输。核内数据 /指令使用表征厂商专用CPU架构的处理器内核及相关系统总线固有的信令,如与Intel的 前端总线、AMD的基于超传输技术的互连协议或其它专有/非专有总线协议兼容的信令。位 流处理器在处理器内协议和一组插件板级或网络级串行通信协议之一之间桥接。从网桥传 给处理器的上行信息被并行化、格式化和时钟控制,使得它们代表处理器内核使用的固有
9信令。来自内核的响应(即下行信息传输如内存请求或其它系统请求)由位流处理器串行 化并分组。在一实施例中,处理分组的位流处理器采取2006年8月23日申请的、题为 "Omni-Protocol Engine for Reconfigurable Bit-StreamProcessing in High-Speed Networks"的美国专利申请11/466,367中详细描述的形式,其公开内容通过引用组合 于此。位流处理器的分组处理使得分组被桥接到所希望的插件板级或网络级协议/总 线架构并转发给交换器架构。示例性的协议包括但不限于高速PCI、10吉比特以太网、 Infiniband、先进交换、RapidIO、SPI 4. 2、XAUI和串行1/0。其它协议也可有利地使用而 不限制本发明的范围。如图5A和5B中所示的本发明的备选实施例预见处理器和网桥的布置,其中分组 处理器使能经一个或多个处理器插针所包括的分开的端口对多个协议中的每一协议进行 片内连接。每一端口配置成根据特殊预定协议向处理器提供串行输入/输出。在另一有关实施例中,位流处理器可编程以使基于软件的协议编程表征任何特定 串行互连或端口处的通信。每一内核可被使得应用程序专用,例如电信的分组处理、游戏的 图形引擎功能、及高性能计算的并行计算。位流处理器可被编程以将与特定内核相关联的 所有流量分配给指定端口。在本发明的另一实施例中,前述端口可连接到高级夹层卡(AMC) 模块并对该模块提供可适用的处理器支持或在基于AdvancedTCA (ATCA)的开放模块 化系统架构中提供所有或部分模块管理控制器(MMC)功能。再次参考图2C,示出了本发明另一特征的框图表示。如图2C中所示,基于分组处 理器的网桥架构经串行互连连接到交换器架构。交换器架构是非闭塞交换器,其在多个器 件和处理器之间提供直通交换模式的串行、高速、点对点连接。交换器架构可通过商用交换 器实施,例如,DSS networks生产的GigPCI-Express交换器,6468型8端口吉比特以太网 交换器,或Fujitsu Microelectronics America生产的MB8AA3020 20端口、lOGbps 以太网 (10GbE)交换器 IC。在图5B和5C中,示出了本发明的以太PC的具有双核的多核实施例,其中内核之 一专用于通信应用。在该所示多核实施例中,有分开的程序空间和数据空间。内核可通过 在两个空间之间切换而访问任何空间。给1/0的数据被交换。交换器使源自执行内核的内 存请求能被交换到一个或多个外部内存资源,从而克服传统架构中的固有内存带宽限制, 其中内存请求从单一系统内存资源来回横过单一数据通信总线。本发明的另一实施例预见了使用分组处理器的交换架构实施,如图2C和5C中所 示。该实施例的特征之一是位于处理器芯片上并能够提供上述服务的组合网桥-交换器架 构。另一实施例预见了将2007年7月25日申请的、题为‘‘Telecommunication and Computing Platforms with Serial PacketSwitched Integrated Memory Access Technology"的美国申请11/828,329 (其公开内容通过引用组合于此)中公开的架构集成
为单一芯片/处理器封装。在图3A中所示的实施例中,分组协议处理器允许线路速度QoS分组交换,其用于 在系统的处理器和器件之间的以太网中实现基于简单权标的通信,所述系统在2007年8月 13 日申请的、题为 ‘‘EnhancedEthernet Protocol for Shortened Data Frames Within aConstrainedNeighborhood Based on Unique ID,,的美国申请 11/838,198 中提出,该申请 的公开内容通过引用组合于此。在该实施例中,网桥_交换器架构上的分组通信还专用于 系统中的持续加速、点对点通信。每一分组被提供源地址(SA)和目的地地址(DA)及E型 如VLAN标志以用于在通信链路上的端点之间协商唯一的权标。例如,E型扩展可以是请求 唯一 ID或权标授权的请求、使用授权权标的数据通信及请求停止使用权标的请求。一旦权 标已被授权,SA和DA字段连同E型一起使用以短期通过。这还可扩展到包括用于STA和 SAS的大数据块。在其它实施例中,一旦在端点和连接这些端点的中间节点之间协商唯一 ID,固定的帧大小用于在传输固定帧时赋予链路可预测的性能并因而满足各种潜伏时间要 求。例如,SA/DA对可用于12字节的数据、2个E型字节及2字节标志。伴随多个扩展内存的实施方式之一是多个高速缓存。在一实施例中,处理器卡被 提供两个可交换高速缓存(与线程的两个寄存器文件类似)。在高速缓存差错时,处理器从 第一高速缓存切换到第二高速缓存以开始处理与第二情形相关联的第二程序线程。在另一 实施例中,可以每一扩展内存有一个高速缓存。在一实施例中,控制作为扩展以太网协议的一部分提供。如果一个以上处理器请 求同一内存块,这也可“添加”到CPU等待周期。在某种意义上其为潜伏时间的,因为处理 器和预定执行的指令不能在随数据位置变化的潜伏时间(访问和传输速度)和基于并发性 控制的数据访问“间隙”之间进行区分,除非数据镜像同时访问不是瞬时访问。在另一实施例中,图2A和2C中所示的内存模块包括四个通道全缓冲双内联内存 模块(FB-DIMM)。FB-DIMM内存使用通过每一内存模块的双向串行内存总线。FB-DIMM按分 组传输内存数据,由内置在每一 FB-DIMM模块中的AMB(高级内存缓冲器)芯片精确控制。 在本发明的一实施例中,四个通道FB-DMM连接到40G线路并端接到FB-DMM巷道。AMB是 10巷道串行南界和14巷道串行北界。按照图2C的AMC卡,AMB配置成具有少于5Gbps的 总带宽的16巷道结构,带宽来自图4A的内存控制器。使用商用芯片,例如可提供10G每巷 it白勺MiS白勺 Fujitsu Axel X ( S FujitsuMicroelectronics America ), fr^Jg^cnjil 过使用单一 10G巷道满足。超出5Gbps的另外的带宽使用多个AMC或多个巷道提供。应意 识到,在DRAM端有串行化和解串行化及在处理器侧有串行化和解串行化。交换器的潜伏时 间惩罚及串行化和解串行化方法中由于串行化/解串行化引起的任何开销可按后续段落 中提出的方式克服。在一实施例中,以太网交换结构内的潜伏时间和争用/并发问题在“所包含的网 络”内解决。通过“充分包含的网络”(如在此所述的封装布置)的确定性潜伏时间(可容 忍极限抖动)确实可能。交换优先级、专用端口(专用内存端口的伪端口)、这些端口之间 基于唯一 ID的通信、及在先前指明的、题为“Enhanced Ethernet Protocol forShortened Data Frames Within a Constrained Neighborhood Based onUnique ID,,的申请中公开的 其它技术有利地用于克服潜伏时间和争用/并发有关的问题。在另一实施例中,本发明可适于经交换以太网结构支持处理器与处理器互连的网 格架构。在一实施例中,N-1连接被使得连接到每一节点,每一节点具有2个到所有其它节 点的连接。在其它实施例中,多个以太网端口 /卡、多个端口 /交换器和多个交换器/封装 方案的不同组合用于每节点连接的各种组合。在另一实施例中,位流协议处理器使能优先化交换。结合先前段落中的模块化及可升级三维芯片架构,本发明使能产生N层层次的多个处理器,其中N既随硬件而变化又可 通过改变赋予位流协议处理器居间的结构中的不同处理器子集的优先化而进行动态选择。 该实施例使芯片架构能配置成共享内存型机器及消息通过型多处理器机器。或者,根据本 发明一实施例的架构可构造为服务器、存储域网络控制器、基于网格计算的模型中的高性 能网络节点、或电信网络中的交换器/路由器。应意识到,当需要时,同样的基本机器可被 编程或人工改变为一个或多个前述专用机器。最后,在本发明已参考某些实施例进行描述的同时,本领域技术人员应意识到,他 们可容易地使用所公开的概念和具体实施例作为设计或修改其它结构的基础以实现与本 发明相同的目的而不背离所附权利要求确定的本发明的精神和范围。为解释本发明权利要求的目的,很清楚的是,35 U.S.C.的112部分、第六段的规 定不适用,除非在主题权利要求中列举特定术语“......的装置”或“......的步骤”。
1权利要求
实施集成电路的计算和通信芯片架构的装备,包括至少一处理器内核;及与至少一处理器内核中的每一处理器内核唯一关联的至少一分组处理器,所述至少一分组处理器适于提供到所述至少一处理器内核的高速分组交换串行接口;其中所述至少一处理器内核和所述至少一分组处理器共处于具有至少一外部端口的半导体芯片封装上,基于所述外部端口可访问所述高速分组交换串行接口;使得所述高速分组交换串行接口使用串行分组协议传输从外部内存器件读取数据和将数据写到外部内存器件所需要的数据、地址和控制信息,所述外部内存器件配置为用于至少一处理器内核的系统主内存。
2.根据权利要求1的装备,还包括多个处理器内核,每一处理器内核具有与其唯一关联的至少一分组处理器;及 用于连接到每一分组处理器的至少一网桥接口,该网桥接口共处于半导体芯片封装上 并适于在高速分组交换串行接口上通信的多个串行化协议之间转换。
3.根据权利要求1的装备,还包括多个处理器内核,每一处理器内核具有与其唯一关联的至少一分组处理器;及 用于连接到每一分组处理器和至少一外部端口的至少一交换器接口,该交换器接口共 处于半导体芯片封装上并适于在分组处理器和至少一外部端口之间传递串行分组通信。
4.根据权利要求1的装备,其中所述处理器内核还包括经为该处理器内核关联的至少 一分组处理器访问的高速缓存。
5.根据权利要求1的装备,其中所述分组处理器实施为运行中可编程的位流处理器。
6.根据权利要求1的装备,其中所述高速分组交换串行接口为以太网接口。
7.根据权利要求1的装备,其中除系统主内存之外所述高速分组交换串行接口还适于 在其与外部分组交换网络之间传输数据。
8.根据权利要求7的装备,其中所述外部分组交换网络为因特网。
9.实施集成电路的计算和通信芯片架构的方法,包括提供至少一处理器内核和至少一分组处理器共处于其上的半导体芯片封装,所述至少 一分组处理器与所述至少一处理器内核中的每一处理器内核唯一关联,所述至少一分组处 理器适于提供到所述至少一处理器内核的高速分组交换串行接口 ;及其中所述至少一处理器内核和所述至少一分组处理器共处于具有至少一外部端口的 半导体芯片封装上,基于所述外部端口可访问所述高速分组交换串行接口 ;利用所述高速分组交换串行接口使用串行分组协议传输从外部内存器件读取数据和 将数据写到外部内存器件所需要的数据、地址和控制信息,所述外部内存器件配置为用于 至少一处理器内核的系统主内存。
10.根据权利要求9的方法,还包括在所述半导体芯片封装上提供多个处理器内核,每一处理器内核具有与其唯一关联的 至少一分组处理器;及提供用于连接到每一分组处理器并共处于半导体芯片封装上的至少一网桥接口 ;及 利用所述至少一网桥接口在高速分组交换串行接口上通信的多个串行化协议之间转
11.根据权利要求9的方法,还包括在所述半导体芯片封装上提供多个处理器内核,每一处理器内核具有与其唯一关联的 至少一分组处理器;及提供用于连接到每一分组处理器和至少一外部端口且共处于半导体芯片封装上的至 少一交换器接口 ;及利用所述至少一交换器接口在分组处理器和至少一外部端口之间传递串行分组通信。
12.根据权利要求9的方法,还包括在所述半导体芯片封装上提供用于至少一处理器 内核的高速缓存,适于经为该处理器内核关联的至少一分组处理器对所述高速缓存进行访 问。
13.根据权利要求9的方法,其中除系统主内存之外所述高速分组交换串行接口还在 其与外部分组交换网络之间传输数据。
14.其上记录有用于在半导体芯片封装上实施集成电路的计算和通信芯片架构的指令 的计算机可读介质,包括定义与至少一分组处理器共处于所述半导体芯片封装上的至少一处理器内核的指令, 至少一分组处理器与至少一处理器内核中的每一处理器内核唯一关联,所述至少一分组处 理器适于提供到所述至少一处理器内核的高速分组交换串行接口 ;及定义到所述半导体芯片封装的至少一外部端口的指令,基于所述外部端口可访问所述 高速分组交换串行接口;使得所述高速分组交换串行接口使用串行分组协议传输从外部内存器件读取数据和 将数据写到外部内存器件所需要的数据、地址和控制信息,所述外部内存器件配置为用于 至少一处理器内核的系统主内存。
15.根据权利要求14的计算机可读介质,还包括定义所述半导体芯片封装上的多个处理器内核的指令,每一处理器内核具有与其唯一 关联的至少一分组处理器;及定义用于连接到每一分组处理器的至少一网桥接口的指令,所述网桥接口共处于半导 体芯片封装上并适于在高速分组交换串行接口上通信的多个串行化协议之间转换。
16.根据权利要求14的计算机可读介质,还包括定义所述半导体芯片封装上的多个处理器内核的指令,每一处理器内核具有与其唯一 关联的至少一分组处理器;及定义用于连接到每一分组处理器和至少一外部端口的至少一交换器接口的指令,所述 交换器接口共处于半导体芯片封装上并适于在分组处理器和至少一外部端口之间传递串 行分组通信。
17.根据权利要求14的计算机可读介质,还包括定义用于至少一处理器内核的高速缓 存的指令,所述高速缓存适于经为该处理器内核关联的至少一分组处理器进行访问。
18.根据权利要求14的计算机可读介质,其中所述半导体芯片封装为现场可编程门阵 列,及所述指令为适于配置所述现场可编程门阵列的固件。
19.根据权利要求14的计算机可读介质,其中所述半导体芯片封装为专用集成电路, 及所述指令为适于配置所述专用集成电路的固件。
全文摘要
本发明公开了计算和通信芯片架构,其中处理器访问内存芯片的接口实施为作为每一芯片的一部分的高速分组交换串行接口。在一实施例中,所述接口通过由集成为芯片的一部分的协议处理器提供的吉比特以太网接口实现。协议处理器将内存地址和控制信息如读、写、相继字节的数量等封装为以太网分组以在位于同一母板上甚或不同电路卡上的处理器和内存芯片之间进行通信。在一实施例中,通过使用增强的以太网协议进一步减少以太网协议的通信开销,增强的以太网协议在约束邻域内具有变短的数据帧;和/或通过使用位流交换器进一步减少,其中可在包括计算和通信架构的元件之间建立直接连接通路。
文档编号G06F13/20GK101918931SQ200880003869
公开日2010年12月15日 申请日期2008年2月4日 优先权日2007年2月2日
发明者B·斯塔克, V·夏尔马, W·朱 申请人:普西迈斯特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1