用于高性能、低功率数据中心互连结构的系统和方法_2

文档序号:9600796阅读:来源:国知局
它明显减少线缆(线缆复杂性、成本和显 著故障源)。它也实现机架以内的异构服务器混合,从而支持任何使用以太网或者SATA或 者PCIe的设备。它可以集成到系统互连中。
[0016] 具有分组交换机功能的片上服务器(S0C)的这里呈现的方面着重于网络聚合。 S0C在功能上不是完全等同于工业标准网络交换机(如例如Cisco交换机或者路由器)。 但是对于贯穿本文档讨论的某些应用,它赋予更佳价格/性能比以及功率/性能比。它包 含层2分组交换机,基于源/目的地MAC地址路由。它还支持虚拟局域网(VLAN)而在域上 可配置VLAN过滤传入分组以最小化域中的不必要的业务。在没有嵌入式交换机明确地具 有VLAN支持的情况下,S0C内的嵌入式MAC具有向整个S0C提供VLAN能力的完整VLAN支 持。它也可以通过管理处理器唤醒系统从而向管理处理器通知链接状态转变以对路由配置 重新编程来绕过(routearound)故障。这样的功能无需层3 (或者以上)处理(即它不是 路由器)。它也未赋予完整VLAN支持、针对QoS/CoS的支持、地址学习、过滤、生成树协议 (STP)等。
[0017] 图4示出了网络系统的高级拓扑800,该拓扑图示了由交换结构连接的XAUI连接 SoC节点。10Gb以太网端口EthO801a和Ethl801b来自树的顶层。椭圆802a-n是包括 计算处理器以及嵌入式交换机两者的Smooth-Stone节点。这些节点具有连接到内部交换 机的五个XAUI链接。交换层将所有五个XAUI链接用于交换。0级叶节点802d、e(即Ν0η 节点或者Nxy,其中x=级别并且y=项目编号)仅使用一个XAUI链接以附着到互连,从而 留下可以用作XAUI、10Gb以太网、PCIe、STAT等的四个高速端口用于附着到1/0。大多数树 和粗树仅以活跃节点作为叶节点,并且其他节点为纯交换节点。这一方式使路由简单直接 得多。拓扑800具有允许每个节点为组合计算和交换节点或者仅为交换节点的灵活性。多 收树型实施在叶节点上具有1/0,但是拓扑800让1/0在任何节点上。一般而言,将以太网 置于树的顶层最小化了通向以太网的平均跳数。
[0018] 更详细而言,图6中的面向树的拓扑中所示椭圆表示计算集群内的独立节点。图 5A图示了集群的个别节点的一个示例实施。当着眼于例如图6中的拓扑的常规实施时,通 常在更下级叶节点(例如N00-N08)中发现计算节点,并且更上级节点无计算元件而是仅为 网络交换元件(N10-N21)。就图6A中所示节点架构而言,可以可选地实现A9核(905)或者 可以仅让它们掉电。因而图6中的更上级交换节点(N10-N21)可以用作纯交换元件(如同 传统实施),或者我们可以使A9核模块上电并且使用它们作为计算集群内的完整节点。
[0019] 交换机结构需要路由帧预加(prepend)到以太网帧。交换机仅针对路由帧内的字 段操作并且不直接检查以太网帧。图5a示出了根据这里公开的系统和方法的一个方面的 示例性交换机900的框图。它具有四个兴趣区域910a-d。区域910a对应于在CPU与内部 MAC之间的以太网分组。区域910b对应于在内部MAC的以太网物理接口处的以太网帧,该 帧包含前导、帧开始和帧间间隙字段。区域910c对应于在外部MAC的以太网物理接口处的 以太网帧,该帧包含前导、帧开始和帧间间隙字段。区域910d对应于在路由报头901的处 理器与外部MAC904之间的以太网分组。这一分段式MAC架构是不对称的。内部MAC具有 通入路由报头处理器的以太网物理信令接口并且外部MAC具有通入路由报头处理器的以 太网分组接口。因此,针对内部MAC和外部MAC多目的化MACIP,并且利用通常是用于MAC 向交换机中馈送的物理信令的内容。MAC配置使得A9核905的操作系统设备驱动器管理和 控制内部EthOMAC902和内部ETH1MAC903。管理处理器906的设备驱动器管理和控制 内部Eth2MAC907。外部EthMAC904不受设备驱动器控制。以混杂(promiscuous)模式 配置MAC904以传递所有帧而无用于网络监视的任何过滤。在MAC的硬件实例化与任何其 他必需管理处理器初始化之间协调这一MAC的初始化。外部EthMAC904寄存器对于A9 905和管理处理器906地址映射两者而言可见。用于外部EthMAC904的中断可路由到A9 或者管理处理器。XGMAC支持CPU可能想要监视的若干可中断事件,包括XGMII链接故障状 态的任何改变、热插拔或者去除PHY、活状态或者链接状态改变以及任何RM0N计数器达到 与阈值寄存器相等的值。
[0020] 在一些情况下,根据具体微结构可以有前导、帧开始和跨越XAUI的帧间间隙。路 由帧报头处理器可以标准化这些字段。XAUI接口可能需要一些或者所有这些字段。在这一 情况下,在区域910d的路由报头处理器需要添加进入交换机的这些字段并且去除离开交 换机的它们。为了减少需要通过XAUI发送的字节数量,可以去除这三个字段(如果XAUI 接口允许它)。在这一情况下,在区域910b的路由报头处理器将需要剥离进入交换机的这 些字段并且添回离开交换机的字段。
[0021] 路由帧报头处理器从MAC接收以太网帧,从而向交换机发送路由帧。它也标准化 前导、帧开始和帧间间隙字段、预加路由报头并且从交换机接收路由帧,从而向MAC中发送 以太网帧。这一处理器然后剥离路由报头并且标准化前导、帧开始和帧间间隙字段。注意, 在结构内流动的所有帧是路由帧而不是以太网帧。仅在分组经由MAC进入或者离开结构时 完成以太网/路由帧转换。也注意,交换机内的路由逻辑可以改变路由帧内的字段。从未 修改以太网帧(除了添加/去除前导、帧开始和帧间间隙字段之外)。
[0022] 路由帧由路由帧报头加上以太网帧的核心部分组成并且结构化为如下表1中所 示:
[0023] 注意用于位大小设定(sizing)的实施假设是4096个节点一12位节点ID。可以 按需在实施期间重新设定这些字段的大小。
[0024] 路由帧报头由下表2中所示字段构成。
[0025] ^2

[0026] 如果交换机接收校验和失败的分组,则丢弃分组、递增统计计数器并且通知管理 处理器。
[0027] 路由帧处理器在若干目的地MAC地址编码之间进行区分。作为提示,如图5b中所 示格式化MAC地址。下表描述了MAC地址内的3字节0UI和3字节NIC特定字段的使用。 这里公开的系统和方法的新颖方面之一是使用附加地址位以对内部到外部MAC映射编码, 也如下表3中在"结构内部节点本地地址命中MAC查找CAM"下的第二条目中所示。
[0028]轰1
Cr
[0029] 另外,可以在表3中的"编码节点单播"以及允许一个内部节点或者链接对所有外 部MAC部分寻址的"编码链接单播"和允许向邻近节点多播的"邻居多播"条目中发现其他 新颖方面。
[0030]注意值SS_MAC_N0DE_ENC0DED_MAGIC和SS_MAC_LINK_ENCODED_MAGIC是用于唯 一标识这些MAC地址类型的恒定标识符。术语"幻(magic)数"是用于如下恒定数值或者 文本值的标准行业术语,该数值或者文本值用来标识文件格式或者协议。在两个寄存器 (magicNodeEncodedMAC和macgicLinkEncodedMAC,这些寄存器在硬件初始化期间默认为 标准值、但是允许管理处理器软件以如果必要则改变它们)中配置这些幻数。
[0031] 报头处理器包含MAC查找CAM(内容可寻址存储器)、即macAddrLookup,其如下表 4中所示从6字节MAC地址映射到12位节点ID。
[0032]轰1
[0033] 这一CAM中的行数依赖于实施,但是将有望在256-1204行的级。管理处理器利用 用于SS结构内的所有节点的节点ID映射初始化CAM。根据用于行的本地节点(NodeLocal) 位的设置有两类行。本地节点字段针对默认MAC地址允许CAM中的MAC地址的4 :1压缩, 从而将所有四个MAC映射到CAM表(下表5)中的单行。
[0034]表 5
〇.
[0035]CAM中的任意行允许将MAC地址别名映射到节点。Linux(和MAC)允许在网络接 口上重新分配MAC地址(例如利用ifconfigethOhwether00:80:48:BA:dl:30)。这有 时由虚拟化/云计算用来避免需要在开始会话之后对重新ARP(re-ARP)的需要。
[0036] 交换机架构提供如下次级MAC查找CAM,该CAM仅存储用于与交换机0UI匹配的那 些地址的MAC地址的NIC特定部分的3字节。这一本地0UICAM的可用性由实施确定。见 下表6〇
[0037]表 6
[0038] 可以评估用于三类MAC地址编码的最大节点数量限制如下: 1.默认MAC地址-管理处理器设置用于结构中的每个节点的本地节点映射。在CAM中 有用于每个节点的一个条目。最大节点数量由MAC地址查找CAM中的最大行数控制。
[0039] 2.编码节点地址-对所有MAC重新编程以使用编码节点地址。以这一方式,将节 点ID直接编码成MAC地址。未使用MAC查找CAM中的条目。最大节点数量由单播查找表 中的最大行数控制(与查找CAM相比更容易变大)。注意这也在
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1