多机架仿真交换机的制作方法

文档序号:7679015阅读:147来源:国知局
专利名称:多机架仿真交换机的制作方法
技术领域
本发明涉及计算机网络。
背景技术
特别是随着互联网信息时代的出现,组织机构内的数据管理日益受人 关注。这种数据管理功能的核心有时叫做数据中心。在最近十年,数据中
心己经演进到对用于保护、优化并且扩大组织机构的信息技术(IT)成果
的策略焦点。
在实现这些目标时,数据中心管理面临几个挑战。为了满足近代的爆 发性经济增长,绝大多数企业数据中心迅速增长。因此,应用一般独立于 未充分利用的、被隔离的基础设施仓中。每个基础设施仓是根据要被部署 的特定应用的特点来设计的,以致典型的数据中心支持各种各样的操作系 统、计算平台和存储系统。支持不同应用"岛屿"的不同的基础设施是难 以改变或扩展的,并且对其进行管理、集成、安全和支持是昂贵的。图1 示出这种"被隔离的应用"环境。
这个问题的一种方案是设计一种可高度扩展、弹性、安全的,并且能 够集成多种应用和协议的数据中心环境。 一种这样的解决方案被称为数据 中心网络体系结构。数据中心网络体系结构的一种特定实现叫做数据中心
以太网(DCE) 。 DCE允许该网络以内的输入输出合并以及改善的通信转 发。这可以通过经由第2层网络的DCE网络内的交换机所操作的专用协 议和功能来实现。DCE网络内的每个交换机可以是第2层设备。图2示出 DCE网络。边缘交换机200可以被连接到服务器202。边缘交换机204可 以被连接到服务器206。然后,边缘交换机200、 204可以被连接到几个核 心交换机208、 210,核心交换机208、 210然后被连接到其它边缘交换机 212、 214。每个DCE交换机可以被指派唯一的标识符。诸如中间系统对中间系统(IS-IS)之类的路由协议可以在DCE内部被使用。使用这个路
由协议的交换机可以将信息附加到通过DCE被发送的帧。这些被附加的 信息可以是附加到该帧的MAC-in-MAC头部的形式的。然后,边缘交换 机212、 214可以被各个连接到非DCE设备,例如经典以太网(CE)交换 机216。 CE交换机不运行由DCE支持的转发协议,并且不附加MAC-in-MAC 信息。 它们运行生成树协议的变种。它们被连接到DCE网络。
DCE交换机利用MAC-in-MAC头部根据边缘交换机标识将帧转发到 边缘交换机,而不是将帧转发到MAC地址。然后,边缘交换机知道它的 哪一个端口用于将该帧发送出去以到达正确的MAC地址(例如,被连接 到交换机216的那个端口),并且在这样做之前剥离MAC-in-MAC头 部。
然而,图2中所示的网络设计在实际操作期间遇到一个问题。具体而 言,当两个链路从同一 CE交换机216起去往不同DCE交换机212、 214 时,由CE交换机操作的生成树协议将这识别为生成树环路。对这样的环 路的补救措施是每次只激活一个链路。然而,这消除了跨越两个(或更 多)DCE机架进行负载共享并提供冗余的可能性。


图l示出典型的"被隔离的应用"环境。 图2示出典型的DCE网络。
图3示出包括仿真交换机的第2层交换机示例网络。 图4示出标准DCE层次结构地址格式。
图5示出用于对包括被连接到第2层交换机网络中的两个或更多个边 缘交换机的生成树设备在内的设备的系统进行配置的示例方法。
图6示出用于经由被连接到生成树设备的多个第2层交换机中的一个 交换机将来自第2层交换机网络中的设备的单播帧转发到该生成树设备的 示例方法。
图7示出用于对在第2层交换机网络中的一个交换机处接收到的来自 第2层交换机网络中的另一个交换机的单播帧进行处理的示例方法。图8示出用于对在第2层交换机网络中的一个交换机处接收到的来自 第2层交换机网络中的另一个交换机的多播帧或广播帧进行处理的示例方 法。
图9示出用于对包括被连接到第2层交换机网络中的两个或更多个边
缘交换机的生成树设备在内的设备的系统进行配置的示例装置。
图10示出用于经由被连接到生成树设备的多个第2层交换机中的一 个交换机将来自第2层交换机网络中的设备的单播帧转发到该生成树设备 的示例装置。
图11示出用于对在第2层交换机网络中的一个交换机处接收到的来 自第2层交换机网络中的另一个交换机的单播帧进行处理的示例装置。
图12示出用于对在第2层交换机网络中的一个交换机处接收到的来 自第2层交换机网络中的另一个交换机的多播帧或广播帧进行处理的示例 装置。
具体实施方式
概览
提供了这样一种解决方案第2层网络设备中的多个机架(例如,交 换机)与生成树设备之间的接口被作为单个仿真交换机对待。该仿真交换
机对这两个不同的侧有效地实现了两个不同的视图。因此,从第2层网络
交换机发往该仿真交换机的任一端口的帧可以采用任意链路(通过任意物
理交换机),从而针对从第2层网络侧传输到生成树侧的帧实现高效的负 载均衡。同时,生成树设备不识别其到两个不同边缘交换机的连接中的非 法环路,这是因为它将这两个链路视为单条的逻辑以太网信道。
示例实施例
在本申请中,详细阐述了大量特定细节以提供对本发明的深入理解。 然而,对本技术领域技术人员显而易见的是,本发明可以在没有这些特定 细节中的某些或全部细节的情况下被实行。在其它情况中,没有详细描述 公知的处理步骤以免混淆本发明。
7提供了这样一种解决方案多个机架(例如,交换机)与非DCE设 备之间的接口被作为单个仿真交换机对待。该仿真交换机对这两个不同的 侧有效地实现了两个不同的视图。图3示出包括仿真交换机的第2层交换
机的示例网络。在此,仿真交换机300被视为是在边缘交换机302、 304 与CE设备306之间。仿真交换机300看起来离边缘交换机302、 304的每 一个距离相等。对于CE侧,多个链路看起来实际上是单一的端口束(单 条以太网信道)。因此,CE交换机/主机现在将以负载均衡的方式使用这 多个端口。对于DCE侧,这使得这多个链路看起来像是仿真交换机的单 一端口,该单一端口物理上被连接到参与该仿真交换机的多个DCE交换 机。因此,发往该仿真交换机的任意端口的帧可以采用所述链路中的任何 链路(通过任意物理DCE交换机),从而针对从DCE侧传输到CE交换 机/主机的帧实现有效的负载均衡。
DCE交换机通常各自有自己的交换机标识并且独立地参与DCE转 发。在本发明实施例中,被连接到非DCE设备的边缘交换机对要被用来 表示多机架以太网信道的仿真交换机标识进行协调。在这个实施例中,两 个物理交换机都可以将它们对该仿真交换机的可达性通告给DCE网络的 其余部分。该仿真交换机被通告为离边缘交换机的距离相等。这允许DCE 网络的其余部分建立到该仿真交换机的最短路径路由,该最短路径路由通 过所述边缘交换机之一。由于最短路径是根据到仿真交换机的物理邻近来 确定的,所以这在被连接到该仿真交换机的边缘交换机之间有效地进行了 负载均衡。这与现有技术相反,现有技术仅仅禁用了链路之一,并且只通 过边缘交换机中的一个边缘交换机路由所有的流量,造成了流量的潜在瓶 颈。
在本发明实施例中,从DCE网络产生的广播和/或多播只被允许通过 仿真交换机的这个多机架以太网信道的一个端口。这要求物理DCE交换 机之间的协调。类似地,从非DCE网络产生的广播和/或多播可以通过以 太网信道端口中的任何端口进入DCE交换机。关于使用链路中的哪些链 路的决策可以是基于某种负载均衡算法的。目标很可能是使流量在链路间 平均分摊。多机架以太网信道端口上的自转发检查还可以将帧的层次结构地址与端口的层次结构地址进行比较。因此,即使从一个多机架以太网信 道端口进入的帧试图从(不同物理交换机的)另一个多机架以太网信道端 口出去,该帧由于自转发检查可以被丢弃。
去往属于仿真交换机的主机的单播帧可以到达被连接到该仿真交换机 的边缘交换机中的任意边缘交换机。在本发明实施例中,这些物理交换机 中的每个交换机可以使用其本地多机架以太网信道,即属于多机架以太网 信道的本地附接端口,来递送单播。如果该交换机上的所有多机架以太网 信道端口都断了,则这些帧通过诸如仿真交换机链路(ESL)之类的链路 被发往对等交换机。然后,该对等交换机可以使用其属于该多机架以太网 信道的端口来转发这些帧。
使用仿真交换机的寻址可以使用一致的层次结构地址格式来完成。该
格式可以是标准的DCE层次结构地址格式。在图4中描述了该格式。在 此,交换机ID 400可以被用来存储仿真交换机标识。然后,子交换机ID 字段402或本地ID字段404可以被用于多机架以太网信道。在任一情况 中,被连接到仿真交换机的物理DCE交换机进行协调使得同一多机架以 太网信道的所有端口获得同一层次结构地址。应当注意,在单个仿真交换 机中可能存在多个多机架以太网信道——每个多机架以太网信道获得同一 仿真交换机ID。
边缘交换机之间的仿真交换机链路(ESL)可以被用来实现跨越属于 多机架以太网信道的端口的获知,即,对属于多机架以太网信道的端口同 步MAC表。ESL链路还可以被用来在链路故障期间携带属于多机架以太 网信道的端口的数据帧,用于在物理交换机之间交换仿真交换机控制平面 消息(LACP协议帧、MAC获知更新、交换机id的协调、LID等等),或 者作为正常的数据链路。
应当注意,上述过程不必限于DCE交换机与非DCE交换机组合。技 术上,DCE网络可以是任意第2层交换机网络,而非DCE交换机设备可 以是使用生成树或者类似算法的任意设备网络。出于本文件的目的,术语 "生成树设备"将被用来指代使用生成树或者类似算法的任何设备。在一 个实施例中,该设备可以是CE设备。图5示出用于对包括被连接到第2层交换机网络中的两个或更多个边 缘交换机的生成树设备在内的设备的系统进行配置的示例方法。该生成树
设备可以是经典以太网交换机,而第2层交换机网络可以是DCE网络。 在500,在生成树设备和两个或更多个边缘交换机之间创建仿真交换机。 在502,可以配置所述两个或更多个边缘交换机的每个交换机使得该仿 真交换机被视为第2层交换机网络的一部分,并且离所述两个或更多个边
缘交换机中的每个交换机的距离相等。这可以包括对所述两个或更多个
边缘交换机中的每个交换机进行配置,以在接收到来自第2层交换机网络
中的另一设备的单播帧时,进行检查以确保该单播帧是针对该仿真交换机 的,并且如果是这样,则检查该单播帧内的子交换机标识或本地标识并且 根据子交换机标识或本地标识将该帧转发到生成树设备。该配置还可以包
括对所述两个或更多个边缘交换机中的每个进行配置,以在接收到来自
第2层交换机网络中的另一设备的广播帧或多播帧时,与所述两个或更多
个边缘交换机中的其它交换机中的每个交换机进行协调,以仅从边缘交换 机中的一个转发该多播帧。边缘交换机中这个特定的边缘交换机可以是根
据负载均衡算法选出的。在504,可以对所述两个或更多个边缘交换机中 的每个之间的数据进行周期同步。该数据例如可以包括MAC表。该同步 可以通过ESL链路发生。
图6示出用于经由被连接到生成树设备的多个第2层交换机中的一个 将来自第2层交换机网络中的设备的单播帧转发到生成树设备的示例方 法。该设备可以是第2层交换机。在600,可以用包括与仿真交换机标识 等同的交换机标识的头部封装单播帧。在602,可以确定被连接到生成树 设备的多个第2层交换机中单播帧要被发送到的一个交换机。这可以是根 据最短路径算法来确定的,其中,具有仿真交换机标识的仿真交换机被视 为离被连接到生成树设备的这多个第2层交换机的每个距离相等。该最短 路径算法可以识别不活动的或者不可操作的链路,并且考虑这个信息来确 定最短路径。在604,可以将单播帧转发到通过所述确定计算出的第2层 设备。
图7示出用于对在第2层交换机网络中的一个交换机处接收到的来自
10第2层交换机网络中的另一个交换机的单播帧进行处理的示例方法。该单 播帧可以是发往生成树设备的,其中,该生成树设备被连接到第2层交换
机网络中的两个或更多交换机。在700,可以确定单播帧中的交换机标识 与该交换机和该生成树设备之间的仿真交换机相对应。在702,可以确定 该交换机和该生成树设备之间的连接是否是不可操作的。如果否,则在 704,可以从该单播帧剥离头部,该头部包括交换机标识。然后在706,可 以将该单播帧转发到生成树设备。该转发可以包括根据头部中的子交换机 标识或本地标识转发该单播帧。如果该连接是不可操作的,则在708,可 以将该单播帧传送到这两个或更多个第2层交换机中的其它交换机中的一 个交换机用于将该单播帧转发到生成树设备的。例如,该传送经由ESL链 路发生。
图8示出用于对在第2层交换机网络中的一个交换机处接收到的来自 该第2层交换机网络中的另一个交换机的多播帧或广播帧进行处理的示例 方法。在800,交换机可以与这两个或更多个第2层交换机中的其它交换 机中的每个交换机进行协调,以确定将直接将该帧转发到生成树设备的一 个交换机。例如,该协调可以经由ESL链路发生。在802,可以确定该交 换机是否是将直接将该帧转发到生成树设备的那一个交换机。如果是,则 在804,可以从该帧剥离头部。在806,可以将该帧转发给生成树设备。
图9示出用于对包括被连接到第2层交换机网络中的两个或更多个边 缘交换机的生成树设备在内的设备的系统进行配置的示例装置。该生成树 设备可以是经典以太网交换机,而第2层交换机网络可以是DCE网络。 仿真交换机创建器900可以在生成树设备和这两个或更多个边缘交换机之 间创建仿真交换机。被耦合到仿真交换机创建器900的边缘交换机配置器 902可以对这两个或更多个边缘交换机中的每个进行配置,使得仿真交 换机被视作第2层交换机网络的一部分,并且离这两个或更多个边缘交换 机中的每个的距离相等。这可以包括对这两个或更多个边缘交换机中的 每个进行配置,以在接收到来自第2层交换机网络中的另一设备的单播帧 时,进行检查以确保该单播帧是针对该仿真交换机的,并且如果是这样, 则检査该单播帧内的子交换机标识或本地标识,并且根据子交换机标识或本地标识将该帧转发到生成树设备。该配置还可以包括对这两个或更多 个边缘交换机中的每个进行配置,以在接收到来自第2层交换机网络中的 另一设备的广播或多播帧时,与这两个或更多个边缘交换机中的其它交换 机中的每个进行协调,以仅从边缘交换机中的一个转发该多播帧。边缘交 换机中的这个特定的边缘交换机可以是根据负载均衡算法选出的。被耦合
到边缘交换机配置器902的边缘交换机同步器904可以在这两个或更多个 边缘交换机中的每个之间对数据进行周期同步。该同步可以通过ESL链路 发生。
图10示出用于经由被连接到生成树设备的多个第2层交换机中的一 个将来自第2层交换机网络中的一个设备的单播帧转发到生成树设备的示 例装置。该设备可以是第2层交换机。单播帧头部封装器1000可以用包 括与仿真交换机标识等同的交换机标识的头部封装单播帧。被耦合到单播 帧头部封装器1000的第2层交换机单播帧路由确定器1002可以确定被连 接到生成树设备的这多个第2层交换机中单播帧要被发送到的一个交换 机。这可以是根据最短路径算法来确定的,其中,具有仿真交换机标识的 仿真交换机被视为离被连接到生成树设备的这多个第2层交换机中的每个 距离相等。该最短路径算法可以识别不活动的或者不可操作的链路,并且 考虑该信息来确定最短路径。被耦合到第2层交换机单播帧路由确定器 1002的单播帧转发器1004可以将该单播帧转发到通过该确定计算出的第 2层设备。
图11示出用于对在第2层交换机网络中的一个交换机处接收到的来 自该第2层交换机网络中的另一个交换机的单播帧进行处理的示例装置。 该单播帧可以是发往生成树设备的,其中,该生成树设备被连接到该第2 层交换机网络中的两个或更多交换机。仿真交换机标识确定器1100可以 确定该单播帧中的交换机标识与该交换机和该生成树设备之间的仿真交换 机相对应。被耦合到仿真交换机标识确定器1100的单播帧头部剥离器 1102可以从该单播帧剥离头部,该头部包括交换机标识。被耦合到单播帧 头部剥离器1102的不可操作生成树设备连接确定器1104可以确定该交换 机和该生成树设备之间的连接是否是不可操作的。如果否,则被耦合到不
12可操作生成树设备连接确定器1104的单播帧生成树设备转发器1106可以 将该单播帧转发到生成树设备。该转发可以包括根据头部中的子交换机标 识或本地标识转发该单播帧。如果该连接是不可操作的,则被耦合到不可
操作生成树设备连接确定器1104的单播帧第2层交换机传送器1108可以 将该单播帧传送到这两个或更多个第2层交换机中的其它交换机中的一 个,以将该单播帧转发到生成树设备。例如,该传送可以经由ESL链路发 生。
图12示出用于对在第2层交换机网络中的一个交换机处接收到的来 自该第2层交换机网络中的另一个交换机的多播帧或广播帧进行处理的示 例装置。该播帧可以是发往生成树设备的,其中,该生成树设备被连接到 第2层交换机网络中的两个或更多交换机。帧生成树设备第2层交换机协 调器1200可以与这两个或更多个第2层交换机中的其它交换机中的每个 进行协调,以确定将直接将该帧转发到生成树设备的一个交换机。例如, 该协调可以经由ESL链路发生。被耦合到帧生成树设备第2层交换机协调 器1200的生成树设备帧转发交换机确定器1202可以确定该交换机是否是 将直接将该帧转发到生成树设备的那一个交换机。如果是,则被耦合到生 成树设备帧转发交换机确定器1202的帧头部剥离器1204可以从该帧剥离 头部。被耦合到帧头部剥离器1204的生成树设备帧转发器1206可以将该 帧转发给生成树设备。
尽管在此示出并描述了本发明说明性实施例和应用,但是本发明的概 念、范围和精神以内的许多更改和修改是可以的,并且对于所述技术领域 技术人员,在熟读本申请之后,这些更改将变得清楚。因此,所述实施例 应被认为是说明性的而非限制性的,并且本发明不被限于在此给出的细 节,而是可以在所附权利要求的范围和等同物以内被修改。
权利要求
1.一种用于对包括被连接到第2层交换机网络中的两个或更多个边缘交换机的生成树设备在内的设备的系统进行配置的方法,所述方法包括在所述生成树设备和所述两个或更多个边缘交换机之间创建仿真交换机;以及对所述两个或更多个边缘交换机中的每个进行配置,使得所述仿真交换机被视为所述第2层交换机网络的一部分,并且离所述两个或更多个边缘交换机中的每个距离相等。
2. 根据权利要求1所述的方法,其中,所述第2层交换网络是数据中 心以太网(DCE)网络。
3. 根据权利要求1所述的方法,其中,所述生成树设备是经典以太网 (CE)设备。
4. 根据权利要求1所述的方法,还包括对所述两个或更多个边缘交换机中的每个之间的数据周期性地进行同步。
5. 根据权利要求4所述的方法,其中,所述数据包括媒体访问控制 (MAC)表。
6. 根据权利要求4所述的方法,其中,所述周期性地同步通过ESL链 路发生。
7. 根据权利要求1所述的方法,其中,所述配置包括对所述两个或更 多个边缘交换机中的每个进行配置,以执行自转发检查来确保从所述仿真 交换机的一个端口接收到的帧不被转发到所述仿真交换机的另一个端口。
8. 根据权利要求1所述的方法,其中,所述配置包括对所述两个或更 多个边缘交换机中的每个进行配置,以在接收到来自所述第2层交换机网 络中的另一个交换机的单播帧时判定该帧是否是发往所述仿真交换机的, 并且如果是,则检查所述单播帧内的子交换机标识并且根据所述子交换机 标识将该帧转发到所述生成树设备。
9. 根据权利要求1所述的方法,其中,所述配置包括对所述两个或更多个边缘交换机中的每个进行配置,以在接收到来自所述第2层交换机网 络中的另一个交换机的单播帧时判定该帧是否是发往所述仿真交换机的, 并且如果是,则检查所述^^播帧内的本地标识并且根据所述本地标识将该 帧转发到所述生成树设备。
10. 根据权利要求1所述的方法,其中,所述配置包括对所述两个或 更多个边缘交换机中的每个进行配置,以在接收到来自所述第2层交换机 网络中的另一个交换机的广播帧或多播帧时与所述两个或更多个边缘交换 机中的其它交换机中的每个进行协调,以仅从边缘交换机之一转发所述多 播帧。
11. 根据权利要求io所述的方法,其中,所述边缘交换机之一是根据负载均衡算法选出的。
12. —种用于经由被连接到生成树设备的多个第2层交换机将来自第2 层交换机网络中的一个交换机的单播帧转发到所述生成树设备的方法,所述方法包括用包括与仿真交换机标识等同的交换机标识的头部封装所述单播帧; 根据最短路径算法确定被连接到所述生成树设备的多个第2层交换机 中的、所述单播帧要被发送到的一个交换机,其中,具有所述仿真交换机 标识的仿真交换机被视为离被连接到所述生成树设备的多个第2层交换机 中的每个距离相等;以及将所述单播帧转发到通过所述确定计算出的第2层交换机。
13. 根据权利要求12所述的方法,其中,所述一个交换机是数据中心 以太网(DCE)交换机。
14. 根据权利要求12所述的方法,其中,所述最短路径算法识别不活 动的或不可操作的链路,并且考虑该信息来确定所述最短路径。
15. —种用于对在第2层交换机网络中的一个交换机处接收到的来自 所述第2层交换机网络中的另一个交换机的单播帧进行处理的方法,其 中,所述单播帧是发往生成树设备的,所述生成树设备被连接到所述第2 层交换机网络中的两个或更多交换机,所述方法包括确定所述单播帧中的交换机标识与所述一个交换机和所述生成树设备之间的仿真交换机相对应;从所述单播帧剥离头部,所述头部包括所述交换机标识;以及 将所述单播帧转发到所述生成树设备。
16. 根据权利要求15所述的方法,其中,所述转发包括根据所述头部中的子交换机标识转发所述单播帧。
17. 根据权利要求15所述的方法,其中,所述转发包括根据所述头部 中的本地标识转发所述单播帧。
18. 根据权利要求15所述的方法,还包括如果所述一个交换机和所述生成树设备之间的连接是不可操作的,则将所述单播帧传送到所述两个或更多个第2层交换机中的其它交换机中的 一个,以将所述单播帧转发到所述生成树设备。
19. 根据权利要求18所述的方法,其中,所述传送经由ESL链路发生。
20. —种用于对在第2层交换机网络中的一个交换机处接收到的来自所 述第2层交换机网络中的另一个交换机的多播帧或广播帧进行处理的方 法,其中,帧是发往生成树设备的,所述生成树设备被连接到所述第2层 交换机网络中的两个或更多交换机,所述方法包括与所述两个或更多交换机中的其它交换机中的每个进行协调,以确定 将直接将所述帧转发到所述生成树设备的交换机;如果所述一个交换机是将直接将所述帧转发到所述生成树设备的那个 交换机,则从所述帧剥离头部;以及 将所述帧转发给所述生成树设备。
21. 根据权利要求19所述的方法,其中,所述协调经由ESL链路发生。
全文摘要
提供了这样一种解决方案第2层设备网络中的多个机架(例如,交换机)与生成树设备之间的接口被作为单个仿真交换机对待。该仿真交换机对这两个不同的侧有效地实现两个不同的视图。因此,从第2层交换机网络发往该仿真交换机的任一端口的帧可以采用任意链路(通过任意物理交换机),从而针对从第2层网络侧传输到生成树侧的帧实现有效的负载均衡。同时,所述生成树设备不识别其到两个不同边缘交换机的连接中的非法环路,这是因为它将这两个链路视为单条的逻辑以太网信道。
文档编号H04L12/56GK101517981SQ200780034817
公开日2009年8月26日 申请日期2007年10月12日 优先权日2006年10月16日
发明者伊兰戈·加内桑, 劳伦斯·克里格, 托马斯·埃兹尔, 拉马纳·梅拉谢吕乌, 桑杰伊·塞恩, 苏-信·杭 申请人:思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1