用于光子网络的系统及方法

文档序号:10557391阅读:372来源:国知局
用于光子网络的系统及方法
【专利摘要】在一种实施方式中,光子交换结构包括:包括多个第一交换机的第一级;以及包括多个第二交换机的第二级,其中,第二级光耦合至第一级。光子交换结构还包括包含有多个第三交换机的第三级,其中,第三级光耦合至第二级,其中,光子交换结构被配置成接收具有目的地地址的包,其中,目的地地址包括组目的地地址,并且其中,第二级被配置成根据组目的地地址来连接。
【专利说明】
用于光子网络的系统及方法
[0001] 本申请要求于2014年8月8日提交的题为"System and Method for Photonic Networks"的美国非临时申请No. 14/455,034的权益,该申请由此通过引用合并到本文中。
技术领域
[0002] 本发明涉及用于通信的系统及方法,并且具体地涉及用于光子网络的系统及方 法。
【背景技术】
[0003] 数据中心路由海量数据。当前数据中心的吞吐量可以是每秒5太字节至7太字节, 预期在未来会大幅度增加。数据中心由庞大数目的服务器机架、存储设备机架和其他机架 组成,所有机架经由巨大的集中式包交换资源来互连。在数据中心中,使用电包交换机来路 由这些数据中心中的所有数据包,而不考虑包的属性。
[0004] 服务器的机架、存储设备的机架以及输入输出功能设备的机架包括架顶(top of rack,T0R)包交换机,TOR包交换机将来自其相关联的服务器和/或其他外围设备的包流组 合成每TOR交换机的被路由至电包交换核心交换机资源的较小数目的极高速流。TOR交换机 接收来自该资源的返回交换流,并且将上述返回交换流分发至其机架内的服务器。可能存 在从每个TOR交换机至核心交换资源的4X40Gb/s的流以及相同数目的返回流。在数据中心 中,每个机架可能有一个TOR交换机,而在数据中心中有几百至几万个机架,因此有几百至 几万个TOR交换机。数据中心的容量有了海量增长,从而导致巨大的电包交换结构。

【发明内容】

[0005] -种实施方式的光子交换结构包括:第一级,包括多个第一交换机;以及第二级, 包括多个第二交换机,其中第二级光耦合至第一级。光子交换结构还包括包含有多个第三 交换机的第三级;其中,第三级光耦合至第二级,其中,光子交换结构被配置成接收具有目 的地地址的包,其中,目的地地址包括组目的地地址,并且其中,第二级被配置成根据组目 的地地址来连接。
[0006] -种实施方式的控制光子交换机的方法包括:识别包的目的地组以及根据所述包 的目的地组来选择所述包的波长。所述方法还包括在确定所述包的波长之后检测所述包与 另外包之间的输出端口冲突。
[0007] -种实施方式的生成用于光子交换结构的连接映射的方法包括:针对第一包进行 第一连接映射生成步骤以产生第一输出;以及在针对第一包进行第一连接映射生成步骤之 后,根据第一输出针对第一包进行第二连接映射生成步骤以产生第二输出。所述方法还包 括在针对第一包进行第二连接映射生成步骤的同时,针对第二包进行第一连接映射生成步 骤。
[0008] -种实施方式的光子交换系统包括第一输入级交换模块以及耦合至第一输入级 交换模块的第一控制模块,其中,第一控制模块被配置成控制第一输入级交换模块。所述光 子交换系统还包括第二输入级交换模块以及耦合至第二输入级交换模块的第二控制模块, 其中,第二控制模块被配置成控制第二输入级交换模块。另外,所述光子交换系统包括第一 输出级交换模块以及耦合至第一输出级交换模块的第三控制模块,其中,第三控制模块被 配置成控制第一输出级交换模块。此外,所述光子交换系统包括第二输出级交换模块以及 耦合至第二输出级交换模块的第四控制模块,其中,第四控制模块被配置成控制第二输出 级交换模块。所述光子交换系统还包括正交映射器,所述正交映射器親合在第一控制模块、 第二控制模块、第三控制模块和第四控制模块之间。
[0009] 以上描述相当宽泛地概述了本发明的实施方式的特征以使得可以更好地理解本 发明的以下详细描述。在下文中将描述本发明的实施方式的另外的特征和优点,其构成了 本发明的权利要求书的主题。本领域技术人员应当理解,所公开的概念和【具体实施方式】可 以容易地被用作修改或设计用于实现本发明的相同目的的其他结构或过程的基础。本领域 技术人员还应当认识到,这样的等同构造并未脱离本发明的如在所附权利要求书中阐述的 精神和范围。
【附图说明】
[0010] 为了更加完全地理解本发明及其优点,现在参考下文结合附图进行的描述,其中:
[0011] 图1示出了一种实施方式的用于包流路由的系统;
[0012] 图2示出了另一种实施方式的用于包流路由的系统;
[0013] 图3示出了一种实施方式的用于光子包处理的系统;
[0014]图4示出了另一种实施方式的用于光子包处理的系统;
[0015] 图5示出了累积密度函数(cumulative density function,Q)F)相对于包大小的 图;
[0016] 图6示出了小于N的包中的流量百分比相对于包大小的图;
[0017] 图7A至图7C示出了总节点容量增益和聚合填充效率相对于包长度阈值的图;
[0018] 图8不出了一种实施方式的光子交换机矩阵;
[0019] 图9示出了一种实施方式的阵列波导路由器(array waveguide router,AWG-R);
[0020]图10示出了透射率相对于AWG-R的波长的图;
[0021]图11示出了 AWG-R的传输功能;
[0022]图12示出了一种实施方式的CLOS交换机;
[0023]图13示出了另一种实施方式的CLOS交换机;
[0024]图14不出了一种实施方式的三级光子CLOS交换机;
[0025]图15不出了另一种实施方式的三级光子CLOS交换机;
[0026]图16A至图16B不出了 一种实施方式的光子电路交换结构和控制系统;
[0027]图17不出了一种实施方式的光子交换结构;
[0028] 图18示出了一种实施方式的将架顶(top of rack,T0R)组连接至另外的TOR组的 方法的流程图;
[0029]图19A至19B示出了一种实施方式的正交消息映射器;
[0030]图20A至图20B示出了作为流量水平的函数的超出同时连接尝试的给定的数目的 概率的图;
[0031 ]图21A至图21C不出了 一种实施方式的光子交换路径;
[0032] 图22示出了一种实施方式的光子交换的方法的流程图;以及
[0033] 图23示出了一种实施方式的用于控制光子交换结构的方法的流程图。
[0034] 除非另有指示,否则不同图中的对应的附图标记通常指代对应的部分。绘制各附 图是为了清楚地说明实施方式的相关方面,而未必按比例绘制。
【具体实施方式】
[0035] 首先应当理解,尽管下面提供了一种或更多种实施方式的示意性实现,但是所公 开的系统和方法可以使用任何数目的技术来实现,而不论该技术是否为当前已知或现有。 本公开内容决不应限于下面所说明的说明性实现、附图和技术,包括本文所说明和描述的 示例性设计和实现,而是可以在所附权利要求书的范围及其等同物的全部范围内修改。对 数据吞吐量、系统以及/或者设备容量、设备的数目等的提及仅为说明性,并且决非意在限 制本文所要求保护的实施方式的可扩缩性和能力。
[0036] 替代使用完全的光子包交换机或完全的电子包交换机,可以使用混合方法。将包 分成两个数据流,其中之一具有承载大部分包带宽的长包,而其中另之一具有短包。通过光 子交换机来交换长包,而通过可以是电子包交换机的另外的包交换机来交换短包。
[0037] 在混合节点中的分路器和合路器取决于长/短分路阈值的设置来将大约5%至 20 %的流量带宽路由至电子短包交换机并且将80 %至95 %的带宽路由至光子长包交换结 构。通过电子短包交换结构来交换长度在阈值之下的包,而通过光子交换结构来交换长度 为阈值或在阈值之上的包。因为数据中心中的流量往往为双模态,其中大量的流量接近或 为最大包长度或者为相当小的包大小,所以当长包流的包全部被填充成最大长度而该填充 的添加未造成过度的带宽效率低下时,可以使用非常快速的同步电路交换机来实现长包交 换机。
[0038] 期望光子交换机与最长包的帧长度同步,从而导致非常快的帧速率,原因是可以 在无需等待收集并且组装相同目的地的多个包的情况下有效地利用帧净荷容量。光子交换 机可以被实现为快速光子空间交换机。这导致对包进行交换的时间固定,其中在跨交换机 的端口的帧时隙中同时开始同时结束对所有输入中的包进行交换。因此,在交换包的新帧 之前,交换机对来自先前帧的流量进行清零,并且不存在关于可用的路径的帧对帧的相互 作用。换言之,新的连接不存在先前流量以避免冲突。
[0039] 实施方式创建非常高的吞吐量节点以交换包流量,其中该流量取决于流中包的大 小而被划分至不同包长度的包流路(packet flow)流动以使用电子交换或者使用光子交 换,并且每个技术平台解决其他技术的缺点。包括电子包交换的电子交换可以非常敏捷并 且响应迅速,但受到带宽限制。另一方面,光子交换远不受带宽考虑限制,然而对于包特别 是短包的快速敏捷交换所需的许多功能存在问题。然而,可以使用利用多级光子交换机结 构的大吞吐量的适中快速建立时间(Ins至5ns)的光子电路交换机。因此,将要交换的包流 分成分尚的短包流和长包流。短包虽数量众多但仅构成总流量带宽的5%至20 %,而长包的 每个包的持续时间要大得多并且构成其余的80 %至95 %的带宽。较小带宽的短包流可以通 过敏捷电子解决方案来交换,而大部分带宽通过提供高得多的总吞吐量的光子交换机来交 换。关于这样的系统的另外的细节被包括在于2013年5月24日提交的美国专利申请No . 13/ 902,008中,该申请由此通过引用合并到本文中。
[0040] -种实施方式在光子交换路径中交换长包。使用具有多个级的光子电路交换机来 对快速光子电路交换机中的长包进行光子交换。
[0041] 快速电路交换机具有级与级之间的交互,所述交互通常包括用于确定连接映射中 的变化或生成新的连接映射的复杂过程。当交换结构不是完全的非阻塞时,这些过程变得 麻烦,并且可以对一些连接进行再路由以有利于建立其他过程。在例如通过使第二级扩大 (放大)来创建的非阻塞交换机的情况下,可以独立地建立连接。当建立时,不再对连接进行 再路由以允许另外的连接,原因是总是存在可用于这些另外连接的闲置路径。然而,这对快 速寻找可用的闲置路径而言会是个挑战。
[0042 ]快速电路交换机针对每个交换事件使用经修改的或新的连接映射。对于包流量的 快速电路交换机,针对每个经交换的包来确定新的或经修改的连接映射。这可以通过使交 换同步来简化并由此来设计(由于事件的开始、持续时间和结束被同步所以具有重复的定 时时间段),原因是在不考虑已经存在的连接的情况下,可以针对每个帧来对一套完整的新 包立即进行连接处理,这是因为,在同步方法中,由于已经对先前帧的流量进行了完全地交 换,所以在原来的位置不存在先前的连接。然而,同步操作导致固定长度包或包容器。因为 绝大部分的长包接近最大长度或为最大长度,其中仅一小部分(5 %至15%)充分远离最大 长度(但仍在阈值长度之上),所以就带宽效率而言将所有包填满成相同的最大长度并非主 要问题。因此,光子交换机可以被操作成具有以下非常快速的帧速率的快速同步电路交换 机:在100Gb/s处对1500字节最大长度包而言是120ns,或在40Gb/s处对相同的包而言是 300ns,或者在在100Gb/s处对最高至9,000字节的"巨型"包而言是720ns。这导致每个交换 机帧都需要新的连接映射,上述每个交换机帧等于经填充的包时间段一一对100Gb/ S 1500 字节包而言是120ns。
[0043]包括在120ns内解决输出端口竞争的计算大约1000 X 1000个端口连接映射可能存 在问题,特别是在非层次方法中。在一个示例中,将地址层次地分解成组以及这些组内的 TOR地址,因此特定的第一级模块和第三级模块组成与TOR的组相关联的寻址组。
[0044] 为了实现从一个组的TOR至另一个组的TOR的连接,连接处理的一部分建立组对组 的连接。因为相对于TOR而言组的数量明显较少,所以这较简单。在一种实施方式的交换机 中,此任务变成确定源TOR和目的地TOR的源组和目的地组,并且根据这两个组地址来查找 并且应用波长值。这通过以下来促进:将地址分组与物理交换机模块的组相联系并且将组 中的每个模块的端口视为寻址组。然后,确定该组内的每个组的TOR的连接,该连接相对于 整个连接映射而言是小得多的连接域。
[0045]整个连接映射生成处理被分解成流水线式方法中的顺序步骤,其中特定的流水线 元件进行地址域的连接处理的全部任务的一部分,并且在一个帧周期内将该结果传递给流 水线中的下一个元件,因此第一元件可以在下一帧的连接上重复分配给它的任务。继续进 行该过程直到完备的帧连接效用的连接映射完成为止。此元件链构成流水线。此过程的结 果是,一系列完备连接映射从处理元件的流水线显现,其中每个元件已经进行了其自身的 优化功能。这些得到的连接映射针对帧而生成并且释放,并且从在时间上间隔一个帧周期 而在时间上延时m个帧,其中m等于流水线中的步骤或系列元件的数量。
[0046]将流水线的组成处理元件的复杂性分解,以使得组成处理元件各自与特定的输入 组(特定的第一级模块)或特定的输出组(特定的第三级模块)相关联,并且不使用用于跨整 个节点而处理的元件。这通过使用多个并联元件而获得,每个并联元件被分配给输入组或 输出组。
[0047]通过输出组来使用输入组相关的信息,以及通过输入组来使用输出组相关的信 息,然而该信息是正交的,其中每个第一级处理元件可以跨并联的第三级定向元件发送信 息,以及并联的第三级定向元件可以跨每个第一级处理元件发送信息。这通过基于快速硬 件的正交映射器映射输入相关的信息和输出相关的信息来获得。
[0048]这创建了控制结构,该控制结构实现成具有用于第一级定向流水线元件与第三级 定向流水线元件之间的转换的基于快速正交硬件的映射器的一组并联组定向的流水线,从 而导致小的简单的步骤的串联/并联阵列,其中每个步骤均可以快速地实现。
[0049] 对连接寻址信息进行分接发生在整个包长度的分路/缓冲/填充/加速过程中的早 期,以使得连接映射计算延迟与由于缓冲器/填充器和包(容器化的包)加速器功能而导致 流量路径的延迟并行,并且使整个延迟降低成这两个活动中的较大者而非这两个活动的 和。
[0050] 图1示出了用于包流路由的系统100。一些包通过电包交换机来路由,而其他包通 过光子交换机来路由。例如,短包可以通过电包交换机来交换,而长包通过光子交换机来交 换。通过仅交换长包,光子包交换速度相对缓和,原因是包持续时间长,而大部分带宽仍以 光子的方式来处理。在一个示例中,长包的长度可以变化,并且光子交换机采用异步交换。 然而,这导致要考虑当建立新连接时仍可能通过交换机来传播的先前流量,使得连接建立 处理较慢、更复杂。可替代地,可以通过将长包填充成固定长度例如1500个字节以将长包作 为固定长度的包来传输。此种方法的带宽效率仅稍微小于异步方法的带宽效率,原因在于, 由于包长度分布的双模态性质而造成大部分长包处于固定的最大长度或非常接近固定的 最大长度,由此,大部分的包要么非常短(〈200字节)而通过短包交换机以电子方式或其他 方式来交换,要么非常长(>1200字节)而以光子的方式来交换,仅非常少的包处于中间的 200字节至1200字节的大小范围内。然后,光子交换机可以使用同步交换,该同步交换采用 快速建立光子电路交换机或突发交换机。
[0051] 分路器106可以被容置在机架102中的TOR交换机104中。可替代地,分路器106可以 是单独的单元。可以有数千个机架和TOR交换机。分路器106包括将包流分成两个流量流的 流量分路器108以及监测流量的监测器110。分路器106可以基于包流的每个包流路内包的 先后顺序来向包添加标识符,以方便保持包在每个包流路中的排序,上述包可以在包重组 时采用不同的路径。可替代地,每个包流路内的包到达分路器106之前,可以对这些包进行 编号或以另外的方式来单独地标识,例如使用包序号或传输控制协议(transmission control protocol,TCP)时间戳。将一个包流路由至光子交换结构112,而将另一包流路由 至电包交换结构116。在一个示例中,将长包路由至光子交换结构112,而将短包路由至电包 交换结构116。光子交换结构112可以具有大约一至二十纳秒的建立时间。此建立时间明显 短于长包的包持续时间(在l〇〇Gb/s处对1500字节而言是120ns),不会严重地影响交换效 率。然而,如果以该交换建立时间来交换短包则会存在问题。例如,在l〇〇Gb/s处的50字节控 制包的持续时间大约是4ns,这小于中等的光子交换机建立时间。光子交换结构112可以包 括固态光子交换机阵列,其可以被组装成结构架构例如Baxter_Banyan、Benes或CL0S。
[0052]此外,光子交换结构112包括控制单元,并且电包交换结构116包括集中式或分布 式处理功能。上述处理功能通过该结构基于被承载为公共信道信令路径或包头或包装的信 令/路由信息来提供逐包的路由。
[0053]将光子交换结构112和电包交换结构116的交换包路由至流量合路器122。流量合 路器122例如基于每个包中包的时间戳或序号来在保持包的原始顺序的同时合并包流。流 量监测器124监测流量。中央处理与控制单元130监测并且利用流量监测器110和流量监测 器124的输出。此外,中央处理与控制单元130监测并且提供对光子交换结构112和电包交换 结构116的控制,并且对光子交换结构112的控制为非实时性。流量合路器122和流量监测器 124在合路器120中,合路器120可以驻留在TOR交换机128中。可替代地,合路器120可以是单 机单元。
[0054] 图2示出了用于路由包流的系统140。系统140与系统100类似,但是系统140提供了 分路器106和合路器120的另外的细节。最初,将包流馈送至包粒度分流器146中的缓冲器 148,包粒度分流器146基于所测量或所检测的包属性例如包长度来将各个包转入适当的路 径,同时读取包地址和长度特征模块142确定包地址和包的长度。将包地址和长度馈送至统 计数据收集模块144,统计数据收集模块144收集用于控制单元130的统计数据。控制单元 130收集用于非实时用途例如包大小阈值的动态优化的关于包长度的混合的统计数据。交 换机控制处理器与连接请求处理机154处理包粒度分流器146内的实时逐包处理,包括基于 控制单元130所设置的长/短包阈值来处理将包流分成两个流的每包分路。缓冲在缓冲器 148中的包流然后在交换机控制处理器与连接请求处理机154的控制下通过包粒度分流器 146,包粒度分流器146包括缓冲器148、交换机150、缓冲器与延迟器152、交换机控制处理器 与连接请求处理机154、缓冲器156以及统计复用器158。包粒度分流器146可以可选地包括 加速器147,加速器147在时间上使包加速并且增加包流的包间间隙,以促进在一个包的结 束与下一个包的开始之间完全地建立光子交换机。
[0055] 缓冲器148存储包同时读取包地址和长度。缓冲器148可以包括缓冲器阵列,以使 得可以缓冲具有不同目的地地址(即不同包流路)的包,直到适当的交换结构输出端口具有 可用容量而不会使其他包流路中的具有输出端口容量较早可用的其他目的地地址的包延 迟为止。此外,将包地址和长度特征馈送至读取包地址和长度特征模块142并且馈送至交换 机控制处理器与连接请求处理机154。将交换机控制处理器与连接请求处理机154的输出馈 送至交换机150,交换机150基于包长度是否超过控制器130所设置的包大小阈值来操作。另 外,将包传送至通过来自交换机控制处理器与连接请求处理机154的输出来设置的交换机 150,因此包会被路由至光子交换结构112或电包交换结构116。例如,上述路由基于由交换 机控制处理器与连接请求处理机154根据包的长度是否超过所设置的包长度或其他阈值而 作出的确定。如果包被路由至光子交换机构112,则该包被传递至缓冲器与延迟器152,然后 被传递至光子交换结构112。缓冲器与延迟器152存储包直至光子交换结构112的适当的目 的地端口变得可用为止,从而通过电域中的缓冲来避免光子缓冲或存储。缓冲器与延迟器 152可以包括缓冲器阵列,使得无需缓冲的其他包流可以被发送至核心交换机。
[0056] 另一方面,如果包被路由至电包交换结构116,则该包被传递至缓冲器156、统计复 用器158和统计解复用器160以根据缓冲器156的出口处的稀疏填充的短包流来将相对高的 端口填充提供给短包结构。然后,包前进至电短包交换结构116以路由至目的地合路器。可 以包括缓冲器阵列的缓冲器156存储包直至包被发送至电包交换结构116为止。来自多个包 流的包可以通过统计复用器158来以统计的方式复用,因此电包交换结构116的端口可以得 到较好地利用。可以进行统计复用以将短包流集中至合理的占用率,因此现有的电包交换 机端口被适当地填满包。例如,如果以光子交换结构的带宽与电包交换结构的带宽比为8:1 的方式建立包长度的分路,则通向电包交换结构的链路可以使用8:1的统计复用以实现相 对填满的链路。取决于在短包路径中所使用的统计复用的水平,该统计复用引入另外的延 迟,该延迟可能在应用过度的统计复用时的合并过程期间触发不正确的长/短包定序。为了 防止这种情况,可以采取预防措施,例如使用序号。然后,统计解复用器160进行统计解复用 以将低占用率的数据解复用至一系列并联的数据缓冲器中。可以对跨统计复用器158和统 计解复用器160而应用的统计复用的水平进行控制,以使得延迟不会过大。在其中12%的包 带宽为短包的长/短包分路的情况下,统计复用不应超过~7-8:1。然而,当5 %的包带宽为 短包时(如通过设置长/短阈值来确定),统计复用可以接近~15-20:1。
[0057] 光子交换结构112包括控制单元。光子交换结构112可以是从固态光子交换机的一 系列几个级来创建的多级固态光子交换结构。在一个示例中,光子交换结构112是适于用作 同步长包交换机的Ins至5ns的光子快速电路交换机,该同步长包交换机被实现为例如硅、 磷化铟或其他材料的由N X N和M X 2M单片集成的光子交叉点芯片制造的3级或5级CLOS结 构,其中N是范围可以从大约8至大约32的整数,并且M是范围可以从大约8至大约16的整数。
[0058] 电短包交换结构116可以使用统计复用器160来接收包并且使用统计解复用器164 来以统计方式解复用经交换的包。包然后通过合路器120中的统计解复用器174被进一步解 复用成各个短包流,从而产生多个稀疏填充的短包流至缓冲器170以在合路器120中与相应 的长包分量合并。电包交换结构116可以包括响应于用于电包交换机和缓冲器162的包路由 信息的处理功能,电包交换机和缓冲器162可以包括缓冲器阵列。电包交换结构116可能进 行与仅对短包的处理相关联的包处理,这可能会对处理功能产生一些另外的限制和要求。 因为流过光子交换结构112的带宽大于流过电包交换结构116的带宽,所以往返光子交换结 构112的链路的数量大于往返电包交换结构116的链路的数量。可替代地,通向光子交换机 的链路的带宽(例如,I 〇〇Gb/s)可以大于短包流的带宽(例如,I OGb/s)。
[0059] 将来自光子交换结构112和电包交换结构116的经交换的包馈送至合路器120,合 路器120基于在包分路器中对包进行分路之前应用至包流的各个包的基于流路的序号,通 过顺序地交织包来合并两个经交换的包流。合路器120包括包粒度合路器和定序器166。将 光子包流馈送至缓冲器172以被存储,同时通过包地址和顺序读取器168来读取地址和次 序,包地址和顺序读取器168确定光子包的源地址和目的地地址以及序号。还将电包流馈送 至统计解复用器174以按照统计的方式进行解复用,并且馈送至缓冲器176以被存储,同时 电包流的特征通过包地址和顺序读取器168来确定。然后,包地址和顺序读取器168基于对 来自两个路径的包进行交织来确定从缓冲器172和缓冲器176读取包的顺序,以恢复包在每 个包流路中的连续的顺序编号,从而可以按照正确的顺序来读出两个流的包。接下来,包定 序控制单元170按照每个流路中的包的原始顺序来释放上述包。当通过包定序控制单元170 来释放包时,上述包使用交换机178通过基于序号的包交织过程来合并。分路器106可以实 现在TOR交换机104中,并且合路器120可以实现在TOR交换机128中。TOR交换机128可以被容 置在机架126中。此外,包粒度合路器和定序器166可以可选地包括减速器167,减速器167从 时间上对包流进行减速,减小了包间间隔。例如,减速器167可以将包间间隔减小至在加速 器147之前的原始包间间隔。在于2013年5月24日提交的题为"System and Method for Accelerating and Decelerating Packets" 的美国专利申请No · 13/901,944中进一步讨论 了加速和减速,该申请由此通过引用合并到本文中。
[0060]图3示出了以下流程:长包通过缓冲器/填充功能和加速功能,同时通过流水线式 控制系统按照并行处理的方式来处理和实现地址路由以及跨越连接的交换机。缓冲器和填 充产生包流,其中,通过添加后续会被去除的额外字节来对包进行填充而使得各个包的长 度相同,这使得各个包的持续时间的长度相等,从而有利于同步交换。
[0061 ]在块392中,读取包地址和长度特征。这些特征被传递给长/短分离交换机394和流 水线式控制块402。
[0062]在流水线式控制块402中,流水线式控制处理引起短的延迟,尽管该延迟取决于流 水线式控制块的结构及其实现,但是会在几微秒的范围内。该延迟可以长于每个容器化包 的固定帧时间,这有利于流水线式方法,其中流水线的一个级正针对特定帧完成连接映射 计算,而流水线的另一较早的级正在针对下一个帧完成上述计算的较早部分,一路返回至 流水线的第一级,其正在针对第m帧完成第一计算,其中m是顺序通过流水线处理的流水线 段的数量。来自块392的包寻址信息被输入至流水线式控制块402并且由流水线式控制块 402来处理。流水线中的包地址字段的持续流动产生用于每个帧的交换机连接映射。流水线 式控制块402被配置成每包间隔或帧递送一次用于整个交换机的新的地址映射。在一个示 例中,延迟用于m个步骤,其中的步骤等于或小于一个包持续时间,从而每个级被清零以为 下一个帧的计算做好准备。在另一个示例中,一些步骤超过帧长度,并且两个或更多个功能 被并联并且被转换。总延时由控制过程的多个步骤的时间总和来确定。在容器化的包间隔 (帧周期)期间产生新的地址字段。所计算的控制字段的连续流动可以通过将用于完成连接 映射计算的完整处理集合分解成在包间隔中被完成的各个连续步骤来实现。如果限定了一 系列m个连续步骤,其中上述步骤可以在将结果交给至下一个步骤之前在包间隔内被完成, 则每个包间隔递送完整的地址映射,但被延迟m个包。因此,在完成"m"个步骤时,存在由控 制路径产生的延迟。
[0063] 长/短分离交换机394将短包与长包分离开。在一个示例中,短包比阈值短,而长包 长于或等于阈值。短包被传递至短包电子交换机或以其他方式进行处理,而长包进入包装 器(wrapper)396〇
[0064] 包装器396提供用于包的包装或包标签。这创建了经包装的容器,其包括容器(包) 序号以及容器净荷的源TOR地址和目的地TOR地址,容器净荷包括具有头部的整个长包。大 部分长包处于或接近最大的大小水平(例如1500个字节),但是一些长包在长/短阈值(例如 1000个字节)紧之上,并且通过使用填充来填满容器的剩余部分以将长包映射至1500字节 净荷的容器中。
[0065]缓冲器398提供对包的填充以将包映射至净荷空间中并且使用填充来完成对净荷 空间的填满。缓冲器398产生包流,其中通过添加会在交换过程之后被去除的额外字节来填 满包以使得各个包具有相同的长度。因为填充包括将额外的字节添加至数据流,所以存在 包流的加速。缓冲器398具有相比输入时钟速度而言较高的输出时钟速度。此较高的输出时 钟速度是加速器400的输入时钟速度。缓冲器398中的时钟速率的增加取决于缓冲器的长 度、包长度阈值和缓冲器溢出的概率。填充缓冲器引入了延迟,例如对于40Gb/s的馈送而言 该延迟为大约2微秒至大约12微秒。时钟速率的增加对于长缓冲器和较长的延迟而言较小, 因此存在时钟速率加速与延迟之间的权衡。时钟速率的增加对于较高速率馈送例如IOOGb/ s的相同延迟而言较小,原因在于缓冲器可以包括更多个级。
[0066]然后,加速器400对包进行加速以增加包间间隔,从而提供用于在一个包的后边沿 与下一个包的前边沿之间建立光子交叉点的定时窗口。
[0067] 长/短分离交换机394、包装器396和缓冲器398具有因对包进行填充和加速而导致 的延迟。该延迟因流量水平和包长度交换机而异,并且可以例如通过在缓冲器/填充过程中 插入额外的空白帧来拉长该延迟以与通过控制路径的延迟近似地匹配。缓冲器398和加速 器400可以一起实现或单独地实现。
[0068]电光(E/0)转换器406将包从电域转换至光域。
[0069] 在被转换至光域之后,包在块408中经历延迟。此延迟是固定的延迟例如大约5ns, 以便在包的起始部分到达之前建立地址。当使两个路径的延迟均衡时,地址与包同时到达 光子电路交换机410。当地址计算路径相比通过缓冲器和加速路径的最短延迟略快时,标 志、标签或包装指示器可以根据所计算的地址选通功能来触发地址信息至交换机的同步释 放。
[0070] 地址选通器404处理来自流水线式控制块402的地址。每一个帧间隔从流水线式控 制块402接收新的地址字段。此外,从加速器400接收包边沿同步标志。地址选通器404保存 过程地址字段以应用于交换机,并且基于边沿同步标志来释放包,并且还可以顺序地存储 要释放的多个字段。地址选通器404每包间隔释放同步地址字段。
[0071] 最后,通过光子电路交换机410来交换光包。
[0072]在大数据中心中,TOR及其相关联的合路器和分路器功能可以远离光子交换机,这 由图4中的系统750来示出。系统750包括块752,块752的功能可以共同处于例如每个TOR处 或小的TOR组处。在块392中,对输入包进行检查以确定它们的长度和包地址,可以将上述包 地址转换成TOR地址和TOR组地址。这可以通过主机TOR来完成,或者可以在块392内局部地 完成。对于长包,经转换的地址被添加到下一可用的地址帧时隙。
[0073]该地址帧经由电光链路被发送至流水线式控制块402,流水线式控制块402可以与 光子交换结构774处于同一位置。通过电光转换器756将帧从电域转换至光域。帧延迟传播 通过光纤,并且通过光电转换器790被转换回电域。
[0074]此外,块392确定与长度阈值比较的包长度。如果包长度在阈值之下,则通过长/短 分离交换机394将包路由至短包电子交换机(连同包序号以及可选地连同TOR地址和TOR组 地址)。如果包长度为阈值或在阈值之上,则将包路由至包装器396,其中包被映射成整体固 定长度容器,并且当包还不是完全长度时将包填满成完全净荷长度。添加包装头部和包装 尾部,其包括T0R/T0R组源地址和目的地地址以及包序号,用于当在交换之后长短包一起返 回时在合路器处恢复包定序完整性。例如,在包中包括源TOR组地址、源TOR组内的各个源 TOR地址、目的地TOR组地址以及目的地TOR组内的各个目的地TOR地址。
[0075]经包装填充的包容器然后经历两个加速步骤。首先,通过缓冲器398使比特级时钟 从系统时钟加速至经加速的时钟1,以便当长但非最大长度的容器化包的短流通过系统时 有足够的容量。对于最大长度包,例如在l〇〇Gb/s处为1500字节包,包到达速率为每秒8.333 百万包,导致帧速率为每容器化包120ns。然而,长于长/短包阈值的包可以比完全长度短, 例如1000个字节。这样较短的长包当连续时可以具有较高的帧速率,原因是这样较短的长 包可以以较高的速率出现。对于在l〇〇Gb/s处到达的1000字节包,包到达速率最高至每秒 12.5百万包,导致瞬时帧速率为每容器化包80ns。对于较短的长包的连续流,帧速率可以增 加最高至每帧80ns,加速大约50%。然而,这些包相对很少出现,并且可以使用略高于50% 的较小的加速,结合有限长度的包缓冲器来支持它们的平均出现率。
[0076] 经加速的包流然后传递至加速器400,加速器400进一步使该包流加速以增加包间 间隔或容器间间隔,有利于在将一个包的尾端交换至其目的地与将下一个包的前边沿交换 至不同目的地之间建立电子交换机。在于2013年5月24日提交的美国专利申请No. 13/901, 944中讨论了关于增加包间间隔的更多细节,该申请由此通过引用合并到本文中。
[0077]虽然单独地示出,但是缓冲器398和加速器400可以合并在单个级中。
[0078]来自加速器400的输出被传递给电光转换器401以用于转换成要交换的光子信号。 光子信号跨越内部数据中心光纤布线而被发送至光子交换结构774,该内部数据中心光纤 布线的长度可以是300米或更长,并且由于光在玻璃中的速度而造成明显的延迟。该电光转 换可以是波长敏捷型电光转换器。
[0079]对于输入交换机模块上的任意输入端口,将特定波长应用至特定输出交换机模块 上的端口而非其他输出交换机模块上的端口。因此,当将TOR的寻址划分成TOR组时,其中每 个T0R具有T 0R组号以及该组内的单独T0R号,并且每个组与特定的第三级交换机模块相关 联,可以通过利用电光转换过程中的适当的波长值来将给定输入组中的任意的TOR连接至 用于目的地TOR的正确目的地TOR组的适当的第三级。因此,地址的TOR组部分在对于波长映 射器块760的TOR组中被转换成用于驱动电光转换器401的波长。
[0080] 因为TOR及其相关联的分路器/合路器可能远离光子交换机,所以在分路器输出与 到达针对不同分路器及其相关联的TOR的交换机输入端的光信号之间存在取决于距离的延 迟。如图4所示,信号由于闭环定时控制而在时间上被准确地对准,因此交换机中来自一个 分路器的一个包的结束与下一个包的开始完全对准,即使当其来自另一分路器时也是如 此。因此,延时可以被标定和补偿。一种方法是在光子交换机输入端处分接输入信号并且将 所分接的分量馈送至光电接收器778。通过帧相位比较器786来相对于帧生成定时块784确 定输入容器的开始的定时。定时的差异产生指示输入容器早还是迟以及该误差的大小的误 差信号。该误差信号被馈送回时钟生成块以调节其相位,使得容器在正确的时间被传输,并 且按照正确的定时到达光子交换机输入端。
[0081] 这可以跨光子交换机的输入端并且针对基于对向TOR的分路器来完成,该过程使 用许多光电转换器。为了减少光电转换器的数量,使用交换机776,即位于所分接的输出端 与光电转换器778之间的N:1光子选择器转换器,以N:1将光电转换器的数量减少,例如,8:1 至32:1,并且对结果的锁相环使用基于采样保持的方法。同样地,在帧相位比较器786与时 钟生成块758之间插入交换机788,即N: 1交换机。
[0082]这导致当时钟生成块758在连续反馈采样之间的保持时间段期间未明显偏移时的 满意的性能。当使用Ims的热光交换机时,每秒可以做出800次校正。如果交换机是32:1交换 机,贝1J每个TOR分路器定时锁相环(phase locked loop,PLL)-秒被校正25次,或每40ms被 校正一次。因此,为了保持Ins精度的定时,可以使用大约4X IO7分之1的基本精度和稳定 性。在电光交换机具有IOOns的响应时间的情况下,对于40Gb/s至lOOGb/s的数据速率,整体 校正速率增加至大约一秒2,500,000次至4,800,000次。当交换机为32 :1时,每TOR分路器 PLL每秒可以有80,000至150,000次测量,其对于40613/8至100613/8的操作相应地获得1.25 X IO4分之1至6.7 X IO3分之1的精确度和稳定性。
[0083] 通过连接信令一一信令光传播一一连接处理路径加物理层建立时间的延迟可以 小于通过填充缓冲器、加速器和容器光传播次数的延迟。主要由缓冲器398和加速器400的 长度造成的从读取包地址块392至加速器400的延迟(延迟1)随着流量水平和包长度混合而 变化。来自m步骤流水线式控制过程的流水线式控制块402中的延迟(延迟2)通过控制过程 来固定。可以是相同光纤的光纤上的延迟(延迟3和延迟4)可以近似地相同。光路径可以使 用粗糙的1300nm或1550nm的波长复用。期望:延迟2+延迟3〈延迟1+延迟4。当延迟3 =延迟4 时,延迟2小于延迟1。这有利于在施加要交换的流量之前计算并且施加交换机连接映射。两 个路径的容差或变化影响包间间隔的大小,原因是包间间隔除了用作交换机建立时间本身 以外还用作定时时滞。
[0084] 图5示出了包大小的概率分布的累积分布函数(cumulative distribution function,⑶F)800。此图示出了作为以字节计的包大小的函数的流中包的数量的累积分布 函数。
[0085]当每包的大小例如在每秒一个该大小的包处的包带宽乘以图5所示的包出现速率 的CDF时,产生累积分布函数,其中示出了作为包大小的函数的数据链路的部分带宽的CDF。 将此过程应用于图5的分布并且产生如图6所示新的CDF图。图6示出了对作为以字节计的包 大小的函数的在小于给定包大小的包中的流量带宽的百分比进行说明的曲线802。大约 80%的带宽位于1460字节或更大的包中,而20%的带宽在小于1460字节的包中。大约90% 的带宽在1160字节或更大的包中,而10%的带宽在小于1160字节的包中,并且95%的流量 带宽在500字节或更大的包中,而仅5%的流量带宽在小于500字节的包中。如果长/短阈值 被设置为例如500个字节,则95%的带宽在长包中,80%的带宽在长度与最大长度相差不到 40个字节的包中,并且总带宽的15%在500个字节至1460个字节之间的包中。对于1000字节 的阈值,大约9%的带宽容量在短包中(即,在长/短阈值之下),并且91 %的带宽在长度为阈 值或在阈值之上的长包中,总带宽的80%在长度与最大长度相差不到40个字节的包中,并 且总带宽的11 %在1000个字节到1400个字节之间的包中。对于总节点容量是短包电子交换 机的大小的20倍的情况,使用500字节阈值对应于19:1的长/短容量分路,而对于总节点容 量是短包交换机的容量的11倍的情况,使用1 〇〇〇字节阈值对应于1 〇: 1的长/短容量分路。
[0086] 然而,长包展现大小范围,导致对缓冲和加速有所期望。图7A至图7C示出了实施方 式的光子包交换机相对于电子包交换节点的容量的作为包大小阈值和填充效率的函数的 模型容量增益,其指示在光子路径上使用的具有图5所示的特征的流量的长包流中的包长 度的混合的额外带宽量。
[0087] 图7A示出了使用图6的流量模型将各种长度的长包填满成1500字节的最大净荷以 及结果的加速的模拟结果,其中将这些模拟结果相对于阈值而绘出。这些结果示出了总体 节点容量增益和同步电路交换包填充效率与对于相对高的1 %的缓冲器溢出的概率的包长 度阈值的关系。曲线212示出了作为长包长度阈值的函数的容量增益。曲线214示出了具有 40个包缓冲器时的填充效率,曲线216示出了具有32个包缓冲器时的填充效率,曲线218示 出了具有24个包缓冲器时的填充效率,以及曲线220示出了具有16个包缓冲器时的填充效 率。大约1000字节的包长度阈值获得的容量增益大约是11:1,表示容量增加了多于一个数 量级,在该点处填充效率大约为95%。
[0088] 长包大小范围的较下端的包被填满成长度与最长包的长度相同。这些较短的包相 比长包而言可以更频繁地到达,原因在于,在基本时钟速率下,它们占据了较短的时间段。 例如,在40Gn/s速率下,1500字节包占据300ns,而1000字节包仅占据200ns。如果针对300ns 帧速率来设置交换机,则连续的1000字节包以比交换机能够处理的速度快50%的速度到 达。为了对其进行补偿,使交换机的帧速率加速。如果不使用填充缓冲器,则加速会非常重 要。下面的表1示出了在没有填充缓冲器的情况下的作为阈值长度的函数的加速。对于在大 约1200字节之下的包长度阈值,效率明显低。
[0089] 表1
[0091] 填充缓冲器是给定长度的包同步的缓冲器,其中以系统时钟速率对包进行输入时 钟控制并且将包扩展成恒定的最大长度,并且以较高的时钟速率对包进行输出时钟控制。 代替选择经加速的时钟速率来适应最短包,可以基于流量统计以及这些统计数据溢出有限 长度缓冲器的概率来选择时钟速率。
[0092] 下面表2示出了包溢出的概率为1%时具有或不具有填充缓冲器的结果。当针对短 包使用填充缓冲器而非不使用填充时在时钟加速方面有明显的提升。聚合填充效率(APE) 与所需要的时钟速率之间关系是倒数关系,其中以33%AI 3E使时钟速率增加3:1,下至在 98.8%APE时时钟速率增加1.2%。因此,较高的APE导致较低的时钟速率增加以及光信号带 宽的较小增加。
[0093] 表 2
[0095]图7B示出了缓冲器溢出的概率为0.01 %时总节点容量增益和同步电路交换包效 率与包长度的关系曲线。曲线232示出了作为包长度阈值的函数的容量增益。曲线234示出 了具有40个包缓冲器时的填充效率,曲线236示出了具有32个包缓冲器时的填充效率,曲线 238示出了具有24个包缓冲器时的填充效率,以及曲线240示出了具有16个包缓冲器时的填 充效率。长缓冲器以延迟为代价更佳地提高了 APE。因此,在延迟与APE之间并且因此在延迟 与时钟速率加速之间存在权衡。在一个示例中,该延迟被设置成在集中处理块的处理延迟 紧之下,导致该块设置整体处理延迟。
[0096] 表3示出了对于各种包长度阈值的在缓冲溢出的概率为0.01%时作为基本系统时 钟速率的百分比以及作为APE的经填充时钟速率。对于24个包缓冲器的速率以及对于3 2个 包缓冲器的速率在对于16个包缓冲器的结果与对于40个包缓冲器的结果之间。可以通过使 用相对短的有限长度的缓冲器减缓时钟速率增加。缓冲器越长,改进越大。
[0097] 表 3
[0100] 图7C示出了缓冲器溢出的概率为百万分之一时总节点容量增益和同步电路交换 包填充效率与包长度阈值的关系曲线。曲线252示出了作为包长度阈值的函数的容量增益。 曲线254示出了具有40个包缓冲器时的填充效率,曲线256示出了具有32个包缓冲器时的填 充效率,曲线258示出了具有24个包缓冲器时的填充效率,以及曲线260示出了具有16个包 缓冲器时的填充效率。
[0101] 当容量增益为10:1时,其中聚合节点吞吐量是电子短包交换机的吞吐量的10倍, 包长度阈值是大约1125个字节。这对应于在没有填充缓冲器时的大约75%的APE,以及填充 时钟速率为输入时钟速率的133 %的明显增加。对于16个包缓冲器或40个包缓冲器,提升至 95%和97%的APE,导致经填充的时钟速率为输入时钟的105.2%和103.1 %。这是相对小的 增加。
[0102] 在同步快速光子电路交换机中,进行以与经填充的容器化包持续时间匹配的重复 速率的完全连接再配置。对于1500字节包和40Gb/s每端口速率,该帧时间是大约300ns。因 此,在普通(集中式)控制方法中使用连接映射的非常快速的计算,使得每一个帧周期递送 新的连接映射(对于40Gb/s而言为300ns)。在普通结构方法中,当两个输入同时尝试访问同 一交换机输出端口时,交换机可以跨越结构非阻塞,仅输出端口连接阻塞。可以使用连接映 射生成来检测该阻塞,原因是,当两个输入请求同一输出时,一个输入可以被授权连接并且 其他输入会使帧延迟或拒绝连接。当帧被拒绝连接时,TOR分路器可以重试后续的连接或者 包被丢弃并且重新发送。
[0103] 大型快速光子电路交换机结构可以包括多个交换级。这些交换机以不影响现有路 径的情况下建立新的路径的非阻塞方式或者以可以包括再布置现有的所识别的路径的情 况下建立新的路径的条件性非阻塞方式来提供结构输入端口与输出端口之间的总的光连 接,交换结构是非阻塞还是条件性非阻塞取决于扩张量。在扩张率为1:2扩张型交换机中, 合并的第二级的容量是所有第一级输入端口的容量的两倍。交换机结构可以由这些构件块 的多个组合构成。
[0104] 可以用于光子交换机中的两个构件块是光子交叉点阵列和阵列波导路由器(AWG-R)。光子交叉点阵列可以是热光型或电光型。AWG-R是无源的波长敏感路由设备,其可以与 敏捷的光可调谐源组合创建交换或路由功能。
[0105] 在一个示例中,集成式光子交换机制造在InP基板上的InGaAsP/InP半导体多层 中。交换机具有以正确角度交叉的两个无源波导,形成输入端口和输出端口。在无源波导的 顶上堆叠有其间有全反射镜结构的两个有源垂直耦合器(AVC),以使光转动九十度角。对于 4X4的交换机可以存在大约2.5dB的损耗。交换时间可以是大约1.5ns至大约2ns。操作范围 可以从153 Inm到1560nm。16 X 16的端口交换机可以具有大约7dB的损耗。
[0106] 长宽比不同的矩形的交换机可以制造用于扩张型交换机。16X8或8X16端口交换 机可以具有大约5.5dB的损耗并且使用128个AVC。
[0107]图8示出了在N = S的情况下作为固态光子交换机的交换机290。交换机290可以用 于第一级结构、第二级结构和/或第三级结构中的结构。交换机290可以是非阻塞磷化铟或 硅固态单片或混合交换机交叉点阵列。交换机290包括输入端292和输出端298。如图所示, 交换机290包括8个输入端292和8个输出端298,然而它可以包括更多或更少的输入端和输 出端。此外,交换机290包括AVC 294和无源波导296^VC是制造在波导上的成对的半导体光 放大器部,在它们之间介入有90度全反射波导拐角。当这些放大器关闭时,这些放大器不被 施加电力。因为AVC关闭,所以AVC不透明,并且输入光波导信号不会耦合到它们中。替代地, 光信号在输入波导中跨越交换机芯片水平地传播。在所需的输出连接与输入波导交叉的交 叉点处,AVC被施加偏压并且变得透明。事实上,AVC可以具有正增益以使交换损耗偏移。因 为AVC是透明的,所以输入光耦合至它,然后由于全反射而转过拐角,从AVC耦合至垂直输出 波导。
[0108] 在另一示例中,电光硅光子集成电路技术被用于光子交换机,其中内部结构使用 按照几种拓扑结构(1^^〇1161-1^117311、1^1168或其他拓扑结构)之一中的级联的2\2交换机。
[0109] 图9示出了作为无源的波长敏感光转向设备的AWG-R 300,其依靠不同路径长度来 创建作为光腔中的光波长的函数的不同的波阵面,使得光根据波长在不同的输出端处收 敛。通过不同波导长度和替代点来建立路径长度差异。W波长AWG-R具有W个输入端、W个输出 端并且使用W个波长。对于输入端口 1,关于波长1的输入针对输出端口 1出现,关于波长2的 输入从端口 2出现,等等一直到从输出端W出现的波长W。输入端口 2上的输入偏移一个输出 端口来出现,输入端1上的波长会在该偏移后的输出端口上出现。该偏移继续直到在输入端 口 W处波长W从输出端口 1出现。因此,波长1从端口 2出现,波长2从端口 3出现,等等,直到波 长W-I从端口 W出现并且波长W从端口 1出现为止。来自N个输入端口的光通过N个输入点302 进入平面区域304,平面区域304包括物平面301。光沿波导光栅306传播。然后光继续沿具有 像平面309的平面区域308,传播至输出端口 310。
[0110] 因为从平面区域304进入波导的光取决于其来自哪个输入端口而具有不同相位关 系的波阵面方向,所以至平面区域308的组成输入信号的多个分量相互作用以跨越平面区 域308彼此抵消或加强,从而在以下位置创建输入端口的输出图像,所述位置取决于至平面 区域304的输入端口的位置和波长,原因在于不同路径长度上的相位是波长的函数。然后光 基于其来自哪个输入端以及其光波长经由输出端口 310从该设备中光耦合出来。
[0111] 图10示出了作为AWG-R的示例性透射谱的透射谱320。透射谱320是非周期性42 X 42的AWG-R。信道间隔为IOOGHz,并且高斯通带的半高宽(full-width half-maximum,FWHM) 是50GHz。
[0112] 图11示出了对于4X4的AWG-R的AWG-R 330的路由映射。为了将AWG-R 330用作交 换机,给定输入端口上的输入信号的波长被调整成改变其要路由至的输出端口。AWG-R 330 包括输入端口 338、354、360和366以及输出端口 372、374、376和378。为了将输入端口 338连 接至输出端口 378,通过输入端口 338来接收输入载波340。为了将输入端口 338连接至输出 端口 374,使用输入载波336。同样地,为了将输入端口 366连接至输出端口 376,使用输入载 波336,以及为了将输入端口 366连接至输出端口 376,使用载波334。另外,为了将输入端口 338连接至输出端口 372,使用载波334,以及为了将输入端口 338连接至输出端口 376,使用 载波346。
[0113] AWG-R可以与快速可调谐光源相关联改变输入的波长。如果通过这些源与AWG-R之 间的居间光子部件例如交叉点阵列来支持光波长的范围,则这些光源可以是在光子域的入 口处的电光转换点。尽管快速可调谐光源的调谐时间可以不到100纳秒,但其调谐时间往往 大于几纳秒。因此应当预先对可调谐光源进行调谐。因此,可以在流水线式控制过程中较早 地确定所需的波长。
[0114] 在另一个示例中,例如从波长方面连续地适度操作高功率激光器的一组光载波生 成器生成光载波阵列,该光载波阵列被光放大并且跨数据中心来分布,其中TOR通过由波长 选择信号驱动的光子选择器开关来分接所选择的光波长。此光子选择器交换机可以是与快 速通断门串联的适度快速的L:1交换机,其中L是系统中的波长的数量。在另一个示例中,光 子选择器是快速L:1交换机。所选择的光载波然后被注入无源调制器中以创建所选择的波 长处的要发送至光子开关的数据流。这些选择器交换机可以被制造成电光硅光子集成电路 (photonic integrated circuit,PIC)。在此示例中,用可能慢的稳定精密波长源集中式阵 列来取代TOR处的快速可调谐精密激光器阵列。
[0115] 在光子交换结构中可以使用CLOS交换机配置。CLOS交换机根据路径之间的交互而 进行间接寻址。然而,以下事实在传输路径上产生了延迟:缓冲器功能将延迟的多个包输入 至交换机的传输/流量路径以包括时钟速率增加。当流水线式控制系统可以完成其计算并 生成延迟小于其传输路径的新的连接映射时,该延迟有利于流水线式控制系统的应用而没 有增加的时间损失。例如,在流水线式控制的延迟小于包装器、缓冲器和加速器中的延迟。 [0116]图12示出了由16 X 16快速光子集成电路交换机芯片制造的示例三级CLOS交换机 180 XLOS交换机可以具有任意奇数个例如三个级。CLOS交换机可以被制造成具有方形交叉 点阵列(具有相同数目的输入端和输出端的交叉点阵列),其中整个中心级具有与结构的输 入的数量相同数量的可用路径。这样的交换机为条件性非阻塞,原因在于总是可以添加最 高至端口极限的另外的路径,而且一些现有的路径可以被重新布置。可替代地,该交换机具 有过度的容量(或扩张),以通过输出端比输入端多的矩形第一级来降低该影响。此外,第三 级是输入端的数量与第一级输出的数量相同的矩形。当该交换机变为意味着总是可以在不 影响现有路径的情况下添加新路径的完全非阻塞时,该扩张提高条件性非阻塞特性直到在 1:2扩张 X/(2X-1)紧之下为止。因为无需打扰现有路径,所以无需重新布置路径。
[0117] 例如,CLOS交换机180的设置时间是大约Ins至大约5ns<XL0S交换机180包括馈送 至第一级结构184的输入端182,所述第一级结构184为XX Y交换机。接合连接图案186连接 第一级结构184和第二级结构188,第二级结构188为ZXZ交换机。X、Y和Z是正整数。此外,接 合连接图案190连接第二级结构188和作为YXX交换机的第三级结构192,从而将每个级中 的每个结构同样地连接至交换机的下一级中的每个结构。使交换机扩张改进了其阻塞特 性。第三级结构192根据遍历了三个级的输入信号182来产生输出194。尽管描绘了第一级结 构184、第二级结构188和第三级结构192,然而可以使用更少或更多的级(例如,5级CL0S)或 者每级可以使用更少或更多的结构。在一个示例中,第一级结构184的数量与第三级结构 192的数量相同,而这两者的数量与第二级结构188的数量不同,并且Z等于Y乘以第一级的 数量再除以第二级的数量。CLOS交换机180的有效输入输出端口计数:针对输入端口计数, 等于第一级结构的数量乘以X;针对输出端口计数,等于第三级结构的数量乘以X。在一个示 例中,Y等于2Χ-1,并且CLOS交换机180在非阻塞阈值处。在一个示例中,X等于Υ,并且CLOS交 换机180为条件性非阻塞。在此示例中,可以重新布置现有电路以使一些新路径清零。非阻 塞交换机是以下交换机:以任意组合将N个输入端连接至N个输出端,而不考虑其他输入端 或输出端上的流量配置。相似的结构可以创建成具有较大结构的5级,其中两个第一级串联 并且两个第三级串联。
[0118] 每个第二级模块的相同输入端口连接至相同的第一级矩阵,并且通过交换机两端 的对称性,每个第二级模块的相同的输出端口连接至相同的第三级模块。第二级模块被布 置成与输入和第三极模块正交。图13示出了CLOS交换机180的正交性。CLOS交换机180包括 交叉点交换机422、交叉点交换机424和交叉点交换机426。所有第二级通过同一第二级输入 端连接至每个第一级,并且所有第二级输出端经由同一第二级输出端连接至每个第三级。 这意味着,不考虑第一级交换机和第三级交换机的设置,给定的第一级与给定的第三级之 间的任何连接使用其中选择任何第二级的相同连接。当第二级是AWG-R时,这通过源的波长 来确定。因此,如果对TOR的寻址层次性地由TOR组组成一一其中组与交换机的第一级矩阵 和第三级矩阵相关联,则可以通过选择波长来获得组对组寻址。组中的TOR会使用相同的波 长值或特定于该组的目的地组表以与其他组中或同一组中的任何TOR通信。
[0119] 图14示出了作为三级CLOS交换机的交换机430,其具有AWG-R的第二级以及能够进 行快速波长调谐以提供输入光信号的光源。交换机430包括:4个作为3 X 3光子交叉点交换 机的第一级交换机432; 3个作为3 X 3光子交叉点交换机的第三级交换级436;以及3个作为 第二级无源交换机4 X 4AWG-R模块的第二级交换机434,其根据所选择的输入波长来提供连 接。第二级交换机434具有相同的波长路由特性,并且第一级模块具有用于连接至第三级模 块的特定波长映射。因此,第一级的输入可以被认为是交换机的一组输入,该组输入使用特 定于该第一级模块的共用固定波长映射来与所需的输出组模块内的任意输出端通信。对于 给定的波长,任意第一级模块上的任意输出端总是连接至同一第三级模块。因此,如果模块 与作为地址的部分的组相关联,则该地址的组部分可以通过选择所使用的波长来编程到交 换机中。该映射使得输出旋转用于每个输入组偏移的一个组偏移,以确保在该波长处不会 有两个输入组对同一输出组进行覆写。
[0120] 第一级模块的所有输出端被连接至不同AWG-R的相同输入端口,同时第三级模块 的所有输入端被连接至不同AWG-R的相同输出端口。因为AWG-R对于端口映射具有相同的波 长,所以每个第一级模块具有用于连接至每个第三级模块的唯一波长映射。此映射与要连 接第一级的哪个输入端以及第三级的哪个输出端无关。第一级模块和第三级模块是光子交 换矩阵,所述光子交换矩阵在候选波长处透明,而在电子控制下提供级输入端与级输出端 的连接。上述交换矩阵可以是电光硅光子交叉点或者是以InP衬底上的InGaAsP/InP半导体 多层形式并且使用半导体光放大器而制造的交叉点。
[0121]如果TOR寻址为层次性,则基于与第一级模块相关联的TOR组,与特定的第一级模 块相关联的每个TOR组中的每个TOR使用相同的第二级连接来将TOR连接至特定的目标第三 级,原因在于源TOR的第一级模块和目标TOR的第三级模块两者使用对于每个第二级模块而 言相同的的第二级连接。这意味着,第二级所需的连接性对于该连接而言相同,而不管输入 组第一级和输出组第三级的实际的端口对端口的设置如何。因为不管使用哪个第二级第二 级连接都相同,并且当已知目标TOR组地址部分时通过对波长的选择来控制第二级连接,所 以用于寻址该TOR的波长也已知,并且可以开始波长敏捷源的设置。当第二级连接被设置 时,可以在后续确定要使用哪个第二级,该确定需要建立源第一级与目标第三级的第一级 连接,源第一级和目标第三级在流水线式控制过程中被确定。此过程将交换机输入端和交 换机输出端连接至相同的第二级平面,而至多使用一次第二级平面输入和输出。这导致端 对端的非竞争性连接被建立。
[0122] 图15示出了表明交换机的正交性的光子交换机440。表示敏捷波长可调谐源的光 源442被耦合至交叉点光子交换机444。交叉点光子交换机444被耦合至AWG-R 446,而AWG-R 446又被耦合至交叉点光子交换机448。
[0123] 图16A至图16B示出了光子交换机460、基于交叉点AWG-R CLOS结构的大的端口计 数光子交换机以及实现在被识别为源矩阵控制器的第一级控制器与被识别为组扇入控制 器的第三级控制器之间的概念性流水线式控制过程。光子交换机460可以用作多平面结构 中的交换平面,其中多个相同的平面各自通过在负载共享式结构中的光子交换机460来实 现以针对交换机平面故障和高的总流量吞吐量提供冗余。可替代地,在小交换节点中没有 平面结构的情况下使用光子交换机。虽然在图16中示出了仅一个三级光子交换机,但是可 以有多个并联的光子交换机。由于每个TOR有高容量端口,所以可以有许多并联的交换机平 面。W可以等于4、8或更大。交换结构包括第一级交叉点交换机470和第三级交叉点交换机 474以及第二级AWG-R阵列472。对于每个创建有4个平面的TOR的80 X 80端口第二级AWG-R、 12 X 24端口第一级交换机、24 X 12第三级交换机和4个输出端,这针对在40Gb/s处总吞吐量 为153.6Tb/s的情况或在100Gb/s处总吞吐量为384Tb/s的情况产生了被组织成4个960 X 960象限的3840 X 3840端口核心长包交换容量。在另一个示例中,每个100Gb/s流被分成4个 25Gb/s的子流,并且每个结构使用四个并联结构来取代,每个子流一个结构。在使用80X80 端口的AWG-R、16 X 32端口交叉点交换机和32 X 16端口交叉点交换机以及8个平面的另外的 示例中,创建被组织成每个交换机1280个端口的八个平面的10,240端口核心长包节点,当 单片地(111〇11〇1;[1:11;[031150交换100613/8馈送时这需要1280\1280的8个并联的交换机平面 结构(W = S),例如使用多级编码来使符号速率降至25G符号/秒(例如,正交振幅调制 (quadrature amplitude modulation,QAM)_16或脉冲振幅调制(pulse amplitude modulation,PAM)-16))以适配AWG-R的通带内的光信号的数据边带。可替代地,使用每 100Gb/ S流4个单独的25Gb/s子流时的32个结构。基于该交换机的并且W = 8的节点能够处理 I,024Pb/s的输入端口容量。可替代地,对于Z = 40,对应于1006抱光网格和55+61^的可使用 的带宽(通带)并且使用16 X 32的第一级交换机、32 X 16的第三级交换机以及8端口/TOR,在 给出8个并联负载共享的平面的情况下,给出在100Gb/s下8 X (16X40) = 5120 X 5120个端 口 =512Tb/s的容量,同时对于100Gb/S数据流使用简单编码。
[0124] 限定为连接至一个具体第一级交换模块和对应的第三级交换机模块的TOR的TOR 组464与敏捷波长生成器相关联,例如各个可调谐激光器或波长选择器466。波长选择器466 选择Z个波长源462中之一,其中Z是用于一个AWG-R 472的输入端口的数量。代替必须快速 调谐几千个敏捷激光器,可以使用80个精密波长静态源,其中它们所生成的波长通过本地 调制器处的成对的Z Xl选择器交换机分配和选择。这些交换机不必与包间间隔(interpacket gap, IPG) 建立时 间匹配 ,原 因在于预先明 确知道该波长 。然而 ,从一个波长至另一 个波长的转换发生在IPG期间,因此选择器交换机与快速2:1光栅串联,以促进该转换在IPG 期间快速发生。
[0125] 来自TOR组464的经调制的光载波通过第一级交叉点交换机470,第一级交叉点交 换机是由流水线式控制系统设置成正确的交叉连接设置的XXY交换机。第一级根据作为流 水线式控制系统的一部分的源矩阵控制器(source matrix controlIer,SMC)来控制,所述 源矩阵控制器(SMC)涉及对第一级连接的管理。此外,SMC工作使得第一级输入端口无竞争 地连接至第一级输出端口,并且第一级连接映射与第三级连接映射匹配从而经由正交映射 器通过SMC与相关的GFC之间的通信来完成整个端对端的连接。第一级完成至如由流水线式 控制过程确定的适当的第二级即AGW-R472的连接。第二级基于这些信号的波长自动地路由 这些信号,因此这些信号出现在适合的第三级模块即第三级交叉点交换机474的输入端口 上,其中它们在第三级的组扇入控制器(GFC)476的控制下被连接至适合的输出端口。组管 理器对来自AWG-R第二级的输入信号至第三级的适合的输出端口的连接进行管理,并且从 在特定GFC处接收的相关SMC请求中识别对于相同第三级输出端的竞争请求。在不止一个第 三级连接从第二级AWG-R请求相同的第三级输入端口的情况下,一个或更多个竞争的第三 级输入可以通过与源SMC通信来分配至另一 AWG-R平面,但是当第三级输出端口不处于竞争 时,不执行包退避或延迟,原因是有足够的容量用于第二级平面之间的移动。交叉点交换机 474被耦合至TOR 478。
[0126] 在对歪斜(skew)、交换时间对准和交叉点建立时间有紧迫需求情况下快速分帧光 子电路交换机的操作使用其他快速同步固定分帧系统的集中式精密定时参考源。歪斜是关 于要交换的到达数据的定时偏差或误差、交换机中取决于物理路径长度的定时变化、电子 和光子响应时间的变化等等。该定时参考源是定时与同步块480,其通过以下来为交换机级 提供定时:选通用于实际建立所计算的连接的定时并且提供用于对TOR包分路器和缓冲器/ 加速器块的定时进行锁定的参考定时。定时块480提供包括比特间隔信号、帧间隔信号以及 多帧间隔信号,其包括跨越多个帧的遍及该系统来分配的帧编号以方便对连接参考已知数 据/包和已知帧的外围请求,从而通过正确的帧的所计算的连接映射来交换正确的容器化 包。
[0127] 图16的下部示出了流水线式控制482。沿流水线式控制的步骤包括包目的地组识 别块484和设置波长块486,这两者可以分散至TOR位置或为集中式。流水线式控制还可以包 括第三级输出端口冲突检测块488、跨核心负载均衡块490以及第一和第三级矩阵控制块 500,以上所有块被集中。这些主要步骤要么在一个帧周期(对于lOOGb/s而言是大约120ns 或者对于40Gb/s而言是大约300ns)内完成,要么被分成可以在一个帧周期内完成的较小步 骤,使得实现每个步骤或子步骤的SMC资源和GFC资源可以根据需要空出来用于针对下一帧 执行相同的计算任务。一种替代性方案是提供用于实现并联的长步骤的SMC或GFC资源能力 的部分的多个并联实体,每个实体实现不同帧的长步骤,然后针对后续几个帧被复用。对于 持续F帧的步骤,存在并联的F个相同的功能,每个功能以换相或"轮询"的方式每F个帧加载 一次新任务,从而使得F个并联功能中之一对于每个帧都加载有信息。
[0128] 在包目的地组识别块484中,根据源包的目的地地址的TOR组识别部分来对目的地 组进行识别。最多可以有X个并联的包容器地址,在几个并行流路中的每一个流路中每个输 入端口有一个包容器地址。X等于组大小,其等于每个输入交换机上的输入端的数量,例如 8、16、24或32。根据SMC的波长地址映射来设置波长。可替代地,当TOR充分远离交换机的中 央处理功能设备时,该波长设置可以在TOR分路器处被复制。例如,如果超过波长确定点至 释放连接映射的点的处理花费G微秒并且光在玻璃中的速度=2/3 X Co = 200,OOOkm/秒,其 中Co =光在真空中的速度= 300,000km/秒,则返回至TOR的最大距离会是200,000*G的1/2。 对于G=2ys,TOR距核心控制器的路径长度不超过200米,对于G = 4ys,不超过400米,以及对 于G = ^s,不超过600米。数据中心中的最大游程可以在300米至500米以上,并且可以有用 于光载波波长的集中设置和远程(在TOR位置处)设置的位置。包目的地组识别块还可以检 测两个或更多个并联输入包何时具有完全相同的目的地组和TOR地址,在该情况下,潜在冲 突被检测并且上述两个包中之一可以延迟一个帧或几个帧。可替代地,可以将其处理成整 个输出端口冲突检测过程的一部分。
[0129] 包目的地组识别块484可以概念地分布、容置在SMC的硬件状态机内或两个位置 中,原因是关于要使用的波长的信息在TOR处,并且块487的输出的其他用户在集中式控制 器内。包目的地组识别块将用于输出组连接的所选择的输入端口传递给第三级输出端口冲 突检测与映射器功能,而第三级输出端口冲突检测与映射器功能基于地址的组地址部分将 来自SMC的地址传递给每个适合的GFC,从而方便开始输出端口冲突检测过程。这是因为每 个GFC还与第三级模块相关联,该第三级模块与组和具体长度相关联。因此,SMC计算输出的 特定部分被路由至特定GFC,使得特定GFC接收来自SMC的相关信息子集(做出与GFC的关联 TOR组以及该TOR组专用的关联交换机结构第三级的连接)。因此,第三级输出端口冲突检测 的一个功能是将SMC的数据的相同GFC相关子集映射至GFC的每个输入数据流,上述输入数 据流是数量(Z个)与SMC流的数量相同的并行GFC流。第三级输出端口冲突检测块所执行的 另一个功能是检测是否有两个SMC正在请求同一第三级输出端口(相同TOR编号或TOR组编 号)。当检测到竞争时,第三级输出端口冲突检测块可以发起竞争请求之一的退避。另外,即 使当两个包流发往组中的不同第三级输出端口时,仍可以为不同的SMC源初始地分配相同 的第二级平面,导致在一个第三级输入端口上有位于不同波长处的两个输入光信号。与该 第三级相关联的GFC可能将此检测成来自SMC的两个相同的第三级输入端口寻址请求(平面 选择),并且使的除了一个源于竞争SMC的连接请求以外的全部请求移动至不同的第二级平 面。这不会影响容纳流量的能力,原因是由于扩张而使得有足够的第二级平面来处理流量 负载。SMC还可以将一些另外的信息连同地址一起传递,例如来自SMC的关联输入交换机矩 阵的每个链接的主要和次要预期第一级输出连接端口,其可以通过SMC来分配以降低在它 们第一级中彼此阻塞的概率,原因是它们独立的请求在第三级输出端口冲突检测块中被放 在一起。因此,可以锁定可以由GFC立即接受的那些请求,由此减少了要通过剩余过程解决 的连接的数量。
[0130]基于正在被处理的帧中的每个包的输出识别组,包目的地组识别块484将波长信 息传递至设置波长块486,设置波长块486调谐本地光源或者从持续接通源的中央库选择正 确的集中源。在另一个示例中,通过TOR中的功能设置了波长。因为波长选择发生在控制流 水线过程中的早期,所以当距TOR的距离相对小时源设置时间要求可以得到缓和,并且该功 能在TOR处被复制用于设置光载波波长。在图16中,有由80个源组成的中央库以及2个80:1 选择器交换机,其中针对每个光源有一系列快速的2:1光栅。快速光栅的速度可以大约〈 1ns,而选择器交换机的速度比快速光栅慢但相比包持续时间而言快得多。
[0131] 第三级输出端口冲突检测块488发生在组扇入控制器476中,组扇入控制器476从 源矩阵控制器468经由正交映射器(未示出)接收了与其自身相关的通信。通过与具体第三 级模块相关联的特定的组扇入控制器来处理输出组的预期地址,并且因此将特定的寻址到 的TOR组发送至该组扇入控制器。在第三级输出端口冲突检测过程中组扇入控制器检测来 自源矩阵控制器的所有通信的输入的重复输出地址请求,并且批准每个输出端口的来自与 其相关联的第三级的一个地址请求而拒绝其他地址请求。这是因为与每个GFC相关联的第 三级矩阵的每个输出端口支持每帧一个包。经批准的包地址被通知回原始源控制器。寻求 竞争输出的容器化包的被拒绝的地址被通知在下一帧中重试。在一个示例中,重试的包地 址优先于新的包地址。第三级输出端口冲突检测步骤将帧中要路由至任意一个输出端口的 包的最大数量减少至1个。这基本上消除了所关注的阻塞,原因是,对于剩余过程,经扩张的 交换机为非阻塞,并且所有路径可以被容纳。
[0132] 在该级处,输入端可以连接至其相应的输出端,并且针对所有连接有通过交换机 和交换机路径的足够容量,但是仍要建立利用第二级的连接路径以避免将AWG-R输出用于 布置一个光信号中的每一个。第一级矩阵和第三级矩阵具有足够的容量来处理当检测并且 解决输出端口冲突时的剩余包连接。连接然后通过第二级来分配以提供通过核心的负载均 衡的程度,使得仅使用第二级输入和输出一次。这可以由非扩张式交换机或扩张式交换机 利用GFC的重复输入地址检测来完成,GFC然后用信号通知适当的SMC来改变平面。该过程可 以通过GFC向SMC转发空闲平面列表来帮助。
[0133] 实现在GFC与SMC之间的经由正交映射器通信的跨核心负载均衡块490有利于每个 第一级输出被使用一次以及每个第三级输入被使用一次。第二级平面改变重叠的输入信 号,导致这些输入信号从不同平面到达,并且因此在不同第三级输入端口上。由此,在该过 程结束时,每个第二级输入和输出仅被使用一次。
[0134] 从SMC到适合的GFC的初始通信还可以包括主要的预期第一级输出端口地址以及 要用作当GFC不接受主要地址时的次要的第一级输出端口地址。由SMC提供的主要的第一级 输出端口地址和次要的第一级输出端口地址两者可以转换成GFC上的可能已经分配给其他 SMC的特定输入端口地址。相对于仅使用主要地址,上述两者已经被分配的概率低。对这些 主要的第一级输出端口和次要的第一级输出端口进行分配使得源SMC处的每个输出端口标 识符至多使用一次。原因是,在2:1的扩张的第一级中,对于每个输入端口存在足够的输出 端口而使得每个输入端口唯一地被分配有两个输出端口地址。这些预期的第一级输出端口 地址以连接请求的形式连通预期的GFC输出端口连接被传递至合适的GFC AFC会基于GFC的 关联第三级交换机模块的特定输出端口已经被分配(即,总体结构输出端口拥塞)而拒绝这 些连接请求中的一些连接请求,但是会接受剩下的输出端口连接请求用于连接映射,并且 会通知请求的SMC。当主要和次要的第一级输出地址以及随后的第三级输入地址通过SMC被 发送时,主要连接请求可能被授权,次要连接请求可能被授权,或者没有连接请求被授权。
[0135] 在主要请求被授权的一种情况中,当连接请求被接受时,由第一级输出端口的主 要选择暗示的第三级输入端口以及随后的第三级输入端口一一其通过第二级的在正确波 长处的固定映射被转化--尚未由GFC针对正被计算的帧分配给该GFC的第三级输入端口。 该请求然后被分配,这构成GFC对来自SMC的主要连接路径请求的接受。该接受被传回至相 关的SMC,其锁存在对于主要输出端口连接的第一级输入端口中,并且使已经分配给潜在的 次要连接的第一级输出端口闲置出,从而可以将该接受复用于重试其他连接。
[0136] 在次要请求被授权的另一情况中,连接请求被接受,然而由第一级输出端口的主 要选择暗示的第三级输入端口并且因此是第二级平面已经由GFC针对正在被计算的帧而分 配给该GFC的第三级,然而SMC的第一级输出端口的次要选择并且因此是第二级平面以及第 三级输入端口尚未由GFC针对正在被计算的帧而分配给该GFC的第三级。在此示例中,GFC接 受来自SMC的第二连接路径请求,并且SMC将该第一级输入端口锁定至第一级输出端口连接 并且使第一级主要输出端口空闲以用于重试其他连接。
[0137] 在另外的示例中,总的连接请求被接受,原因是第三级输出端口闲置,然而由第一 级输出端口的主要选择和次要选择两者以及因此第二级平面暗示的第三级输入端口已经 由GFC针对其他连接而分配给用于正在被计算的帧的该GFC的第三级。在这个示例中,GFC拒 绝(否认授权)来自SMC的主要连接路径请求和次要连接路径请求两者。这发生在主要第三 级输入端口或次要第三级输入端口均不可用的情况下。这导致SMC释放来自其输出端口列 表的临时保留的输出,并且使用来自其空闲端口列表的其他主要输出端口连接和次要输出 端口连接来进行重试。成对的输出端口尝试可以被调换至不同的GFC以解决连接限制。
[0138] 总体而言,SMC对来自GFC的接受的响应要分配第一级输入端与第一级输出端之间 的连接从而建立连接。尚未建立的第一级连接然后被分配给未使用的第一级输出端口,上 述未使用的第一级输出端口的至少一半将保留在2:1的扩张的交换机中,并且重复该过程。 上述未使用的第一级输出端口可以包括:先前未分配的端口、被分配为对于不同GFC主要端 口但未被使用的端口、以及被分配成次要端口但未被使用的端口。此外,当GFC由于第三级 的特定的主要输入端口以及次要输入端口正在被使用而提供拒绝响应时,GFC可以取决于 剩下多少空闲端口以及拒绝通信的数量来添加其自身的主要第三级输入端口或次要第三 级输入端口以及/或者另外的建议。随着该过程继续,剩余端口的拒绝比率增加,因此要转 发更多独特的建议。这些建议通常促进SMC直接选择已知的可工作的第一级输出路径。如果 没有,则该过程重复。该过程继续直到所有路径被分配为止,该过程可以采用几次迭代。可 替代地,在几次循环之后,该过程超时。
[0139] 当负载均衡完成或超时时,SMC生成对于SMC相关联的第一级的连接映射,并且GFC 生成对于GFC相关联的第三级的连接映射以在当该帧中的包传播通过缓冲器并且到达快速 光子电路交换机的包交换结构时使用。当负载均衡完成、负载均衡前进得足够远或者该负 载均衡超时时,第一级SMC和第三级GFC分别地生成对于它们相关联的第一级和第三级的连 接映射。原因为上述映射是针对各个第一级模块或第三级模块并且被组装在先前在包目的 地组识别操作中生成的第一级输入端口波长映射旁边,所以连接映射很小。表4示出了单独 的SMC(SMC#M)连接映射的示例,并且表5示出了基于80 X 80端口AWG-R和12 X 24交叉点交换 机的960 X 960端口 2:1扩张式交换机的GFC连接映射的示例。在此示例中,来自SMC的两个连 接(连接A和连接B)在波长22处终止在GMC上。因此,这两个表示出了 :连接A,完成了从TOR 组,T0R#5至TOR组#22,T0R#5的连接;以及连接B,完成了从TOR组#m,T0R#7至TOR组#22, T0R#11的连接。剩余的SMC#m连接至其他TOR组,并且剩余的GFC#22连接从其他TOR组前往 SMC但非组#m。
[0140]表4

[0145] SMC功能和GFC功能可以实现为硬件逻辑器件和状态机,或者可以实现为专用任务 专用微控制器阵列或这些技术的组合。
[0146] 图17示出了对光子交换系统的抽象正交表示。每个TOR组512包括X个TOR以及与第 一级相关联的组中的分路器。图17未示出短包处理和路由,但是示出了使用容器的长包光 子交换路径。波长选择器510基于SMC514的输出根据目的地组来设置波长。SMC 514与作为 硬件设备的正交映射器(orthogonal mapper,0M)518来沟通其部分连接处理结果,而正交 映射器(OM)又与GFC 526进行沟通,以及GFC 526与正交映射器(0M)518沟通,而正交映射器 (0M)518又与SMC 514沟通。SMC 514还控制作为XXY交换机模块的光子交换机516的配置。 基于来自波长选择器/源510的波长通过作为Z X Z AWG-R的AWG-R 524来交换光子交换机 516的输出。然后通过作为YXX交换机的光子交换机528来交换AWG-R 524的输出,通过TOR 组530来接收上述输出,TOR组530包括X个TOR以及与第三级相关联的合路器。
[0147] 正交映射器提供基于硬件的映射功能,因此SMC的连接请求和响应基于目的地组 地址被自动地路由至适合的GFC,并且GFC的连接响应和反向请求基于源组地址被路由至适 合的SMC。功能上,正交映射器是以下交换机:其中,使用目的地组地址作为消息路由地址来 控制SMC至GFC的信息路由,以及使用源组地址作为消息路由地址来控制GFC至SMC路由。
[0148] 图18示出了用于将一个TOR组中的TOR连接至另一TOR组中的TOR的方法的流程图 670。最初,在步骤672中,SMC建立目的地组、波长和第一级连接。在一个示例中,建立主要第 一级连接(第一级输入端口至输出端口的连接)和次要第一级连接(第一级输入端口至可替 代的输出端的连接)。步骤672可能花费一个至几个帧(例如,4个帧)。当步骤672花费多于一 个的帧时,步骤672可以在并联的多于一个的块中执行,其中上述块处理不同的帧。在另一 个示例中,将此步骤的任务分解成几个子步骤,其中每个子步骤通过子步骤自身专用的硬 件或处理资源来在小于一个帧周期内完成。
[0149] 接下来,在步骤674中,OM将以主要连接请求和次要连接请求的形式将第三级连接 需求从SMC传达至适合的GFC。步骤674可能花费一个帧。
[0150]然后,在步骤676中,GFC拒绝重复的第三级输出端口目的地并且针对每个目的地 端口接受一个连接。此外,GFC识别连接路由冲突,其中多于一个的SMC通过相同的第二级矩 阵连接至GFC的第三级矩阵。步骤676可能花费一个至几个帧(例如,4个帧)。该步骤可以在 并联的多于一个的块中执行,上述块处理不同的帧。在另一个示例中,将任务分解成几个子 步骤,其中每个子步骤通过单独的专用硬件在小于一个帧周期内完成。
[0151] 在步骤678中,OM将所拒绝和所接受的输出目的地端口请求连同所接受的主要连 接请求和次要连接请求传达给适合的SMC,这可能花费一个帧。
[0152] 接下来,在步骤680中,SMC例如使用用于缓冲器/填充器的控制反馈来使得针对同 一第三级输出端口而竞争的被拒绝(竞争)的容器化包延迟至后一帧。竞争的包是针对同一 第三级输出端口而竞争的包。SMC锁在所接受的主要连接请求和次要连接请求中,并且将任 意未利用的第一级输出端口返回可用列表。此外,SMC响应具有新的主要第一级连接请求和 次要第一级连接请求的响应,或者基于SMC的相关联的第一级输出端口占用率来接受来自 GFC的反向请求或连接分配。步骤680可能花费1至3个帧(例如,2个帧)。因此,该步骤可以在 并联的2个或3个块中执行,上述块处理不同的帧。可替代地,将任务分解成2个或3个子步 骤,其中每个子步骤通过其自身专用的硬件在小于一个帧周期内完成。
[0153]然后,在步骤682中,OM针对以下所接受的输出端口连接将接受以及新的主要请求 和次要请求传达给适当的GFC:对于所接受的输出端口连接而言,该GFC尚未接受主要连接 请求和次要连接请求。步骤682可能花费一个帧。
[0154] 在步骤684中,GFC识别残余路由冲突并且接受来自SMC的与可用端口对准的主要 请求和次要请求,再次拒绝未对准的请求。可选地,GFC基于其可用输入映射规划新的反向 请求。步骤684可能花费1个或2个帧。此步骤可以执行在并联的两个块中,上述块处理不同 的帧。可以将此步骤的任务分解成两个子步骤,其中每个子步骤通过其自身的专用硬件在 小于一个帧周期内完成。
[0155] 接下来,在步骤686中,OM将接受和请求传达给适合的SMC,这可能花费一个帧。
[0156] 然后,在步骤688中,SMC响应于来自GFC的接受和请求,这花费一个或两个帧。此步 骤可以并行地执行在两个块中,各自处理不同的帧,或者可以将该步骤的任务分解成两个 子步骤,其中每个子步骤通过其自身专用硬件在小于一个帧周期内完成。
[0157] 在步骤690中,OM在一个帧内将来自SMC的接受和请求传达给适合的GFC。
[0158]接下来,在步骤692中,GFC识别残余路由冲突并且基于其相关联的第三级交换机 模块的输入端口可用性来生成主要请求、次要请求和第三位请求。可替代地,GFC将剩余可 用端口列表发送至当前的SMC。在过程的该点处,存在许多空闲端口以及为它们而竞争的少 量SMC。步骤692可能花费一个或两个帧。因此,该步骤可以并行地执行在两个块中,各自处 理不同的帧,或者可以将该步骤的任务分解成两个子步骤,其中每个子步骤通过其自身专 用硬件在小于一个帧周期内来完成。
[0159] 然后,在步骤694中,OM在一个帧内将来自GFC响应传达给适合的SMC。
[0160] 在步骤696中在一个或两个帧内建立具有SMC连接和GFC连接的连接映射。SMC和 GFC经由OM通信来执行步骤696。因此,该步骤可以并行地在两个块中执行,各自处理不同的 帧,或者可以将该步骤分解成两个子步骤,其中每个子步骤通过其自身专用硬件在小于一 个帧周期内来完成。
[0161] 在步骤698中,在一个帧内通过SMC和GMC来下载第一级交叉点地址驱动器和第三 级交叉点地址驱动器。
[0162] 最后,在步骤700中,当根据填充器/缓冲器而触发时,将地址同步地下载至交叉点 交换机。这花费一个帧。
[0163] 流程图670中的15个步骤持续一个或更多个包间隔。持续多个包间隔的步骤可以 被分解成持续时间是一个包间隔的子步骤。可替代地,在针对控制过程的该部分的换向控 制方法中,多个功能实例并行地运行。在一个使用硬件状态机的示例中,将TOR彼此连接的 连接映射的计算和建立要花费26个帧来完成。在这个示例中,有26个帧同时在流水线式控 制结构的各个部分中正被处理。
[0164] 在该过程花费26个帧的情况下,以每个帧300ns来算,该过程要花费大约7.8ys。然 而,若以每个帧120ns来算,该过程花费大约3.12ys。在这两种情况下,因为连接数据(源地 址和目的地地址)可以根据发生于整个分路器功能、填充功能以及加速功能中的过程中早 期至分路器的输入流量来收集,所以由于控制流水线处理而导致的延迟可以发生相对于通 过缓冲器块/填充器块/加速器块的容器化包延迟一一这可能导致大约16个至40个帧延 迟一一而言的并行路径上。因此,如果该处理延迟所花费的时间小于通过分路器的容器化 包处理的延迟,则该处理延迟不必加至通过交换机结构的延迟。
[0165] SMC所执行的每个步骤可以发生在单独的专用SMC硬件中。可以通过SMC步骤输出 与GFC步骤输出之间的并行路径来对OM进行分层以提供快速正交映射。OM将SMC连接至GFC 以及将GFC连接至SMC,并且用作硬连线的消息映射器。当寻址的形式是TOR组以及TOR组内 的TOR编号并且SMC与GFC之间的通信包括源TOR组和目的地TOR组的头部时,OM可以变成被 一系列竖直数据线或总线横切的一系列水平数据线或总线,在每条水平数据线或总线与每 条竖直数据线或总线之间存在它们在其中交叉的连接电路。该连接电路读取传递地址头部 的TOR组部分,其中有:与GFC相关联的消息的目的地TOR组,以及至相关联的SMC的消息的源 TOR组。如果地址与和其输出线相关联的地址匹配,则OM将消息锁存至与该输出端口相关联 的存储器中。如果地址不匹配,则OM不采取行动。因此,将从SMC沿水平数据线发送的消息锁 存至与竖直线相关联的数据存储器中,所述竖直线基于该GFC的组地址而向适合的GFC进行 馈送。存储器中的数据然后被读出并且与竖直时钟线同步地被馈送至适合的GFC,竖直时钟 线对贯穿存储单元进行菊花链接并且触发存储器单元输出其消息。该时钟被存储器单元延 迟直至存储器单元输出其消息为止。当没有消息要发送(没有连接请求)时,时钟立即经过。 然后将时钟发送至竖直堆栈中的下一个存储器单元。这创建了至接收GFC的致密串行消息 流,其包括来自仅与具体的GFC通信的SMC的相关信息以及上述消息之间的非常小的间隙。
[0166] OM 518具有两组映射功能。一组映射功能将SMC 514连接至GFC526,而另一组映射 功能将GFC 526连接至SMC 514。在全部SMC和GFC同时处理针对先前和随后的包的连接推导 的其他部分的情况下,SMC与GFC之间的消息可能与每个方向仅使用单个OM来传送消息的帧 冲突。在一个示例中,每个帧有三个从SMC至GFC的通信以及每个帧有三个从GFC至SMC的通 信。因此,0M、SMC和GFC可以配置在功能块组中,每个功能块组处理过程的一个或更多个步 骤或子步骤。
[0167] 图19A至图19B示出了作为图17所使用的正交映射器的示例的总体正交映射器功 能体560,该正交映射器功能体560包括两个反向平行的正交映射器一一其中一个正交映射 器将SMC输出映射至相关的GFC输入,而另一个正交映射器将GFC输出映射至相关的SMC输 入。连接请求进入SMC 562。在确定路由信息之后,SMC 562将路由信息传递给适合的GFC。这 可以通过借助于OM 542发送消息来完成,所述消息通过该OM自动地被路由。路由信息附加 有SMC TOR组地址和GFC组地址。SMC TOR组地址被硬编码成SMC,并且GFC组地址是来自源 TOR的输入连接请求的一部分。该信息还用于确定光波长。OM 542包括输入线541、输出线 543和存储器548。存储器548包括:目的地地址组读取器549、可以包括时钟源553的源和目 的地地址存储器551、以及延迟元件555。时钟源553可以存在于竖直列的头(顶)交叉点中, 竖直列通过来自主参考的帧边界来触发,产生沿竖直列向下传播的脉冲以按照顺序来组装 来自存储器单元的输出消息。因此,GFC接收来自第一行SMC以及最后一行SMC的消息,导致 潜在的系统性偏袒。可替代地,时钟线在环路中,并且行和列的交叉处具有时钟生成器及其 时钟源,该时钟源是有源的(生成传播的脉冲),并且每个帧移动一个行。这转动了定序,使 得系统性偏袒不太明显。将来自SMC的消息发送到OM的第一层中,其中,在适合的竖直输出 线处,检测与该线相关联的GFC地址,并且将消息存入源/目的地地址存储器。在输出(竖直) 线上接收时钟脉冲(或生成时钟脉冲)之后,源/目的地地址存储器处的时钟将其内容写入 输出线一一该输出线连接至与该线相关联的GFC,并且将时钟脉冲发送至下一个存储器,该 下一个存储器将时钟脉冲的信息邻接在来自先前源/目的地地址存储器的消息的尾端之 后,从而创建了至与该竖直线相关联的GFC的特定格式的致密信息流。GFC以类似的方式与 SMC通信,通过OM 548发送格式化设定的消息,OM 548被配置成将来自GFC的输入映射至适 合的目标SMC。该信息借助于类似的过程通过OM来映射,从而创建了用于与竖直线相关联的 相关SMC的致密数据流。当SMC与GFC通信时,重复该过程直到已经建立足够的连接或处理超 时为止。然后,针对第一级由SMC以及针对第三级由GFC 566来写出交叉连接映射。
[0168] 当特定的第一级模块的输入在相同的第三级组和第三组交换机模块上终止时,所 述消息包括源组地址和多个目的地组地址,加上SMC所请求的连接的地址,最多有X个主要 地址和X个次要地址(其中X等于每个第一级矩阵的输入的数量)。因此,当单独的SMC的包发 往GFC时,该SMC可以具有针对该GFC的多个同时的连接请求。例如,消息长度、TOR源组地址、 TOR目的地组地址、TOR源和目的地数量、主要端口建议和次要端口建议各自可以是一个字 节。因此对于一个连接总共是六个字节,而对于十二个连接总计是三十九个字节。当大量的 源TOR组试图在一个目的地TOR组汇聚时,多个消息可能从一个GFC线上的多个SMC中输出。 因此,消息传送结构不会饱和直到超过其中与目的地GFC相关联的TOR组完成的点为止。例 如,当有24个连接请求来自24个不同的SMC时,存在有144字节的长序列,该长序列对于全部 来自不同组的24 X 100Gb/s的包流的情况花费大约120ns,而对于全部来自不同组的24 X 40Gb/s的包流的情况花费大约300ns,以上两种情况分别对应大约1.2GB/s(10Gb/s)和大约 480MB/s (3.84Gb/s)。然而,在许多情形中,连接请求较少,例如每个GFC有来自每个SMC的0、 1或2个请求。当在不提出请求的连接的情况下完成初始功能时,在SMC和GFC中存在通过两 个OM的路径以及另一处理循环,然而发送消息下降到96个字节,相应地使速率下降至 800MB/S或320MB/S。例如为了适应实现技术的选择,通过OM的路径可以是半个字节宽、一个 字节宽或更宽。
[0169] 图20A至图20B示出了显示出存在多于给定数量的同时请求的概率的仿真模型的 图。图20A示出了控制方法的仿真模型的图,该仿真模型示出了对于针对图16所示的960端 口交换结构的特定第三级及其对应的GFC而言的存在多于给定数量的同时请求的概率。这 针对该交换机结构的各种过载水平而绘制。
[0170] 包交换机处理基于统计的流量一一任何输入可以在任何时间选择任何输出。为了 控制瞬时过载和包延迟或丢弃的水平,通常在大约30%的平均流量水平之下的水平用于防 止峰值流量有规律地超出100 %。图20A的图示出了可能由图16中的交换机的特定GFC在随 机流量状态下接收的同时请求多于给定数量的概率。曲线580示出了在30 %流量负载的情 况下每个帧的同时访问特定GFC的容器化包的数量的累积概率,曲线578示出了针对40 %流 量负载而言的概率分布,曲线576不出了针对60 %流量负载而言的概率分布,曲线574不出 了针对80 %流量负载而言的概率分布,以及曲线572示出了针对100 %流量负载而言的概率 分布。针对100%流量负载,平均仅58%的包可以被路由至其目的地(94X),剩余的42 %的包 被阻塞,这是因为在与该GFC相关联的交换机模块上缺乏输出端口容量并且反映出目的地 TOR的输入容量缺乏。在流量水平较低的情况下,未到达其目的地的包的百分比急剧下降。 由于与特定GFC相关联的特定第三级模块上的输出端口容量不足而导致:在80%流量负载 处,有17%的包未到达它们的目的地;在60%流量负载处,有3%的包未到达它们的目的地; 在40%流量负载处,有0.13%的包未到达它们的目的地;以及在30%流量负载处,有12,000 分之1的包未到达它们的目的地。因此,以下控制系统消息传送可能令人满意:在超过30% 流量负载的过载条件下不会明显增加损失水平。
[0171]图20B示出了针对同时被路由至一个第三级的包的数量的累积概率的按照对数刻 度来绘出的图20A所使用的相同模型的图。曲线600示出了对于30%流量负载的累积概率, 曲线598示出了对于40%流量负载的累积概率,曲线596示出了对于60%流量负载的累积概 率,曲线594示出了对于80%流量负载的累积概率,以及曲线592示出了对于100%流量负载 的累积概率。当消息结构的过载超过每GFC有24个尝试消息时,不能处理所有接收到的容器 化包地址的概率为0.06%,无论它们是否超出相关联的第三级模块(和相关联的目的地TOR 输入)的用于在100%流量负载处针对至特定GFC的所分配的包地址来处理它们的容量。这 提高至:当80%过载时大约0.0002% ;在60 %流量负载处大约7,000,000分之一个帧;在 40%流量负载处大约2.4*101()分之1;以及在30%流量负载处大约为1.3*10 13分之1。在过载 之前16个消息的减小的消息过载在30 %流量负载处达到5,000,000分之1的过载概率,并且 在60%流量负载处达到840分之1的过载概率。对于120ns帧而言,这将跨越OM的SMC至GFC的 路径的消息传送交易的最坏情况每帧消息传送速率从1.2GB/s减小至SOOMB/s,在一个明显 较低的平均水平上。
[0172] 当潜在的输出竞争被化解,每GFC和SMC最大12个连接保持一些主要和次要连接请 求/授权过程消息传送,这可以在SMC与GFC之间的第一循环中立即被接受,从而将残余消息 传送保持成远在峰值速率之下。
[0173] 图21A至图21C示出了增强型加速器的高层次视图,其结合有IPG间隙延长和填充/ 缓冲器功能以使包速率加速并且适应最短的长包。来自长/短包流分路器的长包流被馈送 至两个串联的加速器。第一加速器使包加速至较高的帧速率并且通过添加包装开销字节以 及在包之后填充空的净荷填充字节来加长包,因此包容器的长度与能够支持最大包长度的 包净荷空间的长度相同,并且包容器的持续时间恒定,有利于同步交换。第二加速器对包容 器进行压缩以使得包间间隔或容器间间隔扩大。
[0174] 在图21A中,示出了对光子交换系统的抽象正交表示。TOR 511包括TOR分路器519。 TOR 517包括TOR合路器521。从分路器519将经填充的容器化包流量流馈送到用于至适合的 波长的转换的相关联电光转换器510中,以实现AWG-R第二级中的组对组连接。然后,在包流 出现并且被馈送到目的地TOR 517的流合路器515的光接收器的输入端中之前,将包流馈送 到第一级516、第二级524和第三级528中。包括第一级516、第二级524和第三级528的核心交 换机的连接由流水线式控制系统来控制,该流水线式控制系统包括源TOR组相关联的SMC 514和TOR组相关联的GFC 528,在SMC与GMC之间有正交映射器518。
[0175] 在图21B至图21C中,长包流从长/短包分路交换机输出进入填充器/缓冲器612。图 2IB示出了示例性TOR分路器,该TOR分路器可以例如用作TOR分路器517。长包流包括在阈值 之上的包。可从交换机或交换机控制获得的包边界还被输入到填充器/缓冲器612。包进入 包边沿同步包转向块614,其中使包转向至存储器阵列616的净荷区域。存储器阵列616的净 荷区域是存储器阵列616的全部位置的一个子集,其中存储器净荷区域足够大以容纳最大 长度包。除净荷区域以外,存储器616还可以具有为包装器头部字节插入而预留的区域,例 如以携带用于在目的地合路器中重构包序列完整性以及包TOR水平源和目的地地址,例如 以确认跨光子交换机的有效连接。
[0176] 在包完全进入存储器区域并且包边界被检测到或被指示之后,将下一个包馈送到 下一个存储器净荷区域中,无论第一存储器净荷区域是否充满。该过程继续直到存储器净 荷区域充满为止,并且开始重设第一存储器,然后将新的包写入第一存储器净荷区域。因为 包边界边沿检测用于根据边界标记的接收来改变对输入的长包流的路由,所以存储器净荷 区域包括一个所存储的包,并且可能不被充满。该过程的速率取决于输入包长度,原因是, 当系统时钟速度恒定时,使包进入存储器净荷区域的时间的长度与包长度成比例,该包长 度可以在长/短阈值(例如,1000字节)紧之上至最大包长度(例如,1500字节)之间变化。
[0177] 与将包写入存储器净荷区域并行地,存储器的包装头部区域加载有头部内容,例 如,固定的前导码、源TOR、TOR组地址、目的地TOR、TOR组地址以及来自图2所示的连接请求 处理机的包的序号,并且经由交换机150而被馈送至缓冲器/延迟器。
[0178] 在将输入包写入一些存储器区域位置的同时,通过输出包存储器编号626循环地 读出其他存储器区域位置。代替读出仅包,整个存储器被读出,创建与最长包加上固定长度 头部的长度等同的固定长度读出。对于具有最大长度的包,整个包加头部被读出。然而,对 于小于最大长度的包,头部加较短的包被读出,随后读出的有包末端以及空存储器位置。通 过包检测器628的末端来检测包的末端,包检测器628经由选择器631来连接填充模式生成 器630,以填充空的时间间隙。因此,通过填充模式生成器630将包填满成长度恒定并且持续 时间恒定。额外填充比特的添加使输出相比输入而言包括更多的字节,因此输出时钟比输 入时钟快。这当输入是完全长度包时提高了存储器区域的输出侧的相对于输入相的读出 相,而当处理大量的较短包时,写入存储器区域的输入相相对于输出相得到了提高。因此, 输入存储器区域换相器的定相是可变化的,而换相器的输出定相平滑。对输出时钟速率的 选择使相对于较短长度包的概率的时钟速度比率均衡。
[0179] 针对所选择的长/短分路水平基于流量水平来将加速器时钟(Sys Clk)增加到所 计算的水平之上。例如,对于来自导致图4至图6的曲线的过程的1.05Sys Clk的所计算的经 加速的时钟,可以将其设置成l.〇65Sys Clk,并且对于l.lSys Clk的所计算的经加速的时 钟,可以将其设置成1.13Sys Clk。即使当具有包的标称混合的流量出现时,输出定相往往 提前于输入定相,这可以在更密集的短包水平下继续。换言之,在输出端尝试输出稍微更多 的经填充的数据的情况下,输出总是赶上输入以创建下溢的情况。将正被加载的存储器区 域的输入包存储器区域编号622与判决块624中的输出包存储器编号626进行比较。当输出 包存储器区域编号十分接近输入存储器区域编号时,代替输出读出前进至下一个存储器区 域,将在恢复正常循环操作之前从伪包块618读出伪包。这将妨碍读出相对于输入存储器区 域定相的存储器定相。当非常大量的接近阈值长度的包被紧密地接收在一起时,可以触发 相对于源的反压力,使得包流减速或者使输入包减少并重新发送输入包。
[0180] 当通过包检测器628的末端来检测包的末端时,选择器631从包读出块620选择包。 然后通过加速器632来增加包间间隙。在使包加速之后,经加速的包在并行转串行块634中 从并行被转换成串行,然后在电光转换器636中从电信号被转换成光信号,光信号将经填充 的容器化包流传播到图21A中所示的光子交换结构中。
[0181] 图21C示出了TOR合路器515,合路器515可以例如用作TOR合路器521。在光子交换 机的另一侧上的填充/缓冲减速器提供用于减少IPG、剥除所述填充以及包装头部内容的逆 向功能,并且使包流速率返回至系统时钟的速率。从图21A所示的交换结构接收包,并且通 过光电转换器638将包从光域转换至电域。然后,通过串行转并行转换器640将包从串行转 换成并行。接下来,通过减速器642来减小包间间隔。
[0182] 通过包检测器644来检测流量包边沿。包和包边沿前进至填充器/缓冲器652,其中 通过块654来使包边沿同步。该包被置于一个存储器区域658中。然后通过包读出器656来读 出包。当按照块648所确定的,输入包存储器编号646接近输出包存储器编号650时,从伪包 块660读取伪包。
[0183] 图22示出了用于光交换的方法的流程图710。最初,在步骤728中,系统确定包的长 度是否小于阈值。当包的长度小于阈值时,包被路由至步骤726,其中对包进行电交换。当包 的长度大于或等于阈值时,包被以光子方式被交换,并且进行至步骤720。
[0184] 在步骤720中,对包进行填充以使得包处于恒定的最大包长度。在一个示例中,最 大包长度为1500个字节。可以通过将包写入恒定长度的多个并联的缓冲器来对包进行填 充,然后读出整个缓冲器。读出的时钟速率可以高于写入包的时钟速率。
[0185] 然后,在步骤712中,选择波长。在一个示例中,通过选择多个波长源之一来选择波 长。在另一个示例中,通过改变可调光源的波长来选择波长。
[0186] 然后,在步骤714中,例如在SMC的控制下通过光子交换机矩阵来交换所选择的波 长的信号。
[0187] 接下来,在步骤716中,通过AWG-R来交换信号。该交换基于通过在步骤712中所选 择的源的波长。
[0188] 在步骤718中,例如在GFC的控制下通过另一光子交换机矩阵来再次交换信号。
[0189] 在步骤722中,对包进行解除填充(un-padded)。这可以通过将包写入几个并联的 缓冲器并且在无填充的情况下读出包来进行。
[0190] 最后,在步骤724中,将经交换的光子包流与经交换的电包流结合。
[0191] 图23示出了用于控制光子交换结构的方法的流程图730。最初,在步骤732中,确定 包目的地组。这是包所去往的TOR组的组号。还可以检测潜在的冲突,并且通过使包延迟来 化解以避免冲突。
[0192] 然后,在步骤734中,设定包的波长。该波长基于在步骤732中确定的包目的地组。
[0193] 接下来,在步骤736中,检测输出端口冲突。在一个示例中,选择期望波长处的光 源。可替代地,光源被调谐至期望的波长。这可以发生在GFC中,GFC从SMC接收通信。当检测 到冲突时,批准了一个地址而拒绝了其他地址。
[0194] 然后,在步骤738中,跨核心来均衡负载。这有利于每个第一级输出和第三级输入 仅被使用一次。
[0195] 最后,在步骤740中,生成连接映射。基于在步骤738中进行的负载均衡来生成连接 映射。
[0196] 尽管在本公开内容中提供了几种实施方式,但是应当理解,在不脱离本公开内容 的精神或范围的情况下,所公开的系统和方法还可以按照许多其他特定形式来体现。本示 例应当被理解为说明性而非限制性,并且本发明并不限于本文所给出的细节。例如,各种元 件或部件可以被组合或结合在另一个系统中,或者某些特征可以被省略或不被实施。
[0197] 此外,在不脱离本公开内容的范围的情况下,还可以将在各种实施方式中描述和 说明为分立或单独性的技术、系统、子系统和方法与其他系统、模块、技术或方法进行组合 或结合。所示出或所讨论为彼此耦合或直接耦合或通信的其他项可以通过某种接口、设备 或中间部件间接地耦合或通信,而不论是按照电方式、机械方式还是其他方式。本领域技术 人员可以在不脱离本文所公开的精神和范围的情况下,发现和确定其他变化、替换和改变 的示例。
【主权项】
1. 一种光子交换结构,包括: 第一级,包括多个第一交换机; 第二级,包括多个第二交换机,其中,所述第二级光耦合至所述第一级;以及 第三级,包括多个第三交换机,其中,所述第三级光耦合至所述第二级,其中,所述光子 交换结构被配置成接收具有目的地地址的包,其中,所述目的地地址包括组目的地地址,并 且其中,所述第二级被配置成根据所述组目的地地址来连接。2. 根据权利要求1所述的光子交换结构,其中,所述组目的地地址是所述多个第三交换 机中的第三级交换机的位置。3. 根据权利要求1所述的光子交换结构,其中,所述多个第二交换机包括多个阵列波导 光栅路由器(AWG-R)。4. 根据权利要求3所述的光子交换结构,还包括设置所述多个AWG-R的连接,设置所述 多个AWG-R的连接包括根据所述组目的地地址来选择波长。5. 根据权利要求1所述的光子交换结构,其中,容器包括同步帧,所述同步帧包括:头 部、第一输入端口中的第一包以及第二输入端口中的第二包,其中,所述头部包括所述目的 地地址。6. 根据权利要求1所述的光子交换结构,其中,所述包包括: 包序号; 源TOR(架顶)组地址; 源TOR组内的各个源TOR地址;以及 目的地TOR组内的各个目的地TOR地址。7. 根据权利要求1所述的光子交换结构,还包括: 所述光子交换结构; 耦合至所述光子交换结构的流量分路器; 耦合至所述流量分路器的电交换结构;以及 耦合至所述光子交换结构和所述电交换结构的流量合路器。8. 根据权利要求1所述的光子交换结构,还包括: 耦合至所述第一级的第一源矩阵控制器; 耦合至所述第一级的第二源矩阵控制器; 耦合至所述第三级的第一组扇入控制器; 耦合至所述第三级的第二组扇入控制器;以及 耦合至所述第一源矩阵控制器、所述第二源矩阵控制器、所述第一组扇入控制器和所 述第二组扇入控制器的正交映射器。9. 一种用于控制光子交换机的方法,所述方法包括: 识别包的目的地组; 根据所述包的目的地组来选择所述包的波长;以及 在确定所述包的波长之后检测所述包与另外包之间的输出端口冲突。10. 根据权利要求9所述的方法,其中,选择所述包的波长包括调谐波长源。11. 根据权利要求9所述的方法,其中,选择所述包的波长包括:通过光选择器将波长源 库中的波长源连接至所述光子交换机。12. 根据权利要求9所述的方法,还包括: 确定所述包的长度是否大于阈值;以及 如果所述包的长度小于所述阈值,则电交换所述包;以及 如果所述包的长度大于或等于所述阈值,则光交换所述包。13. 根据权利要求9所述的方法,还包括:当所述包在阈值之上并且在最大大小之下时, 通过缓冲器来对所述包进行填充以产生经填充的包。14. 根据权利要求13所述的方法,还包括: 确定缓冲器长度; 根据流量需求以及所述缓冲器溢出的概率来确定输出时钟速率;以及 当输出存储器编号与输入存储器编号相距在第一距离之内时,从所述缓冲器读取伪 包,其中,对所述包进行填充包括以输入时钟速率将所述包读入具有所述缓冲器长度的所 述缓冲器并且以所述输出时钟速率将所述经填充的包从所述缓冲器读出,并且其中,所述 输出时钟速率快于所述输入时钟速率。15. 根据权利要求13所述的方法,其中,所述经填充的包的填充长度为1500个字节。16. 根据权利要求13所述的方法,还包括: 光交换所述包;以及 对所述包进行解除填充。17. 根据权利要求9所述的方法,还包括: 光交换所述包; 延迟所述另外包以产生经延迟的包; 光交换所述经延迟的包;以及 将所述包与所述另外包合并,其中,所述包和所述另外包的顺序根据所述包的包序号 以及所述另外包的另外包序号来保持。18. 根据权利要求9所述的方法,其中,所述另外包具有另外目的地组,其中,所述目的 地组与所述另外目的地组相同。19. 根据权利要求9所述的方法,还包括: 对跨多个阵列波导光栅路由器(AWG-R)的负载进行均衡;以及 生成连接映射。20. 根据权利要求19所述的方法,还包括根据所述连接映射来调整交换级中的连接。21. 根据权利要求9所述的方法,还包括: 确定所述包在所述光子交换机的输入端处的包相位; 生成具有时钟相位的交换机时钟帧; 将交换机输入端处的所述包相位与所述时钟相位进行比较以产生相位比较结果; 发送所述相位比较结果;以及 根据所述相位比较结果来调整包源时钟的定时。22. 根据权利要求9所述的方法,还包括: 识别所述另外包的另外目的地组;以及 根据所述另外包的所述另外目的地组来选择所述另外包的另外波长。23. -种生成用于光子交换结构的连接映射的方法,所述方法包括: 针对第一包进行第一连接映射生成步骤以产生第一输出; 在针对所述第一包进行所述第一连接映射生成步骤之后,根据所述第一输出针对所述 第一包进行第二连接映射生成步骤以产生第二输出;以及 在针对所述第一包进行所述第二连接映射生成步骤的同时,针对第二包进行所述第一 连接映射生成步骤。24. 根据权利要求23所述的方法,其中,针对所述第一包进行所述第一连接映射生成步 骤花费小于或等于帧周期,并且进行所述第二连接映射生成步骤花费小于或等于所述帧周 期。25. 根据权利要求23所述的方法,还包括将连接映射发送给正交映射器的步骤。26. 根据权利要求23所述的方法,其中,所述第一步骤包括确定所述第一包的目的地架 顶(TOR)组,其中,所述第二步骤包括根据所述TOR组来确定波长,所述方法还包括: 在进行所述第二步骤之后,检测输出端口冲突; 在检测输出端口冲突之后,对多个交换机中的负载进行均衡;以及 确定所述多个交换机的连接。27. -种光子交换系统,包括: 第一输入级交换模块; 耦合至所述第一输入级交换模块的第一控制模块,其中,所述第一控制模块被配置成 控制所述第一输入级交换模块; 第二输入级交换模块; 耦合至所述第二输入级交换模块的第二控制模块,其中,所述第二控制模块被配置成 控制所述第二输入级交换模块; 第一输出级交换模块; 耦合至所述第一输出级交换模块的第三控制模块,其中,所述第三控制模块被配置成 控制所述第一输出级交换模块; 第二输出级交换模块; 耦合至所述第二输出级交换模块的第四控制模块,其中,所述第四控制模块被配置成 控制所述第二输出级交换模块;以及 耦合在所述第一控制模块、所述第二控制模块、所述第三控制模块和所述第四控制模 块之间的正交映射器。28. 根据权利要求27所述的光子交换系统,其中,所述第一控制模块包括第一流水线式 控制模块,所述第二控制模块包括第二流水线式控制模块,所述第三控制模块包括第三流 水线式控制模块,所述第四控制模块包括第四流水线式控制模块。29. 根据权利要求27所述的光子交换系统,其中所述正交映射器包括: 第一正交映射器模块,其中,所述第一正交映射器模块被配置成:将来自所述第一控制 模块的第一消息传递至所述第三控制模块,将来自所述第一控制模块的第二消息传递至所 述第四控制模块,将来自所述第二控制模块的第三消息传递至所述第三控制模块,将来自 所述第二控制模块的第四消息传递至所述第四控制模块;以及 第二正交映射器模块,其中,所述第二正交映射器模块被配置成:将来自所述第三控制 模块的第五消息传递至所述第一控制模块,将来自所述第三控制模块的第六消息传递至所 述第二控制模块,将来自所述第四控制模块的第七消息传递至所述第一控制模块,将来自 所述第四控制模块的第八消息传递至所述第二控制模块。
【文档编号】H04J14/02GK105917606SQ201580005047
【公开日】2016年8月31日
【申请日】2015年7月17日
【发明人】阿兰弗兰克·格拉维斯
【申请人】华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1