一种硅基集成化的光学向量-矩阵乘法器的制作方法

文档序号:6464562阅读:278来源:国知局
专利名称:一种硅基集成化的光学向量-矩阵乘法器的制作方法
技术领域
本发明涉及用集成光学方式实现的向量-矩阵乘法器,特别涉及一种用 硅基纳米线微环谐振器实现的光学向量-矩阵乘法器。
背景技术
CPU作为应用最广泛的微处理器,是个人电脑、服务器、工作站和巨 型机中最重要的功能单元。CPU的内核主要分为运算器和控制器两部分。 运算器包括算术逻辑单元ALU (Arithmetic and Logic Unit)、浮点运算单 元FPU (Floating Point Unit)、通用寄存器组和专用寄存器组。其中,ALU 主要完成二进制数据的定点算术运算(加、减、乘、除),逻辑运算(与、 或、非、异或)以及移位操作,它由两个输入端和一个输出端组成。我们 通常所说的"CPU是xx位的"就是指ALU—次所能处理的数据的位数。Intd 公司生产的世界上第一块CPU 4004是4位的;而目前Intel公司和AMD 公司推出的个人电脑用CPU己经是64位的了。与ALU用作基本的定点 与逻辑运算不同,FPU主要负责浮点运算和高精度整数运算,有些FPU 还具有向量运算的功能,或者有专门的向量处理单元。早期的FPU是一块 独立于CPU的芯片,作为CPU的协处理器,当需要执行浮点运算时被CPU 调用。从486往后,协处理器都被集成在CPU芯片内,其功能也不再局
限于浮点运算,也可以用来加快特定类型的运算。
ALU和FPU的操作数来自CPU内的寄存器和数据总线。其中,通用
寄存器组是一组最快的存储器,用来保存参加运算的操作数和中间结果。 专用寄存器组通常是一些状态寄存器,不能通过程序改变,由CPU自己 控制,表明某种状态。
运算器只能完成运算,而控制器则用于控制整个CPU中各部分的运 行。控制器分为指令控制器、时序控制器、总线控制器和中断控制器。指 令控制器完成取指令、分析指令等操作,然后交给执行单元(ALU或FPU)来执行,同时还要形成下一条指令的地址。时序控制器的作用是为每条指 令按时间顺序提供控制信号。总线控制器主要用于控制CPU的内外部总 线,包括地址总线、数据总线、控制总线。中断控制器用于控制各种各样 的中断请求,并根据优先级对中断请求进行排队,逐个交给CPU处理。
随着半导体工艺技术的进步,芯片上晶体管的尺寸越来越小,可集成 的晶体管数目越来越多。这样,CPU可以获得更高的主频,而且芯片上能 集成的功能部件更多,由此带来的性能提升在一定程度上满足了各种应用
对CPU性能越来越高的需求。从上世纪70年代到本世纪初,CPU的发展 一直沿用这一模式。然而通过这一途径并不能无止境提高微处理器的性 能。实际上,在2004年,英特尔公司就不得不放弃研制4GHz单核CPU 的计划。更高主频带来的最严重问题是功耗急剧上升,而且漏电与散热问 题无法解决。除了主频难以继续提升,CPU碰到的另一个问题是中央处理 单元对主存储器(内存)数据的读写速度无法提高,这便使得单纯提高处 理单元的速度没有意义。上述事实说明用集成电路方式实现的微处理器的 发展,已经难以继续沿着摩尔定律指出的路线走下去。
对于上面提到的第一个问题,即微处理器性能提升已经难以通过提高 主频实现,有两种解决办法。其一是通过在芯片上集成多个CPU单元, 即采用多核模式来获得更高性能;Intel公司与AMD公司推出的双核与四 核CPU在目前的个人电脑市场已经非常常见。其二是为CPU设置协处理 器,在个人电脑中常见的显卡(Graphic Processing Unit, GPU)就是为CPU 分担图像处理任务的协处理器;另外在高端游戏市场,用来模拟真实场景 的物理加速卡(Physics Processing Unit, PPU)也属于协处理器范畴。
对于CPU与内存的数据交换速度跟不上CPU处理速度的问题,芯片 间及芯片上光互联是一个被广泛关注的解决方案,这是因为硅基光波导的 数据链路带宽远高于集成电路上金属导线的带宽,而硅基光波导技术所利 用的材料及工艺与集成电路技术兼容。
上面几类方法都是针对现有CPU技术所作的改进,核心单元与上世 纪70年代CPU诞生时并无大异。可以预见,由于各种物理原理的限制, 基于集成电路技术的CPU的性能提升会越来越困难。针对这一问题,物 理学家和电子工程师们早就开始考虑采用新的物理原理来实现处理器与计算机,其中主要包括光计算机和量子计算机。虽然基于这些概念的通用 型微处理器距离实用化还有一段距离,但一些关键单元或者原型样机的研 制却非常有意义。由于这些新概念计算机采用一些特殊的物理原理,它们 可能非常擅长处理某一类任务。比如光处理方式就具有并行性高的优点。 这使得它们在目前可会为一些专门任务提供协处理,在未来也许会成为主 流的微处理器及计算机实现方式。
光计算是利用光的产生、调制、传播与收集等过程完成特定计算任务。 例如利用透镜系统就能完成傅立叶变换、相关等运算,其特点是光经过一 次传播即完成运算,速度极快。但是由于采用体光学元件,进行模拟量的 运算,难以与电子学元件集成,模拟光计算系统受制于精度低、可编程性 差等限制而未获得广泛应用。为了解决这些问题,数字光计算的概念逐渐 兴起,数字光计算所处理的信号为数字量,强调与电学元件的集成,因而 具有相对高的精度及良好的可编程性。
本发明提出的集成化光学向量-矩阵乘法器(Vector-MatrixMultiplier, VMM),就属于数字光计算的范畴,并有望成为光计算机的重要功能单元。 它所能完成的向量-矩阵乘法在数字信号处理等领域是非常基本而且重要 的运算,在视频音频数据处理、数据加密与密码分析、雷达与声纳信号处 理等学科中,向量-矩阵乘法都非常常见。由于它的重要性,在应用数学、
计算机科学、光学工程等领域都有大量关于向量-矩阵乘法实现方式的研 究,无论采取电学还是其它的处理方式,它们最关注的问题是如何高效地 实现向量-矩阵乘法。向量-矩阵乘法的电学实现方式主要受制于串行处理 带来的数据吞吐量小、数据传输速率慢的缺点。而用光学方式实现向量-矩阵乘法的最大优点是数据传输速率快,并行性高,数据吞吐量大——这 是由光的物理属性决定的,首先,光波具有极高的频率,能以更快的速率 传输数字信号;其次,不同光束在线性介质中传播时,即使在空间交叠也 不会发生相互作用。
光学向量-矩阵乘法器(Optical Vector-Matrix Multiplier, OVMM)的 理论模型是美国Stanford大学的J. W. Goodman于1978年提出的,发表于 1978年的"Fully parallel, high speed incoherent optical method for performing discrete Fourier transforms" (J. W. Goodman, OPTICS LETTERS, Vol. 2, No.1, 1 3)描述了其实现方法。他利用发光二极管作为输入向量(各二极 管的光强代表向量的元素大小),通过一个掩膜版实现矩阵(掩模版上不 同区域的透过率代表矩阵元素大小),利用光电探测器得到结果向量(各 探测器感受到的光强代表结果向量各元素的大小),成功地实现了 10点的 离散傅里叶变换。虽然学术界立刻意识到了光学向量-矩阵乘法器在光计算 方面的潜在应用前景,但当时无论是光源列阵、空间光调制器矩阵还是光 电探测器列阵的精度、维数和速度都比较低,所以在比较长的时间内这方 面的研究工作进展不大。并且,由于该向量-矩阵乘法器是用体光学元件实 现的,成本高且难以与其它系统集成。另外,由于光信号在自由空间传播 与分集,能量利用率低,系统设计与装调难度大。这些缺点都限制了它的 应用范围。
德国Hagen大学M. Gruber等科学家最早开始集成化的光学向量-矩阵 乘法器的研究,发表于2002年的"Planar-integrated optical vector-matrix multiplier" (Matthias Gruber, APPL正D OPTICS, Vol. 39, No. 29, 5367 5373)记载了他们在半导体晶片上实现光学向量-矩阵乘法器的方法。其基 本思想仍然是J. W. Goodman教授提出的那样,只不过现在光不在自由空 间传播而是在半导体晶片内部传播。J. W. Goodman教授的模型中透镜的 功能在这里采用由刻蚀技术制作的微透镜及衍射单元(DOE, Diffraction Optical Element)实现。由于仍然采用自由传播(在半导体材料内)的方 式实现光信号的分集,系统的能量效率很低,所以对光源与探测器的要求 就很高,这就使得它难以真正实用化。
在专禾UUS4, 620, 293"Opticalmatrixmultiplier"中己公开了一种光学
矩阵-矢量乘法器的装置。其中,利用发光二极管(LED)提供输入矢量, 通过空间光调制器(SLM)提供输入的矩阵,利用光电探测器实现光信号 的探测,实现了光学矩阵-矢量乘法。可见,它即是J. W. Goodman提出的 模型的具体实现。
在专禾IJEPI, 436, 681 "Vector-MatrixMuWplication"中已公开了一种 光学矩阵-矢量乘法器的装置。其中,利用垂直腔面发射激光器(VCSEL) 提供输入矢量,通过多量子阱空间光调制器(MQW-SLM)提供输入的矩 阵,利用光电探测器实现光信号的探测,实现了光学矩阵-矢量乘法。并为
7之设计了算法,函数库,存储器及外围控制单元。尽管它采用了更先进的
器件,但仍然是J. W. Goodman提出的空间传播分集模型的具体实现。 在专利US 4, 125 , 316"Integrated optical matrix multiplier"中己公开了
一种集成化光学矩阵-矢量乘法器的装置。它采用光电导材料波导a与电光 材料波导b制成,当光经过a时,引起b处的电场发生改变,从而对b中 的光发生作用。这其实是利用电场为媒介实现光对光的调制而完成乘法。 但是这种方案需要使用光电导材料及电光材料,与集成电路工艺不兼容。

发明内容
(一) 要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种硅基集成化的光学向量-矩阵乘法器,以便于与电学元件集成,提高信息传递速率,减小信息传递 的延迟,避免模拟光计算系统的精度差、可编程能力弱等缺点以及传统光 学向量-矩阵乘法器空间分集效率低下的问题。
(二) 技术方案
为达到上述目的,本发明提供了一种硅基集成化的光学向量-矩阵乘法 器,该光学向量-矩阵乘法器由周期性排列的纳米线微环谐振器构成,用于 实现NxN矩阵与Nxl向量的乘法,其中NxN矩阵与Nxl向量中的元素
均为0或1。
上述方案中,该光学向量-矩阵乘法器采用绝缘体上硅(SOI)材料制 备,构成该光学向量-矩阵乘法器的基本单元为纳米线微环谐振器(MRR), 基本结构为NxN排布的带热调制机构的MRR。
上述方案中,所述纳米线微环谐振器是直波导相互交叉结构的微环谐 振器。
上述方案中,所述直波导相互交叉结构的微环谐振器由两个相互交叉 的直波导和一个环形波导构成,该环形波导的外边缘同时与相互交叉的两 个直波导相切。
上述方案中,该光学向量-矩阵乘法器的功能实现过程是输入端为N
个MRR的直波导端口,输入信号依原始向量而定,若原始向量某元素为1,则对应端口输入含有N个波长成分的激光脉冲;若原始向量某元素为
0,则对应端口不输入任何信号;该光学向量-矩阵乘法器VMM中每一行 或每一列的N个MRR在静态时谐振波长为、、、...^中的一个,且互不 相同,、、、..丄N依次间隔A、利用热光效应对MRR进行调谐,每次调 谐都将MRR的谐振波长调节至非、、、…;W的任一波长处;在进行向量 -矩阵乘法运算时,某MRR的谐振波长是否进行调节依赖于原始矩阵;若 原始矩阵某元素为1 ,则对相应MRR不予调节;如果原始矩阵某元素为0, 则调节相应的MRR;在VMM输出端的N个端口收集光,所得光强依次 为向量-矩阵乘法所得结果向量的N个元素。
上述方案中,该光学向量-矩阵乘法器在采用DMAC算法时实现无符 号定点数乘,在采用DP算法时实现无符号定点整数向量-矩阵乘法。
上述方案中,该光学向量-矩阵乘法器利用激光脉冲的有无表示数字信 号的1与0,当表示1时激光脉冲中含有N个波长成分,当表示0时不输 入任何信号;VMM的N个输入端对应向量的N个元素,若向量某元素为 1,则对应端口输入含有N个波长成分的激光脉冲,若向量某元素为0, 则对应端口不输入信号;N个波长成分的激光脉冲由N个激光器通过合束 得到。
上述方案中,该光学向量-矩阵乘法器中NxN排布的带热调制机构的 MRR与NxN矩阵对应,在静态时,每一行及每一列的N个MRR均拥有 不同的N个谐振波长^、 、..AN;同一行或同一列的N个MRR谐振波长 互不相同;若矩阵某元素为1,则相应MRR不进行调节,保持静态时波 长;若矩阵某元素为0,将相应MRR调节至在^、、..丄N处都不谐振。 上述方案中,该光学向量-矩阵乘法器可实现带符号定点/浮点数乘。 上述方案中,该光学向量-矩阵乘法器作为运算器,与外围集成的寄存 器、控制器一起,构成协处理器或通用微处理器。
(三)有益效果 从上述技术方案可以看出,本发明具有以下有益效果 本发明提供的硅基集成化的光学向量-矩阵乘法器,利用现成的工艺技 术,使得器件体积小,功耗低,扩展性好,便于与电学元件集成;利用激200810116741. 0
光脉冲传递信息,速率高,延迟小;用数字方式进行信号处理,避免了模
拟光计算系统的精度差、可编程能力弱的缺点;用高折射率差波导传导光,
避免了传统光学向量-矩阵乘法器空间分集效率低下的问题。


图1为交叉结构的微环谐振器(MRR); 图2为用来调谐各个MRR的电极结构;
图3为基于MRR的集成化向量-矩阵乘法器(VMM)的结构示意图; 图4为本发明提供的VMM执行一次向量-矩阵乘法的详细过程示意
图5为正EE 754标准规定的单精度浮点数表示格式。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。
本发明提出的集成化光学向量-矩阵乘法器,是用硅基纳米线波导实现 的,它用激光脉冲表示二进制数字信息,完成向量与矩阵的乘法运算。与
之前各种实现方式相比,本发明的突出优点是利用现成的工艺技术,使 得器件体积小,功耗低,扩展性好,便于与电学元件集成;利用激光脉冲 传递信息,速率高,延迟小;用数字方式进行信号处理,避免了模拟光计 算系统的精度差、可编程能力弱的缺点;用高折射率差波导传导光,避免 了传统光学向量-矩阵乘法器空间分集效率低下的问题。本发明提出的集成 化VMM之所以具有这些优点,与它所采用材料的属性及器件工作原理关 系密切。
首先,在材料方面,本发明采用的是绝缘衬底上的硅 (Silicon-on-insulator, SOI)材料。SOI是指在绝缘层上生长一层具有一 定厚度的单晶硅薄膜,它具有材料制备工艺成熟、与CMOS (Complementary Metal-Oxide-Semiconductor Transistor, CMOS)工艺兼容、 折射率差大等优点,这使它成为硅基光子学领域广泛使用的材料。SOI波 导的芯层为硅,材料折射率为3.5,包层为空气或二氧化硅,二者的材料
10折射率分别为1与1.44。由于芯层和包层的折射率差很高,SOI波导的光
场限制能力很强。高的折射率差使得弯曲波导的弯曲损耗很低,弯曲半径 为5微米时的弯曲损耗仍然很小,这使得在一个芯片上实现多个不同形状 与功能的SOI波导器件的集成成为可能;而传统波导器件的弯曲半径普遍 在毫米甚至厘米量级,极大的占用了芯片面积, 一个芯片上通常只能放下 一个器件。
其次,在器件方面,本发明的基本单元为基于硅基纳米线波导的微环
谐振器(Micro-Ring Resonator, MRR),它是一种功能多样,性能优越, 近年来被广泛研究的集成光学元件。图1为交叉结构的微环谐振器结构图, 它由两个相互交叉的直波导和一个环形波导组成。利用微环谐振器结构可 以实现光开关、光调制器、光滤波器、光分插复用器等很多光通信用功能 器件。由于环形波导的半径可以达到5微米,其器件结构非常紧凑,可以 实现密度为105/cm2以上的高集成度,因此在一个芯片上能够同时集成多 个功能器件,提高整个系统的性能,减少分立器件的耦合损耗,同时降低 器件的封装成本。
下面通过分析光信号在图1所示的MRR中的传输过程,简要说明其 工作原理(1、 3端口之间的直波导称为a,与之垂直的直波导称为b):
(1) 、 一定波长的激光光脉冲信号由1端口输入,进入MRR后在直 波导中向前传播。尽管SOI纳米线波导折射率差大,光场限制能力强,但 仍有倏逝场弥散到波导之外;
(2) 、在光信号经过环形波导时,由于环形波导材料折射率比周围材 料高,根据电磁场传播的基本规律,光场将向折射率高的区域传播,所以 直波导中的光场将有一部分通过倏逝场耦合进环形波导中;
(3) 、如果光信号的波长满足谐振条件(mxl NgX2兀xR,其中m为 整数,人为光信号波长,Ng为环形波导的群折射率,R为环形波导半径), 那么光脉冲在环形波导中传播若干圈之后,其能量将几乎全部由a耦合进 环形波导,并由环形波导耦合进b,最终由2端口输出(2端口称为下路 端,上述过程称为下路)。而如果光信号的波长不满足所谓的谐振条件, 那么尽管部分光场会从a进入环形波导,但最终仍会回到a中,然后几乎 全部由3端口输出(3端口称为直通端,上述过程称为直通)。上面分析的是MRR的静态工作特性,即MRR固定地使某些波长信 号下路,某些波长信号直通。实际工作时,需要实时调节MRR的谐振波 长以完成各种各样的功能。下面对谐振波长计算公式mx ^NgX27ixR进行 分析,从而得出如何调节MRR使得它的下路波长动态可调。
通过上面的谐振波长计算公式可以看到,要调节谐振波长以实现动态 滤波,可以改变的物理量有环形波导的半径R及其群折射率Ng。而前者 在工艺完成之后就确定下来,无法进行调节。所以只能调节环形波导的群 折射率Ng。
硅材料具有热光效应,即硅材料的折射率随温度变化而变化,利用这 一性质可以实现对Ng的调节。利用溅射技术在微环上生长金属电极,加 电后金属电极发热,热场传导至波导,使波导的温度发生变化,环形波导 的折射率Ng随之变化,带来MRR谐振波长入的改变,从而实现动态调谐 ——即对于某一特定波长,可以通过电信号控制使它或者从下路端,或者 从直通端输出。
硅材料的热光效应可以用下式表示
dn/dT=9.48xl(r5+3.47xl(T7xT-1.49xl(r10T2+… (1) 其中dn为折射率变化量,dT为温度变化量,T为环境温度。在常温 下,dn/dT=1.86xlO'4/K。折射率随温度的升高而增大。Si的大热光系数和 高热导率(dsrl.49W/cm'K)可以保证SOI的热光调节有较快的响应速度。 同时,埋层Si02的热导率很小,只有Si的百分之一,可以有效的起到绝 热的作用,减少热量散失,降低开关功耗。因此SOI是很好的热光效应材 料。
另夕卜,从谐振波长计算公式mx^NgX2;rxR还可以看出,由于m只能
取整数值,微环形谐振器的谐振波长是离散的,相邻两个谐振波长的间隔 称为自由光谱范围(Free spectral range, FSR),其值可以表示为 FSR^2/(NgX2兀xR) (2)
其中U为谐振波长计算公式中整数m对应的谐振波长,FSR是(m-l) 与(m+l)所对应谐振波长与^的间隔,由(2)可见FSR与环的半径成 反比。受弯曲损耗的限制,微环的半径通常不小于5微米,此时FSR的通 常为十几个纳米。本发明拟采用的波段为光通信中常用的1.55pm附近区域,信道间隔 为lOOGHz,对应的波长间隔约为0.8mn。由谐振波长计算公式可以得到
谐振波长变化与折射率变化的关系
ANg=NgxAAA (3) 如果想调节谐振波长至相邻的一个信道波长,即波长变化0.8nm,那 么对应的折射率变化大约为0.0023 (计算时采用Ng的近似值4.5),对应 的温度变化约为12K。根据(4)与(5试可以分别对器件的功耗和响应时间进 行计算,P为器件功耗,T为响应时间。对4x4的向量-矩阵乘法器,其最 大功耗约为48mW,响应时间为0.1ixs。
(4)
(5)
(4)中AT为温度变化量,(^02为Si02的热导率,有效加热面积 Sefi=WxL, W为波导宽度,L为整个热极的长度,(^02为上包层Si02厚度; (5)中H为波导高度,Psi与Csi分别为Si的密度和比热容。图2为热调制 结构的截面示意图,硅基波导外包裹着一层Si02, 一方面是对光场起到限 制作用,防止光场向衬底泄漏以及杜绝上面加热电极金属对光场的吸收, 减小损耗;另一方面,由于Si02的热导率低,可以隔绝芯层向衬底传导的 热量,保证功耗较小。
"12"13"14、
"22"24c2
X
032"34c3
"41"42"44
V5c
(6)
本发明提出的向量-矩阵乘法器中的光信号沿着高折射率差SOI波导 传播,所以能量分集的效率远高于前述两种自由传播的方案(自由空间传 播和半导体晶片内自由传播)。在SOI晶片上设计制作二维排布的MRR, 按一定规则输入光脉冲信号,就能实现基于硅基纳米线波导的集成化光学 向量-矩阵乘法器。由于在SOI材料上用CMOS工艺制备电学元件非常方
13便,所以可以在这里提出的集成化向量-矩阵乘法器外围设置寄存器与控制 器等元件,并设计特殊的指令集,从而形成一个光电混合集成的系统,它 可以被设计为实现某种特殊功能,即作为高性能协处理器,甚至可以被设
计为高性能通用型微处理器。(6)式所示即为本发明提出的VMM所能进 行的运算,其中的4x4阶矩阵A与4xl阶向量B作乘法得到向量C,矩 阵A和向量B的元素均为二进制量(非0即1)。这一运算可以分解为向 量B与矩阵A的4个行向量分别做内积的过程,所得的4个结果即为向 量C的4个元素。下面将分析这一运算过程如何在本发明提出的二维MRR 组成的VMM中用光脉冲的传递与收集过程实现。
图3是本发明提出的MRR型VMM的结构示意图,它可用来完成(6) 式中的4x4阶矩阵A与4xl阶向量B的乘法运算。需要指出的是,图3 中的MRR在静态时各自拥有自己的谐振波长(为、 、四个波长中的一 个,已分别在图3中标注)。静态时16个MRR的谐振波长均为、、X2、 X3、 入4中的某一个,分布特点是每一行或每一列中的4个MRR谐振波长各 不相同(图3中给出的是一种合乎要求的谐振波长分布方式)。当VMM 工作时,各个MRR的谐振波长可能保持不变,也可能会被调谐至另一处 (非、 人4四个波长中的任何一个)。假设M 、波长两两间隔为AX,那 么在调谐时只需将谐振波长调离原位置(当然也可以是其它位置,比 如3AX/2)。
4个输入端口Ii (i=l,2,3,4)分别代表向量B的四个元素,当bi等于 l时,Ii端输入含有、 人4四个波长成分的光脉冲,当bi等于0时,Ii端不 输入任何信号。16个微环谐振器& (i, j=l, 2, 3, 4)代表矩阵A的16个 元素,如果ay等于1,那么对&不予调节(即谐振波长如图3中标注的 那样),如果ay等于0,那么就将Rij调离原位置AA/2(或其它值,如3AX/2, 使该MRR在、 ^任一波长处都不谐振)。4个输出端口Oj (j=l, 2, 3, 4)代表结果向量C的四个元素,在Oj处探测到的光功率值即反映了Cj的 大小。
下面按照光脉冲在图3所示结构中的传播过程来分析向量-矩阵乘法 的实现过程
(1)、假设参与运算的向量B呵l,O, 1, l],矩阵A的第一行为Al=[l,1, 0, l]。那么按照上面的设计,Ih 13和14端口均输入含有、 人4四个波 长成分的光脉冲,而l2端口不输入任何信号。Ru、 R12、 Rw将不予调制, 即分别在、、X2、、处谐振,R13则被调离静态谐振波长(静态时,R13 在、处谐振),使其在、 人4任一波长处都不谐振;
(2) 、 14端口处输入的光脉冲沿着直波导传播,当它们经过环形
波导时,由于Ru、 P44分别在、和、处谐振,h中的、成分和l4中的^ 成分将会被导引至各自的下路端口,从而汇聚到一起并从Oi端口输出; 其它波长成分则继续在直波导中传播;
(3) 、 13端口尽管有光脉冲输入,但是由于R3在、 、任一波长处 都不谐振,故l3中的全部光信号将继续沿着直波导传播,而对Ch端口的
输出没有贡献;
(4) 、对于12端口,尽管Ru在入2处谐振,但是l2端口没有输入光信
号,所以它对Ch端口的输出也没有贡献。至此,已经分析了所有四个输 入端口的情况,得到输出端口 0!的输出为2。可见,只有当某端口有光脉 冲输入(向量中对应元素为1),其对应的第一行MRR未被调离原谐振位 置(对应矩阵元素为1)两个条件同时满足时,此端口才对第一行的输出 结果有贡献。该过程实际上完成的便是向量与矩阵第一行的内积;
(5) 、如果矩阵A的第二行为A尸[l,O,O,O],那么I!端口输入光脉冲 中的^成分将被导引至02 (因为R^在、处谐振)。而其它输入端口的光 脉冲将沿着直波导向前继续传播(因为这三个MRR都被调离原谐振位置, 在^ 、任一波长处都不谐振),对02的输出没有贡献,所以输出端口 02的输出为1;
(6) 、余下两行的分析与前面完全一致,可以看到,这样设计的MRR 二维组合,按一定规则进行光信号的输入,可以完成二进制量的向量-矩阵 乘法。更大规模的向量-矩阵乘法可以通过完全类似的设计予以实现。
图4则用一个具体例子描述了本发明提出的MRR型VMM完成一次 向量-矩阵乘法的全过程。
上面的描述表明,本发明所提出的VMM可以进行二进制量的向量-矩阵乘法。实际上,通过设计合适的算法,该VMM可以完成两个无符号 定点数的乘法,或者可以完成无符号定点数向量-矩阵的乘法。如果集成必要的电学辅助单元,那么它也可以完成浮点运算。这些运算的具体实现办 法,将在下文予以详细介绍。
通过上面的分析可以看到,本发明提出的集成化光学向量-矩阵乘法器 能完成的基本操作是二进制量的向量-矩阵乘法,结合一定算法,可以完成 定点数的运算,而进一步集成电学辅助单元的话,还能完成浮点运算。
所以,如果在本发明提出的VMM外围集成合适的控制器与存储器及 其它必要功能组件,并为其设计特殊的指令集,这一运算器将很有希望作 为核心单元实现光电集成微处理器,它能被设计为处理特殊数值计算任务 的协处理器,或者被设计为进行一般任务处理的通用型微处理器。
如图1所示的微环谐振器(MRR)是本发明实现向量-矩阵乘法功能 的基本单元。MRR有两种基本结构,图1所示的直波导相互交叉是其中 之一,另外还有直波导相互平行的结构(环形波导处在两平行波导之间)。 交叉结构的MRR具有的二维扩展性好的优点,主要缺点在于交叉节点会 引入一定损耗。
下面介绍单个MRR的制造工艺。首先依照谐振波长、偏振与损耗特 性、调谐特性等方面的要求,设计好MRR的几何结构和热调制结构(电 极)。然后就可以利用半导体工艺在SOI材料上制作MRR及其热调制机构, 下面介绍具体步骤
步骤l、将设计好的MRR版图制成光刻版;
步骤2、依照设计,选择SOI片进行清洁处理,得到待处理的SOI片, 其顶层Si厚度依设计选定,为波导芯层的厚度。埋层Si02的厚度则要保 证以顶层Si为芯区的波导中光场不会泄露到衬底Si中, 一般埋层Si02的 厚度在1 3pm;
步骤3、在SOI片上均匀涂敷光刻胶层,对其进行烘焙、坚膜,并在 光刻机中用紫外光机将光刻版的线条方向与硅片的参考边调整至平行,对 光刻胶曝光;
步骤4、在显影液中对光刻胶显影形成光刻胶图形,并再次烘焙; 步骤5、以光刻胶层的剩余部分为掩模,采用反应离子刻蚀工艺去除 腐蚀窗口的顶层Si。反应离子刻蚀是指利用能与被刻蚀材料起化学反应的 气体,通过辉光放电使之形成低温等离子体,对晶片表面未被掩蔽部分迸行腐蚀。它利用活性离子对衬底的物理轰击与化学反应的双重作用进行刻 蚀,具有良好的形貌控制能力(各向异性)、较高的选择比和较快的刻蚀速 率。正是它的这些优越性使得它成为目前应用范围最为广泛的干法刻蚀。 反应离子刻蚀工艺包括六个步骤(l)刻蚀物质的产生射频电源施加在 一个充满刻蚀气体的反应腔上,通过等离子体辉光放电产生电子、离子、 活性反应基团;(2)刻蚀物质向硅片表面扩散;(3)刻蚀物质吸附在硅片 表面上;(4)在离子轰击下刻蚀物质和硅片表面被刻蚀材料发生反应; (5)刻蚀反应副产物在离子轰击下解吸附离开硅片表面;(6)挥发性刻 蚀副产物和其它未参加反应的物质被真空泵抽出反应腔。整个过程中有诸 多的参数影响刻蚀工艺,其中最重要的是压力、气体比率、气体流速、 射频电源。另外硅片的位置和刻蚀设备的结构也会对刻蚀工艺,因此在实 际生产中,针对不同的刻蚀膜质设备厂家设计不同的设备,提供不同的气 体配比以达到工艺要求。在这一步中,需要严格控制刻蚀条件,避免侧向 钻蚀;
步骤6、去除光刻胶层的剩余部分,得到图形转移之后的二维MRR 结构;
步骤7、利用溅射技术在MRR的相应部位生长用于热调制机构的金 属电极。溅射是微电子制造中,不用蒸发而进行金属膜淀积的主要替代方 法。溅射的台阶覆盖比蒸发好,辐射缺陷远小于电子束蒸发,在制作复合 材料膜和合金时性能更好,这些优点使得溅射金属淀积技术成为大多数硅 基工艺的最佳选择。溅射系统主要包括真空腔、溅射靶和待淀积圆片。溅 射耙含有所要淀积的材料,溅射时将其放置在真空腔中具有最大离子流的 电极上。在溅射金属时, 一般采用速率高的直流溅射。为了收集尽可能多 的出射原子,阴极与阳极应相距10cm以下。用某种惰性气体充入真空腔, 使腔内气体压力维持在0.1Torr左右,这使得平均自由程有几百微米的量 级。
经过上面这些步骤,精确控制工艺过程,就可以得到预先设计的MRR 及其热调制结构。
图2所示为MRR的热调制机构,加电后金属电极发热,热场传导至 波导,使波导的温度发生变化,环形波导的折射率Ng发生变化,MRR的谐振波长人随之变化。
图3所示即为二维排布的MRR组成的向量-矩阵乘法器,它也采用 SOI材料制造,工艺过程与上面介绍的单个MRR的制造工艺一样,只是 其中的每个MRR都拥有自己的谐振波长,这可通过不同的波导尺寸(包 括MRR中直波导与环形波导的间距、环形波导的截面尺寸)来实现。
上面介绍了用于实现向量-矩阵乘法的MRR型VMM的器件制造过 程,下面通过举例介绍如何通过算法与电路设计,使其可以完成更复杂计 算任务。包括无符号定点数的乘法,向量-矩阵乘法,以及浮点数的乘法及 向量-矩阵乘法。
假设要进行a=7与b=12的乘法。首先将它们写为二进制数a=0111、 b=1100。 DMAC (Digital Multiplication by Analog Convolution)算法的基 本思想是将a序列与b序列做巻积,将所得结果(若干分立值)加权相加 即得到乘法结果。而巻积的过程可以通过向量-矩阵乘法实现,如下式所示
00o扁—0—
00000
0
00011
1
00112
1
01102
1
1100一1
10000—
式(7)中的矩阵为b"反转"所得的"ooir不断向左平移得到,平移规 则是"ooir的第一个o进入矩阵第一行,作为第四个元素,另外3个元 素补零;"ooir,的前两个o进入矩阵第二行,作为第三、四个元素,另外 2个元素补零;"ooir的"oor进入矩阵第三行,作为第二、三、四个元素, 另外i个元素补零;"ooir的"ooii"进入矩阵第四行,作为第一、二、三、
四个元素;"0011"继续左移,得到矩阵余下部分。(7)式中的向量为a。 令结果向量为C,其意义通过下面的运算可以看到
0x2。+0x2!+l x22+2x23+2x24+l x25+0x26=84 ( 8)
而84正是要计算的a=7与b=12的乘法结果。
上面的过程可以总结为,两个N-bit的无符号定点整数的乘法,可以 归结为一个Nxl阶向量与一个(2N-1) xN阶矩阵的乘法,将结果向量元素按一定规则加权相加即可得到预想的乘法结果。结果向量的加权相加过
程由电学元件完成,加权规则为sum-Scix2i'1 (其中c为结果向量,sum
为最终结果)。
由于本发明提出的基于MRR的VMM由半导体工艺制作,器件体积 小,能量利用率高,便于扩展,所以可以被设计为用来实现二进制Nxl 阶向量与(2N-1) xN阶矩阵的乘法,从而实现两个N-bit的无符号定点整
数的乘法。
下面再通过一个例子介绍如何采用DP (Digital Partitioning)算法,实 现元素为无符号定点整数的向量-矩阵乘法。假设要进行的运算为
71223——6,—222—
1568014198
X
2913187
10116251
(9)
令式(9)中的矩阵为A,乘法向量为B,结果向量为C。首先,将A 和B写作二进制形式,如下
—0111110000100011——0110-
11110110100000001110
0010讓110101010011
00010000101101100010
(10)
将A分解为4个矩阵,B分解为4个向量:
-100r—101r—1100——01 0o-
100011001100,4 =10 10
,4=
I01111000001101 10
10100011000100 10
0110
0111
A =11=00(12)
0100
(11)
上述分解的规则是,Ai为A的最低比特位,A2为A的次低比特低位, A3为A的次高特低位,A4为A的最高特低位;B的分解也是按这样的方 式进行。将A^ A2、 A3、 A4与B,、 B2、 B3、 B4两两作乘法,得到如下16
19个结果:
<formula>formula see original document page 20</formula>
与(9)式比较可知,这就是要求的结果向量。
总结上面的过程,我们可以将M-bit数的向量-矩阵乘法,分解为M2
次二进制量的向量-矩阵乘法,将它们的结果加权相加便是最终结果(上面 例子中M-4)。利用本发明中的单个VMM进行M"欠运算,或者采用M2
个VMM进行一次运算,将结果加权相加便可得到最终结果。结果向量的 加权相加过程由电学元件完成,加权规则见(15)式。
上面介绍了无符号定点整数的乘法,对于有符号定点小数,由于其小 数点位置固定,可以先将其当作整数处理,得到结果后再将小数点加上。 用电学方式对二操作数的符号位作异或,得到结果的符号。具体过程不再 赘述。至此,我们介绍了如何用本发明计算定点数的乘法及向量-矩阵乘法。
下面再介绍如何用它实现浮点数的运算。IEEE 754定义了32位的单精度 浮点数表示格式,如图5所示。其中S为符号位,0表示正,l表示负;E 为指数位,采用偏值表示法,真正的指数等于E减去偏值(常数127); 最后一个部分为M,为有效数字位存储"规格化"(规格化的有效数字均为 "l.xxxx"的形式)后小数点右边的数值(即为"xxxx")。由于采用2作为基
数,所以单精度浮点数所表示的数值大小为
F=(-l)sx l.Mx2(E-127) (17) 依然通过举例来说明,为了简便,下面的数的浮点表示中M取7,偏 移量取4。假设要进行乘法的两个浮点数为A= -23.625和B=6.28125作乘 法,实际结果为-148.39453125。将A、 B两数写为IEEE 754所要求的形 式为A=-1.0111101x24(S=l,M=0111101,E=1000),B=1.1001001x22(S=0, M=1001001, E=0110)。下面描述乘法过程
(1) 、操作数A与B进入VMM和电学单元组成的乘法器后,被分 解为S、 M、 E三个域,分开处理,M中隐含的'l'要添加回来参与运算;
(2) 、 A与B的符号位进行异或,得到结果的符号,易知结果为1 (SA=1, SB=0),及乘法结果为负;
(3) 、随后将A与B的指数相加,由于采用偏移量表示,所以要从 结果中减去一个偏值ES= EA+EB-偏移量- 8+6-4=10 (EA=1000, EB=0110),即结果的指数项为IO (其中仍含有偏值4);
(4) 、上面的步骤(逻辑运算及定点整数加法)都是用传统的电学方 式完成的,而两操作数尾数相乘的步骤由光学向量-矩阵乘法器完成;
(5) 、将M中的'l,添加回来之后,MA=1011, 1101, MB=1100, 1001,
二者均为定点小数。根据前面定点数的乘法的实现方式可知,要完成MA 与MB的乘法,只需进行15x8的矩阵与8xl的向量的乘法,MA或MB 中的一个生成15x8矩阵,另一个生成8xl向量,将结果加权相加后再考 虑小数点位置;
(6) 、上一步15x8的矩阵与8xl的向量的乘法所得结果为 37989=1001010001 100101,考虑小数点位置,结果为10.01010001100101;
(7) 、所以最总结果的浮点表示为S=l, M=0010100 (1己经隐去,
21上一步结果8位之后的被忽略),E=ll (因为上一步结果对指数有贡献)。
下面对结果进行验证,符号为负,M=1.0010100=l.15625,指数为7 (步骤(3)得到10,步骤(7)之后指数变为11,减去偏值4得到实际 指数);最终结果为-U5625x27= -148,与真实结果-148.39453125接近。
误差来源是在步骤(7)中M的一部分尾数被略去。
至此,介绍了浮点数乘法的实现。实际上,浮点数的乘法是转化为定 点数的乘法来实现的。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1、一种硅基集成化的光学向量-矩阵乘法器,其特征在于,该光学向量-矩阵乘法器由周期性排列的纳米线微环谐振器构成,用于实现N×N矩阵与N×1向量的乘法,其中N×N矩阵与N×1向量中的元素均为0或1。
2、 根据权利要求l所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器采用绝缘体上硅SOI材料制备,构成该 光学向量-矩阵乘法器的基本单元为纳米线微环谐振器MRR,基本结构为 NxN排布的带热调制机构的MRR。
3、 根据权利要求1或2所述的硅基集成化的光学向量-矩阵乘法器, 其特征在于,所述纳米线微环谐振器是直波导相互交叉结构的微环谐振 器。
4、 根据权利要求3所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,所述直波导相互交叉结构的微环谐振器由两个相互交叉的直波导 和一个环形波导构成,该环形波导的外边缘同时与相互交叉的两个直波导 相切。
5、 根据权利要求1所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器的功能实现过程是输入端为N个MRR的直波导端口,输入信号依原始向量而定,若原 始向量某元素为l,则对应端口输入含有N个波长成分的激光脉冲;若原 始向量某元素为0,则对应端口不输入任何信号;该光学向量-矩阵乘法器VMM中每一行或每一列的N个MRR在静态 时谐振波长为、、X2.. AN中的一个,且互不相同,、、、..丄N依次间隔 利用热光效应对MRR进行调谐,每次调谐都将MRR的谐振波长调节至 非入卜^...^的任一波长处;在进行向量-矩阵乘法运算时,某MRR的谐振波长是否进行调节依赖 于原始矩阵;若原始矩阵某元素为1,则对相应MRR不予调节;如果原 始矩阵某元素为0,则调节相应的MRR;在VMM输出端的N个端口收集光,所得光强依次为向量-矩阵乘法 所得结果向量的N个元素。
6、 根据权利要求l所述的硅基集成化的光学向量-矩阵乘法器,其特征在于,该光学向量-矩阵乘法器在采用DMAC算法时实现无符号定点数 乘,在采用DP算法时实现无符号定点整数向量-矩阵乘法。
7、 根据权利要求l所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器利用激光脉冲的有无表示数字信号的1 与0,当表示1时激光脉冲中含有N个波长成分,当表示0时不输入任何 信号;VMM的N个输入端对应向量的N个元素,若向量某元素为l,则 对应端口输入含有N个波长成分的激光脉冲,若向量某元素为0,则对应 端口不输入信号;N个波长成分的激光脉冲由N个激光器通过合束得到。
8、 根据权利要求1所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器中NxN排布的带热调制机构的MRR与 NxN矩阵对应,在静态时,每一行及每一列的N个MRR均拥有不同的N 个谐振波长、、X2.. 同一行或同一列的N个MRR谐振波长互不相同; 若矩阵某元素为1,则相应MRR不进行调节,保持静态时波长;若矩阵 某元素为0,将相应MRR调节至在、、^…人N处都不谐振。
9、 根据权利要求1所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器可实现带符号定点/浮点数乘。
10、 根据权利要求1所述的硅基集成化的光学向量-矩阵乘法器,其特 征在于,该光学向量-矩阵乘法器作为运算器,与外围集成的寄存器、控制 器一起,构成协处理器或通用微处理器。
全文摘要
本发明公开了一种硅基集成化的光学向量-矩阵乘法器,该光学向量-矩阵乘法器由周期性排列的纳米线微环谐振器构成,用于实现N×N矩阵与N×1向量的乘法,其中N×N矩阵与N×1向量中的元素均为0或1。该光学向量-矩阵乘法器采用绝缘体上硅材料制备,构成该光学向量-矩阵乘法器的基本单元为纳米线微环谐振器(MRR),基本结构为N×N排布的带热调制机构的MRR。本发明利用现成的工艺技术,使得器件体积小,功耗低,扩展性好,便于与电学元件集成;利用激光脉冲传递信息,速率高,延迟小;用数字方式进行信号处理,避免了模拟光计算系统的精度差、可编程能力弱的缺点;用高折射率差波导传导光,避免了传统光学向量-矩阵乘法器空间分集效率低下的问题。
文档编号G06E1/04GK101630178SQ20081011674
公开日2010年1月20日 申请日期2008年7月16日 优先权日2008年7月16日
发明者刘育梁, 磊 张, 林 杨, 桐 王, 田贺斌, 耿敏明, 贾连希, 平 陈 申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1