用于高性能能量有效低温计算的超导系统架构的制作方法

文档序号:15068045发布日期:2018-07-31 23:04阅读:852来源:国知局

本申请要求2015年11月12日提交的名称为“superconductingsystemarchitectureforhigh-performanceenergy-efficientcryogeniccomputing(用于高性能能量有效低温计算的超导系统架构)”的共同待决的美国临时专利申请序列号62/254,546的优先权和权益,该申请的全部内容以引用的方式并入本文。

有关联邦资助的研究或开发的声明

本发明是在国家科学基金会(nationalsciencefoundation)授予的合同号ccf1054179和ccf1329374的政府支持下完成的。政府享有本发明的某些权利。

申请领域

本申请涉及用于高性能能量有效低温计算的超导系统架构,并具体地涉及其基于快速单通量量子(rsfq)和能量有效快速单通量量子(ersfq)的部件。

发明背景

在背景中,除了加粗段号以外,非粗体方括号(“[]”)是指在下面列出的引用文献。

数据中心和高性能计算已依靠摩尔定律缩放来在可行的功率预算内实现千万亿次计算能力。然而,受越为严格的功率约束的抑制、制造可变性渐增并最终地受基本物理限制的限制的半导体缩放预计不久就会终止[8、48、54]。此外,现代数据中心功耗预计在同一时间内增加3倍达到661twh[6]。

铌(nb)基超导体电子器件是现有的且成熟的技术,使得能够在性能和功率方面进行基本上不同的权衡。然而,常规的超导体电子器件被限制于小型应用,诸如高频率模数转换[28,33,37]、低延时网络开关[17,23,60,63,64]和嵌入式空间应用[35,42,68]。小型数字电子器件已被证明可适用于一般计算机应用,但适用性是有限的。

发明概要

根据一个方面,一种能量有效快速单通量量子(ersfq)逻辑寄存器轮包括循环移位寄存器,所述循环移位寄存器具有多个破坏性读出(dro)单元。所述循环移位寄存器的每个条目包括数据块、标签和有效位,它们在所述寄存器轮的每个周期都前进一个条目。比较和控制逻辑耦合到所述循环移位寄存器,以在所述寄存器轮的每个周期之后将源说明符或目的地寄存器说明符与存储在所述轮中的寄存器标签进行比较。至少一个或多个读取端口和至少一个或多个写入端口耦合到所述循环移位寄存器,以在所述寄存器轮的每个周期之后写入或读取所述寄存器轮中的每一个不同的条目。所述逻辑轮包括设置在维持低温温度的低温恒温器中的基于约瑟夫森结(jj)的ersfq逻辑。

在一个实施方案中,所述ersfq逻辑轮以超过相关联的处理器的核心时钟频率两倍的频率前进通过所述循环寄存器以减少平均访问延时。

在另一实施方案中,所述ersfq逻辑寄存器轮还包括至少一个或多个附加的读取端口,所述至少一个或多个附加的读取端口包括单个jj结。

在又一实施方案中,所述ersfq逻辑寄存器轮还包括至少一个或多个附加的写入端口,所述至少一个或多个附加的写入端口包括三个jj结。

在又一实施方案中,所述ersfq逻辑寄存器轮实现随机存取存储器(ram)或内容寻址存储器(cam)。

在又一实施方案中,所述ersfq逻辑寄存器轮实现ersfq逻辑存储轮,其中所述循环移位寄存器的每个条目还包括附加的位标志,并且所述ersfq逻辑寄存器轮还包括至少一个或多个搜索端口。

在又一实施方案中,所述ersfq逻辑存储轮实现ersfq逻辑未命中存储保持寄存器(mshr)轮。

在又一实施方案中,所述mshr轮包括cam轮,所述cam轮具有供比较的地址字段和关于二次未命中的两个字段。

在又一实施方案中,所述ersfq逻辑寄存器轮中的至少一个或多个提供处理器的通过异步fifo耦合到解码部件的寄存器文件访问部件,并且其中所述寄存器文件访问部件经由异步fifo将指令提供到执行部件,使得所述解码部件、所述寄存器文件访问部件和所述执行部件中的每一个可以不同的时钟速率运行。

在又一实施方案中,所述ersfq逻辑寄存器轮还包括作为写入缓冲器的多端口存储队列。

在又一实施方案中,至少一个或多个ersfq逻辑寄存器轮提供加载队列以支持从分支误预测恢复。

在又一实施方案中,第一加载轮保持尚未被分发到存储器或被存储轮搜索的加载指令,并且第二轮在所述加载指令被分发到存储器子系统之后保持加载,直到所述加载指令被提交为止。

根据另一方面,一种具有冲洗功能的快速单通量量子(rsfq)可清除fifo包括数据fifo,所述数据fifo包括多个数据条目。冲洗位fifo包括对应于每个数据条目的冲洗位。冲洗信号输入端子耦合到非破坏性读出(ndro)寄存器。mullerc门耦合到所述ndro寄存器的反相输出端并由其启用,并且耦合到fifo输出数据端子。当所述fifo接收到冲洗信号时,所述ndro寄存器被设定为1,并且1被插入在所述fifo的尾部处,并且在无效数据前进通过所述fifo时,所述数据在所述fifo输出数据端子处被设定为0,并且当所述冲洗位到达所述fifo的头部时,所存储的1使所述ndro寄存器复位,从而使所述rsfqfifo返回到正常操作。

在一个实施方案中,所述rsfq可清除fifo中的至少一个或多个连接以不同的时钟速率操作的处理器核心的流水线级。

在另一实施方案中,所述流水线级选自由以下组成的组:获取、解码、寄存器读取、执行、存储器和回写。

在又一实施方案中,所述核心包括全局异步局部同步(gals)操作,所述gals操作具有时钟分配和同步以提供局部控制的时钟信号并优化整个分支逻辑路径上的延迟。

根据又一方面,一种用于将mram装置与ersfq电路集成的交叉点存储器拓扑包括磁隧道结(mtj)器件阵列,所述mtj器件阵列以交叉点阵列结构设置,每行定向在相反方向上以消除断态电流。行写入线设置在每个mtj器件的第一侧上。列写入线设置在每个mtj器件的第二侧上。列读取线邻近于所述行写入线设置。为了读取器件状态,将脉冲施加到所述器件,同时使所述阵列的其余部分被低偏置。为了写入所述器件状态,电流将通过所述行线和所述列线两者以切换所述器件。

在一个实施方案中,所述mtj器件被配置为t触发器约瑟夫森结(jj)电路。

在另一实施方案中,正向循环电流调节通过所述线的所述电流的有效幅度,并且在所述阵列内按高循环电流与低循环电流之比来选择个别mtj器件。

在又一实施方案中,在读取期间,所述脉冲由sfq到dc转换器施加。

本申请的前述及其它方面、特征和优点将从以下描述和从权利要求书更为清楚。

附图简述

可参照下述附图以及权利要求来更好地理解本申请的特征。附图不一定按比例绘制,而一般将重点放在说明本文所述的原理上。在附图中,相似数字在各个视图中用来指示相似部分。

图1a示出了用于约瑟夫森结(jj)的电路符号的图;

图1b是示出如何从被称为sis结的超导体-绝缘体-超导体(sis)三层形成jj的图;

图1c是示出jj的i-v曲线的图;

图2示出了示例性时钟控制的rsfq反相器的时序图;

图3是示出如何可将提出的系统的不同部件在室温环境与低温环境之间进行划分的方框图;

图4示出了基于rsfq逻辑的处理器的一个示例性实施方案的方框图;

图5示出了实现两级选择机制的示例性伪循环方案的示意图;

图6a是示出可支持冲洗方案的示例性rsfqfifo的正常操作的示意图;

图6b示出了图6a的rsfqfifo的冲洗内容操作;

图6c示出了图6a的rsfqfifo的清除冲洗信号操作;

图7示出了示例性寄存器轮的示意图;

图8示出了示例性存储轮的示意图;

图9示出了适用于介接rsfq电压脉冲和cmos电压电平的一个示例性电路的示意图;

图10示出了示例性dram时序图;

图11示出了示例性架构参数的表格1;

图12示出了基线核心和共享存储器子系统的示例性架构参数的表2;

图13示出了模拟的应用程序和数据集的表3;

图14是示出针对各种基准按基线归一化的示例性性能的条形图;

图15是示出针对各种基准按基线归一化的示例性能量的条形图;

图16是示出针对各种基准的示例性能量击穿的条形图;

图17是示出作为新架构的示例性实施方案的处理器、片外高速缓存和主存储器的区域的表4;

图18是示出针对各种基准按新的架构归一化的性能的条形图;

图19是示出针对各种基准按新的架构归一化的能量的条形图;

图20是示出示例性系统概览的方框图;

图21是示例性轮架构的图;

图22是示例性可清除fifo的图;

图23是示例性基于ersfq的有序处理器核心的方框图;

图24是示例性存储轮的图;

图25是示例性基于ersfq的无序处理器的方框图;

图26是示例性重命名架构的图;

图27是示例性交叉点电路的示意图;

图28a示出了示例性交叉点电路的平面图;

图28b示出了图28a的交叉点电路的剖面图;

图29a示出了示例性基于字段的mram写入电路的图;

图29b示出了图29a的基于字段的mram写入电路的写入线的示意图;以及

图30是示出示例性互连网络的方框图。

详细描述

在描述中,除了加粗段号以外,非粗体方括号(“[]”)是指在下面列出的引用文献。

1介绍

如上所述,数据中心和高性能计算已依靠摩尔定律缩放来在可行的功率预算内实现千万亿次计算能力。然而,受越为严格的功率约束的抑制、制造可变性渐增并最终地受基本物理限制的限制的半导体缩放预计不久就会终止[8,48,54]。此外,现代数据中心功耗预计在同一时间内增加3倍达到661twh[6]。

铌(nb)基超导体电子器件是现有的且成熟的技术,使得能够在性能和功率方面进行基本上不同的权衡。此类电子器件基于超导性使得能够在数百微伏的数量级的电压电平(比标准cmos小三个数量级)上进行超高频率操作,从而使微处理器的功耗可达到毫瓦级,而性能与现代基于cmos的系统相当。

单通量量子(sfq)电路中的典型的电路在超过20ghz下操作,而个别的逻辑门已被证明在超过770ghz[5,9]下操作。低温环境提供接近于0的热噪声环境和量化的信号输出,从而以非常小的电压信号产生可靠的电路。虽然sfq电路需要冷却,例如像大型制冷机那样,但是许多计算节点可以放置在外壳内以分摊成本,从而实现数据中心规模系统。

然而,常规的超导体电子器件被限制于小型应用,诸如高频率模数转换[28,33,37]、低延时网络开关[17,23,60,63,64]和嵌入式空间应用[35,42,68]。小型数字电子器件已被证明可适用于一般计算机应用,但适用性是有限的。

本申请描述了基于能量有效快速单通量量子(ersfq)技术的新的微处理器和存储器系统架构。与使用静态电压电平来表示逻辑状态的传统cmos不同,ersfq信令基于传播电压脉冲。大多数ersfq门也是自锁存的。然而,ersfq缺少了通过门,通过门防止了在公共线上的不同电路(诸如总线或解码器树)之间的隔离。这些特性产生了与传统cmos逻辑不同的设计方法。

在下面描述了新的轮结构,其实现了搜索和多端口功能。用来实现寄存器文件、存储队列和未命中状态保持寄存器(mshr)的轮结构显著地降低了访问和控制典型的cpu块所需的面积开销。还描述了在低温温度下利用基于cmos的dram的存储器子系统。提出了具有简化的dram命令方案的非对称存储器总线,以在受约束的功率预算下提供足够的带宽。在下面描述的微处理器和存储器系统架构在性能上产生是常规的cmos多核心系统1.2倍的提高,同时在30mw功率预算下操作在总体能耗上实现4.3倍的提高。

2超导电子器件

超导体是在临界温度以下呈0dc电阻的材料。因此,循环于超导环路的电流无限地流动。超导电子电路已经在许多领域(包括磁性传感器[21,25,46,55]、mri机器[19,70至72]、高速a/d转换器[28,33,37]和参考电压发生器[20,50,51])中付诸商业应用。他们对计算机系统的应用已经受到限制。

图1a是示出用于超导电子器件中的开关元件(即,约瑟夫森结(jj))的电路符号的图。图1b是示出如何从被称为sis结的超导体-绝缘体-超导体(sis)三层形成jj的图。在大规模的超导电子器件制造中,典型地使用铌(nb)或硝酸铌作为超导体,并且使用二氧化铝或二氧化硅作为绝缘体。

图1c是示出jj的i-v曲线的图。jj有两种状态:超导状态和电阻状态。在超导状态下,jj表现为具有0dc电阻的超导体;在电阻状态下,jj表现为具有有限电阻的电阻器。当通过jj的电流超过临界电流ic时,jj从超导状态转变为电阻状态。当该结处于超导状态时,通过该结的电流可取在-ic与ic之间的任何值。每次jj切换到电阻状态时,其两个端子上都会出现电压脉冲。在快速单通量量子(rsfq)逻辑中,此电压脉冲是用作逻辑运算的物理基础。

jj器件以及因此基于jj器件的电路可缩放到深亚微米技术节点。现代jj技术的物理特征大小呈约1μm的数量级,它是比cmos光刻技术可实现的密度显著地更小(并更成熟)的规模。这意味着用于硅的技术发展大部分都可再用于nb工艺。物理缩放促进临界电流密度jc增加,临界电流密度是描述jj从超导状态切换到电阻状态所需的电流的物理参数。此参数呈指数地取决于隧穿势垒厚度。

jj电路还依赖于大型无源部件来稳定其操作。每个jj必须有足够的电阻阻尼以防止不稳定的振荡行为。这些无源元件通常耗去大部分的电路面积。当jc增加超过100a/cm2时,隧穿势垒的固有电阻就变得足以对器件进行阻尼。因此,100a/cm2表示jj的缩放行为的拐点,除此之外,自分流jj实现比目前nbjj技术显著地更好的密度优点。

2.1超导逻辑系列

已提出了许多基于rsfq逻辑的逻辑系列。这些系列目标在于以许多方式(典型地通过降低静态功耗)来改进rsfq。

2.1.1快速单通量量子(rsfq)逻辑

rsfq逻辑使用jj的切换性质来传输和存储在jj转变到电阻状态时产生的短电压脉冲。rsfq逻辑很有前景,因为它提供了快速切换(1ps)和每一切换事件低的能量(10-19j)[26]。

与表示具有不同的电压电平的高逻辑值和低逻辑值的cmos逻辑门不同,rsfq逻辑门通过在预定时间间隔内存在或不存在电压脉冲来表示逻辑。图2示出了示例性时钟控制rsfq反相器的时序图。除了数据输入和输出端子之外,反相器还具有连接到时钟的读取和复位端子。在第一复位信号到达之前,在输入端子上出现电压脉冲(逻辑1)。此电压脉冲使反相器存储逻辑0,使得下一次在脉冲读取和复位输入时不产生输出电压脉冲。相反,在第一复位信号和第二复位信号之间,没有输入脉冲(逻辑0),并且因此,第二复位导致输出电压脉冲(逻辑1)。此示例性时钟控制的rsfq反相器展示了rsfq门的另一重要性质:许多组合cmos逻辑门在rsfq中是状态保持的。从概念上,rsfq门可以被认为是与输出锁存器串联的常规的组合逻辑门。

在位表示和门设计中的这些差异在rsfq逻辑于传统的cmos逻辑之间产生许多重要的区别。一个重要rsfq门是muller-c门,或“cff”。muller-c门具有三个输入,即,两个数据和一个复位。如果脉冲到达这两个数据输入而没有中间复位信号,那么就会产生输出脉冲。在rsfq中,muller-c门通常可用于类似于cmos设计中的通过门的目的。另一重要rsfq门是破坏性读出(dro)寄存器,dro寄存器提供高密度(每一位4jj)存储,但经受了破坏性读取。相比之下,非破坏性读出(ndro)寄存器为非破坏性读取提供输入和输出端口,但使用了9个jj。请注意,ndro和dro寄存器都不能在没有中间复位的情况下用0覆写存储的1。对于扇入,使用称为“合并器”的特殊rsfq门。合并器用作异步或门,并且可以与dro或反相器组合以分别地创建同步或门或或非门。扇出使用称为拆分器的特殊rsfq门,拆分器沿着两条路径分开电压脉冲,并且将电压脉冲恢复到全高。对于大扇入或扇出,典型地使用合并器或拆分器树。在cmos中使用的大多数门在rsfq中也可用;然而,这些门的成本大不相同。例如,多路复用器、解多路复用器、或非门和异或非门比基本dro贵数倍。

2.1.2ersfq

虽然标准rsfq电路的动态功率耗散低,但是总体功率消耗主要是电流偏置电阻器中的焦耳加热引起的静态功率。这限制了用于vlsi电路[38]的标准rsfq的使用。ersfq逻辑是能量有效sfq逻辑系列之一,其可通过使用电感器产生dc偏置电流来消除静态功率耗散。ersfq采用了附加的结和电感器的组合,结计数和面积比标准rsfq增加了约40倍,并且动态功率耗散增加了约一倍。然而,与标准rsfq逻辑相比,ersfq能量有效的多,因为它几乎消除了静态功率耗散。

2.2磁性约瑟夫森结

磁性约瑟夫森结(mjj)是具有铁磁层的约瑟夫森自旋电子器件,其可基于铁磁层磁化来改变和保持临界电流值。mjj与用于标准rsfq或ersfq逻辑的传统的jj兼容,并且它们可以在单个制造过程中与jj集成在同一芯片上[57]。因此,简单的混合决策对(dc偏置和串联连接mjj与标准jj)可用作存储器单元来构建快速、能量有效、非易失性且相对密集的低温高速缓存[39,49,57]。对于基于mjj的存储器阵列,通过将由sfq到dc转换器[18、45]生成的多个sfq脉冲发送到所要的存储单元来执行写入操作。目标存储器单元中的mjj的临界电流被修改以使得其高于或低于该单元中的jj的临界电流。读取操作通过沿字线发送sfq脉冲来执行。此sfq脉冲触发mjj(在位线上产生脉冲)或标准jj(不产生脉冲),这取决于哪个jj具有较低的临界电流。检测此脉冲的不存在或存在以读出线[39,49,57]。

虽然基于mjj的存储器的容量和密度低于低温混合jj-cmosram[29,56],但是其能够以类似于ersfq电路的时钟速率和能耗操作。另外,与其它原生sfq技术相比,mjj可具有更高的密度,因此存储元件是铁磁层而不是大的电感器。

2.3低温恒温器

低温环境是rsfq与cmos之间的重要差异,它强加了许多限制。例如,在一些实施方案中,4开尔文低温恒温器典型地使用两级式设计,其中初始冷却级使用液氮和冷却到4k的冷头或冷箱。低温恒温器具有冷却效率,典型地以瓦/瓦表示,其指明了在低温恒温器内耗散一瓦功耗需要多少瓦的功率。此值取决于许多因素(包括低温恒温器的大学(越大越好))而从数千瓦/瓦变化到数百瓦/瓦。低温恒温器还具有有限的冷却能力,这限制了在低温恒温器内可消耗的最大功率。在低温恒温器与室温之间的介接允许热量泄漏到在接口内的系统中;此热量泄漏会随着接线数量和横截面积而增长。

3概览

可通过基于延时和功率考虑在低温温度环境和室温环境之间划分硬件部件来设计能量有效的超导计算机系统。在一方面,与低温恒温器外的部件进行通信涉及导线长度超过一米,导致长时间的延时。另一方面,低温恒温器具有有限的功率预算,并且对于在低温恒温器内消耗的每一瓦都要从供电电源吸取数百瓦。低温恒温器的有限的冷却容量使得将高功率器件冷却到低温温度是不切实际的。一旦系统已经在低温温度域和室温域之间进行划分,在这些不同温度状态之间的电接口应架构成使接线的数量和大小最小化,因为接线允许热量泄漏到低温恒温器中并削减了冷却和功率预算。

图3是示出在一个示例性实施方案中如何在室温环境与低温温度环境之间划分不同的部件的方框图。在低温恒温器内,网状架构连接处理节点,每个处理节点包括多线程ersfq处理器、用mjj实现的片外l2高速缓存和用1t-dram实现的主存储器。外部存储装置、网络接口和供电电源在室温下位于低温恒温器外部,因为这些模块的功耗远超低温恒温器的功率预算。为了使热量泄漏最小化,低温环境通过在77开尔文下的中间冷却级连到室温,中间冷却级使用液氮。仅考虑单个节点的性能,如下文更详细地描述的。适用于在多个节点之间实现消息传递的rsfq网络路由器已经在先前工作中设计和研究[41,65,66,69]。

4处理器

提出的处理器包括六个主流水线级:获取、解码、寄存器文件访问、执行、存储器和回写。这些级通过异步fifo[22]连接以允许不同的级以不同的时钟速率操作。图4示出了基于rsfq逻辑的处理器的示例性实施方案的方框图。此全局异步局部同步(gals)硬件组织简化了时钟分配网络并提供了提高性能和能量效率的机会。由于rsfq逻辑门可快速切换并保持状态,因此大多数主级进一步划分为次流水线级。因此,ersfq处理器是深度流水线化的,而不引起在深度流水线化cmos处理器中将所需的额外流水线寄存器的开销。为了保持流水线繁忙,提出的处理器使用具有16个线程上下文的细粒度多线程。

4.1前端

在一个示例性实施方案中,获取单元包括线程选择器、用于每个线程上下文的pc和用于计算下一个pc的加法器,以及控制逻辑。由于在当前rsfq技术节点处的jj密度低,因此线程选择逻辑实现使jj计数最小化的简单的伪循环策略。jj计数的此减少是通过使用在rsfq中实现起来简单的门(诸如破坏性读出寄存器和合并器)而不是复杂的门(诸如多路复用器或异或非门)来实现的。

图5示出了实现两级选择机制的示例性伪循环方案的示意图。在第一级中,它将16个线程分成四组,并且使用四位移位器以循环顺序来选择其中一组。在选定组内,使用优先级编码器来选择就绪线程中的一个(即,因全指令缓冲器或指令高速缓存未命中而未停止的线程)。为了避免互斥等待,在每组内使用两个位向量:(1)就绪位向量,该就绪位向量将请求信号记录到优先级编码器,并且只要该线程被调度,就将关于就绪线程的条目复位为0;以及(2)等待位向量,该等待位向量记录在调度器作用于在就绪位向量上的线程上时准备就绪的新的可用线程。一旦位设定在就绪位向量上的所有线程都被调度,等待位向量就复制到就绪位向量,并且复位为0。虽然选定组可能没有准备好供获取的线程,但是此情况在实践中很少见,并且伪循环方案提供的性能可与真循环策略相当,而硬件成本低得多。由于处理器是深度流水线化的,并且分支指令需要多个时钟周期才能解析,因此获取引擎使用简单的静态分支预测方案(不总是采取)。每一时钟周期,选定线程的pc被发送到指令高速缓存。

由于内容可寻址存储器(cam)在rsfq逻辑系列中是昂贵的,因此将解码级连接到获取和寄存器轮访问级的缓冲器用fifo结构来实现,fifo结构支持冲洗以有效地从分支误预测恢复。

图6a是示出可支持冲洗方案的示例性rsfqfifo的正常操作的示意图。fifo结构包括多个数据条目,并且每一条目有一个冲洗位。这些冲洗位以及非破坏性读出(ndro)寄存器初始化为0。当下一级尝试从fifo读取数据时,muller-c门由反相ndro输出启用,这允许有效数据通过muller-c门并到达下一级。

图6b示出了图6a的rsfqfifo的冲洗内容操作。如果fifo接收到冲洗信号,那么ndro寄存器的状态设定为1,并且在fifo的尾部插入1。因此,反相ndro输出变为0,这阻止数据通过muller-c门。在无效数据前进通过fifo时,数据在由muller-c门读出时设定为0。

图6c示出了图6a的rsfqfifo的清除冲洗信号操作。当冲洗位到达fifo的头部时,存储的1复位ndro冲洗标志,并且系统返回正常操作,如图6c所示

提出的伪循环选择逻辑还可在指令解码器中用来从16个指令缓冲器中的一个选择要解码的指令。解码器使用移位器和muller-c门的组合(而不是昂贵的多路复用器)来将解码的指令转向到用于对应的线程的缓冲器。在一个示例性实施方案中,解码器被划分为四个次级,并且被设计为维持高时钟频率。跳转地址与解码并行地计算,并且在解码级结束时被发送到获取引擎。

4.2寄存器文件访问

常规的寄存器文件因用非破坏性读出来实现每个寄存器需要大量jj而在rsfq中实现起来是低效的。图7示出了称为“寄存器轮”的新的硬件结构的示意图,其解决此问题。提出的寄存器轮使用高效dro寄存器实现循环缓冲器。寄存器轮的每个条目都存储了一个架构寄存器和一个有效位。每一寄存器轮周期,寄存器轮概念性地旋转过一个条目,并且不同的寄存器可通过其读取端口访问。因此,通过在寄存器轮访问级中等待直到寄存器出现在读取端口处,就可观察到任何寄存器的内容,如图7中概念性地示出的。

当指令到达寄存器轮访问级时,源寄存器说明符和目的地寄存器说明符被发送到比较和控制逻辑。由于架构寄存器一直旋转,因此比较和控制逻辑可将源寄存器说明符和目的地寄存器说明符与在每一周期中存储在轮中的新的寄存器标签进行比较。如果当前寄存器有效并且其标签匹配源寄存器说明符中的一个,那么寄存器值将被锁存并发送到下一级以执行。在此时钟周期结束时,轮旋转过一个元素,并且下一个存储的寄存器变得可经由读取端口来访问。然而,如果存储的寄存器标签与目的地寄存器说明符匹配,那么在移动到在圆圈中的下一个移位器之前,标签、值和有效位应全部被复位以保证回写级的正确操作。(使标签和值字段复位是由于dro寄存器不允许用0覆写1而进行的;而是,它为寄存器中的所有位提供了全局复位功能。)

由于寄存器轮是构建在简单且快速的dro门之上,因此它可以比处理器的核心时钟频率高数倍(在提出的设计中是四倍)的频率旋转。此较高的时钟速率使最差情况寄存器文件访问延时减少了四分之一。

4.3执行

在访问寄存器轮之后,指令被发送到由一组线程共享的就绪指令缓冲器,并且被选择供使用在上面的第4.1节中描述的伪循环方案来执行。alu和fpu两者都深度流水线化以维持高时钟频率。整数alu和乘法器是基于现有工作[1,12,15]而设计的。rsfq桶形移位器被实现来处置移位指令,并且使用少量jj在四个周期中完成执行。由于大多数的现有的rsfq浮点加法器和乘法器是位串行的,因此设计了新的32位深度流水线化rsfq浮点加法器和乘法器。

分支条件在执行级被解析;如果条件指明采取的分支,那么分支地址和分支信号被发送到前端以供获取。分支信号也发送到解码和寄存器轮级以用于恢复。在执行之后,如果指令是加载或存储,那么结果作为有效地址存储在加载/存储队列中;否则,结果就连同其寄存器标签和线程id一起放置在alu结果缓冲器中,在alu结果缓冲器中,结果就会等待回写。

4.4存储器访问

在有效地址计算之后,将加载和存储分别地放置在fifo加载和存储队列中。另外,指明操作是加载还是存储的单个位标记被写入到共享簿记队列以保留排序。存储指令阻塞此队列,直到它可被写入到存储轮。为了保留回写,并且为了避免相干性问题,只能同时进行来自每个线程的一个加载和一个存储。存储队列和mshr因高效cam电路缺乏而对rsfq逻辑提出了挑战。在一些实施方案中,使用与第4.2节中所述的寄存器轮类似的cam轮结构来实现存储队列(即,存储轮)和mshr。存储轮与寄存器轮(先前讨论)之间的一个重要差异是需要在存储队列中的排序信息。存储无法被写入到该轮上的任意条目,而是,头部位和尾部位应存储在每一轮条目中以跟踪存储队列头部和尾部的位置。附加的位标志存储在轮中以跟踪对应的存储指令是否已分发到存储器。在此位通过存储轮的读取端口之后,分发在队列中未被发送到存储器的最旧的存储。如果存储命中高速缓存,那么将它从轮移除;如果它未命中缓存,那么向它分配mshr条目。

当加载指令到达加载队列的头部时,加载推测性地访问高速缓存并开始搜索存储轮,在一些实施方案中,存储轮可取决于轮的当前状态而花费1到4个周期。为了防止加载队列搜索变为性能瓶颈,存储轮具有多个搜索端口。搜索操作可开始于在存储轮上的任意点并查找头部位或尾部位。如果先找到头部位,那么在搜索的开始与尾部位之间找到的所有匹配都必须按从最旧到最新来看。因此,如果先找到尾部位,那么到目前为止发现的任何匹配已知比在队列中发现的任何其它匹配都更新。如果在轮中发现匹配,那么将对应的值转发到加载。如果在高速缓存中或在存储轮中找不到匹配,那么将加载放置在mshr缓冲器中以写入到mshr轮。

mshr轮是具有供比较的地址字段和关于二次未命中的两个字段的cam轮。返回存储器访问搜索mshr轮,并且将在匹配轮条目中的指令添加回加载或存储队列以进行重播。

4.5回写

每一时钟周期,以循环的方式从执行结果缓冲器或加载值缓冲器读取寄存器值和其标识符。寄存器值连同线程id一起被发送到在寄存器轮内的写入缓冲器。

如图7所示,写入缓冲器是fifo,其每个条目都存储回写寄存器值和其寄存器标签。每当在轮中的寄存器通过写入端口时,其有效位都会反相,并且用作写入缓冲器的读取信号。如果写入缓冲器不为空,那么值和标签将进入寄存器轮供未来访问。写入端口可放置在读取端口附近以减少在数据相关指令之间的延时。

5存储器子系统

为了实现足够大且快速的存储器子系统,本文所述的架构可以使用两种不同的存储器技术。mjj可以用于高速缓存;作为原生rsfq技术,其中mjj可容易地与ersfq电路连接。可例如使用1t-dram来实现主存储器以实现高容量。

5.1片上l1高速缓存和tlb

l1指令高速缓存、l1数据高速缓存和tlb可使用磁性约瑟夫森结(mjj)来实现,mjj是ersfq技术原生的高速存储装置。mjj的密度相对低对l1高速缓存的大小造成很大的限制。l1数据高速缓存在所有线程间进行共享以避免对相干性协议的需要。与其它mram技术类似,mjj经受长写入延时。为了防止写入频繁阻塞读取,在一些实施方案中,高速缓存大量地分组。mjj阵列使用所熟知的sfq到dc转换器将sfq脉冲转换成包括多个在时间上紧密地间隔的sfq脉冲的伪dc信号。在一些实施方案中,这些sfq到dc转换器用来实现用于mjj阵列的行驱动器和列驱动器。对于标签比较,可使用基于异或非门的比较器来代替cam轮,因为(1)标签比较是一次性比较,其允许使用破坏性读出(而非非破坏性读出)单元,以及(2)对于标签比较,无法预先将值容易地加载到轮中,因为它们必须先从阵列读取。使用异或非门限制了l1高速缓存与tlb的关联性,因为与基于轮的结构相比,异或非门的效率相对低。

5.2片外l2高速缓存

密度和集成规模限制可防止将l2高速缓存放置在芯片上。因此,在一些实施方案中,l2高速缓存在多芯片模块(mcm)内的五个单独的ic之间进行拆分,一个ic包含标签阵列和控制逻辑,而另外四个ic则包含1mb数据阵列。由于l2是片外的,强加于l1高速缓存的严格的jj预算不适用,这允许使用基于异或非的标签比较的更大的关联性。l2mshr仍使用cam轮结构来实现。为了使l2高速缓存的可用带宽最大化,每个l2高速缓存ic具有通往处理器的直接总线。

5.3主存储器

高密度主存储器对ersfq系统构成了重大挑战。虽然mjj为高速缓存提供足够的密度,但是,目前mjj和其它原生rsfq存储器的密度对主存储器是不足的。先前的努力已经使sram和dram在低温温度下操作以实现大规模rsfq存储器[29,56]。在一些示例性实施方案中,主存储器用1t-dram来实现。在低温环境中,1t-dram比在室温下有许多性能优点,其主要原因是线电阻降低和保留时间长,这使得不需要刷新操作。在sfq电压脉冲与cmos电压电平之间的介接消耗大量的功率。在一些实施方案中,为了实现足够的放大,可以采用两级式方案(图9)。suzuki堆栈(ss)[44,53]是所熟知的基于锁存jj的放大器,可用于ersfq处理器,并且与存储器芯片上的第二级cmos放大器通信。此接口的功耗与并行接线的数量成正比。为了限制此功率,34位总线将所需的信息从处理器载送到存储器。总线用于读取操作和写入操作两者。在写入操作中,先将地址(32位)和控制信号(2位)放置在接口上。接着,数据块(512位)开始在接口的32条接线上突发。因此,存储器写入操作需要17个周期才能完成。

类似于写入操作,读取操作通过ersfq到cmos接口来传送地址和控制信号。然而,数据块在专用的读取总线上传送,该专用的读取总线依靠cmos到ersfq介接技术。如图9所示,可通过与ersfq电路的电压匹配来实现cmos与ersfq介接以进行读取。在一些实施方案中,采用基于nmos的接口来驱动与ersfq微处理器的片外连接。接口使用降低的电源电压(vdd低)来驱动互连线。用信号表示的数据位与ersfq电路形成电阻分压器以在输出线上产生低dc电平。dc到sfq转换器将此dc电平变换为微处理器上的sfq脉冲。从存储器返回到ersfq的接口比从处理器到存储器的接口消耗的功率低得多,从而允许将使用宽总线来增加读取带宽。

存储器总线的非对称延时和带宽特性使用针对提出的计算机系统优化的dram命令协议。此命令协议的示例性时序图在图10中示出。请注意,地址和数据写入信号是使用硬件中相同的介接接线来传送。由于命令协议是自定义设计的,因此它仅提供提出的计算机系统所需的功能。在读取时,沿着共享地址和数据总线发送地址,并且在tal+tif周期之后,在单个周期内沿着宽读取总线返回地址。在写入时,首先在共享地址和数据总线上发送地址,接着是数据的突发,每一周期一个字节。

图10示出了用于三个存储器请求的时序约束(先是两个读取,接着是写入到同一dram行)。第一读取访问会打开新的行,新的行使用预充电(pr)和激活(ac)操作,并且在预充电操作与读取(rd)操作之间达多周期延时(tct)。在预充电完成之后(tpr)开始行激活。对于每个读取操作,地址位和命令位两者在一个周期内传送到存储器。由于读取操作针对的是同一dram行,并且数据读取总线足够宽,因此读取可相继地分发。在tal+tif周期之后,对应的数据块将按发送读取命令的相同顺序从主存储器返回。在读取之后,存储器控制器分发用于写入操作的地址位和命令位。

6实验设置(示例性)

为了估计提出的架构的性能、能量和面积,进行了电路和架构级模拟。本节中描述了在估计中的工具、参数、应用程序和做出的假设。

6.1电路和rtl设计

为了在低温温度下模拟cmos,对晶体管的22nmptm模型进行了修改[67]。关键的晶体管性能参数(诸如阈值电压和迁移率)根据[30]中提出的晶体管模型数据来缩放。值得注意的是,在低温温度下操作产生与该技术的电源电压相当的大晶体管阈值。应用正向体偏置来为针对低温操作而优化的cmos技术建模,其中阈值和电源电压两者都已降低。电路模拟用来生成cacti6.5中使用的外围电路和单元晶体管[40]的晶体管性能参数。寄生互连电阻在低温环境下降低,因为体铜电阻率下降了约两千倍[32]。片外寄生以1.5厘米的有效长度来建模,这对于系统级封装互连来说是典型的。寄生效应由mosis制造中可用的标准接线键合阻抗来近似[36]。对于功率和延迟估计,使用verilator工具包[52]构建和模拟了处理器的verilog模型。每个流水线级单独地建模以确定关键路径延迟和每一指令的活动因子。关键路径延迟、jj计数和设计面积使用扩展到10ka/cm2制造工艺的hypress和bakolo[3]标准单元库来估计。

6.2架构

对sesc[47]模拟器进行修改以对提出的架构(参数在图11的表1中示出)和niagara-like有序cmt基线进行建模。图12的表2列出了基线核心和共享存储器子系统的架构参数。使用mcpat[31]估计基线处理器的能量和面积。

为了估计提出的ersfq处理器的能量,基于jj计数和从rtl模拟获得的切换活动因子而得到处理器的常规的rsfq实现方式的动态能量。然后,根据从标准rsfq到ersfq的动态能量缩放因子(ersfq电路的静态功率为0)获得ersfq能量[38]。低温恒温器的能耗基于可商购的低温恒温器[27]的功耗而计算。基于从电路模拟获得的参数,cacti6.5[58]的修改版本用于得到在低温温度下的主存储器的延时、访问能量、静态功耗和面积。

6.3应用程序

估计的基准表示来自数据提炼[24]、phoenix[62]、splash-2[59]、specopenmp[10]、nas[2]和parsec[4]套件的各种并行应用程序。图13示出了列出这些应用程序和其输入集的表3。

7估计

本节估计本文所述的新的架构的性能、能量和面积特性。

7.1性能

图14将提出的架构的性能与基线cmos处理器进行比较。ersfq处理器用16个线程来运行应用程序,而基线处理器则用16个线程和32个线程来进行估计。平均地,ersfq处理器实现在性能上比具有16个线程的cmos高32.5%。对于两个基准,即,线性回归和直方图,提出的架构执行得比基线更差。与其它基准相比,这些应用程序执行更高比例的存储指令,并且存储轮写入延迟引起性能下降。最佳基线性能在32个线程(8个核心,每一核心4个线程)上实现。平均地,与用32个线程运行的此基线相比,获得22.4%的加速。

7.2能量

图15示出了提出的架构与基线系统的两种配置之间的能量比较:一种配置是具有八个核心并且每一核心两个线程(这是最具有能量效率的基线配置),而另一配置是具有八个核心并且每一核心四个线程。提出的架构使能耗平均地减少了4.3倍。然而,对于基准mg和ocean来说,提出的架构的能耗比基线更糟糕。如图16所示,原因在于主存储器支配这两个基准的能耗。由于基于dram的低温存储器不像ersfq(或mjj)那样能量有效,因此在处理器上节省的能量不足以补偿制冷系统消耗的能量。预期的是,通过引入rsfq兼容的能量有效主存储器可进一步降低能耗。

7.3面积

提出的架构的面积估计在图17的表4中示出。在当前rsfq技术节点上,处理器和片外l2高速缓存的面积比cmos技术中设计的类似的部件大得多。然而,考虑到现有的低温恒温器中的冷箱的体积(例如,2.0m×1.6m×2.6m[27]),该区域并不是限制性约束:可容置在低温恒温器中的计算机系统的规模主要由功率和冷却预算而非面积确定。

7.4缩放到未来的技术节点

为了检查提出的架构在技术缩放下的潜力,我们研究了系统如何在两组不同的假设下缩放。首先,基于增加的jj密度而对系统进行缩放,以允许l1高速缓存和l2高速缓存的大小加倍,并且将l2标签阵列和mshr放置在芯片上。其次,我们考虑基于增加的临界电流密度而缩放时钟频率。具体地,估计25ghz的核心时钟速度和75ghz的轮时钟频率。提出的架构在缩放之后的性能改进和能量改进分别地如图18和图19所示。

缩放的架构的性能改进是应用程序相关的。对于工作组适配在放大的高速缓存子系统中的存储器密集型应用程序(mg、equake、ocean和基数),增加的高速缓存容量急剧地减少了主存储器访问次数并提高了性能。对于bsom,性能改进主要是归功于在缩放之后的片上l2标签阵列和mshrs。其它基准也受益于增加的时钟频率,但是性能改进受轮延时的限制。平均地,缩放的架构比未缩放的架构高23.1%。

对于在提出的架构的未缩放的配置中具有许多l2高速缓存未命中的应用程序,大部分的能量被耗费在低效基于dram的主存储器上。随着l2高速缓存的容量的增加,这些应用程序实现能量降低。对于其它基准,能耗因大型高速缓存的外围电路开销而没有显著地变化。

8相关工作

鉴于rsfq相较于cmos的理论上优势,已做出了将rsfq用作可能替代技术的许多努力。使rsfq成为cmos的可行的替代的一个重要方面是快速、宽alu的开发。已经有利用kogge-stone和稀疏树设计以及各种功能的许多快速alu设计[1,12,15]。此方面的研究的另一重点是搜寻适当的存储器技术。早期工作集中在使用原生基于sfq的存储器,诸如nec的涡旋过渡[43]存储器,但是这些方法的密度有限。对rsfq存储器的其它工作已经试图在低温环境下使用cmos存储器,包括sram和dram。也有许多提出的rsfq微型架构。flux-1[7,14,16]是8位、双分发liw处理器,其中操作只能在相邻的寄存器之间进行,以使接线长度最小化。core1[61]是另一8位微处理器,其使用了更传统的四级流水线设计,每一流水线级有两个子级。cool-0[13]是针对混合技术多线程(htmt)架构项目提出的rsfq处理器。cool-0使用多线程架构来隐藏共享功能单元的多个线程组的延时。frontier架构[11]是将寄存器文件组织成四个8位的32位处理器。与先前工作相比,提出的设计表示完整的计算机系统,具有新颖的轮概念,其使大容量寄存器文件、存储队列和mshr成为可能。

[9]总结

我们在上文描述了用于使用ersfq的并行应用程序的新的超导架构。为了利用具有自然锁存行为和高的切换速度的rsfq门的独特性质,深度流水线化架构使用ersfq门的细粒度多线程。新颖的轮结构使用自由运行的循环移位寄存器来提供寄存器文件和可搜索队列功能。在一些示例性实施方案中,提出的存储器子系统将mjj用于高速缓存并且将1t-dram用于主存储器。总体上,架构实现在性能上比基线系统提高了1.2倍,而系统能量降低了4.3倍。

使用如上所述的这种新的架构,ersfq为数据中心应用程序保持了巨大的潜力,并且为未来的研究提供了许多潜在的途径。这包括更好地设计用于低温操作的存储器子系统,并且通过无序执行使增加的单线程性能成为可能。

10在低温恒温器中的示例性数据中心

在低温恒温器中的示例性数据中心包括由联网结构互连到主存储装置(图20)的计算节点系统,每个计算节点具有处理器和支持的存储器分层结构。每个子系统将设计为利用ersfq电路的速度和功能来实现优于现有数据中心的性能。

10.1基础构建块

使用jj技术的计算机系统使用架构和电路解决方案来分摊存储器部件的高成本。用ersfq逻辑实现常规的寄存器文件、晶片上随机存取存储器(ram)和内容可寻址存储器(cam)是低效的。在上面介绍的两种新的构建模块降低了基于ersfq的处理器中的存储器部件的成本:存储轮和可清除fifo。采用能够进行高速度且低功率脉冲传播的dro缓冲器来执行快速读取、写入和搜索操作。

10.1.1用存储轮实现有效ram和cam电路

存储轮包括由dro单元制成的循环移位寄存器,以及放置在轮上的一个或多个位置处的一组读取端口和写入端口(图21)。使用dro寄存器而不是ndro使jj计数减少。如图所示,通过单个jj执行存储器访问(读取或写入)。存储轮的简单结构允许比处理器的其余部分更高的频率操作,从而减少平均访问延时。轮结构将用于实现微处理器中的许多常规ram和cam结构(例如,寄存器文件、分发队列和重排序缓冲器)。

读取和搜索:提出的存储轮的每个条目存储数据块、标签和有效位。每一存储轮周期,存储轮概念性地旋转过一个条目,并且不同的条目将变得可通过其读取端口访问。每个条目的内容变得在读取端口(图21)处连续地可用,其在轮内产生条目的输入流。此流将引导到比较逻辑以用于读取或搜索操作。

写入:更新提出的存储轮的内容使用一系列读取-修改-写入操作。对于每一轮周期,当前轮条目的标签位将与目的地数据块的标签位进行比较;在匹配时,数据位将用其新的内容覆写。写入端口将包括拆分器和合并器来支持读取-修改-写入操作。合并器将通过与正在进行比较时发生的旋转次数一样多的轮条目与拆分器分离。此分离将使条目更新能够与标签比较的结束同步。

多端口:与常规的ram和cam架构相比,提出的存储轮的优点是其端口可扩展性。用于串行访问轮中的数据的提出的机制允许在不修改移位寄存器的情况下添加附加的端口。另一读取端口仅使用单个jj来增加扇出并为第二输出复制比较逻辑。类似地,附加的写入端口仅需要向写入拆分器或合并器添加三个jj。此方法可使存储轮能够是多端口的,而不会有显著的面积或延时代价。

10.1.2存储轮的性能优化

存储轮的主要限制是增加其大小会导致相当高的访问延时。为了防止大型轮结构的访问延时变为主要性能障碍,将开发出许多优化。

端口放置:读取和写入端口在存储轮内的位置对平均访问延时有剧烈的影响。例如,将读取端口放置在靠近写入端口的位置允许写入和后续的读取之间的快速通信,以相继地访问该轮。端口的正确位置可针对用存储轮实现的硬件资源中的每一者来最佳地配置。

数据复制:一种减少最差情况延时的方法复制在轮内的多个位置处的数据。此方法不需要任何附加的端口就可以减少平均延时和最坏情况延时。将开发策略和电路以(1)确定从复制受益的性能关键条目和情景,(2)在轮内正确地分隔开副本,以及(3)跟踪未使用条目并使其失效。

请求调度和条目放置:将开发调度策略以将连续访问的时间局部性变换为在轮内的空间局部性。在具有紧密地耦合的相关性链的应用程序中,此优化将减少平均读取延时。

动态端口分配:将一个或多个端口动态分配给每个读取将允许轮相对于带宽来权衡延时。每一读取将利用一个或多个读取端口。如果将多个端口分配给单个读取,那么平均访问延时将以降低的读取带宽为代价而减少。相比之下,如果允许每个读取通过单个端口进行访问,那么轮访问带宽将以较长的平均延时为代价而增加。将开发技术以基于运行时利用率来自适应地管理和分配端口。

端口预测:将个别的端口分配给传入访问可预期到在轮内的请求的条目的可能位置。将开发预测技术来将传入的读取分配给距其目标条目最近的读取端口。

分层轮:存储轮可结合多个子轮以减少平均访问延时。小型低延时轮可用大型高容量轮补充,以递送减少的延时而不牺牲容量。条目可以放置在轮之间并且在轮之间迁移。例如,设想的是,数据划分和静态放置可实现此功能而不引起高硬件成本。

10.1.3可清除fifo

可清除fifo(图22)是可在本文所述的架构内使用的新的ersfq结构。一般地,mjj由于其写入延时长而不适用于快速fifo队列。提出的设计基于现有异步fifo[35]电路而构建,具有快速冲洗队列的新的机制。

与可通过复位其头部指针和尾部指针来冲洗的基于ram的fifo不同,异步fifo必须顺序地清除每个条目。此串行清除机制在依赖于推测的现代处理器中可能是巨大的性能瓶颈。允许快速、串行冲洗操作的可清除fifo可限制延时的影响。清除标记可以与fifo中的每个条目相关联。在正常操作期间,清除标记可初始化为0;当需要清除时,清除标记可设定为1,并且清除逻辑将被启用。清除逻辑将顺序地移除所有条目,直到清除标记到达队列头部,从而使fifo恢复到正常操作。在清除操作正在进行时,新的有效条目可插入到fifo中。与常规的基于ram的队列不同,可清除fifo促进个别的流水线级的异步操作,并且因此不受全局时钟信号的硬时序约束[74]的限制。

10.1.4用于全局异步局部同步操作的计时合成和动态控制

存储轮和可清除fifo可利用ersfq电路的自锁存性质,从而允许流水线级以独立的频率操作来获得更高的功率效率。此全局异步局部同步(gals)操作使用了新颖的时钟分配和同步方法,既能局部控制时钟信号,又能优化在分支逻辑路径上的延迟。

细粒度的动态频率缩放。计时系统的细粒度动态控制使用有效的机制来局部调整时钟频率。可添加统计计数器来确定将动态地提示频率变化的运行时资源需求。这些电路将驱动控制驱动本地电路的时钟脉冲的一系列多路复用器。全局时钟可使用t触发器来下变频。

ersfq时钟网络重新定时。积极的ersfq时钟方案提倡同时传播数据和时钟信号[73,74]。然而,在逻辑树和相互依赖的环路中,时钟脉冲可以在不同的时间上到达每个分支,者可能会导致定时错误。在时钟网络内的拆分器和合并器可改变时钟脉冲沿着数据路径的到达时间,从而缩短最坏情况延时。拆分器和合并器布置方法可用于使多个逻辑分支同步,并确保来正确的定时。

10.2处理器

本文所述的架构和电路可使用有序和无序(ooo)处理器核心。这两种核心都可以使用第10.1节中描述的基本构建块。核心可基于ersfq逻辑的特性而针对性能和能量效率进行优化。

10.2.1有序核心

有序核心包括六个主流水线级:获取、解码、寄存器文件访问、执行、存储器和回写。这些级通过第10.1.3节中描述的可清除fifo连接以允许不同的级以不同的时钟速率操作(图23)。由于ersfq逻辑门可快速切换并保持状态,因此大多数主级将进一步划分为次流水线级。因此,ersfq处理器将是深度流水线化的,而不引起在深度流水线化cmos处理器中所需的额外流水线寄存器的开销。在一些实施方案中,为了保持流水线繁忙,处理器使用具有16个线程上下文的细粒度多线程。

前端:提出的获取单元由线程选择器、用于每个线程上下文的程序计数器(pc)、用于计算下一个pc的加法器和控制逻辑组成。

多线程架构的一个重要挑战是线程选择。由于多路复用器和许多其它复杂的逻辑门在ersfq中是昂贵的,因此单个单片选择逻辑可能不是面积有效的。可考虑利用具有更低的jj成本的门的更jj有效的方案来在jj预算与处理器利用率之间找到平衡。一种降低选择逻辑成本的可能方式是使用多级选择,其中线程将被分组,并且简单的循环策略每个周期选择其中的一个组。在选定组内,低基数优先级编码器可选取最高优先级线程。此方法允许用有效得多的合并器来替代一些多路复用器,从而减少优先级编码器的内部扇出。由于处理器将被深度流水线化,并且分支地址计算将使用多个周期,因此获取引擎将使用简单的静态分支预测方案(不总是采取)。在每一时钟周期期间,选定线程的pc将发送到指令高速缓存。

解码级将利用类似的选择逻辑来选择要解码的下一个指令。设想的是,可使用流水线化解码器,同时最小化复杂的逻辑块的使用。一种方法是分别地在每一门的三个jj和五个jj上使用合并器和反相器来设计基于或非的解码。

寄存器轮访问:寄存器文件包括在第10.1.1节中讨论的存储轮。每个轮条目都包含有效位、寄存器说明符和寄存器值。寄存器轮读取端口接收供比较的三个值、最多两个的源操作数和一个目的地操作数。当找到目的地操作数时,存储轮条目可被复位,并且将阻止后续的指令读取旧的寄存器内容。

执行:在访问寄存器轮之后,指令被发送到由一组线程共享的就绪指令缓冲器,并且将被选择供使用在上面描述的伪循环方案来执行。alu和fpu两者可深度流水线化以维持高时钟频率。整数alu和乘法器可利用现有的工作[12,1,15]。ersfq桶形移位器可利用手柄移位指令。由于大多数现有的ersfq浮点加法器和乘法器是位串行的,因此设想的是使用新的32位深度流水线化ersfqfpu。

本文所述的新的架构解决了执行级中的分支;如果条件指明采取的分支,那么分支地址和分支信号被发送到前端以重定向获取。分支信号也发送到解码和寄存器轮级以用于恢复。在执行之后,如果指令是加载或存储,那么结果作为有效地址存储在加载/存储队列中;否则,结果就连同其目的地寄存器说明符和线程id一起放置在alu结果缓冲器中,在alu结果缓冲器中,结果就会等待回写。

存储器访问:为了支持加载存储前传并增加存储器级并行性,可使用另一轮结构。为了维持排序,加载和存储可将单一位标志放置在共享簿记队列中,并且可插入单独的加载或存储队列中。存储队列可充当图24中所示的存储轮的写入缓冲器。为了防止搜索存储队列成为瓶颈,存储队列可以是多端口的。

存储轮的一个重要并发问题是在队列内的排序。我们设想向每个轮条目添加附加的头部位和尾部位以跟踪在轮内的指令的年龄。使用头部位、尾部位和有效位可知道所有条目的相对年龄。可以加载时与l1高速缓存并行地访问存储轮。除了允许加载来搜索其内容之外,存储轮还将负责向存储器分发存储请求。

mshr也可以使用存储轮。由于mshr没有排序要求,因此mshr轮写逻辑可简单地找到关于主未命中的空的条目。

回写:完成的指令可以将它们的结果写入服务于对应的线程的寄存器轮的写入缓冲器中。当找到可用插槽时,此写入缓冲器可将指令回写到轮。将写入端口正好放置在读取端口之前(第10.1.2节)的端口放置优化可以加速相关性链。

10.2.2无序核心

设想的是,可使用基于轮结构的无序核心来改进在可接受的能量预算内的单线程性能。图25示出了示例性无序核心的主要部件。

前端:前端:类似于提出的有序核心,ooo核心可以在其前端使用程序计数器和控制逻辑。动态分支预测器可使用基于mjj的表来减少面积开销。在更新预测器时维持足够的写入吞吐量因mjj器件的高写入延时(8至12个周期)而很可能是一个挑战。为了解决此问题,我们利用具有写入策略的分组的预测器组织来允许隐藏mjj写入延时。新的管理技术可用来减少分支预测器中的存储体冲突。例如,表可通过将pc的最低有效位用于存储体选择的散列函数来进行索引。此方法将分支跨表存储体分布在狭窄的执行窗内。设想的是,也可使用可随程序执行而训练的更复杂的存储体管理技术

重命名:我们将开发用于寄存器重命名的新颖的基于ersfq的寄存器别名轮(raw)。图26示出了提出的寄存器重命名机制的概览。在图26中,raw维护所有重命名的寄存器的列表。对于每一解码指令,架构源寄存器说明符放置在搜索端口处,在此处,它们等待匹配的raw条目读出对应的物理寄存器说明符。物理寄存器说明符从包含可用物理寄存器列表的自由轮分配给目的地架构寄存器。在超标量设计的情况下,可采用相关性检查逻辑来解析在同一重命名组内的指令间的相关性。自由轮和raw两者都可进行检查点操作,以支持从分支误预测快速且有效地恢复。可使用存储体和多端口技术来加速在原始轮和进行检查点操作的轮之间复制条目。

寄存器访问和分发:存储轮的性质在于请求在轮内等待,直到甚至在多次旋转时发现该值。此性质允许寄存器轮在分发队列中实现唤醒机制,而不需要宽广播总线。如果操作数在指令尝试访问轮时不可用,那么指令必须保留在轮中,直到操作数被计算并回写。此结构是如文所用的有序处理器中的基本寄存器轮操作的自然扩展。物理寄存器轮应是多端口的,以支持ooo操作;然而,由于轮结构的一个目标是限制传统的cam结构所需的比较器的数量,因此分发队列中的所有指令并非都将能够同时搜索轮。设想的是,在轮上的搜索端口的数量与硬件复杂性之间存在平衡,并且可使用优化(诸如第10.1.2节中讨论的那些)来限制性能影响。

已完成搜索轮的指令将发送信号给仲裁器以进行选择,该选择将分发到执行级。由于搜索端口的选择未指明指令的年龄,因此可使用调度技术来确定要分发的指令。

执行:用于在有序核心中实现高时钟频率的深流水线导致多周期alu延时,即使对于诸如加法的简单运算也是如此。这些延时对于具有大量硬件线程的有序处理器是可容忍的;然而,在具有几个硬件线程的ooo处理器中,相继地执行一系列相关指令的能力是重要的。为了允许此功能,alu可促进部分值转发。例如,在加法的情况下,可使用半字节串行方法将部分结果转发到可使用它们的相关指令。可以对现有基准进行剖析以确定在执行链中常见的是哪些alu操作。

存储器访问:存储轮可类似于上述的有序核心而设计。加载队列可使用轮结构而不是fifo来支持从分误支预测恢复。在一些实施方案中,将有两个加载轮。第一加载轮将保持尚未分发到存储器或由存储轮搜索的加载指令。第二轮在加载被分发给存储器子系统之后将保持加载,直到它们被提交。一旦已计算出加载的有效地址,就可以将其分发给存储器子系统。与有序核心一样,可以与存储轮搜索并行地对高速缓存进行推测性地访问。一旦高速缓存访问和存储轮搜索已经完成,加载可放置在第二加载轮中。鉴于有限的硬件复杂性,优化(诸如推测性加载)可能是适当的

提交:重排序缓冲器可使用具有多个端口的轮结构,称为重排序轮。完成执行或存储器访问的指令将更新预分配的重排序轮条目中的结束位。当标记为头部的条目到达重排序轮的提交端口时,将检查结束位,并且将相应地清除条目。分支误预测端口将会将分支预测与正确结果进行比较,并且在误预测时冲洗后续的指令。

分支解析:一旦解析出了分支方向,分支误预测将被恢复。为了支持此积极的分支误预测恢复,分支掩码将沿着所有轮结构中的错误路径冲洗信息。将通过仅复制进行检查点操作的内容来恢复raw和自由轮的正确状态。

10.3存储器系统

ersfq系统中的存储器通常是高性能计算机系统的开发中的限制因素。原生基于jj的存储器(诸如squid和mjj)具有比现代cmos工艺可实现的大一定的数量级的存储单元面积,从而导致存储器容量非常低通过在单独的芯片上利用sram可实现显著地更好的密度,但是此方法需要cmos和ersfq电路之间的大而耗电的接口电路。比sram更密集的dram呈现相同的接口问题。突出地,ersfq电路缺乏通路晶体管,并且因此不能将个别的电路电隔离。此外,cmos所需的高得多的电压电平使接口电路的设计复杂化,从而导致比基于ersfq的存储器更大的功耗。

设想的是,新出现的存储器技术以及mjj两者都可用在ersfq存储器层级结构中。上级高速缓存和存储器结构将使用mjj和协议来改善这些装置呈现的长写入延时。新的交叉点存储器拓扑将直接地将mram装置与ersfq电路集成以克服电路隔离挑战。主存储装置可使用交叉点rram技术,同时利用在低温恒温器的中间冷却区域内的cmos的增强的性能。

10.3.1高速缓存

在一些实施方案中,新的架构将具有两级高速缓存分级结构。l1指令高速缓存、l1数据高速缓存和tlb将集成在微处理器晶片上。片外l2高速缓存将使用标准总线接口与微处理器介接。

两个高速缓存都可使用mjj,其呈现出与ersfq逻辑相当的读取延时,而没有与集成cmos存储器技术相关联的接口复杂性。mjj以相对高的写入延时(10个周期)为代价来提供低读取延时(1个周期),并且有限的总容量,并可用于上级高速缓存,用新的技术来减少写入延时。

片上l1高速缓存和tlb:l1可在所有线程间进行共享以避免对相干性协议的需要。高速缓存可大量地联组和缓冲以补偿mjj的长写入延时,从而防止写入频繁阻塞读取。在电路级上,mjj阵列将使用所熟知的sfq到dc转换器将ersfq脉冲转换为伪dc信号,该伪dc信号将用于mjj阵列的行驱动器和列驱动器[45,18]。

片外l2高速缓存:在本实施方案中,密度和集成规模限制防止l2高速缓存放置在处理器晶片上。因此,l2高速缓存将在多芯片模块(mcm)内的五个单独的ic之间进行拆分,一个ic包含标签阵列和控制逻辑,而另外四个ic则包含1mb数据阵列。由于l2是片外的,因此jj预算较大,这允许比片上l1大得多的容量。l2mshr将使用cam轮结构。为了增加l2高速缓存的可用带宽,每个l2高速缓存ic将具有通往处理器的直接总线。个别的高速缓存的相对低的高速缓存容量将通过综合措施来解决。缓存压缩技术可用于减少容量对性能的影响。另外,还可设定存储体、存储级和阵列大小以通过减少高速缓存污染来提高存储效率。

10.3.2基于mram的主存储器

与上级高速缓存不同,高容量会用于主存储器,并且对实现基于ersfq的服务器提出了重大挑战。虽然mjj为高速缓存提供足够的密度,但是,mjj和其它原生ersfq存储器的密度对主存储器是不足的。先前的努力已经使sram和dram在低温温度下操作以提供大规模低温存储器[30,56]。虽然密度在这些方法中不是问题,但是功耗使cmos电路在低温冷却器内的使用是不切实际的。设想的是,在提出的主存储器内可使用基于mram的交叉点阵列结构来解决这些限制。

mram具有与ersfq一起使用的若干优点[75]。经典的存储技术(诸如dram和sram)依靠cmos通路晶体管在写入操作和读取操作期间隔离位线。然而,ersfq电路没有可用的高效通路晶体管,从而使电路隔离成为在根本上有挑战性的问题。与基于cmos的存储器不同,切换模式mram可用磁场写入。因此,读取和写入电路可以被电隔离。

mram背景:切换模式mram是使用磁性隧道结(mtj)器件来存储状态的成熟的技术[76]。磁性隧道结是两端子式电阻元件,其基于通过磁畴的自旋相关导通的原理来操作[76,77,78,79]。器件是隧穿氧化物间隔物两侧的铁磁金属堆叠。这些层中的一个具有固定的磁化方向。交替的铁磁层可以在两个相反的极性之间翻转,一个极性平行于固定层,而另一极性不平行于固定层。这两种状态会影响通过氧化物势垒的电子,从而改变电阻。逻辑0或1分别地存储为高电阻或低电阻。通过跨mtj自由层以垂直配置来施加磁场,器件状态可以从一个状态切换到另一状态。

在低温温度下解决mram半选问题:虽然一些商业产品有可用性,但是大规模mram因半选问题而难以实现,其中与选定单元相邻的存储器单元可能因杂散磁场而无意中受干扰。然而,半选扰动是与温度呈指数地相关的随机过程。在低温温度下,半选错误的可能性呈指数地变小。因此,半选问题就不再是问题。例如,可通过使用微磁性模拟工具来进行分析以确定降低的可能性。此信息可用于优化器件结构和纠错码以确保存储器子系统对潜在的错误位触发是稳健的。

mram单元和阵列拓扑:mram可以被组织成高密度交叉点结构,如图27所示。对于读取,sfq到dc转换器可向阵列施加脉冲,而阵列的其余部分被低偏置。在一些实施方案中,在选定列的底部的读出放大器将感测mtj的状态。

设想的是,写入电路可使用字段来修改器件的状态,并且在一些实施方案中,将呈现图28a(平面图)和图28b(剖面图)所示的物理结构。通过mtj下方的附加的线将用作行的写入线,其将产生磁场以切换mram状态。列写入线可以在垂直方向上位于的上方。在写入期间,电流将通过两条线以切换器件。

在一些实施方案中,行和列两者都将使用图29a(存储器阵列)和图29b(写入线)所示的ersfqt触发器结构来设计。正向循环电流将用于调节通过线的电流的有效幅度。在高循环电流和低循环电流的足够大的比率下,可以在阵列内选择个别的mtj。行是单个大型t触发器,是应将接口电路简化到ersfq电路的方面。

设想的是,设定t触发器jj电路大小的综合设计策略将使得mram到ersfq接口能够在适当的脉冲电平下操作,并且提供足够高的电流来切换mtj。个别的行可定向在相反的方向上以消除由断态电流引起的场。此技术以及其它物理结构将开发来确保在存在杂散磁场的情况下的可靠性。

10.4存储装置

用于存储系统的基于cmos的外围电路将在低温环境中工作以减少存储访问延时,以及连接低温温度域和室温域的长接线引起的热量泄漏。冷却在低温恒温器内的cmos电路因相对高的电压电平和相关联的功耗而导致许多问题。此问题可通过将cmos电路从低温恒温器的中心处的4k区域重定位到中央冷却器周围的中间冷却级来实现,中央冷却器具有77k到150k的操作温度。此方法使系统得冷却效率提高了两倍。此外,在这些温度下,cmos呈现低得多的位线电阻、高得多的晶体管迁移率和接近于0的泄漏电流,从而允许电路比标准室温cmos电路更快且更有功率效率地操作。

由于nand闪存缩放因保留时间、持久性和可靠性限制而接近废弃,因此,在一些实施方案中,3d交叉点rram将用于提出的存储系统。3d交叉点rram具有许多优点,包括更快的切换速度、更低的操作电压、更低的写入能量、更长的持久性和更长的保留时间。另外,小单元大小(4f2/n,其中n是堆叠层的数量)使3d交叉点rram的密度可与高密度3dnand闪存相当。

交叉点的可缩放性受装置的电阻以及用于访问装置的位线的电阻的影响[80]。在77k下,铜电阻率下降了10.9倍[32],从而减少了位线寄生阻抗并提高了交叉点阵列的效率。在一些实施方案中,3drram存储子系统将使用cmos来用于外围电路。为了实现必要的电压放大,可采用两级式方案。可以在低温恒温器内使用作为所熟知的基于锁存jj的电压放大器的suzuki堆栈[76,76]来与中间冷却级内的存储芯片上的第二级cmos放大器通信。suzuki堆栈的大部分功耗都是静态的。因此,基于总线利用率,自适应功率选通方案将在维持性能的同时降低功耗。在低利用率情况下,接口将关闭以避免静态功耗。

将需要建模技术来模拟在低温下的cmos。这些模型将促成对个别的总线接口的电路以及在低温环境下操作的rram交叉点的模拟。这些模型将用于开发rram交叉点阵列设计的大小设定策略。

10.5互连网络

基于独特脉冲的ersfq数据传输方法支持在cmos中将效率极低的互连网络。设想的是,诸如图30所示的互连网络可以是基于单向总线集合的。每个节点将对其自己的串行数据总线进行写入(广播)访问,并且将监视其它节点的数据总线。在cmos中,此方案因使长总线充电和放电而产生功率和延时问题。然而,由于ersfq使用电压脉冲而非电压电平,因此数据脉冲可以高速度和低功耗跨总线传输。由于每个节点具有对其广播总线的独占访问,因此在此系统中不存在死锁的可能性。先前关于基于ersfq的互连网络的工作已主要集中在传统分组交换路由网络的ersfq实现方面,并且没有利用ersfq的在其固有的高时钟频率之外的独特属性。

为了简化路由器硬件复杂性,当传输读取和写入请求时,节点将以时分复用的方式来访问它们的广播总线。在一些实施方案中,读取或写入请求将包括前导码,接着是节点id,再加读取或写入请求。一旦接收到读取或写入请求,节点将等待任何正在进行的数据传输完成,在此之后,它将发送确认并且开始数据传送。由于每个节点有其自己的广播总线,因此在两个节点之间的通信将不阻止在任何其它节点之间的通信。

为了允许此方案扩展到许多节点,我们将利用分级组织。节点将分组为可直接地彼此通信的集群,其中全局路由器将介接到分级结构的下一级。

当与同一集群内的本地节点的通信比与其它集群中的远程节点的通信更通用时,此集群方案可递送更高性能。可使用调度和管理优化来利用此质量。也可将附加的逻辑添加到全局路由器节点上。

可以在计算机可读非暂时性存储介质上供应与本文所述的新的超导系统架构和装置相关联的任何软件或固件。作为非暂时性数据存储装置的计算机可读非暂时性存储介质包括以非短暂的方式存储在任何合适的介质上的任何数据。此类数据存储装置包括任何合适的计算机可读非暂时性存储介质,包括但不限于硬盘驱动器、非易失性ram、ssd装置、cd、dvd等。

将了解,在上面公开的特征和功能以及其它特征和功能的变型或其替代可组合成许多其它不同的系统或应用。本领域的技术人员随后可以做出本发明的各种目前无法预料或无法预期的替代、修改、变化或改进,这些也旨在被涵盖于随附权利要求书中。

参考文献

[1]christopherlawrenceayala.energy-efficientwidedatapathintegerarithmeticlogicunitsusingsuperconductorlogic.phdthesis,stonybrookuniversity,december2012.

[2]d.h.bailey,e.barszcz,j.t.barton,d.s.browning,r.l.carter,l.dagum,r.a.fatoohi,p.o.frederickson,t.a.lasinski,r.s.schreiber,h.d.simon,v.venkatakrishnan,ands.k.weeratunga.thenasparallelbenchmarkssummaryandpreliminaryresults.insupercomputing,1991.supercomputing’91.proceedingsofthe1991acm/ieeeconferenceon,pages158-165,1991.

[3]rodwellsbakolo.designandimplementationofarsfqsuperconductivedigitalelectronicscelllibrary.phdthesis,universityofstellenbosch,2011.

[4]christianbienia,sanjeevkumar,jaswinderpalsingh,andkaili.theparsecbenchmarksuite:characterizationandarchitecturalimplications.inproceedingsofthe17thinternationalconferenceonparallelarchitecturesandcompilationtechniques,pact’08,pages72-81,2008.

[5]darrenkbrock,eliektrack,andjohnmrowell.superconductorics:the100-ghzsecondgeneration.ieeespectrum.37(12):40-46,2000.

[6]christopherbronk,avinashlingamneni,andkrishnapalem.innovationforsustainabilityininformationandcommunicationtechnologies(ict).jamesa.bakeriiiinst.publicpolicy,riceuniv.,houston,tx,usa,2010.

[7]p.bunyk,m.leung,j.spargo,andm.dorojevets.flux-1rsfqmicroprocessor:physicaldesignandtestresults.appliedsuperconductivity,ieeetransactionson,13(2):433-436,2003.

[8]hjohncaulfieldandshlomidolev.whyfuturesupercomputingrequiresoptics.naturephotonics,4(5):261-263,2010.

[9]wchen,avrylyakov,vijaypatel,jelukens,andkklikharev.rapidsinglefluxquantumt-flipflopoperatingupto770ghz.ieeetransactionsonappliedsuperconductivity,9(2):3212-3215.1999.

[10]l.dagumandr.menon.openmp:anindustrystandardapiforshared-memoryprogramming.computationalscienceengineering,ieee,5(1):46-55,1998.

[11]m.dorojevets,c.l.ayala,anda.k.kasperek.data-flowmicroarchitectureforwidedatapathrsfqprocessors:designstudy.appliedsuperconductivity,ieeetransactionson,21(3):787-791,2011.

[12]m.dorojevets,c.l.ayala,n.yoshikawa,anda.fujimaki.8-bitasynchronoussparse-treesuperconductorrsfqarithmetic-logicunitwitharichsetofoperations.ieeetransactionsonappliedsuperconductivity,23(3):1700104-1700104,2013.

[13]m.dorojevets,p.bunyk,d.zinoviev,andk.likharev.cool-0:designofanrsfqsubsystemforpetaflopscomputing.appliedsuperconductivity,ieeetransactionson,9(2):3606-3614,1999.

[14]m.dorojevetsandp.bunyk.architecturalandimplementationchallengesindesigninghigh-performancersfqprocessors:aflux-1microprocessorandbeyond.appliedsuperconductivity,ieeetransactionson,13(2):446-449,2003.

[15]m.dorojevets,a.k.kasperek,n.yoshikawa,anda.fujimaki.20-ghz8x8-bitparallelcarry-savepipelinedrsfqmultiplier.ieeetransactionsonappliedsuperconductivity,23(3):1300104-1300104,2013.

[16]m.dorojevets.a20-ghzflux-1superconductorrsfqmicroprocessor.inlowtemperatureelectronics,2002.proceedingsofthe5theuropeanworkshopon,pages157-160,2002.

[17]noshirbdubash,perng-feiyuh,valeryvborzenets,tvanduzer,andsrwhiteley.sfqdatacommunicationswitch.appliedsuperconductivity,ieeetransactionson,7(2):2681-2684,1997.

[18]theodorevanduzerandcharleswilliamturner.principlesofsuperconductivedevicesandcircuits.prenticehallptr,2edition,1999.

[19]mespy,mflynn,jgomez,chanson,rkraus,pmagnelind,kmaskaly,amatlashov,snewman,towens,mpeters,hsandin,isavukov,lschultz,aurbaitis,pvolegov,andvzotev.ultra-low-fieldmriforthedetectionofliquidexplosives.superconductorscienceandtechnology,23(3):034023,2010.

[20]c.a.hamilton.josephsonvoltagestandards.reviewofscientificinstruments,71(10):3611-3623,2000.

[21]i.haverkamp,o.mielke,j.kunert,r.stolz,h.-g.meyer,h.toepfer,andt.ortlepp.linearityofadigitalsquidmagnetometer.appliedsuperconductivity,ieeetransactionson,21(3):705-708,2011.

[22]q.p.herrandp.bunyk.implementationandapplicationoffirst-infirst-outbuffers.ieeetransactionsonappliedsuperconductivity,13(2):563-566,2003.

[23]yoshiokameda,yoshihitohashimoto,andshinichiyorozu.designanddemonstrationofa4x4sfqnetworkswitchprototypesystemand10-gbpsbit-error-ratemeasurement.ieicetransactionsonelectronics,91(3):333-341,2008.

[24]richardd.lawrence,georges.almasi,andhollye.rushmeier.ascalableparallelalgorithmforself-organizingmapswithapplicationstosparsedataminingproblems.dataminingandknowledgediscovery,3(2):171-195,1999.

[25]j.lenzandalans.edelstein.magneticsensorsandtheirapplications.ieeesensorsjournal,6(3):631-649,2006.

[26]k.k.likharevandv.k.semenov.rsfqlogic/memoryfamily:anewjosephson-junctiontechnologyforsub-terahertz-clock-frequencydigitalsystems.appliedsuperconductivity,ieeetransactionson,1(1):3-28,1991.

[27]lindekryotechnikag,http://www.linde-kryotechnik.ch/public/datenblaetter/1280-lr280_datenblatt_eng.pdf.standardheliumliquefier/refrigeratorl280/lr280.

[28]j.c.lin,v.k.semenov,andk.k.likharev.designofsfq-countinganalog-to-digitalconverter.ieeetransactionsonappliedsuperconductivity,5(2):2252-2259,1995.

[29]qingguoliu.josephson-cmoshybridmemories.phdthesis,universityofcalifornia,berkeley,april2007.

[30]qingguoliu.josephson-cmoshybridmemories.phdthesis,universityofstellenbosch,2007.

[31]shengli,jung-hoahn,r.d.strong,j.b.brockman,d.m.tullsen,andn.p.jouppi.mcpat:anintegratedpower,area,andtimingmodelingframeworkformulticoreandmanycorearchitectures.inmicroarchitecture,2009.micro-42.42ndannualieee/acminternationalsymposiumon,pages469-480,2009.

[32]richardallenmatula.electricalresistivityofcopper,gold,palladium,andsilver.journalofphysicalandchemicalreferencedata,8:1147,1979.

[33]j.d.mccambridge,m.g.forrester,d.l.miller,b.d.hunt,j.x.pryzbysz,j.talvacchio,andr.m.young.multilayerhtssfqanalog-to-digitalconverters.ieeetransactionsonappliedsuperconductivity,7(2):3622-3625,1997.

[34]microntechnology,inc.,http://download.micron.com/pdf/datasheets/dram/ddr3/1gb_ddr3_sdram.pdf.1gbddr3sdram,2006.

[35]mvmoody,hachan,andhjpaik.superconductinggravitygradiometerforspaceandterrestrialapplications.journalofappliedphysics,60(12):4308-4315,1986.

[36]mosis,http://www.mosis.com/pages/products/assembly/index.mosispackagingandassembly:packagingoptions,2013.

[37]o.a.mukhanov,d.gupta,a.m.kadin,andv.k.semenov.superconductoranalog-to-digitalconverters.proceedingsoftheieee,92(10):1564-1584,2004.

[38]o.a.mukhanov.energy-efficientsinglefluxquantumtechnology.ieeetransactionsonappliedsuperconductivity,21(3):760-769,2011.

[39]olega.mukhanov,alanm.kadin,ivanp.nevirkovets,andigorv.vernik.superconductingdeviceswithferromagneticbarrierjunctions,january2012.u.s.patentappl.2012/0184445a1.

[40]naveenmuralimanohar,rajeevbalasubramonian,andnormanpjouppi.cacti6.0:atooltomodellargecaches.hplaboratories,2009.

[41]t.nakagawa,y.hashimoto,y.kameda,s.yorozu,m.hidaka,andkazunorimiyahara.large-scalesfqswitchesusingminiaturized22switchcell.appliedsuperconductivity,ieeetransactionson,18(4):1790-1796,2008.

[42]mnisenoff.spaceapplicationsofsuperconductivity.principlesandapplicationsofsuperconductingquantuminterferencedevices,page275,1992.

[43]h.numata,s.nagasawa,ands.tahara.avortextransitionalmemorycellfor1-mbit/cm/sup2/densityjosephsonrams.appliedsuperconductivity,ieeetransactionson,7(2):2282-2287,1997.

[44]tortlepp,lzheng,srwhiteley,andtvanduzer.designguidelinesforsuzukistacksasreliablehigh-speedjosephsonvoltagedrivers.superconductorscienceandtechnology,26(3):035007,2013.

[45]svpolonsky.newsfq/dcconverterforrsfqlogic/memoryfamily.superconductorscienceandtechnology,4(9):442.

[46]torstenreich,t.ortlepp,andf.hermannuhlmann.digitalsquidsensorbasedonsfqtechnique.ieeetransactionsonappliedsuperconductivity,15(2):304-307,2005.

[47]joserenau,basiliofraguela,jamestuck,weiliu,milosprvulovic,luisceze,smrutisarangi,paulsack,karinstrauss,andpablomontesinos.sescsimulator,january2005.http://sesc.sourceforge.net.

[48]k.ruppands.selberherr.theeconomiclimittomoore’slaw.ieeetransactionsonsemiconductormanufacturing,24(1):1-4,2011.

[49]valeryv.ryazanov,vitalyv.bol’ginov,danilas.sobanin,igorv.vernik,sergeyk.tolpygo,alanm.kadin,andolega.mukhanov.magneticjosephsonjunctiontechnologyfordigitalandmemoryapplications.physicsprocedia,36(0):35-41,2013.

[50]h.sasaki,s.kiryu,f.hirayama,t.kikuchi,m.maezawa,a.shoji,ands.v.polonsky.rsfq-basedd/aconverterforacvoltagestandard.ieeetransactionsonappliedsuperconductivity,9(2):3561-3564,1999.

[51]v.k.semenovandm.a.voronova.dcvoltagemultipliers:anovelapplicationofsynchronizationinjosephsonjunctionarrays.ieeetransactionsonmagnetics,25(2):1432-1435,1989.

[52]wilsonsnyder,duanegalbi,andpaulwasson.verilatorwiki.http://www.veripool.org/wiki/verilator.

[53]m.suzuki,m.maezawa,h.takato,h.nakagawa,f.hirayama,s.kiryu,m.aoyagi,t.sekigawa,anda.shoji.aninterfacecircuitforajosephson-cmoshybriddigitalsystem.appliedsuperconductivity,ieeetransactionson,9(2):3314-3317,1999.

[54]s.e.thompson.power,costandcircuitipreuse:thereallimitertomoore’slawoverthenext10years.invlsitechnologysystemsandapplications(vlsi-tsa),2010internationalsymposiumon,pages88-89,2010.

[55]y.tsuga,y.yamanashi,andn.yoshikawa.asynchronousdigitalsquidmagnetometerwithanon-chipmagneticfeedbackforimprovementofmagneticresolution.ieeetransactionsonappliedsuperconductivity,23(3):1601405-1601405,2013.

[56]t.vanduzer,lizhenzheng,s.r.whiteley,h.kim,jaewookim,xiaofanmeng,andt.ortlepp.64-kbhybridjosephson-cmos4kelvinramwith400psaccesstimeand12mwreadpower.appliedsuperconductivity,ieeetransactionson,23(3):1700504-1700504,2013.

[57]i.v.vemik,v.v.bol’ginov,s.v.bakurskiy,a.a.golubov,m.y.kupriyanov,v.v.ryazanov,ando.a.mukhanov.magneticjosephsonjunctionswithsuperconductinginterlayerforcryogenicmemory.ieeetransactionsonappliedsuperconductivity,23(3):1701208-1701208,2013.

[58]s.jewiltonandn.p.jouppi.cacti:anenhancedcacheaccessandcycletimemodel.solid-statecircuits,ieeejournalof,31(5):677-688,1996.

[59]s.c.woo,m.ohara,e.torrie,j.p.singh,anda.gupta.thesplash-2programs:characterizationandmethodologicalconsiderations.incomputerarchitecture,1995.proceedings.,22ndannualinternationalsymposiumon,pages24-36,1995.

[60]tyamada,myoshida,thanai,afujimaki,hhayakawa,ykameda,syorozu,hterai,andnyoshikawa.quantitativeevaluationofthesingle-flux-quantumcross/barswitch.appliedsuperconductivity,ieeetransactionson,15(2):324-327,2005.

[61]y.yamanashi,m.tanaka,a.akimoto,h.park,y.kamiya,n.ifie,n.yoshikawa,a.fujimaki,h.terai,andy.hashimoto.designandimplementationofapipelinedbit-serialsfqmicroprocessor,corel.appliedsuperconductivity,ieeetransactionson,17(2):474-477,2007.

[62]r.m.yoo,a.romano,andc.kozyrakis.phoenixrebirth:scalablemapreduceonalarge-scaleshared-memorysystem.inworkloadcharacterization,2009.iiswc2009.ieeeinternationalsymposiumon,pages198-207,2009.

[63]shinichiyorozu,yoshiokameda,andshuichitahara.asinglefluxquantum(sfq)packetswitchunittowardsscalablenon-blockingrouter.ieicetransactionsonelectronics,85(3):617-620,2002.

[64]syorozu,yhashimoto,ykamcda,hterai,afujimaki,andnyoshikawa.a40ghzclock160gb/s44switchcircuitusingsinglefluxquantumtechnologyforhigh-speedpacketswitchingsystems.inhighperformanceswitchingandrouting,2004.hpsr.2004workshopon,pages20-23.ieee,2004.

[65]s.yorozu,y.kameda,y.hashimoto,h.terai,a.fujimaki,andn.yoshikawa.singlefluxquantumcircuittechnologyinnovationforbackbonerouterapplications.physicac:superconductivity,392-396,part2(0):1478-1484,2003.

[66]s.yorozu,y.kameda,y.hashimoto,h.terai,a.fujimaki,andn.yoshikawa.progressofsinglefluxquantumpacketswitchtechnology.appliedsuperconductivity,ieeetransactionson,15(2):411-414,2005.

[67]w.zhaoandy.cao.newgenerationofpredictivetechnologymodelforsub-45nmearlydesignexploration.ieeetransactionsonelectrondevices,53(11):2816-2823,january2006.

[68]jezimmerman.spaceapplicationsofsuperconductivity:lowfrequencysuperconductingsensors.cryogenics,20(1):3-10,1980.

[69]d.y.zinovievandk.k.likharev.feasibilitystudyofrsfq-basedself-routingnonblockingdigitalswitches.appliedsuperconductivity,ieeetransactionson,7(2):3155-3163,1997.

[70]v.s.zotev,a.n.matlachov,p.l.volegov,h.j.sandin,m.a.espy,j.c.mosher,a.v.urbaitis,s.g.newman,androberth.kraus.multi-channelsquidsystemformegandultra-low-fieldmri.appliedsuperconductivity,ieeetransactionson,17(2):839-842,2007.

[71]v.s.zotev,a.n.matlashov,p.l.volegov,a.v.urbaitis,m.a.espy,andr.h.krausjr.squid-basedinstrumentationforultralow-fieldmri.superconductorscienceandtechnology,20(11):s367,2007.

[72]microtesla{mri}ofthehumanbraincombinedwith{meg}.journalofmagneticresonance,194(1):115-120,2008.

[73]k.gaj,q.p.herr,v.adler,a.krasniewski,e.g.friedman,andm.j.feldman.toolsforthecomputer-aideddesignofmultigigahertzsuperconductingdigitalcircuits.appliedsuperconductivity,ieeetransactionson,9(1):18-38,1999.

[74]k.gaj,e.g.friedman,m.j.feldman,anda.krasniewski.aclockdistributionschemeforlargersfqcircuits.appliedsuperconductivity,ieeetransactionson,5(2):3320-3324,1995.

[75]a.h.silver.superconductortechnologyforhigh-endcomputingsystemissuesandtechnologyroadmap.insupercomputing,2005.proceedingsoftheacm/ieeesc2005conference,pages64-64,2005.

[76]b.n.engelet.al.a4-mbtogglemrambasedonanovelbitandswitchingmethod.ieeetransactionsonmagnetics,41(i):132-136,january2005.

[77]m.hosomiandh.yamagishiandt.yamamotoandk.besshaetal.anovelnonvolatilememorywithspintorquetransfermagnetizationswitching:spin-ram.iniedmtechnicaldigest,pages459-462,2005.

[78]t.kishietal.lower-currentandfastswitchingofaperpendiculartmrforhighspeedandhighdensityspin-transfer-torquemram.inproceedingsoftheieeeinternationalelectrondevicesmeeting,pages1-4,january2008.

[79]t.kawaharaetal.2mbspram(spin-transfertorqueram)withbit-by-bitbi-directionalcurrentwriteandparallelizing-directioncurrentread.ieeejournalofsolid-statecircuits,43(1):109-120,january2008.

[80]j.liang,s.yeh,s.s.wong,andh.s.p.wong.effectofwordline/bitlinescalingontheperformance,energyconsumption,andreliabilityofcross-pointmemoryarray.j.emerg.technol.comput.syst.,9(1):9:1-9:14.february2013.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1