一种数据存储系统的制作方法

文档序号:14716589发布日期:2018-06-16 01:28阅读:217来源:国知局
一种数据存储系统的制作方法

本发明涉及数据存储领域,尤其涉及一种数据存储系统。



背景技术:

人工智能(Artificial Intelligence,AI)的到来为很多行业带来了机遇,也带来了很多新兴的行业,比如图像识别,语音识别以及智能机器人,无人驾驶等等。而神经网络作为人工智能领域的组成部分,扮演着举足轻重的作用。

针对传统的冯诺依曼架构,如图1所示。所述图1中包括母板1(motherboard),用于连接处理器11和内存12等其他硬件的。为了提升处理人工智能进程的性能,可以从处理器11和内存12两个方面提升整体的性能。为此因特尔(Intel)的CPU和英伟达(Nvidia)的GPU不断提升处理器11的速度,提高数据的吞吐量,谷歌(google)也提出了专门用于处理人工智能进程的处理器TPU,处理人工智能进程的性能相对于CPU、GPU有较大幅度的提升。另外一方面内存也不断的提升着自身的读写速度,提高带宽。

固然上述方法可以提升处理AI进程的速度,然而在图2中(In-Datacenter Performance Analysis of a Tensor Processing Unit),Processor Roofline代表利用一简化虚拟模型模拟的计算机整体架构理论上所能达到的最大性能,Processor Roofline倾斜部分的斜率代表内存的带宽,可以看出绝大部分处理AI进程(APP1-APP4)的速度受到内存带宽的限制。究其原因,是因为内存接口所带来的带宽限制,而且内存插在内存接口上再通过图1中所述的母板1与所述的处理器11进行数据的存取,所以在母板上消耗的RC延时非常高,且产生了大量的功耗。

为解决上述内存接口所带来的带宽限制和母板上的延迟问题,提出了片上内存(memory on chip),即将内存与处理器做在同一个芯片上,但是为了训练出较好的AI处理模型,通常需要几个GB、十几个GB甚至更高的内存容量,所以我们不可能将如此大的内存与处理器集成在同一个芯片上。虽然也提出了降低内存容量的方法,其中一种方法最多降低了20倍的内存容量,但是却降低了30%的性能,即使降低了20倍的内存容量,还是需要几百兆的内存,同样不可能将这么大的内存与处理器集成在同一个芯片上,这将使片上内存变得非常昂贵。

另一方面,由于内存介质DRAM不能长时间保持数据,即易失性存储器,需要不断地刷新才能保持数据,而且随着DRAM工艺节点从2xnm到1xnm,数据保持时间不满足JEDEC(固态技术协会)标准,导致刷新功耗会进一步。虽然IBM在传统计算机的存储结构的基础上提出了一种新的存储结构,即用DRAM和非易失性存储器组成的混合内存,但是DRAM的刷新功耗问题仍然没有解决。而且处理AI进程需要较大的内存容量,不可能将很大的混合内存与处理器做在同一芯片上,所以会产生较大的母板延迟。



技术实现要素:

针对上述问题,本发明提供了一种数据存储系统,其中,包括:

三维存储器,所述三维存储器包括存储阵列和外围电路,所述存储阵列中包括多个层叠设置的存储单元,所述外围电路设置在所述存储阵列的下方;

处理单元,设置于所述存储阵列下,并与所述存储阵列相连接。

其中,所述处理单元为中央处理器,和\或图形处理器,和\或张量处理器,和\或现场可编程门阵列,和\或控制单元,和\或矩阵乘单元。

其中,所述三维存储器为三维相变存储器,和\或三维电阻式随机存取存储器,和\或三维闪存存储器。

其中,所述处理单元通过一金属互连线与所述存储阵列相连接。

其中,还包括一连接所述处理单元的外置存储设备;

于一预定周期内,所述处理单元控制所述外置存储设备中保存的数据对所述三维存储器进行数据更新。

其中,每隔所述预定周期,所述处理单元将所述三维存储器所存储的数据传输至所述外置存储设备中,并将所述外置存储设备中的数据传回至所述三维存储器,以完成更新。

其中,所述外置存储设备为机械硬盘或者固态硬盘。

有益效果:通过使用上述处理系统,运用三维存储器和新的连接方式,在获得运行速度提升的同时还能降低使用时的功耗,达到高速低功耗的目的,节约时间与经济成本。

附图说明

图1为现有技术中传统的冯诺依曼架构示意图;

图2为现有技术中计算机架构所能达到的最大性能示意图;

图3为本发明一种高速低功耗处理系统具体实施例中三维存储器连接关系示意图;

图4为本发明一种高速低功耗处理系统具体实施例中处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

如图3和图4所示,在一个较佳的实施例中,提出了一种数据存储系统,其特征在于,包括:

三维存储器31,所述三维存储器31包括存储阵列和外围电路4_m,所述存储阵列中包括多个层叠设置的存储单元4_1~4_m-1,所述外围电路4_m设置在所述存储阵列的下方;

处理单元5,设置于所述存储阵列下,并与所述存储阵列相连接

上述技术方案中,通过使用上述系统,在获得运行速度提升的同时还能降低使用时的功耗,达到高速低功耗的目的,可以花费更短的时间训练完成类似神经网络模型等人工智能模型的运算。

神经网络的运行分为两个阶段,分别是训练阶段(training phase),和执行阶段(inferencephase)。神经网络模拟人脑的运行,分布处理,建立计算模型,通过学习和训练改变内部的权值,从而进行高效的、准确的执行阶段。而随着人们对于人工智能的探索,如何加快训练阶段和执行阶段的时间、提高执行阶段的准确性变得至关重要,尤其对于一些领域,比如无人驾驶,处理器必须实时的对于道路上的交通状况作出及时的反应。所以,我们希望尽可能的减少训练和执行时间,提高训练和执行速度,进而提升处理人工智能进程的性能。

在一个较佳的实施例中,所述三维存储器31包括三维相变存储器,和\或三维电阻式随机存取存储器,和\或三维闪存存储器。

具体的,采用三维相变存储器作为三维存储器31。

上述技术方案中,相对于动态随机存取存储器(DRAM)而言,三维相变存储器可以通过增加存储单元(GST)中Sb(锑)的浓度等方法,从而加快三维相变存储器的读写速度,达到与动态随机存取存储器读写速度相同的目的,但也带来了三维相变存储器数据保持时间变短的问题。

在一个较佳的实施例中,所述处理单元5为中央处理器(CPU),和\或图形处理器(GPU),和\或张量处理器(TPU),和\或现场可编程门阵列(FPGA),和\或控制单元(Controller),和\或矩阵乘单元(MAC)。

在一个较佳的实施例中,所述处理单元5通过一金属互连线与所述存储阵列相连接。

具体的,即通过内部金属线将用于处理算法进程的处理单元5与三维存储器31的存储阵列直接相连。

上述技术方案中,通过金属互连线直接连接处理单元5和存储阵列,就可以绕过母版和内存接口。避免了因为带宽的限制而产生的性能问题。

在这种情况下,三维相变存储器与动态随机存取存储器的读写速度相近,且处理单元的相关硬件直接通过芯片内部的金属互连线连接三维相变存储器的存储阵列,不需要通过母板以及内存接口,所以三维相变存储器的带宽可以做的很大,解决了传统内存带宽导致的系统处理性能受限的问题,获得了更高的处理性能。

另一方面,由于张量处理器中的缓存(SRAM)占用了处理器几乎1/3的面积,那么可以将做在所述存储阵列下面的处理器的缓存容量减小,虽然这样可能会导致处理器性能降低,但是整体而言,提出的PUA(Processor Under Array)结构带来的性能的提升可以和处理器缓存SRAM的减小带来的性能的下降所抵消。也就是说,提出的数据存储系统可以因处理器的缓存的大小在性能与价格之间权衡,以到达更高的性价比。

在一个较佳的实施例中,如图3所示,还包括一连接所述处理单元5的外置存储设备32;

于一预定周期内,所述处理单元5控制所述外置存储设备32中保存的数据对所述三维存储器31进行数据更新。

具体的,每隔所述预定周期,所述处理单元5将所述三维存储器31所存储的数据传输至所述外置存储设备32中,并将所述外置存储设备32中的数据传回至所述三维存储器31,以完成更新。

进一步地,比如每隔7天,在三维相变存储器中数据丢失之前,先将更新以后的三维相变存储器的数据存储到一机械硬盘或者固态硬盘中,再重新加载机械硬盘或者固态硬盘中的数据到三维相变存储器中保证数据准确,从而保证了三维相变存储器可以与动态随机存取存储器具有相同甚至更高的写速度。

同时,三维相变存储器为非易失性存储器,不需要像动态随机存取存储器一样时常刷新以保持数据,节省了功耗,而且三维存储器31的存储密度非常大,相同的面积上,三维存储器31的容量大约是内存动态随机存取存储器的几到十几倍,随着存储单元层次的增加,单位面积上的存储容量将会更大。

上述技术方案中,使用固态硬盘进行数据的更新可以减少更新所需的时间,而使用机械硬盘则可以降低使用成本。

机械硬盘即是传统普通硬盘,主要由:盘片,磁头,盘片转轴及控制电机,磁头控制器,数据转换器,接口,缓存等几个部分组成。机械硬盘的磁头可沿盘片的半径方向运动,加上盘片每分钟几千转的高速旋转,磁头就可以定位在盘片的指定位置上进行数据的读写操作。信息通过离磁性表面很近的磁头,由电磁流来改变极性方式被电磁流写到磁盘上,信息可以通过相反的方式读取。

固态硬盘是用固态电子存储芯片阵列而制成的硬盘,由控制单元和存储单元(闪存芯片、动态随机存取存储器芯片)组成。固态硬盘在接口的规范和定义、功能及使用方法上与普通硬盘的完全相同,在产品外形和尺寸上也完全与普通硬盘一致。被广泛应用于军事、车载、工控、视频监控、网络监控、网络终端、电力、医疗、航空、导航设备等领域。

冯·诺依曼结构也称普林斯顿结构,是一种将程序指令存储器和数据存储器合并在一起的存储器结构。程序指令存储地址和数据存储地址指向同一个存储器的不同物理位置,因此程序指令和数据具有相同的宽度。

如表1所示,相对于内存动态随机存取存储器而言,三维存储器31可以通过工艺、器件、材料组分等的改变提高所述非易失性随机访问存储器写入速度达到与动态随机存取存储器相同的甚至更高的读写速度,而且三维存储器31的存储密度非常大,相同的面积上,三维存储器31的容量大约是动态随机存取存储器的几到十几倍,随着存储单元层次的增加,单位面积上的存储容量将会更大。并且三维存储器31为非易失性存储器,不需要刷新,解决了动态随机存取存储器掉电易失的问题。

综上所述,处理单元直接通过片内金属互连线访问三维存储器31,而不需要像处理器访问动态随机存取存储器一样需要经过母板,所以通过所述高速低功耗处理系统节省了母板消耗的时间和功耗,那么通过我们的处理系统将会获得速度的提升和功耗的降低,达到高速低功耗的目的。

表1三维存储器与DRAM性能比较

以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1