用于在多个独立主机之间共享的设备的装置、系统、以及方法

文档序号:6457082阅读:476来源:国知局
专利名称:用于在多个独立主机之间共享的设备的装置、系统、以及方法
技术领域
本发明涉及设备管理,更具体地,涉及在多个从属主机之间共享设备。
背景技术
传统上,诸如网络接口 (网络接口卡或"NIC")、存储设备、图形卡等 的计算机部件通过系统总线连接到主机的处理器上。传统的系统总线在可以 连接的设备的数量上受限而且起到的作用有点像物理连接到有限数量的设备 上的一组电线。 一些系统总线协议使得外部设备可以连接,这些系统总线比 如小型计算机系统接口 ( "SCST")、电气和电子工程师协会("IEEE") 1394 (火线)、光纤通道、通用串行总线("USB")、外围组件互连快速 ("PCI-e")总线、串行高级技术附件("串行ATA")总线、或者类似总 线。
许多现代的系统总线(比如PCIe)使用点对点连接和切换芯片将多个设 备互连,而保持传统系统总线的功能性。然而,当连接到系统总线上的设备 比如存储设备、网络接口 (网络接口卡或"NIC")等等在多个设备之间共享 时,共享的设备通常通过单个主机来控制。来自想要访问该共享设备的其他 主机的数据和命令通过该主机传送到该共享设备并从该共享设备通过控制主
8机回到其他主机。因为请求主机没有能力与共享主机直接通信进行数据转移, 所以这种方法是没有效率的。这阻止了请求主机和共享设备之间的直接存储
器存取("DMA")传送和远程DMA ( "RDMA")传送。

发明内容
从上述论述中,应当理解的是存在对允许在多个主机之间共享设备的一 种装置、系统以及方法的需要,在此数据可以在系统总线上主机和共享设备 之间独立于连接到系统总线上的其他主机而转移。有利的是,这样的装置、 系统以及方法会使命令代理主机得以在共享设备和请求主机之间建立数据3各 径,并得以在此后作为所选择的用来建立数据转移的命令的代理。
本发明是针对现有技术的现况开发出来的,具体地,是针对现有技术中 目前可以得到的用于在多个主机之间共享设备的系统并未完全解决的问题和 需要。因此,本发明已经被开发出来以提供克服现有技术中的上述多数或全 部缺陷的 一种在多个主机之间共享设备的装置、系统以及方法。
在一种实施方式中,该装置被提供有用于实现多个主机之间设备共享的 多个模块,包括代理请求接收器模块和代理请求命令模块。典型的是代理请 求接收器模块在指定的命令代理主机上执行并且从请求主机接收代理请求。 典型的是该请求主才几是两个或更多个主机之一,而且该两个或更多个主机中 每一个都执行独立于其他主机和共享设备的操作系统。指定这两个或更多个 主机中的 一个主机为命令代理主机,而且两个或更多个主机和共享设备可以 通过系统总线连接。
代理请求可以包括要由共享设备执行的控制请求。典型的是该控制请求 足以配置该共享设备以在发送该代理请求的请求主机和共享设备之间进行数 据转移。该数据转移独立于该命令代理主机执行,而且典型的是该控制请求 大体上没有要在请求主机和共享设备之间转移的数据。典型的是该代理请求 命令模块在该命令代理主机上执行并且向该共享设备发送控制请求,以作为 对代理请求接收器模块接收控制请求的响应。
在一种实施方式中,该装置包括中断接收器模块和中断发送;f莫块。典型 的是该中断接收器模块在命令代理主机上执行并且从共享设备接收中断。该 中断可以包括如下信息共享设备具有要向主机发送的数据或者已经将数据发送给主机。中断发送模块将中断中所包括的信息发送给主机。该信息对于 接收该信息的主机来说足以继续进行接收该数据传输的过程。在又一种实施 方式中,除了命令代理主机之外的主机都能够接收中断。
在该装置的一种实施方式中,该装置包括典型地在命令代理主机中执行 的路径模块。该路径模块确定在主机和共享设备之间是否存在通信路径。该
通信路径可以包括数据路径或命令路径。路径模块创建通信路径以作为确定 通信路径不存在的响应,而且数据路径足以在主机和共享设备之间转移数据 或控制请求。在又一种实施方式中,通信路径模块可以确定通信路径是否存 在以响应来自主机的代理请求或者来自共享设备的中断。
在一种附加实施方式中,该共享设备可以是如下配置的网络接口将通
过计算机网络从两个或更多个主机之一接收的数据转移到一个设备并将通过 计算机网络接收的数据从一个设备转移到两个或更多个主机之一 。在另 一种 实施方式中,该共享设备可以包括存储设备和存储控制器中的一个或多个。 在又一种实施方式中,该存储设备进一步可以是固态存储设备,而且该存储 控制器可以是固态存储控制器。
在一种实施方式中,系统总线可以是外围组件互连快速("PCI-e")。 在又一种实施方式中,PCI-e总线和共享设备支持PCI-e输入/输出虚拟化 ("PCIe-IOV")。在另一种实施方式中,在这两个或多于两个主才几中两个 或多于两个主机在单一的设备场境内共享该共享设备。
在该装置的一种实施方式中,命令代理主机在根段执行。在另一种实施 方式中,命令代理主机在两个或多于两个主机中执行。在又一种实施方式中, 命令代理主机在共享设备中执行。在另一种实施方式中,命令代理主机在给 共享设备的第三方组件管理命令中执行,该共享设备独立于这两个或两个以 上主机。在又一种实施方式中,命令代理主机在将一个或多个根、 一个主机、 共享设备、以及第三方组件结合起来的设备中执行。
在一种实施方式中,独立的操作系统包括一个虚拟机层,该虚拟机层具 有在该虚拟机层之上运行的一个或多个操作系统。在另一种实施方式中,该 共用设备使用直接存储器存取("DMA")和远程直接存储器存取("RDMA") 中的一个在控制请求中识别的主机和共享设备之间转移数据。在又一种实施 方式中,该装置包括典型地在命令代理总线上执行的标准设备;f莫拟模块。该
10标准设备模拟模块在给一个或多个主机装载对于该设备操作来说特定的代码 之前将通到一个或多个主机的设备模拟成附着到系统总线上的标准设备。在 又一种实施方式中,用于标准设备的标准设备模拟模块支持I/O虚拟化。
在装置的 一 种实施方式中,该系统总线包括具有非透明端口的系统总线 切换。在主机上执行的第一初始化进程至少发现对该主机的所述命令代理主 机且不能发现该共享设备。所发现的命令代理主机作为第一初始化进程的结 果被识别是用来与至少执行该第 一初始化进程的主机通信。在又一种实施方 式中,在命令代理主机上执行的第二初始化进程发现至少对所述命令代理主 机的所述共享设备,而且作为初始化进程的结果该共享设备被识别是用来与 至少该命令代理主机通信。
在装置的一种替代实施方式中,该装置可以包括共享设备控制请求接收 器模块和控制请求响应模块。典型的是该共享设备控制请求接收器模块在该 共享设备上执行并且从指定为命令代理主机的主机接收控制请求。命令代理 主才几是两个或更多个主机中的一个,而且两个或两个以上主机中的每一个都 4丸行独立于其他主才几和共享i殳备的才喿作系统。这两个或两个以上的主才几和共 享设备通过系统总线连接。命令代理主机发送控制请求作为对从请求主机接 收代理请求的响应,而且请求主机是两个或更多个主机中的一个。典型的是 控制请求响应模块在共享设备上执行并且配置该共享设备用于在请求主机和 共享设备之间的数据转移。该控制请求大体上无数据转移的数据,而且数据 转移独立于命令代理主机而执行。
在一种实施方式中,中断发送^t块向命令代理主机发送中断。该中断可 以包括共享设备之一有要向主机发送的数据或共享设备有已转移给主机的数 据。典型的是这些信息对主机来说足以继续该接收数据的进程。命令代理主 机向主机发送这些信息。
在装置的另 一种替代实施方式中,该装置可以包括代理请求发送器模块 和主机数据发送器模块。代理请求发送器模块从请求主机向指定的命令代理 主机发送代理请求。请求主机和命令代理主机每一个都可以是连接到系统总 线上的两个或两个以上主机之一或共享设备。这两个或两个以上主才几中每一 个都独立于其他主机和共享设备来执行操作系统,而且该代理请求包括由该 共享设备执行的控制请求。该命令代理主机将控制请求发送给共享设备,而
11且该控制请求足以配置该共享设备用于在共享设备和发送代理请求的请求主 机之间的数据转移。控制请求基本上没有要在请求主机和共享设备之间转移 的数据。典型的是主机数据发送器模块在请求主机上执行并启动请求主机和 共享设备之间的数据转移。该转移独立于命令代理主机而执行。
在一种实施方式中,该装置可以包括主机中断接收器模块和主机数据接 收器模块。典型的是主机中断接收器模块在主机上执行并且从命令代理主机
接收如下信息共享设备具有要向主机发送的数据或已经将数据发送给主机。 这些信息可以源于命令代理主机从共享设备接收的中断。主机数据接收器模 块继续接收数据传输的进程,而且数据传输独立于命令代理主机执行。
还提出一种本发明的系统。该系统基本上包括上面就该装置描述的模块 和实施方式。在一种实施方式中,该系统包括系统总线、连接到该系统总线 上的共享设备、以及连接到该系统总线上的两个或两个以上的主机。两个或
两个以上的主机中每一个都执行独立于其他主机和共享设备的操作系统,而 且这两个或两个以上的主机中有一个是指定的命令代理主机。该系统还可以 包括代理请求接收器模块和代理请求命令模块。代理请求接收器模块可以在 该命令代理主机上执行。该代理接收器模块接收来自请求主机的代理请求, 而且该代理请求足以配置共享设备以用于在发送代理请求的请求主机和共享 设备之间的数据转移。该数据转移独立于命令代理主机执行,而且该控制请 求可以大体上没有要在请求主机和共享设备之间转移的数据。代理请求命令 模块可以在命令代理主机上执行而且向共享设备发送控制请求,以作为对代 理请求接收器模块接收控制请求的响应。
还提出一种本发明的方法用于多个主机之间共享设备。在公开的实施方 式中该方法基本上包括执行上面对于所述装置和系统的操作提出的功能必需 的步骤。在一种实施方式中,该方法包括接收来自请求主机的代理请求并且 向共享设备发送控制请求作为对代理请求接收器模块接收控制请求的响应。 该请求主机可以是两个或两个以上主机中的一个,而且两个或两个以上主机 中每一个都可以独立于其他主机和共享设备执行操作系统。两个或更多个主 机中的一个被指定为命令代理主机,而且这两个或两个以上的主机和共享设 备通过系统总线连接。该代理请求可以包括要由共享设备执行的控制请求。 典型的是该控制请求足以配置该共享设备用于发送代理请求的请求主机和共享设备之间的数据转移。该数据转移独立于命令代理主机而执行,而且该控 制请求可以大体上没有要在请求主机和共享设备之间转移的数据。
在一种替代实施方式中,该方法可以包括从指定为命令代理主机的主机 接收控制请求并且配置共享设备用于请求主机和共享设备之间的数据转移。
理主一几而执4亍。
在又一种实施方式中,该方法可以包括从请求主;^几向指定的命令代理主 机发送代理请求并且启动请求主机和共享设备之间的数据转移,该转移独立 于命令代理主机而执行。在这样一种实施方式中,请求主机和命令代理主机 可以每一个都是连接到系统总线上的两个或两个以上主机中的 一个或共享设 备。这两个或两个以上主机中每一个都独立于其他主机和共享设备来执行操 作系统,而且该代理请求包括要由共享设备执行的控制请求。命令代理主机 向共享设备发送控制请求,而且该控制请求足以配置共享设备以用于共享设 备和发送代理请求的请求主机之间的数据转移。该控制请求可以大体上没有 要在请求主机和共享设备之间转移的数据。
本说明书全文所提到的特征、优点或者类似措辞并不意味着可在本发明 包含在本发明的任一单独的实施方式中的情况下实现所有的特征和优点。当
然,涉及特征和优点的措辞被理解为意味着与实施方式一起描述的特定的 特征、优点或者特点包括在本发明的至少一种实施方式中。因此,在本说明 书全文中,关于特征、优点和类似措辞的讨论可(但未必)涉及同一实施方 式。
此外,描述的本发明的特征、优点和特点可釆用任何合适的方式与一个 或多个实施方式结合。相关领域的技术人员可意识到本发明可在不具备特定 实施方式的一个或多个具体特征或优点的情况下被实施。在其他例子中,可 意识到附加特征和优点出现在某些实施方式中,而不是在本发明的所有实施 方式中都出现。
通过下面的说明和附加的权利要求,本发明的这些特征和优点将变得更 加充分的显而易见,或者可以通过按下文所阐述的实施本发明的方法而获悉。


为了使本发明的优点更加容易理解,会参考附图中示出的特定实施方式 给出上面简要描述的本发明的更具体的说明。在理解到这些附图仅描述了本 发明的一般实施方式并且并不因此认为本发明限于此范围的情况下,将通过
使用附图并结合更多的具体特征和细节描述和解释本发明,附图中
图1A是示意性框图,示出了根据本发明的用于固态存储设备内的数据管 理的系统的 一 种实施方式;
图1B是示意性框图,示出了根据本发明的用于存储设备内的对象管理的 系统的一种实施方式;
图1C是示意性框图,示出了根据本发明的用于服务器内存储区域网的系 统的一种实施方式;
图2A是示意性框图,示出了根据本发明的用于存储设备内的对象管理的 装置的一种实施方式;
图2B是示意性框图,示出了根据本发明的位于固态存储设备内的固态存 储设备控制器的 一种实施方式;
图3是示出了根据本发明的位于固态存储设备内的固态存储设备控制器 的一种实施方式的示意性框图,该固态存储设备控制器具有写入数据管道和 读取数据管道;
图4A是示意性框图,示出了根据本发明的在固态存储控制器内的存储体 交错控制器的 一 种实施方式;
图4B是示意性框图,示出了根据本发明的在固态存储控制器内的存储体 交错控制器的 一个替代实施方式;
图5A是示意性流程图,示出了根据本发明使用数据管道管理固态存储设 备内的数据的方法的一种实施方式;
图5B是示意性流程图,示出了根据本发明的用于服务器内SAN的方法 的一种实施方式;
图6是示意性流程图,示出根据本发明使用数据管道管理固态存储设备 内的数据的方法的另一种实施方式;
图7是示意性流程图,示出根据本发明使用存储体交错来管理固态存储 设备内的数据的方法的另一种实施方式;
14图8是示意性框图,示出根据本发明的用于固态存储设备中垃圾收集的
装置的一种实施方式;
图9是示意性流程图,示出根据本发明的用于固态存储设备中垃圾收集 的方法的一种实施方式;
图10是示意性框图,示出根据本发明的系统的一种实施方式,该系统用 于在多个主机之间共享的设备;
图ll是示意性框图,示出根据本发明的命令代理主机中的一个装置的一 种实施方式,该装置用于在多个主机之间共享的设备;
图12是示意性框图,示出根据本发明的共享设备中的一个装置的一种实 施方式,该装置用于在多个主机之间共享的设备;
图13是示意性框图,示出根据本发明的请求主机中的一个装置的一种实 施方式,该装置用于在多个主机之间共享的设备;
图14是示意性流程图,示出根据本发明的方法的第一实施方式,该方法 用于在多个主机之间共享的设备;
图15是示意性流程图,示出根据本发明的方法的第二实施方式,该方法 用于在多个主机之间共享的设备;以及
图16是示意性流程图,示出根据本发明的方法的第三实施方式,该方法 用于在多个主机之间共享的设备。
具体实施例方式
为了更显著地强调功能性单元运行的独立性,在本说明书中描述的许多 功能性单元已被标示为模块。例如,模块可作为硬件电路来实施,所述硬件 电路包括自定义VLSI电路、门阵列或成品半导体(例如逻辑芯片、晶体管或 其他分立元件)。;漠块也可在可编程硬件i殳备(如现场可编程门阵列、可编程 阵列逻辑、可编程逻辑设备或类似设备)内实施。
模块还可在由不同类型的处理器运行的软件中实施。例如,可执行代码 的识别模块可以包括一个或多个计算机指令物理块或逻辑块,该计算机指令 被作为对象、程序或函数来组织。然而,识别模块的可执行文件不必在物理 上位于一起,但是可包括存储在不同位置的不同命令,当这些命令在逻辑上 连接在一起时,所述命令包括所述模块并实现所述模块的指定目标。
15当然,可执行代码的^^莫块可以为一个或许多指令,并且甚至可以分布在 若千不同的代码段中、分布在不同的程序中并可分布在多个存储设备中。类 似地,可以在此在模块内识别并示出运算数据,并且可以以任何合适的形式 体现所述运算数据并在任意合适类型的数据结构中组织所迷运算数据。所述 运算数据可作为单数据集收集,或者可以分布在不同的位置(包括不同的存 储设备),并且可在系统或网络中至少部分地仅作为电信号存在。当模块或模 块的部分在软件中实施时,软件部分被存储在一个或多个计算机可读媒体上。
本说明书全文所提到的"一种实施方式"、"实施方式"或类似的措辞意味着 与实施方式一起描述的特定的特征、结构或特点包括在本发明的至少一种实 施方式中。因此,在本说明书全文中,短语"在一种实施方式中"、"在实施方 式中"及类似措辞的出现可(但未必)涉及同一实施方式。
提及信号承载媒介可采取任何能够生成信号、导致信号生成或者导致在 数字处理设备上执行机器可读命令程序的形式。信号承载媒介可通过下述设
备体现传输线、光盘、数字视频光盘、磁带、伯努利驱动器、磁盘、穿孔 卡、闪存、集成电路或其他数字处理装置存储设备。
此外,描述的本发明的特征、结构或特点可以以任何合适的方式合并在 一种或多种实施方式中。在下文的说明中,提供了大量的具体细节以全面理 解本发明的实施方式,所述具体细节比如编程、软件^t块、用户选择、网络 事务、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等等的实 例。然而,相关技术领域的技术人员可认识到本发明可在不具备一个或多 个具体实施方式
的具体细节的情况下被实施,或者本发明可结合其他方法、 组件、材料等实施。在其他例子中,并没有显示或描迷公知的结构、材料或 操作以使本发明变得清晰。
此处包括的示意性流程图大体上是作为逻辑流程图来列举的。就这点而 言,描述的顺序和标记的步骤是本方法的一种实施方式的指示性说明。可设 想其他在功能上、逻辑上或效果上与图示方法的一个或多个步骤(或其中部 分)相同的步骤和方法。此外,使用的格式和符号被用于解释方法的逻辑步 骤并^f皮理解为不限制本方法的范围。尽管在流程图中可使用不同的箭头类型 和线条类型,但这些箭头类型和线条类型被理解为不限制相应方法的范围。 的确, 一些箭头或其他连接器可用于仅表示方法的逻辑流程。例如,箭头可表示描述的方法的列举的步骤之间的未指明间期的等待或监测时期。此外,特定方法的步骤的顺序可或可不严格依照所示的对应步骤的顺序。固态存储系统
图1A是示意性框图,示出了根据本发明的用于固态存储设备内的数据管理的系统100的一种实施方式。系统100包括固态存储设备102、固态存储控制器104、写入数据管道106、读取数据管道108、固态存储器IIO、计算机112、客户端114和计算机网络116,这些装置描述如下。
系统100包括至少一个固态存储设备102。在另一种实施方式中,系统100包括两个或更多个固态存储设备102,每个固态存储设备102可包括非易失性的、固态的存储器IIO,所述非易失性的、固态的存储器例如纳米随机存取存储器("纳米RAM"或者"NRAM")、磁电阻式RAM ("MRAM")、动态RAM ("DRAM")、相变RAM ("PRAM")闪存等等。结合图2和图3更详细地描述了固态存储设备102。固态存储设备102被描述成位于通过计算机网络116与客户端114相连的计算机112内。在一种实施方式中,固态存储设备102位于计算机112内部并且采用系统总线连接,所述系统总线例如快速外围组件互连("PCI-e")总线、串行高级技术附件("串行ATA,,)总线或类似总线。在另一种实施方式吧,固态存储设备102位于计算机112外部,并且通过通用串行总线("USB")、电气与电子工程师协会("正EE") 1394总线("火线")或类似总线连接。在其他实施方式中,固态存储设备102采用下述方式与计算机112相连接外围组件互连("PCI") express总线、外部电或光总线扩展或者总线网络解决方案,所述总线网络解决方案例如无限带宽或快速PCI高级交换("PCIe-AS,,)或类似技术。
在不同的实施方式中,固态存储设备102可以是双列直插式内存模块("DIMM")、子卡或微型模块的形式。在另一种实施方式中,固态存储设备102是位于机架式刀片内的元件。在另一种实施方式中,固态存储设备102包含在直接集成到高级集成装置(如主板、笔记本电脑、图形处理器)的封装内。在另一种实施方式中,包括固态存储设备102的单独元件直接集成到高级集成装置上而不经过中间封装。
固态存储设备102包括一个或多个固态存储控制器104,每个固态存储控制器104可包括写入数据管道106和读取数据管道108,而且,每个固态存储
17控制器104还包括固态存储器110,这将在下文中结合图2和图3详细说明。系统100包括一台或多台连接到固态存储设备102的计算机112。计算机112可以是主机、服务器、存储区域网络("SAN")的存储控制器、工作站、个人计算机、笔记本电脑、手持式计算机、超级计算机、计算机集群、网络交换机、路由器或设备、数据库或存储设备、数据采集或数据釆集系统、诊断系统、测试系统、机器人、便携式电子设备、无线设备或类似设备。在另一种实施方式中,计算机112可以是客户端,并且固态存储设备102自主运行以应答发送自计算机112的数据请求。在这种实施方式中,计算机112和固态存储设备102可采用下列方式连接计算机网络、系统总线或其他适于在计算机112和自主固态存储设备102之间连接的通信手段。
在一种实施方式中,系统100包括一个或多个客户端114,所述一个或多个客户端114通过一个或多个计算机网络116连接到一台或多台计算机112。客户端114可以是主机、服务器、SAN的存储控制器、工作站、个人计算机、笔记本电脑、手持式计算机、超级计算机、计算机集群、网络交换机、路由器或设备、数据库或存储设备、数据采集或数据采集系统、诊断系统、测试系统、机器人、便携式电子设备、无线设备或类似设备。计算机网络116可包括因特网、广域网("WAN")、城域网("MAN")、局域网("LAN")、令牌环网、无线网络、光纤通道网络、SAN、网络附属存储("NAS")、 ESCON或类似网络、或者是网络的任意組合。计算机网络116还可包括来自IEEE802系列网络技术中的网络,如以太网、令牌环网、WiFi、 WiMax及类似网络。
计算机网络116可包括服务器、交换机、路由器、电缆、无线电和其他用于促进计算机112和客户端114的网络连接的设备。在一种实施方式中,系统100包括通过计算机网络116进行对等通信的多台计算机112。在另一种实施方式中,系统100包括通过计算机网络116进行对等通信的多个固态存储设备102。本领域技术人员可认识到其他计算机网络116可包括一个或多个计算机网络116以及相关设备,所述相关设备具有一个或多个客户端114、其他计算机或与一台或多台计算机112相连的一个或多个固态存储设备102之间的单个或冗余连接,所述其他计算机具有一个或多个固态存储设备102。在一种实施方式中,系统100包括两个或更多个通过计算机网络118连接到客户端116的固态存储设备102,而不包括计算机112。存储控制器管理的对象
图1B是示意性框图,示出了根据本发明的用于存储"i殳备内的对象管理的系统101的一种实施方式。系统101包括一个或多个存储设备150 (每一个存储设备150都具有存储控制器152和一个或多个数据存储设备154 )和一个或多个请求设备155。存储设备152联网在一起并与一个或多个请求设备155连接。请求设备155将对象请求发给存储设备150a。对象请求可以是创建对象的请求、向对象写入数据的请求、从对象读取数据的请求、删除对象的请求、检查对象的请求、复制对象的请求及类似请求。本领域技术人员会认识到其他对象请求。
在一种实施方式中,存储控制器152和数据存储设备154是分离的设备。在另一种实施方式中,存储控制器152和数据存储设备154集成到一个存储设备]50上。在另一种实施方式中,数据存储设备154为固态存储器110,而存储控制器为固态存储设备控制器202。在其他实施方式中,数据存储设备154可以为硬盘驱动器、光驱动器、磁带存储器或类似存储设备。在另一种实施方式中,存储设备150可包括两个或更多个不同类型的数据存储设备154。
在一种实施方式中,数据存储设备154为固态存储器110,并且被布置为固态存储元件216、 218、 220的阵列。在另一种实施方式中,固态存储器IIO被布置在两个或更多个内存库(bank) 214a-n内。下文结合图2B更详细地描述了固态存储器110。
存储设备150a-n可联网在一起并且可作为分布式存储设备运行。与请求设备155连接的存储设备150a控制发送到所述分布式存储设备的对象请求。在一种实施方式中,存储设备150和关联的存储控制器152管理对象并对请求设备155来说表现为分布式对象文件系统。在这种情况下, 一类分布式对象文件系统的实例是并行对象文件系统。在另一种实施方式中,存储设备150和关联的存储控制器152管理对象并对请求设备155来说表现为分布式对象文件服务器。在这种情况下, 一类分布式对象文件服务器的实例是并行对象文件服务器。在这些和其他实施方式中,请求设备155可只管理对象或者与存储设备150结合而参与管理对象,这通常并不将存储设备150的功能限制在为其他客户端114充分管理对象的范围内。在退化情况下,每个分布式存储设备、分布式对象文件系统和分布式对象文件服务器能作为单个设备独立
19运行。联网的存储设备150a-n可作为分布式存储设备、分布式对象文件系统、 分布式对象文件服务器和它们的任意组合运行,所述组合具有一个或多个为 一个或多个请求设备155配置的这些功能。例如,存储设备150可配置为 为第一请求设备155a作为分布式存储设备运行,而请求设备155b作为分布 式存储设备和分布式对象文件系统为运行。当系统101包括一个存储设备150a 时,存储设备150a的存储控制器152a管理对象并对请求设备155来说表现为 对象文件系统或对象文件服务器。
在一种实施方式中,其中,存储设备150作为分布式存储设备联网在一 起,存储设备150充当由一个或多个分布式存储控制器152管理的独立驱动 器冗余阵列("RAID")。例如,写入对象数据段的请求导致所述数据段根据 RAID级别在数据存储设备154a-n中被条带化为具有奇偶校验条带的条带。 这种布置的一个好处是这种对象管理系统可在单独的存储设备150(无论是存 储控制器152、数据存储设备154或存储设备150的其他组件)出现故障时继 续使用。
当冗余网络用于互连存储设备150和请求设备155时,所述对象管理系 统可在出现网络故障的情况下(只要网络中的一个仍在运行)继续使用。具 有一个存储设备150a的系统101还可包括多个数据存储设备154a,而存储设 备150a的存储控制器152a可作为RAID控制器运行并在存储设备150a的数 据存储设备154a间分割数据段,存储设备150a的存储控制器152a可包括根 据RAID级别的奇偶校验条带。
在一种实施方式中,其中, 一个或多个存储设备150a-n是具有固态存储 设备控制器202和固态存储器110的固态存储设备102,固态存储设备102可 配置为DIMM配置、子卡、微型模块等,并保留在计算机112内。计算机112 可以是服务器或具有固态存储设备102的类似设备,固态存储设备102联网 在一起并作为分布式RAID控制器运行。有利地是,存储设备102可采用PCI-e、 PCIe-AS、无限带宽或其他高性能总线、交换总线、网络总线或网络连接,并 且可提供极致密型、高性能的RAID存储系统,在该系统中,单独的或分布 式固态存储控制器202自主地在固态存储器110a-n间条带化数据段。
在一种实施方式中,请求设备155用于与存储设备150通信的同一网络 可被对等存储设备150a使用,以与对等存储设备150b-n通信以实现RAID功能。在另一种实施方式中,可为了 RAID的目的而在存储设备150间使用单 独的网络。在另一种实施方式中,请求设备155可通过向存储设备150发送 冗余请求而参与RAID进程。例如,请求设备155可向第一存储设备150a发 送第一对象写入请求,而向第二存储设备150b发送具有相同数据段的第二对 象写入请求以实现简单的镜像。
当具有在存储设备102内进行对象处理的能力时,只有存储控制器152 具有采用 一个RAID级别存储一个数据段或对象的能力,而采用不同的RAID 级别或不采用RAID条带化来存储另 一数据段或对象。这些多个RAID群组可 与存储设备150内的多个分区相关联。可同时在各种RAID群组间支持 RAIDO、 RAIDl 、 RAID5、 RAID6和复合RAID类型10、 50、 60,所述RAID 群组包括数据存储设备154a-n。本领域技术人员可认识到还可同时支持的其 他RATD类型和配置。
而且,由于存储控制器152像RAID控制器一样自主运行,所述RAID控 制器能够执行渐进式RAID并能够将在数据存储设备154间条带化的具有一 个RAID级别的对象或对象的某些部分转换为另一 RAID级别,转换时请求设 备155不受影响、不参与或者甚至不探测RAID级别的变化。在优选实施方 式中,促进RAID配置从一个级别变为另一级别可在对象或甚至在包基上自 主实现,并且可由运行在存储设备150或存储控制器152中的一个上的分布 式RAID控制模块初始化。通常,RAID渐进是从高性能和低效率的存储配置 (如RAIDl )转换为低性能和高存储效率的存储配置(如RAID5 ),其中,转 换l基于读取频率纟皮动态地初始化。但是,可以发现,从RAID5到RAIDl 的渐进也是可能的。可配置其他用于初始化RAID渐进的进程,或者可由客 户端或外部代理(如存储系统管理服务器请求)请求该进程。本领域技术人 员可认识到具有存储控制器152的存储设备102的其他特征和优点,该存储 控制器152自主管理对象。
具有服务器内SAN的固态存储设备
图1C是示意性框图,示出了根据本发明的用于服务器内存储区域网络 ("SAN")的系统103的一种实施方式。系统103包括计算机112,计算机 112通常被配置为服务器("服务器112")。每个服务器112包括一个或多存储 设备150,其中,服务器112和存储设备150分别连接到共享网络接口 155。
21每个存储设备150包括存储控制器152和相应的数据存储设备154。系统103 包括客户端114、 114a、 114b,客户端114、 114a、 114b位于服务器112的内 部或者外部。客户端114、 114a、 114b可通过一个或多个计算机网络116与每 个服务器112和每个存储设备150通信,所述一个或多个计算机网络116大 体上与上述的计算机网络类似。
存储设备150包括DAS模块158、 NAS模块160、存储通信模块162、 服务器内SAN模块164、通用接口模块166、网络代理模块170、虚拟总线模 块172、前端RAID模块174及后端RAID模块176,这些模块将在下文中描 述。模块158-176图示为位于存储设备150内,模块158-176中的每一个的全 部或部分可位于存储设备150、服务器112、存储控制器152内或位于其他位 置。
服务器112 (如与服务器内SAN结合使用的)是具有服务器功能的计算 机。服务器112至少包括一项服务器功能(如文件服务器功能),而且还可包 括其他服务器功能。服务器112可以是服务器群的一部分并可服务其他客户 端114。在其他实施方式中,服务器112还可以是个人计算机、工作站或其他 包括存储设备150的计算机。服务器112可像访问直接附加存储("DAS,,)、 SAN附加存储或者网络附加存储("NAS")那样访问服务器112内的一个或 多个存储设备150。参与服务器内SAN或NAS的存储控制器150可位于服务 器112的内部或外部。
在一种实施方式中,服务器内SAN装置包括DAS模块158,该DAS模 块158将由服务器112的存储控制器152控制的至少一个数据存储设备154 的至少一部分配置为附属于服务器112的DAS设备,以服务从至少一个客户 端114传送到服务器112的存储请求。在一种实施方式中,第一数据存储设 备154a被配置为第一服务器112a的DAS,而且,第一数据存储设备154a还 被配置为第一服务器112a的服务器内SAN存储设备。在另一种实施方式中, 第一数据存储设备154a被分割,以使得一个分区为DAS而另一个分区为服 务器内SAN。在另一种实施方式中,第一数据存储设备154a内的存储空间的 至少一部分被配置为第一服务器112a的DAS,而第一服务器112a的存储空 间的同一部分被配置为第一服务器112a的服务器内SAN。
在另一种实施方式中,服务器内SAN装置包括NAS模块160,该NAS
22模块160将存储控制器152配置为用于至少一个客户端114的NAS设备并服 务来自客户端114的文件请求。存储控制器152还可被配置为用于笫一服务 器112a的服务器内SAN设备。存储设备150可通过共享网络接口 155直接 连接到计算机网络116,共享网络接口 155独立于存储设备150位于其内的服 务器112。
在一种基本的形式中,用于服务器内SAN的装置包括第一服务器112a 内的第一存储控制器152a,其中,第一存储控制器152a控制至少一个存储设 备154a。第一服务器112a包括由第一服务器112a和第一存储控制器152a共 享的网络接口 156,所述服务器内SAN装置包括存储通信;漠块162,该存储 通信才莫块162促进第一存储控制器152a和位于第一服务器112a外部的至少一 个设备之间的通信,以使得第一存储控制器152a和外部设备之间的所述通信 独立于第一服务器112a。存储通信才莫块162可允许第一存储控制器152a独立 地访问网络4妄口 156a以进行外部通信。在一种实施方式中,存储通信才莫块162 访问网络接口 156a中的交换机以管理第 一存储控制器152a和外部设备之间的 网络流量。
服务器内SAN装置还包括服务器内SAN模块164,该服务器内SAN模 块164利用网络协议和总线协议中的一个或两个服务存储请求。服务器内SAN 模块164服务独立于第一服务器112a的所述存储请求,并且所述服务请求接 收自内部或外部客户端114a、 114。
在一种实施方式中,位于第一服务器112a外部的设备是第二存储控制器 152b。第二存储控制器152b控制至少一个数据存储设备154b。服务器内SAN 模块164利用第一和第二存储控制器152a、 152b之间、通过网络接口 156a 的通信服务所述存储请求,第一和第二存储控制器152a、 152b独立于第一服 务器112a。第二存储控制器152b可位于第二服务器112b内或位于一些其他 设备内。
在另一种实施方式中,第一服务器112a外部的设备是客户端114,并且 所述存储请求源于外部客户端114,其中,第一存储控制器被配置为SAN的 至少一部分,并且服务器内SAN模块164通过独立于第一服务器112a的网 络接口 156a服务所述存储请求。外部客户端114可位于第二服务器112b内或 可位于第二服务器112b的外部。在一种实施方式中,即使当第一服务器112a不可用时,服务器内SAN模块164也能够服务来自外部客户端114的存储请求。
在另一种实施方式中,生成所述存储请求的客户端114a位于第一服务器 112a的内部,其中,第一存储控制器152a^^皮配置为SAN的至少一部分,并 且服务器内SAN模块164通过一个或多个网络接口 156a和系统总线服务所 述存储请求。
传统的SAN配置允许像按直接附加存储("DAS")访问服务器112内的 存储设备一样访问远离服务器112的存储设备,以使得远离服务器112的所 述存储设备表现为块存储设备。通常,按SAN连接的存储设备需要SAN协 议,所述SAN协议例如光纤通道、互联网小型计算机系统接口 ("iSCSI")、 HyperSCSI、光纤连通性("FICON")、通过以太网的高级技术附件("ATA") 等。服务器内SAN包括服务器112内的存储控制器152,同时仍然允许存储 控制器152a和远程存储控制器152b或外部客户端之间利用网络协议和/或总 线协议的网络连接。
通常,SAN协议是网络协议的形式,并且,出现了更多的网络协议,例 如可允许存储控制器150a和关联的数据存储设备154a被配置为SAN并与外 部外部客户端114或第二存储控制器152b通信的无限带宽。在另 一种实例中, 第 一存储控制器152a可利用以太网与外部客户端114或第二存储控制器152b 通信。
存储控制器152可通过总线与内部存储控制器152或客户端114a通信。 例如,存储控制器152可通过使用PCI-e的总线通信,所述PCI-e可支持PCI 快速输入/输出虚拟化("PCIe-IOV")。其他新出现的总线协议允许系统总线扩 展超出计算机或服务器112并可允许存储控制器152a被配置为SAN。 一种这 样的总线协议是PCIe-AS。本发明并不仅限于SAN协议,还可利用新出现的 网络和总线协议服务存储请求。外部设备(无论是客户端114的形式还是外 部存储控制器152b的形式)可通过扩展系统总线或计算机网络116通信。正 如此处所使用的,存储请求包括写入数据、读取数据、擦除数据、查询数据 的请求等等,并且所述存储请求可包括对象数据、元数据、管理请求以及块 数据请求。
传统的服务器112通常具有控制访问服务器112内的设备的根联合体。
24通常,服务器112的所迷根联合体具有网络接口 156,从而使得服务器112控 制任何通过网络接口 156的通信。然而,在服务器内SAN装置的优选实施方 式中,存储控制器152能够独立地访问网络接口 156,从而使得客户端114可 直接地与形成SAN的第一服务器内112a内的一个或多个存储控制器152a通 信,或者使得一个或多个第一存储控制器152a可与第二存储控制器152b或 其他远程存储控制器152联网在一起以形成SAN。在这种优选实施方式中, 远离第一服务器112a的设备可通过单独的、共享的网络地址访问第一服务器 112a或第一存储控制器152a。在一种实施方式中,服务器内SAN装置包括通 用接口模块166,该通用接口模块166配置网络接口 156、存储控制器152和 服务器112,以使得可使用共享网络地址访问服务器112和存储控制器152。
在其他实施方式中,服务器112包括两个或更多个网络接口 156。例如, 服务器112可通过一个网络接口 156通信,而存储设备150可通过另一个接 口通信。在另一个实例中,服务器112包括多个存储设备150,每个存储设备 150具有网络接口 156。本领域技术人员会认识到具有一个或多个存储设备150 和一个或多个网络接口 156的服务器112的其他配置,其中, 一个或多个存 储设备150访问独立于服务器112的网络接口 156。本领域技术人员还可认识 到扩展这些不同的配置的方法以支持网络冗余并提高可用性。
有利地是,服务器内SAN装置大大降低了传统SAN的复杂性和花费。 例如,典型的SAN需要具有外部存储控制器152和关联的数据存储设备154 的服务器112。这占用了机架上的额外空间并且需要电缆、交换机等。配置传 统的SAN所需的电缆、交换机和其他的开销占用了空间、降低了带宽并且昂 贵。服务器内SAN装置允许存储控制器152和关联的存储器154适合服务器 112的形体尺寸,并因此减少了需要的空间和费用。服务器内SAN还允许通 过内部和外部高速数据总线使用相对高速的通信的连接。
在一种实施方式中,存储设备150为固态存储设备102,存储控制器152 为固态存储控制器104,而数据存储设备154为固态存储器110。由于此处所 述的固态存储设备102的速度,这种实施方式是有利的。此外,固态存储设 备102可被配置为位于DIMM中,所述DIMM可方便地装配在服务器112内 并仅需要少量的空间。
服务器112中的一个或多个内部客户端114a还可通过服务器的网络接口
25156连接到计算机网络116,并且服务器112通常控制所迷客户端的连接。这 种方法具有一些好处。客户端114a可直接地本地访问或远程访问存储设备 150,并且客户端114a可初始化客户端114a的存储器和存储设备150之间的 本地或远程直接存储器存取("DMA", "RDMA")数据的传送。
在另一种实施方式中,当利用本地连接的存储:^备150作为DAS设备、 网络连接的存储设备150、网络连接的固态存储设备102 (这些设备作为服务 器内SAN、外部SAN和混合SAN的一部分)时,位于服务器112内部或外 部的客户端114、 114a可通过一个或多个网络116对客户端114起文件服务器 的作用。存储设备150可同时参与DAS、服务器内SAN、 SAN、 NAS等(及 其中的任意的组合)。此外,每个存储设备150可以以如下方式被分割第一 分区使存储设备150作为DAS可用,第二分区使存储设备150作为服务器内 SAN内的元件可用,第三分区使存储设备150作为NAS可用,第四分区使存 储设备150作为SAN的元件可用,等等。类似地,存储设备150可被分割为 符合安全性和存取控制要求。本领域技术人员会认识到可以构建和支持下述 设备或系统的任意组合和排列存储设备、虚拟存储设备、存储网络、虚拟 存储网络、专用存储器、共享存储器、平行文件系统、平行对象文件系统、 块存储设备、对象存储设备、存储装置、网络装置及类似设备。
此外,通过将存储设备150直接地连接到计算机网络116,存储设备150 彼此之间能够互相通信并能够起服务器内SAN的作用。通过计算机网络116
设备150。通过将存储设备150移到服务器112内并使其具备将存储设备150 配置为SAN的能力,服务器112/存储设备150的结合使得在常规SAN中不 需要专用的存储控制器、光纤通道网络和其他设备。服务器内SAN系统103 具有能够使存储设备150与客户端114和计算机112共享共用的资源(如电 源、制冷、管理和物理空间)的优点。例如,存储设备150可插在服务器112 的空的插槽中并提供SAN或NAS的所有工作性能、可靠性和可用性。本领 域技术人员会认识到服务器内SAN系统103的其他特征和优点。
在另一种配置中,多个服务器内SAN存储设备150a被布置在单独的服 务器112a基础架构内。在一种实施方式中,服务器112a由一个或多个利用 PCI快速IOV互连的内部刀片服务器客户端114a组成,而没有外部网络156、外部客户端114、 114b或外部存储设备150b。
此外,服务器内SAN存储设备150可通过一个或多个计算机网络116与 对等存储设备150通信,所述对等存储设备150位于计算机112 (图1中的每 一台计算机)内,或者不通过计算机112而直接连接到计算机网络116以形 成同时具有SAN和服务器内SAN的全部功能的的混合SAN。这种灵活性具 有以下优点简化了扩展性和在不同的可能的固态存储网络实施方案之间的 移植。本领域技术人员会认识到放置和互连固态控制器104的其他组合、配 置、实施方案和布局。
当网络接口 156a仅能^皮运行在服务器112a内的一个代理控制时,运行在 所述代理中的链路建立模块168能够通过连接到外部存储设备150b和客户端 114、 114b的网络接口 156a建立内部客户端114a和存储设备150a/第一存储 控制器152a之间的通信通路。在优选的实施方式中, 一旦建立了所述通信通 路,单独的内部存储设备150a和内部客户端114a能够建立和管理它们自己的 命令队列,并通过网络接口 156a和独立于控制网络接口 156a的网络代理或代 理的RDMA将命令和数据同时双向地直接传送给外部存储设备150b和客户 端114、 114b。在一种实施方式中,链路建立模块168在初始化过程(如硬件 的启动或初始化)期间建立通信链路。
在另一种实施方式中,网络代理模块170指令至少一部分用于通过第一 服务器112服务存储请求的命令,而至少与所述存储请求关联的数据(也可 能是其他命令)在第一存储控制器和独立于第一服务器的外部存储设备之间 通信。在另一种实施方式中,网络代理模块170代表内部存储设备150a和客 户端114a转发命令或数据。
在一种实施方式中,第一服务器lla包括位于第一服务器112a内的一个 或多个服务器,并包括虚拟总线模块172,该虚拟总线模块172允许第一服务 器112a内的所述一个或多个服务器通过分享的虚拟总线独立地访问一个或多 个存储控制器152a。所述虚拟总线可利用高级总线协议(如PCIe-IOV )建立。 支持IOV的网络接口 156a可允许所述一个或多个服务器和所述一个或多个存 储控制器独立地控制一个或多个网络接口 156a。
在不同的实施方式中,服务器内SAN装置允许两个或更多个存储设备150 被配置在RAID中。在一种实施方式中,服务器内SAN装置包括将两个或更
27多个存储控制器配置为RAID的前端RAID模块174。当来自客户端114、 114a 的存储请求包括存储数据的请求时,前端RAID模块174通过将所述数据以 符合特定应用的RAID级的形式写入所述RAID服务所述存储请求。第二存储 控制器152可位于第一服务器112a的内部或者外部。前端RAID模块174允 许将存储控制器152配置成RAID,从而使得存储控制器对发送所述存储请求 的客户端114、 114a可见。这种方法允许被指定为主机的存储控制器152或客 户端114 、 114a管理条紋和冲交验信息。
在另一种实施方式中,服务器内SAN装置包括后端RAID模块176,该 后端RAID模块176将由存储控制器控制的两个或更多个数据存储设备154 配置为RA1D。当来自所述客户端的存储请求包括存储数据的请求时,后端 RAID模块176通过将所述数据以符合应用的RAID级的形式写入所迷RAID 服务所述存储请求,从而使得客户端"4、 1]4a像访问由第一存储控制器152 控制的单个数据存储设备154那样访问被配置为RAID的存储设备154。这种 RAID应用允许以如下方式将由存储控制器152控制的数据存储设备配置成 RAID:配置成RAID的过程对任何访问数据存储设备154的客户端114、 114a 来说是透明的。在另一种实施方式中,前端RAID和后端RAID都具有多级 RAID。本领域技术人员会认识到将存储设备152以符合此处所述的固态存储 控制器104和关联的固态存储器110的形式配置为RAID的其他方法。
用于存储控制器管理的对象的装置
图2A是示意性框图,示出了根据本发明的用于存储设备内的对象管理的 装置200的一种实施方式。装置200包括存储控制器152,该存储控制器152 具有对象请求接收器模块260、解析模块262、命令执行模块264、对象索 引模块266、对象请求排队模块268、具有消息模块270的封包器302、及对 象索引重建模块272,上述模块描述如下。
存储控制器152大体上与图1B中的系统102描述的存储控制器152类似, 并且可以是图2描述的固态存储设备控制器202。装置200包括对象请求接收 器模块260,该对象请求接收器模块260接收来自 一个或多个请求设备155的 对象请求。例如,对于存储对象数据请求,存储控制器152在数据存储设备 154中以数据包的形式存储数据段,该数据存储设备154与存储控制器152相 连接。所述对象请求通常由存储在或将要被存储在一个或多个对象数据包中
28的数据段指令存储控制器管理的对象。对象请求可请求存储控制器152创建
对象,该对象随后会通过可利用本地或远程直接内存读取("DMA"、 "RDMA") 转换的稍后的对象请求来填充数据。
在一种实施方式中,对象请求为将对象的全部或一部分写入先前创建的 对象的写入请求。在一个实例中,所述写入请求用于对象的数据段。可将所 述对象的其他数据段写入存储设备150或者写入其他存储设备152。在另一个 实例中,所述写入请求用于整个对象。在另一个实例中,所述对象请求为从 由存储控制器152管理的数据段中读取数据。在又一种实施方式中,所述对 象请求为删除请求,以删除数据段或对象。
有利地是,存储控制器152能接受不仅仅写新对象或为已存在的对象添 加数据的写入请求。例如,由对象请求接收器模块260接收的写入请求可包 括在由存储控制器152存储的数据前添加数据的请求、在已存储的数据中 插入数据的请求或者替换数据的一段的请求。由存储控制器152保持的对象 索引提供了这些复杂写操作所需要的灵活性,所述写操作在其他存储控制器 内不可用,但是目前仅在服务器和其他计算机文件系统内的存储控制器外可 用。
装置200包括解析^f莫块262,该解析^^莫块262将所述对象请求解析为一条 或多条命令。通常,解析模块262将所述对象请求解析为一个或多个緩存。 例如,所述对象请求中的一条或多条命令可被解析为命令緩存。通常,解析 模块262准备对象请求,以使得所述对象请求中的信息可以被存储控制器152 理解并执行。本领域技术人员会认识到将对象请求解析为一条或多条命令的 解析模块262的其他功能。
装置200包括命令执行模块264,该命令执行模块264执行从所述对象请 求解析出的命令。在一种实施方式中,命令执行模块264执行一条命令。在 另一种实施方式中,命令执行模块264执行多条命令。通常,命令执行模块 264解释解析自所述对象请求的命令(如写入命令),然后创建、排列并且执 行子命令。例如,解析自对象请求的写入命令可指令存储控制器152存储多 个数据段。所述对象请求还可包括必要属性(如加密、压缩等)。命令执行模 块264可命令存储控制器152压缩所述数据段、加密所述数据段、创建一个 或多个数据包并为每个数据包关联包头、使用媒体加密密钥加密所述数据包、添加错误修正码并将所述数据包存储在指定位置。在指定位置存储所述数据 包,并且其他子命令还可被分解为其他更低级别的子命令。本领域技术人员
会认识到命令执行模块264能执行一条或多条解析自对象请求的命令的其他方法。
装置200包括对象索引模块266 ,该对象索引模块266在对象索引中创建 对象项,以响应创建对象或存储所述对象数据段的存储控制器152。通常,存 储控制器152从所述数据段中创建数据包,并且在存储所述数据段时,所述 数据包存储的位置即被指定。同数据段一起接收的或作为对象请求的一部分 接收的对象元数据可采用类似方法存储。
对象索引模块266在存储所述数据包和分配所迷数据包的物理地址时创 建进入对象索引的对象项。所述对象项包括所述对象的逻辑标识符和一个或 多个物理地址之间的映射,所述一个或多个物理地址对应于存储控制器152 存储一个或多个数据包和任何对象元数据包的位置。在另一种实施方式中, 在存储所述对象的数据包之前在所述对象索引中创建项。例如,如果存储控 制器152较早地确定存储所述数据包的物理地址,则对象索引模块266可较 早地在所述对象索引中创建项。
通常,当对象请求或对象请求组导致对象或数据段被修改时(可能在读 修改写操作期间),所述对象索引模块266更新所述对象索引中的项以符合修 改的对象。在一种实施方式中,所述对象索引创建新对象并在所述对象索引 为所述修改的对象创建新项。通常,当仅有对象的一部分被修改时,所述对 象包括修改过的数据包和一些保持不变的数据包。在这种情况下,所述新项 包括到未变的数据包(与最初写入它们的位置相同)的映射和到写入新位置 的修改后的对象的映射。
在另一种实施方式中,对象请求接收器模块260接收对象请求,该对象 请求包括擦除数据块或其他对象元的命令,存储控制器152可至少存储一个 包(如擦除包,该擦除包具有对象的引用、与对象的关系和擦除的数据块的 大小的信息)。此外,这可进一步表明擦除的对象元素被填充为0。因此,擦 除对象请求可用于仿真^皮擦除的实际的内存或存储器,并且,所述实际的内
存或存储器实际上具有合适的内存/存储器的一部分,所述合适的内存/存储器 实际上以0存储在所述内存/存储器的单元中。有利地是,创建具有项(该项表明了数据段和对象元数据之间的映射)
的对象索引允许存储控制器152自主的处理和管理对象。这种能力允许在存 储设备150中十分灵活地存储数据。 一旦创建了对象的索引项,存储控制器 152可有效地处理后继关于所述对象的对象请求。
在一种实施方式中,存储控制器152包括对象请求排队模块,该对象请 求排队模块在解析模块262解析之前将一个或多个由对象请求接收器模块260 接收到的对象排队。对象请求排队模块268允许在接收对象请求时和在执行 所述对象请时之间的灵活性。
在另一种实施方式中,存储控制器152包括封包器302,该封包器302根 据一个或多个数据段创建一个或多个数据包,其中,数据包的大小适于存储 在数据存储设备154内。在下文中结合图3更详细地描述封包器302。在一种 实施方式中,封包器302包括为每个包创建包头的消息模块270。所述包头包 括包标识符和包长度。所述包标识符把所述包与对象(为该对象生成所述包) 联系起来。
在一种实施方式中,由于包标识符包含足够的信息以确定对象和在对象 内的包含在包内的对象元素之间的关系,因此每个包包括自包含的包标识符。 然而,更有效的优选实施方式是在容器中存储包。
容器是一种数据结构,这种数据结构有助于更有效的存储数据包并帮助 建立对象和数据包、元数据包和其他与存储在容器内的对象有关的包之间的 关系。注意到存储控制器152通常以处理作为对象的一部分接收的对象元数 据的类似方式处理数据段。通常,"包"可指包含数据的数据包、包含元数据的 元数据包或其他包类型的其他包。对象可存储在一个或多个容器中,并且容 器通常包括仅用于一个唯一的对象的包。对象可分布在多个容器之间。容器 通常存储在单个逻辑擦除块内(存储部)并且通常不分散在逻辑擦除块间。
在一个实例中,容器可分散在两个或更多个逻辑/虚拟页间。通过将容器 与对象关联起来的容器标签确定容器。容器可包含0个到许多个包并且容器 内的这些包通常来自一个对象。包可以有许多对象元素类型(包括对象属性 元、对象数据元、对象索引元和类似的元素类型)。可以创建包括不止一个对 象元类型的混合包。每个包可包含0个到许多个同一类型的元。容器内的每 个包通常都包含标识与对象关系的唯一标识符。
31每个包与一个容器相关联。在优选实施方式中,容器被限于擦除块,以 使得在每个擦除块的起始部分或在擦除块的起始部分附近能发现容器包。这 有助于将数据丟失限制在具有损坏的包头的擦除块范围内。在这种实施方式 中,如果对象索引不可用并且擦除块内的包头损坏,由于可能没有可靠的机 制确定后继包的位置,从损坏的包头到擦除块尾的内容可能会丟失。在另一 种实施方式中,更可靠的方法是采用限于页的边界的容器。这种实施方式需 要更多包头开销。在另一种实施方式中,容器可流经页面和擦除块边界。这 种方法需要较少的包头开销,但是,如果包头损坏,则有可能会丢失更多部
分的数据。对这些实施方式来说,使用一些类型的RAID以进一步保证数据 完整性是可以预期的。
在一种实施方式中,装置200包括对象索引重建模块272,该对象索引重 建模块272采用来自存储在数据存储设备154中的包头的信息重建所述对象 索引中的项。在一种实施方式中,对象索引重建冲莫块272通过读取包头(以 确定每个包所属的对象)和序列信息(以确定数据或元数据在对象中所属的 位置)来重建所述对象索引的项。对象索引重建模块272采用每个包的物理 地址信息和时间戳或序列信息以创建包的物理地址和对象标识符和数据段序 列间的映射。对象索引重建模块272使用时间戳或序列信息以再现索引变更 的顺序并通常因此重建最近的状态。
在另一种实施方式中,对象索引重建模块272采用包头信息以及容器包 信息^L置包以识别包的物理位置、对象标识符和每个包的序列号,从而在所 述对象索引中重建项。在一种实施方式中,在写入数据包时,擦除块被戳记 上时间,或者赋给擦除块序列号,并且擦除块的时间戳或序列信息和来自容 器头和包头的信息一起使用以重建对象索引。在另一种实施方式中,当擦除 块恢复时,时间戳或序列信息被写入该擦除块。
当对象索引存储在易失性存储器中时,如果不能重建所述对象索引,错 误、失电、或其他导致存储控制器152未存储所述对象索引而停工的因素可 能会成为问题。对象索引重建模块272允许所述对象索引存储在具有易失性 存储体优点(如快速存取)的易失性存储体中。对象索引重建模块272允许 自主地快速重建所述对象索引,而并不需要依靠位于存储设备150外的设备。
在一种实施方式中,易失性存储体中的所述对象索引周期性地存储在数
32据存储设备154内。在具体的实例中,所述对象索引或"索引元数据"周期性地
存储固态存储器110中。在另一种实施方式中,所述索引元数据存储在固态 存储器110n(与固态存储器110a-110n-l存储包分离)中。独立于数据和对象 元数据管理所述索引元数据,所述数据和对象元数据传送自请求设备155并 且由存储控制器152/固态存储控制器202管理。管理和存储与其他来自对象 的数据和元数据分离的索引元数据允许有效的数据流,同时存储控制器152/ 固态存储设备控制器202并不会不必要地处理对象元数据。
在一种实施方式中,其中,由对象请求接收器模块260接收到的对象请 求包括写入请求,存储控制器152通过本地或远程直接存储器存取("DMA"、 "RDMA")操作接收来自请求设备155的内存的一个或多个对象数据段。在优 选实例中,存储控制器152在一次或多次DMA或RDMA操作中从请求设备 155的内存中读取数据。在另一实例中,请求设备155在一次或多次DMA或 RDMA操作中将所述数据段写入存储控制器152。在另一种实施方式中,其 中,所述对象请求包括读请求,存储控制器152在一次或多次DMA或RDMA 操作中将对象的一个或多个数据段传送给请求设备155的内存。在优选实例 中,存储控制器152在一次或多次DMA或RDMA操作中将数据写入请求设 备155的内存。在另一实例中,请求设备在一次或多次DMA或RDMA操作 中从存储控制器152中读取数据。在另一实施方式中,存储控制器152在一 次或多次DMA或RDMA操作中从请求设备155的内存中读取对象命令请求 集。在另 一实例中,请求设备155在一次或多次DMA或RDMA操作中将对 象命令请求集写入存储控制器152。
在一种实施方式中,存储控制器152仿真块存储,并且在请求设备155 和存储控制器152之间通信的对象包括一个或多个数据块。在一种实施方式 中,请求设备155包括驱动器,以使得存储设备150表现为块存储设备。例 如请求设备155可与请求设备155期望数据存储的物理地址一起发送特定大 小的一组数据。存储控制器152接收所述数据块,并将与所述数据块一起传 送的物理块地址或者将物理块地址的转化形式作为对象标识符。然后,存储 控制器152通过随意地封包所述数据块和存储数据块将所迷数据块存储为对 象或对象的数据段。然后,对象索引模块266利用基于物理块的对象标识符 和存储控制器152存储所述数据包的实际物理位置在所述对象索引中创建项,所述数据包包括来自所述数据块的数据。
在另一种实施方式中,存储控制器152通过接收块对象仿真块存储。块 对象可包括块结构中的一个或多个数据块。在一种实施方式中,存储控制器
152像处理任意其他对象一样处理所述块对象。在另一种实施方式中,对象可
代表整个块设备、块设备的分区或块设备的一些其他逻辑子元件或物理子元 件,所述块设备包括磁道、扇区、通道及类似设备。值得特别注意的是将块
设备RAID群组重映射到支持不同RAID构建(如渐进式RAID )的对象。本 固态存储设备
图2B是示出了根据本发明的位于固态存储设备102内的固态存储设备控 制器202的一种实施方式201的示意性框图,该固态存储设备控制器202包 括写入数据管道106和读取数据管道108。固态存储设备控制器202可包括若 干固态存储控制器O-N, 104a-n,每个固态存储控制器都控制固态存储器110。 在描述的实施方式中,示出了两个固态控制器固态控制器0104a和固态控 制器N104n,并且它们中的每一个都控制固态存储器110a-n。在描述的实施 方式中,固态存储控制器0 104a控制数据通道,以使得附属固态存储器U0a 存储数据。固态存储控制器N 104n控制与存储的数据关联的索引元数据通道, 以使得关联的固态存储器110n存储索引元数据。在替代的实施方式中,固态 存储设备控制器202包括具有单个固态存储器110a的单个固态控制器104a。 在另一种实施方式中,存在大量的固态存储控制器104a-n和关联的固态存储 器110a-n。在一种实施方式中, 一个或多个固态控制器104a-104n-l (与它们 的关联固态存储器110a-110n-l连接)控制数据,而至少一个固态存储控制器 104n (与其关联固态存储器110n连接)控制索引元数据。
在一种实施方式中,至少一个固态控制器104是现场可编程门阵列 ("FPGA")并且控制器功能被编入FPGA。在特定的实施方式中,FPGA是 Xilinx⑧公司的FPGA。在另一种实施方式中,固态存储控制器104包括专门 设计为固态存储控制器104的组件(如专用集成电路("ASIC")或自定义逻 辑解决方案)。每个固态存储控制器104通常包括写入数据管道106和读取数 据管道108,结合图3进一步描述了这两个管道。在另一种实施方式中,至少 一个固态存储控制器104由FPGA、 ASIC和自定义逻辑组件的组合组成。
34固态存储器
固态存储器110是非易失性固态存储元件216、 218、 220的阵列,该阵 列布置在内存库214中并且通过双向存储输入输出(I/O )总线210并行访问。 在一种实施方式中,存储I/O总线210能够在任何一个时刻进行单向通信。例 如,当将数据写入固态存储器110时,不能从固态存储器110中读取数据。 在另一种实施方式中,数据可同时双向地流动。然而,双向(如此处4十对数 据总线使用的)指在同一时间数据仅在一个方向流动的数据通路,但是,当 在双向数据总线上流动的数据被阻止时,数据可在所述双向总线上沿相反方 向流动。
固态存^f诸元件(如SSS0.0 216a)通常^f皮配置为芯片(一个或多个小片的 封装)或电路板上的小片。正如所描述的那样,固态存储元件(如216a)独 立于或半独立于其他固态存储元件(如218a)运行,即使这些元件被一起封 装在芯片包、芯片包的堆栈或一些其他封包元件内。正如所描述的, 一列固 态存储元件216、 218、 220被指定为内存库214。正如所描述的,可以有"n" 个内存库214a-n并且每个内存库可以有"m"个固态存储元件216a-m, 218a-m, 220a-m,从而在固态存储器110中成为固态存储元件216、 218、 220的n*m 阵列。在一种实施方式中,固态存储器110a在每个内存库214 (有8个内存 库214)中包括20个固态存储元件216、 218、 220,并且,固态存储器110n 在每个内存库214中(只有一个内存库214 )包括两个固态存储元件216、 218。 在一种实施方式中,每个固态存储元件216、 218、 220由单层单元("SLC") 设备组成。在另一种实施方式中,每个固态存储元件216、 218、 220由多层 单元("MLC")设备组成。
在一种实施方式中,用于多个内存库的固态存储元件被封包在一起,所 述多个内存库共享公用存储I/O总线210a行(如216b、 218b、 220b)。在一 种实施方式中,固态存储元件216、 218、 220的每个芯片可具有一个或多个 小片,而一个或多个芯片垂直堆叠且每个小片可被独立存取。在另一种实施 方式中,固态存储元件(如SSS0.0 216a)的每个小片可具有一个或多个虚拟 小片,每个芯片可具有一个或多个小片,而一个或多个小片中的一些或全部 垂直堆叠且每个虚拟小片可被独立存取。
在一种实施方式中,每组有四个堆,每堆有两个小片垂直堆叠,从而形成8个存储元件(如SSS O.O-SSS 0.8 ) 216a-220a,每个存储元件位于分离的 内存库214a-n内。在另 一种实施方式中,20个存储元件(如SSS O.O-SSS 20.0 ) 216形成虚拟内存库214a,因此八个虚拟内存库中的每一个都具有20个存储 元件(如SSS0.0-SSS20.8) 216、 218、 220。通过存储I/O总线210将数据发 送到固态存储器IIO,并发送到存储元件(SSS O.O-SSS 0.8) 216a、 218a、 220a 的特定组的所有存储元件。存储控制总线212a用于选择特定的内存库(如内 存库-O 214a ),从而通过连接到所有内存库214的存储I/O总线210接收到的 数据仅被写入选定的内存库214a。
在优选实施方式中,存储1/0总线210由一个或多个独立I/O总线(包括 210a.a-m, 210n.a-m的"IIOBa-m")组成,其中,每一行内的固态存储元件共享 独立I/O总线中的一条,所述独立I/O总线中的一条平行访问每个固态存储元 件26、 218、 220, ^v而4吏得同时访问所有的内存库214。例如,存卡者I/O总 线210的一个通道可同时访问每个内存库214a-n的第一固态存储元件216a、 218a、 220a。存储I/O总线210的第二通道可同时访问每个内存库214a-n的 第二固态存储元件216b、 218b、 220b。固态存储元件216、 218、 220的每一 行都被同时访问。在一种实施方式中,其中,固态存储元件216、 218、 220 是多层的(物理堆叠的),固态存储元件216、 218、 220的所有物理层被同时 访问。正如此处所使用的,"同时"还包括几乎同时的访问,其中,以略有不同 的时间间隔访问设备以避免切换噪声。在这种情况下,同时被用于与连续的 或系列的访问相区别,其中,命令和/或数据被单独地并相继地发送。
通常,采用存储控制总线212独立地选择内存库214a-n。在一种实施方 式中,采用芯片选通或芯片选择来选择内存库214。当芯片选择和芯片使能均 可用时,存储控制总线212可选择多层固态存储元件216、 218、 220中的一 层。在其他实施方式中,存储控制总线212使用其他命令来单独地选择多层 固态存储元件216、 218、 220中的一层。还可通过控制和地址信息的结合来 选择固态存储元件216、 218、 220,所述控制和地址信息在存储l/0总线210 和存储控制总线212上传输。
在一种实施方式中,每个固态存储元件216、 218、 220被分割成擦除块, 并且每个擦除块被分割成页。典型的页的容量为2000字节("2kB")。在一个 实例中,固态存储元件(如SSS0.0)包括两个寄存器并能编程为两页,从而
36双寄存器固态存储元件216、 218、 220具有4kB的容量。20个固态存储元件 216、 218、 220的内存库214就会有80kB的页访问容量,同时同一地址流出 存储1/0总线210的通道。
在固态存储元件216、 218、 220的内存库214中的这一组80kB大小的页 可称为虚拟页。类似地,内存库214a的每个存储元件216a-m的擦除块可被 分组以形成虚拟块。在优选实施方式中,当在固态存储元件216、 218、 220 中接收到擦除命令时,擦除位于固态存储元件216、 218、 220内的页擦除块。 然而,在固态存储元件216、 218、 220内的擦除块、页、平面层或其他逻辑 和物理部分的大小和数量预计会随着技术的进步而变化,可以预期的是,与 新配置一致的许多实施例是可能的并与本文的一般描述相一致。
通常,当将包写入固态存储元件216、 218、 220内的特定位置时,其中, 拟将所述包写入特定页内的位置,所述特定页对应于特定内存库的特定元件 的特定擦除块的页,在发送所述包之后通过存储I/O总线210发送物理地址。 所述物理地址包含足够的信息,以使得固态存储元件216、 218、 220将所述 包导入页内的指定位置。由于存储元件行(如SSS0.0-SSS0.N216a、 218a、 220a)上的存储元件通过存储I/O总线210a.a内的合适总线同时^皮访问,为 了到达合适的页并将所述数据包写入在存储元件行(SSS 0.0-SSS O.N 216a、 218a、 220a)中具有相似地址的页,存储控制总线212同时选择内存库214a (包括具有要将所述数据包写入其内的正确页的固态存储元件SSS 0.0 216a)。
类似地,在存储I/O总线210上传输的读命令需要同时在存储控制总线 212上传输的命令,以选择单个的内存库214a和内存库214内的合适页。在 优选实施方式中,读命令读取整个页,并且由于在内存库214内存在许多并 行的固态存储元件216、 218、 220,读命令读取整个虚拟页。然而,所述读命 令可分割为子命令,这将在下文中结合内存库交错进行解释。还可以在写操 作中访问虚拟页。
可通过存储I/O总线210发出的擦除块擦除命令以擦除擦除块,该擦除块 具有特定的擦除块地址以擦除特定的擦除块。通常,可通过存储I/0总线210 的并行通路发送擦除块擦除命令以擦除虚拟擦除块,每个虚拟擦除块具有特 定的擦除块地址以擦除特定的擦除块。同时,通过存储控制总线212选择特
37定的内存库(如内存库-0 214a)以防止擦除所有的内存库(内存库l-N 214b-n) 中的具有类似地址的擦除块。还可采用存储I/0总线210和存储控制总线212 的结合将其他命令发送到特定位置。本领域技术人员会认识到采用双向存储 I/O总线210和存储控制总线212选择特定存储单元的其他方法。
在一种实施方式中,将包顺序地写入固态存储器110。例如,包流到存储 元件216的内存库214a的存储写入緩沖器,并且当所述緩沖器饱和时,所述 包被编程入指定的虚拟页。然后所述包再次填充所述存储写入緩冲器,并且 当所述存储緩冲器再次饱和时,所述包被写入下一虚拟页。所述下一个虚拟 页可位于同一个内存库214a内或可位于另一个内存库(如214b)内。这个过 程(一个虚拟页接一个虚拟页)通常一直持续到虚拟块被填满时。在另一种 实施方式中,当这个过程(一个虚拟擦除块接一个虚拟擦除块)持续时,数 据流可继续越过虚拟擦除块边界。
在读、修改、写操作中,在读操作中定位并读取与所述对象关联的数据 包。已被修改的修改对象的数据段并不写入读取它们的位置。取而代之,修 改的数据段再次被转化为数据包并随后被写入正在被写入的虚拟页中的下一 个可用位置。各个数据包的所述对象索引项被修改为指向包含已修改的数据 段的包。所述对象索引中用于与同一对象(未被修改)关联的数据包的项(或 多个项)会包括指向未被修改的数据包的源位置的指针。因此,如果源对象 保持不变(例如保持所述对象的先前版本不变),所述源对象将在所述对象索 引中具有指向所有与最初写入的一样的数据包的指针。新对象将在所述对象 索引中具有指向一些源数据包的指针和指向正在被写入的虚拟页中的修改的 数据包的指针。
在复制操作中,所述对象索引包括用于源对象的项,该源对象映射到若 干存储在固态存储器110中的包。当复制完拷贝时,创建了新对象并在所述 对象索引中创建将所述新对象映射到源包的新项。还将所述新对象写入固态 存储器110,且所述新对象的地址映射到所述对象索引中的新项。新对象包可 用于确定在源对象中的包,该包被引用以防在未复制的源对象中发生改变并 以防对象索引丟失或损坏。
有利地是,顺序地写入包有助于更平滑地使用固态存储器110并允许固 态存储设备控制器202监测固态存储器110内的存储热点和不同虚拟页的层使用状况。相继地写入包还可有助于建立强大、高效的垃圾收集系统,这将 在下文中详细描述。本领域技术人员会认识到顺序地存储数据包的其他好处。
固态存^f^i殳备控制器
在不同的实施方式中,固态存储设备控制器202还可包括数据总线204、 局部总线206、緩冲控制器208、缓冲器O-N 222a-n,主控制器224、直接存 储器存取("DMA")控制器226、存储器控制器228、动态存储器阵列230、 静态随机存储器阵列232、管理控制器234、管理总线236、连接系统总线240 的网桥238和杂项逻辑块242,这些将在下文中描述。在其他实施方式中,系 统总线240与一个或多个网络接口卡("NIC") 244相连接,这些网络接口卡 中的一些可包括远程DMA ("RDMA")控制器246、 一个或多个中央处理器 ("CPU") 248、 一个或多个外部存储器控制器250和关联的外部存储器阵列 252、 一个或多个存储控制器254、对等控制器256和专用处理器258,这将 在下文描述。连接到系统总线240的组件244-258可位于计算内112内或者可 以为其他i殳备。
通常,固态存储控制器104通过存储I/O总线210与固态存储器110进行 数据通信。在典型的实施方式中,固态存储器布置在内存库214内,且每个 内存库214包括多个并行访问的存储元件216、 218、 220,存储1/0总线210 是多条总线的阵列,每一条总线用于内存库214内的存储元件216、 218、 220 的每一行。正如此处所使用的,术语"存储I/O总线"可指一条存储I/O总线210 或多条独立的数据总线204的阵列。在优选实施方式中,访问存储元件的行 (如216、 218a、 220a)的每条存储I/O总线210可包括在存储元件216、 218a、 220a的行中访问的存储部(如擦除块)的逻辑-物理映射。如果第一存储部失 效、部分失效、不可访问或出现一些其他问题时,这种映射允许映射到存储 部的物理地址的逻辑地址重映射到不同的存储部。相对于图3中重映射模块 314进一步解释了重映射。
还可通过系统总线240、网桥238、局部总线206、緩沖器22并最终通过 数据总线204将数据从请求设备155传送到固态存储控制器104。数据总线 204通常连接到一个或多个由緩冲控制器208控制的緩冲器222a-n。緩沖控制 器208通常控制数据从局部总线206传递到緩冲器222并通过数据总线204 传递到管道输入緩冲器306和输出緩沖器330。为了解决时钟域差异、防止数
39据冲突等等,緩沖控制器208通常控制在缓沖器222中暂时存储来自请求设备的数据的方式,并控制此后传送给数据总线204 (或相反)的方式。緩沖控制器208通常与主控制器224结合使用以协调数据流。当数据到达时,所述数据会到达系统总线240并通过网桥238传递给局部总线206.
通常,数据在主控制器224和缓冲控制器208的控制下从局部总线206传递给一个或多个数据緩冲器222。然后,所述数据通过固态控制器104从緩冲器222流向数据总线204并到达固态存储器110 (如NAND闪存或其他存储媒体)。在优选实施方式中,数据与与所述数据一起到达的关联的带外元数据("对象元数据")采用 一个或多个的数据通道被送达,所述数据通道包括一个或多个固态存储控制器104a-104n-l和关联的固态存储器110a-110n-l,而至少一个通道(固态存储控制器104n、固态存储器110n)用于带内元数据(如索引信息和其他固态存储设备102内部生成的元数据)。
局部总线206通常为双向总线或总线组,所述双向总线或总线组允许数据和命令在固态存储设备控制器202内部的设备间通信,也允许命令和数据在固态存储设备102内部的设备和与系统总线240连接的设备244-258之间通信。网桥238有助于在局部总线206和系统总线240之间的通信。本领域技术人员会认识到其他实施方式,如总线240、 206、 204、 210和网桥238的环结构或交换式星形配置和功能。
系统总线240通常是计算机、安装有或连接有固态存储设备102的其他设备的总线。在一种实施方式中,系统总线240可以为PCI-e总线、串行高级技术附件("串行ATA")总线、并行ATA或类似总线。在另一种实施方式中,
系统总线24o为外部总线,例如小型计算机系统接口 ("scsr)、防火墙、光
纤通道、USB、 PCIe-As或类似总线。固态存储设备102可被封装为适于置于设备内部或被封装为外部连接设备。
固态存储设备控制器202包括在固态存储设备102内控制较高级别功能的主控制器224。在不同的实施方式中,主控制器224通过解释对象请求和其他请求来控制数据流,指导创建索引,该索引将与数据关联的对象标识符映射到关联的数据(或协调的DMA请求等)的物理地址。主控制器224完全地或部分地控制此处描述的许多功能。
在一种实施方式中,主控制器224采用嵌入式控制器。在另一种实施方
40式中,主控制器224采用局部存储器,如动态存储器阵列230 (动态随才几存取存储器"DRAM")、静态存储器阵列323 (静态随机存取存储器"SRAM")等。在一种实施方式中,采用主控制器224控制局部存储器。在另一实施方式中,主控制器通过存储器控制器228访问局部存储器。在另一种实施方式中,所述主控制器运行Linux服务器并可支持各种常用服务器接口,如万维网、超文本标记语言("HTML")等。在另一种实施方式中,主控制器224釆用纳米处理器。可采用可编程或标准逻辑或上述控制器类型的任意组合来构建主控制器224。本领域技术人员会认识到主控制器的许多实施方式。
在一种实施方式中,其中,存储设备152/固态存储设备控制器202管理多个数据存储设备/固态存储器110a-n,主控制器224在内部控制器(如固态存储控制器104a-n)之间分配工作负载。例如,主控制器224可分割将要^皮写入数据存储设备(如固态存储器110a-n)中的对象,使得每个附属的数据存储设备存储所述对象的一部分。这种特征是允许更快地存储和访问对象的性能增强。在一种实施方式中,主控制器224利用FPGA实施。在另一种实施方式中,位于主控制器224内的固件可通过管理总线236、通过网络连接到NIC244的系统总线240或其他连接到系统总线240的设备更新。
在一种实施方式中,管理对象的主控制器224仿真块存储,从而使得计算机102或其他连接到存储设备152/固态存储设备102的设备将存储设备152/固态存储设备102视为块存储设备并将数据发送给存储设备152/固态存储设备120中的特定物理地址。然后,主控制器224分配块并像存储对象一样存储数据块。然后,主控制器224将块和与块一起发送的物理地址映射到由主控制器224确定的实际位置。映射存储在对象索引中。通常,对于块仿真来说在计算机112、客户端114或其他希望将存储设备152/固态存储设备102当成块存储设备来使用的设备中提供有块设备应用程序接口 ( "API")。
在另一种实施方式中,主控制器224与NIC控制器244和嵌入式RDMA控制器246协同运行以提供准时的RDMA数据和命令集传输。NIC控制器244可隐藏在非透明端口后以使得能够使用自定义的驱动器。同样地,客户端114
访问计算机网络118。
在一种实施方式中,主控制器224也是独立驱动器冗余阵列("RAID")控制器。当数据存储设备/固态存储设备120与一个或多个其他数据存储设备/固态存储设备120联网时,主控制器224可以是用于单层RAID、多层RAID、渐进式RAID等的RAID控制器。主控制器224还允许一些对象存储在RAID阵列内而其他对象不通过RAID存储。在另一种实施方式中,主控制器224可以是分布式RAID控制器元件。在另一种实施方式中,主控制器224可包括许多RAID、分布式RAID和另行描述的其他功能。
在一种实施方式中,主控制器224与单个或多个网络管理器(如交换机)协同运行以建立路由、平衡带宽使用率、故障转移等。在另一种实施方式中,主控制器224与集成专用逻辑器件(通过局部总线206 )和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与附属专用处理器258或逻辑器件(通过外部系统总线240)和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与远程专用逻辑器件(通过计算机网络118)和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与局部总线206或附属于硬盘驱动器("HDD")存储控制器的外部总线协同运行。
在一种实施方式中,主控制器224与一个或多个存储控制器254通信,其中存储设备/固态存储设备120可表现为通过SCSI总线、因特网SCSI("iSCSr)、光纤通道等连接的存储设备。同时,存储设备/固态存储设备120可自主地管理对象并可表现为对象文件系统或分布式对象文件系统。还可通过对等控制器256和/或专用处理器258访问主控制器224。
在另一种实施方式中,主控制器224与自主集成管理控制器协同运行以周期性地验证FPGA码和/或控制器软件、在运行(复位)时验证FPGA码和/或在通电(复位)期间验证控制器软件、支持外部复位请求、支持由于检查包而超时的复位请求,并支持电压、电流、功率、温度及其他环境测量和阈值中断设置。在另一种实施方式中,主控制器224管理垃圾收集以释放擦除块用于再次使用。在另一种实施方式中,主控制器224管理耗损均衡。在另一种实施方式中,主控制器224允许数据存储设备/固态存储设备102被分割成多个虛拟设备并允许基于分区的媒体加密。在又一种实施方式中,主控制器224支持具有高级的、多位的ECC修正的固态存储控制器104。本领域技术人员会认识到位于存储控制器152内(或更具体地说位于固态存储设备102内)的主控制器224的其他特征和功能。
42在一种实施方式中,固态存储设备控制器202包括存储器控制器228,该存储器控制器228控制动态随机存储器阵列230和/或静态随机存储器阵列232。如上所述,存储器控制器228可独立于主控制器224使用或与主控制器224集成使用。存储器控制器228通常控制验证一些存储器类型,如DRAM(动态随机存储器阵列230)和SRAM (静态随机存储器阵列232)。在其他实例中,存储器控制器228还控制其他存储器类型,如电可擦可编程序只读存储器("EEPROM")等。在其他实施方式中,存储器控制器228控制两种或更多种存储器类型且存储器控制器228可包括不止一个控制器。通常,存储器控制器228在可行情况下控制尽可能多的SRAM232,并且通过DRAM230补足SRAM232。
在一种实施方式中,所述对象索引存储在存储器230、 232中并周期性的被卸载到固态存储器HOn或其他非易失性存储器的通道内。本领域技术人员会认识到存储器控制器228、动态存储器阵列230、静态存储器阵列232的其他运用和配置。
在一种实施方式中,固态存储设备控制器202包括DMA控制器226,该DMA控制器226控制在下列设备之间的DMA操作存储设备/固态存储设备102、 一个或多个外部存储器控制器250、关联的外部存储器阵列252和CPU248。应该注意到,外部存储器控制器250和外部存储器阵列252之所以被称为外部是因为它们位于存储设备/固态存储设备102的外部。此外,DMA控制器226还可通过NIC244和关联的RDMA控制器246控制请求设备的RDMA操作。DMA和RDMA在下文中有详细说明。
在一种实施方式中,固态存储设备控制器202包括连接到管理总线236的管理控制器234。通常管理控制器234管理存储设备/固态存储设备102的环境指标和状态。管理控制器234可通过管理总线236监测设备温度、风扇转速、电力供应设置等。管理控制器可支持电可擦可编程序只读存储器("EEPROM,,)以存储FPGA码和控制器软件。通常,管理总线236连接到存储设备/固态存储设备102内的不同组件。管理控制器234可通过局部总线206进行警报、中断等的通信或可包括单独的到系统总线240或其他总线的连接。在一种实施方式中,管理总线236为内部集成电路("I2C")总线。本领域技术人员会认识到通过管理总线236连接到存储设备/固态存储设备102的组件的管理控制器234的其他功能和运用。
在一种实施方式中,固态存储设备控制器202包括杂项逻辑块242,该杂项逻辑块242可被定制为专用。通常,当固态设备控制器202或主控制器224被配置为使用FPGA或其他可配置控制器时,可基于特定应用、用户需求、存储需求等而包括定制逻辑。
数据管道
图3是示出了根据本发明的位于固态存储设备102内的固态存储设备控制器104的一种实施方式300的示意性框图,该固态存储设备控制器具有写入数据管道106和读取数据管道108。实施方式300包括数据总线204、局部总线206和緩冲控制器208,这些设备大体上类似于相对于图2中固态存储设备控制器202描述的设备。所述写入数据管道包括封包器302和纠错码("ECC")发生器304。在其他实施方式中,所述写入数据管道包括输入緩冲器306、写入同步緩沖器308、写入程序模块310、压缩模块312、加密模块314、垃圾收集器旁路316 (部分位于所述读取数据管道内)、媒体加密模块318和写入緩沖器320。读取数据管道108包括读取同步緩冲器328、 ECC纠错模块322、解包器324、对齐模块326和输出緩沖器330。在另一种实施方式中,读取数据管道108可包括i(某体解密模块332、垃圾收集器旁路316的一部分、解密模块334、解压缩模块336和读取程序模块338。固态存储控制器104还可包括控制与状态寄存器340和控制队列342、内存库交错控制器344、同步緩沖器346、存储总线控制器348及多路转换器("MUX") 350。固态控制器104的组件和关联的写入数据管道106和读取数据管道108描述如下。在其他实施方式中,可采用同步固态存储器110并且可不使用同步緩冲器308、328。
写入数据管道
写入数据管道106包括封包器302,该封包器直接地或间接地通过另一写入数据管道106的级接收将要被写入固态存储器的数据或元数据段,并创建一个或多个大小适于固态存储器110的包。所述数据或元数据段通常是对象的一部分,但也可包括整个对象。在另一种实施方式中,所述数据段是数据块的一部分,但也可包括整个数据块。通常,对象接收自计算机112、客户端114或其他计算机或设备并被以流向固态存储设备102或计算机112的数据段
44的形式传送给固态存储设备102。数据段也可被称为另一名称(如数据包裹),本文所提及的数据段包括对象或数据块的全部或一部分。
每个对象被存为一个或多个包。每个对象可具有一个或多个容器包。每个包包含包头。所述包头可包括包头类型字段。类型字段可包括数据、对象属性、元数据、数据段定界符(多包)、对象结构、对象连接及类似物。所述包头还可包括关于包的大小的信息(如包内的数据的字节数)。所述包的长度可由包类型确实。
一个实例可能是利用数据包包头的偏移值来确定对象内数
据段的位置。本领域技术人员会认识到其他包含在由封包器302添加到数据上的包头内的信息和其他添加到数据包的信息。
每个包包括包头,还可能包括来自所述数据和元数据段的数据。每个包的包头包括用于将包与包所属对象联系起来的相关信息。例如,所述包头可包括对象标识符和偏移值,该偏移值表明了用于数据包形成的数据段、对象或数据块。所述包头还可包括存储总线控制器348用以存储包的逻辑地址。所述包头还可包括关于包的大小的信息(如包内字节数)。所述包头还可包括序列号,当生建数据段或对象时,该序列号识别数据段相对于对象内的其他包所属的位置。所迷包头可包括包头类型字段。类型字段可包括数据、对象属性、元数据、数据段定界符(多包)、对象结构、对象连接及类似物。本领域技术人员会认识到其他包含在由封包器302加到数据上的包头内的信息和其他添加到数据包的信息。
写入数据管道106包括ECC发生器304,该ECC发生器为一个或多个接收自封包器302的包生成一个或多个纠错码("ECC")。 ECC发生器304通常采用纠错算法生成ECC,该ECC与包一起存储。与包一起存储的ECC通常用于探测和纠正由于传送和存储而引起的错误。在一种实施方式中,包作为长度为N的未编码块流入ECC发生器304。计算并添加长度为S的并发位,并作为长度为N+S的编码块输出。N和S的值依赖于算法的特点,该算法被选择用于实现特定的性能、效率和鲁棒性指标。在优选实施方式中,在ECC块和包之间并没有固定关系;包可包括不止一个ECC块;ECC块可包括不止一个包;且第一包可在ECC块内的任何位置终止而第二包可始于同一 ECC块内的第一包终止的位置。在优选实施方式中,ECC算法不能^L动态修改。在优选实施方式中,与数据包一起存储的ECC足够稳健以在两个以上的位内
45纠正错误。
有利地是,采用允许不止一位的修正或甚至是两位修正的稳健ECC算法
允许延长固态存储器110的使用寿命。例如,如果固态存储器110内使用闪存作为存储媒体,闪存在每个擦除周期内可被写入大约100000次不出现错误。这种使用期限可通过稳健ECC算法延长。固态存储设备102板载有ECC发生器304和相应的ECC纠错模块322,固态存储设备102可在其内部纠正错误并具有比采用不甚稳健的ECC算法(如单位错误修正)更长的使用寿命。然而,在其他实施方式中,ECC发生器304可采用不甚稳健的算法并可修正单位或双位错误。在另一种实施方式中,固态存储设备110可包括不甚可靠的存储器以增加容量,所述不甚可靠的存储器例如多级单元("MLC")闪存,所述不甚可靠的存储器在没有稳健ECC算法的情况下可以不充分可靠。
在一种实施方式中,写入数据管道包括输入緩沖器306,该输入緩沖器接收将要被写入固态存储器110的数据段并存储输入的数据段直到写入数据管道106的下一级,例如封包器302(或其他更复杂写入数据管道106的其他级)准备处理下一个数据段。通过使用适当容量的数据緩沖器,输入緩冲器306通常允许写入数据管道106接收和处理数据段之间存在速率差异。输入緩沖器306还允许数据总线204将数据传送给写入数据管道106的速率大于写入数据管道106能支持的速率,从而改进数据总线204运行的效率。通常,当写入数据管道106不包括输入緩沖器306时,緩冲功能在别处(如固态存储设备102)实现,但所述别处位于写入数据管道106外、位于计算机内,例如当使用远程直接存储器读取("RMDA")时,如在网络接口卡("NIC")内或其他设备上。
在另一种实施方式中,写入数据管道106还包括写入同步緩沖器308,该写入同步缓沖器308在将包写入固态存储器IIO之前緩冲接收自ECC发生器
上,并且提供緩冲以解决时钟域差异。在其他实施方式中,可采用同步固态存储器110而移除同步緩沖器308、 328。
在一种实施方式中,写入数据管道106还包括媒体加密模块318,该媒体加密模块318直接地或间接地从封包器302接收一个或多个包,并在将包发送给ECC发生器304之前利用对固态存储设备102唯一的加密密钥加密所述一个或多个包。通常,整个包(包括包头)都被加密。在另一种实施方式中, 并不加密包头。在本文中,在一种实施方式中,加密密钥被理解为意味着在 外部管理的秘密加密密钥,这种密钥将固态存储器110和需要加密保护的设
备集成在一起。媒体加密模块318和相应的媒体解密模块332为存储在固态 存储器110中数据提供安全等级。例如,当数据利用媒体加密模块加密时, 如果固态存储器110连接到不同的固态存储控制器104、固态存储设备102或 计算机112,通常,在不使用同一加密密钥(在将数据写入固态存储器110期 间使用)时,如果不经过合理的努力,则不能读取固态存储器110的内容。
在典型的实施方式中,固态存储设备102不将所述加密密钥存储在非易 失性存储器中并且不允许从外部访问所述加密密钥。在初始化期间为固态存 储控制器104提供加密密钥。固态存储设备102可使用并存储非秘密性加密 临时值,该非秘密性加密临时值与加密密钥结合使用。不同的临时值可与每 个包一起存储。为了加强保护,加密算法可利用唯一临时值在多个包之间分 割数据段。所述加密密钥可接收自客户端114、计算机112、密钥管理器或其 他管理固态存储控制器104使用的加密密钥的设备。在另一种实施方式中, 固态存储器110可具有两个或更多个分区,并且固态存储控制器104显得就 像有两个或更多个固态存储控制器104,每一个固态存储控制器104在固态存 储器110内的单个分区上运行。在这种实施方式中,唯一的々某体加密密钥可 与每个分区一起使用。
在另一种实施方式中,写入数据管道106还包括加密模块314,该加密模 块314在将数据段发送给封包器302之前直接地或间接地加密接收自输入緩 冲器306的数据或元数据段,利用与数据段一同接收的加密密钥来加密数据 段。加密模块314与媒体加密模块318不同,这是由于加密模块318用以 加密数据的加密密钥对存储在固态存储设备102内的数据来说不是共同的并 在对象基础上可能不同,并且加密密钥可不与数据段一起接收(如下所述)。 例如,加密模块318用以加密数据段的加密密钥可与数据段一起被接收或可 作为将对象写入数据段所属位置的命令的一部分被接收。固态存储设备102 可在每个与加密密钥结合使用的对象包中使用并存储非秘密性加密临时值。 不同的临时值可与每个包一起存储。为了通过加密算法加强保护,可利用唯 一临时值在多个包之间分割数据段。在一种实施方式中,媒体加密模块318
47使用的临时值与加密模块314使用的临时值相同。
加密密钥可接收自客户端114、计算机112、密钥管理器或其他保存用于
加密数据段的加密密钥的设备。在一种实施方式中,加密密钥被从固态存储
设备102、计算机112、客户端114或其他外部代理中的一个传送到固态存储
控制器104,所述外部代理能够执行工业标准方法以安全地传送并保护私有密 钥和/>共密钥。
在一种实施方式中,加密模块318利用与第一包一起接收的第一加密密 钥加密第一包,并利用与第二包一起接收的第二加密密钥加密第二包。在另 一种实施方式中,加密;f莫块318利用与第一包一起"t妾收的第一加密密钥加密 第一包,而将第二数据包传递给下一级(未经加密)。有利地是,包括在固态 存储设备102的写入数据管道106内的加密模块318允许对象接对象或段接 段的数据加密,而不需要单独的文件系统或其他外部系统来追踪不同的用于 存储相应对象或数据段的加密密钥。每个请求设备155或相关密钥管理器独 立地管理加密密钥,该加密密钥仅用于加密请求设备155发送的对象或数据 段。
在另一种实施方式中,写入数据管道i06包括压缩;溪块312,该压缩;漠块 312在将数据段发送给封包器302之前为元数据段压缩数据。压缩模块312通 常利用本领域技术人员熟知的压缩程序来压缩数据或元数据段以减少段占用 的的存储空间大小。例如,如果数据段包括一串512个0位,压缩模块312 可用表明512个0位的编码或令牌来替4灸这512个0位,其中,所述编码所 占的空间比512个0位所占的空间要小得多。
在一种实施方式中,压缩模块312利用第一压缩程序压缩第一段,而输 送第二段(未经压缩)。在另一种实施方式中,压缩;漠块312利用第一压缩程 序压缩第一段并利用第二压缩程序压缩第二段。在固态存储设备102内具有 这种灵活性是有利的,以便客户端或其他将数据写入固态存储设备102内的 设备中每一个都可指定压缩程序或以便一个设备指定压缩程序而另一个设备 指定无压缩。还可根据每个对象类型或对象类基础的默认设置来选择压缩程 序。例如,特定对象的第一对象可以能够废除默认压缩程序设置,同一对象 类和对象类型的第二对象可采用默认压缩程序,而同 一对象类和对象类型的 第三对象可不压缩。
48在一种实施方式中,写入数据管道106包括垃圾收集器旁路316,该垃圾 收集器旁路316接收来自读取数据管道的108(在垃圾收集系统中作为数据旁 路的一部分)的数据段。垃圾收集系统通常标记不再有效的包,不再有效的 原因通常是由于包被标记为删除或包已被修改且修改过的数据存储在不同的 位置。在某一时刻,垃圾收集系统确定存储器的某个区域可被恢复。之所以 确定某个区域可被恢复可能是由于缺乏可用的存储空间、标记为无效的的 数据百分比达到阈值、有效数据的合并、存储器的该区域错误检出率达到阈 值或基于数据分布提高性能等。垃圾收集算法可考虑大量的因素以确定何时 存储器的区域将要被恢复。
一旦存储器的区域被标记为恢复,该区域内的有效包通常必须被重新存 放。垃圾收集器旁路316允许将包读入读取数据管道108,并允许然后将包直 接传送给写入数据管道106而不会将包路由出固态存储控制器104。在优选实 施方式中,垃圾收集器旁路316是运行在固态存储设备102内的自主垃圾收 集系统的一部分。这允许固态存储设备102管理数据,从而数据系统地传播 到整个固态存储器110以提升性能、数据可靠性并避免过度使用和不充分使 用固态存储器110的任何一个位置或区域,并且延长了固态存储器110的使 用寿命。
垃圾收集器旁路316协调将数据段插入写入数据管道106而其他数据段 由客户端116或其他设备写入。在描述的实施方式中,垃圾收集器旁路316 位于写入数据管道106内的封包器302之前、读取数据管道内的解包器314 之后,但也可位于写入和读取数据管道106、 108内的其他位置。可在清洗写 入数据管道106期间使用垃圾收集器旁路316,以填充虚拟页的剩余部分,从 而提升固态存储器110内的存储效率并因此减少垃圾收集的频率。
在一种实施方式中,写入数据管道106包括写入緩冲器320,该写入緩冲 器320为了高效的写操作而緩冲数据。通常,写入緩冲器320包括用于包的 足够容量,以填充固态存储器110内的至少一个虚拟页。这允许写操作将数 据的整个页没有中断地发送给固态存储器110。通过选择写入数据管道106的 写入緩冲器320的容量并将读取数据管道108内的緩冲器的容量选为同样大 小容量或比固态存储器110内存储写入緩冲器的容量大,由于单个写入命令 可被设计为将数据的整个虚拟页发送给固态存储器110,从而以单条命令替代
49多条命令,写入和读取数据的效率更高。
当填充写入緩冲器320时,固态存储器110可用于其他读操作。这是有 利的,原因是当将数据写入存储写入緩冲器时和注入数据緩沖器的数据失 速时,具有更小容量的写入緩冲器的或不具有写入緩沖器的其他固态设备可 绑定固态存储器。读操作会被拦截直到整个存储写入缓沖器被填充或被编程。 用于不具写入緩冲器或具有小容量的写入緩冲器的系统的另一种方法是清洗 未满的存储写入緩沖器以使得能进行读操作。同样地,由于需要多写7v/编程 周期来填充页,因此这种方法的效率低下。
对于描述的具有容量比虚拟页容量大的写入緩冲器320的实施方式,单 个的写入命令(包括大量子命令)的后续命令可以是单个程序命令,以将来 自每个固态存储元件216、 218、 220中的存储写入緩冲器的数据页传递给每 个固态存储元件216、 218、 220中的指定页。这种技术带来的好处是减少 了部分页编程,众所周知,这降低了数据的可靠性和稳定性并在当緩沖器填 充时,为读命令和其他命令释放了目标内存库。
在一种实施方式中,写入緩冲器320为交替緩冲器,其中,所述交替緩 冲器的一侧被填充,然后当所述交替緩沖器的另一侧被填充时,所述交替緩 冲器的一侧被指定为在适当的时间传送数据。在另一种实施方式中,写入緩 冲器320包括先进先出("FIFO")寄存器,该FIFO寄存器的容量比数据段虚 拟页的容量大。本领域技术人员会认识到允许在将数据写入固态存储器110 之前存储数据虚拟页的其他写入緩沖器320配置。
在另一种实施方式中,写入緩冲器320的容量比虚拟页小,从而少于一 页的信息可被写入固态存储器110内的存储写入緩冲器。在这种实施方式中, 为了防止写入数据管道106的失速阻止读操作,釆用需要从一个位置移动到 另一个位置的垃圾收集系统将数据排队,这个过程是蛀圾收集进程的一部分。 为了防止写入数据管道106中的数据失速,可通过垃圾收集器旁路316将所 述数据供应给写入緩沖器320并然后将所述数据供应给固态存储器110中的 存储写入緩冲器,从而在编程所述数据之前填充虚拟页的页面。这样,写入 数据管道106中的数据失速不会使读取自固态存储设备102的数据失速。
在另一种实施方式中,写入数据管道106包括写入程序模块310,该写入 程序模块310具有写入数据管道106内的一个或多个用户可定义的功能。写
50入程序模块310允许用户自定义写入数据管道106。用户可基于特定数据请求 或应用自定义写入数据管道106。当固态存储控制器104为FPGA时,用户可 相对轻;松地编程具有自定义命令和功能的写入数据管道106。用户还可利用写 入程序模块310以使ASIC包括自定义功能,然而自定义ASIC可能比使用 FPGA时更困难。写入程序模块310可包括緩冲器和旁路机制,以允许第一数 据段在写入程序;f莫块310中执行,而第二数据段通过写入数据管道106可继 续传送。在另一种实施方式中,写入程序^^莫块310可包括能通过软件编程的 处理器内核。
应注意,写入程序才莫块310被示为位于输入緩沖器306和压缩模块312 之间,然而写入程序才莫块310可位于写入数据管道106内的任何位置,并且 可分布在不同的级302-320之间。此外,在不同的、已编程的且独立运行的级 302-320之间可分布有多个写入程序^^莫块310。此外,级302-320的顺序可以 改t本领域技术人员会认识到基于特定用户需求的级302-320的顺序的可行 改变。
读取数据管道
读取数据管道108包括ECC纠错模块322,该ECC纠错模块322通过使 用与请求包中的每个ECC块一起存储的ECC来确定接收自固态存储器110 的请求包的ECC块中是否存在错误。然后,如果存在任何错误并且所述错误 可使用ECC修正,则ECC纠错模块322修正请求包中的任何错误。例如,如 果ECC能够探测6位的错误但只能修正3位的错误,那么ECC纠错模块322 修正具有3位错误的请求包ECC块。ECC纠错模块322通过把出错的位改变 为正确的1或0状态来修正出错的位,从而请求数据包与其被写入固态存储 器110并且为包生成ECC时一致。
如果ECC纠错模块322确定请求包包含了比ECC能修正的位数多的出错 位,则ECC纠错模块322不能修正请求包毁坏的ECC块的错误并发送中断。 在一种实施方式中,ECC纠错模块322发送中断以及指示请求包出错的消息。 所迷消息可包括指出ECC纠错模块322不能修正错误或ECC纠错模块322 没有能力修正错误的信息。在另一种实施方式中,ECC纠错模块322与所述 中断和/或消息一起发送请求包中毁坏的ECC块。
在优选的实施方式中,请求包中毁坏的ECC块或毁坏的ECC块的一部分
51(不能被ECC纠错模块322修正)由主控制器224读取,并被修正和返回给 ECC纠错^莫块322以被读取数据管道108进一步处理。在一种实施方式中, 请求包中毁坏的ECC块或毁坏的ECC块的一部分被发送给请求数据的设备。 请求设备155可修正所述ECC块或用另一拷贝替换数据(如备份或镜像拷 贝),然后可使用请求数据包的替换的数据或将所述替换的数据返回给读取数 据管道108。请求设备155可使用出错请求包中的包头信息以识别替换毁坏请 求包或替换包所属的对象所需的数据。在另一种优选实施方式中,固态存储 控制器104采用一些类型的RAID存储数据并能够恢复毁坏的数据。在另一 种实施方式中,ECC纠错模块322发送中断和/或消息,并且接收设备停止与 请求数据包关联的读操作。本领域技术人员会认识到ECC纠错模块322确定 请求包的一个或多个ECC块为毁坏的且ECC纠错模块322不能修正错误后采 取的其他选择和操作。
读取数据管道108包括解包器324,该解包器324直接地或间接地接收来 自ECC修正模块322的请求包ECC块,并检查和删除一个或多个包头。解包 器324可通过检查包头内的包标识符、数据长度、数据位置等验证包头。在 一种实施方式中,所述包头包括散列码,该散列码可用于验证传递给读取数 据管道108的包为请求包。解包器324还从请求包中删除由封包器302添加 的包头。解包器324可被指定为不对某些包起作用而将这些包未经修改地向 前传送。 一个实例可以是容器标签,当对象索引重建^t块272需要包头信息 时,该容器标签在重建进程期间被请求。另外的实例包括传送不同类型的包 (预定在固态存储设备102内使用)。在另一种实施方式中,解包器324操作 可以依赖于包的类型。
读取数据管道326包括对齐模块326,该对齐模块326接收来自解包器 324的数据并删除多余的数据。在一种实施方式中,发送给固态存储器110的 读命令恢复数据包。请求数据的设备可不需要恢复的数据包内的所有数据, 并且对齐模块326删除多余的数据。如果恢复页内的所有数据都是请求的数 据,对齐模块326不删除任何数据。
对齐模块326在数据段传输到下一级之前以与请求数据段的设备兼容的 形式按对象的数据段重新格式化数据。通常,由于数据由读取数据管道108 处理,数据段或包的大小在不同级间改变。对齐模块326使用接收到的数据以将数据格式化为适于发送给请求设备155的数据段,该数据段还适于连接 在一起以形成响应。例如,来自第一数据包的一部分的数据可与来自第二数 据包的一部分的数据结合。如果数据段比由请求设备请求的数据大,对齐模 块326可丢弃不需要的数据。
在一种实施方式中,读取数据管道108包括读取同步缓冲器328,该读取 同步緩冲器328在读取数据管道108处理之前緩冲一个或多个读取自固态存 储器110的请求包。读取同步緩冲器328位于固态存储时钟域和本地总线时 钟域之间的边界上并提供緩沖以解决时钟域差异。
在另一种实施方式中,读取数据管道108包括输出緩冲器330,该输出緩 冲器330接收来自对齐模块326的请求包并在数据包传送到所迷请求设备前 存储该包。输出緩冲器330解决当从读取数据管道108接收数据段时和当将 数据段传送给固态存储控制器104的其他部分或传送给请求设备时之间的差 异。输出緩冲器330还允许数据总线以比读取数据管道108能够支持的速率 高的速率接收来自读取数据管道108的数据,以提升数据总线204运行的效 率。
在一种实施方式中,读取数据管道108包括媒体解密模块332,该媒体解 密模块332接收一个或多个来自ECC纠错模块322的加密过的请求包并在将 一个或多个所述请求包发送给解包器324之前利用对于固态存储设备102唯 一的加密密钥解密一个或多个所述请求包。通常,媒体解密模块332用以解 密数据的加密密钥与媒体加密模块318使用的加密密钥一致。在另一种实施 方式中,固态存储器110可具有两个或更多个分区且固态存储控制器104表 现得好像有两个或更多个固态存储控制器104(每个都在固态存储器110内的 单独分区内运行)一样。在这种实施方式中,可对每个分区使用唯一的媒体 加密密钥。
在另一种实施方式中,读取数据管道108包括解密模块334,该解密模块 334在将数据段发送给输出缓冲器330之前解密由解包器324格式化的所述数 据段。采用与读请求一起接收的加密密钥解密所述数据段,所述读请求初始 化恢复由读取同步缓冲器328接收的请求包。解密模块334可利用与用于第 一包的读请求一起接收的加密密钥解密第一包,然后可利用不同的加密密钥 解密第二包或可将第二包未经解密地传送给读取数据管道108的下一级。通
53常,解密模块334使用与媒体解密模块332用以解密请求数据包的加密密钥 不同的加密密钥解密数据段。当包与非秘密性加密临时值一起存储时,该临 时值与加密密钥一起使用以解密数据包。加密密钥可接收自客户端114、计算 机112、密钥管理器或管理固态存储控制器104使用的加密密钥的其他设备。
在另一种实施方式中,读取数据管道108包括解压缩模块336,该解压缩 模块336解压缩由解包器324格式化的数据段。在优选实施方式中,解压缩 模块336使用存储在包头和容器标签中的一个或两个中的压缩信息以选择补 充程序,压缩;漠块312使用该补充程序来压缩数据。在另一种实施方式中, 解压缩模块336所使用的解压缩程序由请求解压缩的数据段确定。在另一种 实施方式中,解压缩模块336根据每个对象类型或对象类基础的默认设置选 择解压缩程序。第一对象的第一包可以能够废除默认解压缩程序设置,具有 相对的对象类和对象类型的第二对象的第二包可釆用默认解压缩程序,而具 有相同的对象类和对象类型的第三对象的第三包可不经过解压缩。
在另一种实施方式中,读取数据管道108包括读取程序才莫块338,该读取 程序模块338包括一个或多个在读取数据管道108内的用户可定义功能。读 取程序才莫块338具有与写入程序模块310类似的特点并允许用户提供自定义 功能给读取数据管道108。读取程序^^块338可位于图3中所示的位置、可位 于读取数据管道108内的其他位置、或者可包括读取数据管道108内多个位 置的多个部分。此外,在读取数据管道108内的多个不同位置可有多个独立 运行的读取程序模块338。本领域技术人员会认识到读取数据管道108内的读 取程序^f莫块338的其他形式。正如写入数据管道,读取数据管道108的级可 重新排序,本领域技术人员会认识到读取数据管道108内的级的其他排列顺 序。
固态存储控制器104包括控制和状态寄存器340和相应的控制队列342。 控制和状态寄存器340和控制队列342有助于控制并按顺序排列与在写入和 读取数据管道106、 108内处理的数据相关联的命令和子命令。例如,封包器 302中的数据段可具有一个或多个在与ECC发生器关联的控制队列342内的 相应控制命令或指令。当数据段被封包时,可在封包器302内执行一些指令 或命令中。当从数据段建立的、最新形成的数据包^史传送给下一级时,其他 命令或指令可通过控制和状态寄存器340直接传送给下一个控制队列342。
54可同时将命令和指令加载到控制队列342上以将包转发给写入数据管道 106,同时,由于每个管道级要执行各自的包,因此每个管道级读取合适的命 令或指令。类似地,可同时将命令和指令加载到控制队列342上以从读取数 据管道108请求包,而且,由于每个管道级要执行各自的包,因此每个管道 级读取合适的命令或指示。本领域技术人员会认识到控制和状态寄存器340 和控制队列342的其他特征和功能。
固态存储控制器104和/或固态存储设备102还可包括内存库交错控制器 344、同步緩冲器346、存储总线控制器348及多路转换器("MUX") 350, 这些设备相对于图4A和图4B描述。
内存库交错
图4A是根据本发明的位于固态存储控制器104内的内存库交错控制器 344 —种实施方式400的示意性框图。内存库交错控制器344连接到控制和状 态寄存器340并通过MUX350、存储总线控制器348和同步緩冲器346连接 到存储I/O总线210和存储控制总线212上,这在下文中有所描述。内存库交 错控制器包括读取代理402、写入代理404、擦除代理406、管理代理408、 读取队列410a-n、写入队列412a-n、擦除队列414a-n、用于固态存储器110 中的内存库214的管理队列416a-n、内存库控制器418a-n、总线仲裁器420 和状态MUX422,这些设备在下文中描述。存储总线控制器348包括具有重 映射模块430的映射模块424、状态捕捉模块426和NAND总线控制器438, 这些设备在下文中描述。
内存库交错控制器344将一条或多条命令送往内存库交错控制器344中 的两个或更多个队列,并在固态存储器110的内存库214之间协调存储在队 列中的命令的执行,以使得第一类型的命令在一个内存库241a上执行而第二 类型的命令在第二内存库214b上执行。所述一条或多条命令按命令类型分别 送入队列中。固态存储器110的每个内存库214在内存库交错控制器344内 具有相应的队列集,且每个队列集包括每个命令类型的队列。
内存库交错控制器344在固态存储器110的内存库214之间协调存储在 队列中的命令的执行。例如,第一类型的命令在在一个内存库241a上执行而 第二类型的命令在第二内存库214b上执行。通常,命令类型和队列类型包括 读取和写入命令和队列410、 412,但是还可包括存储々某介指定的其他命令和
55队列。例如,在图4A所描述的实施方式中,擦除和管理队列414、 416被包 括在其中且适于闪存、NRAM、 MRAM、 DRAM、 PRAM等。
对于其他类型的固态存储器110,可包括其他类型的命令和相应的队列而 不脱离本发明的范围。FPGA固态存储控制器104的灵活性质允许存储媒介的 灵活性。如果将闪存换成另 一种固态存储类型,可改变内存库交错控制器344、 存储总线控制器348和MUX350以适应媒介类型而不显著地影响数据管道 106、 108和其他固态存储控制器104运行。
在图4A所描述的实施方式中,对每个内存库214来说,内存库交错控制 器344包括用于从固态存储器110读取数据的读取队列410、用于将命令写 入固态存储器110的写入队列412、用于擦除固态存储器中的擦除块的擦除队 列414、用于管理命令的管理队列416。内存库交错控制器344还包括相应的 读取、写入、擦除和管理代理402、 404、 406、 408。在另一种实施方式中, 控制和状态寄存器340和控制队列342或类似元件在没有内存库交错控制器 344的情况为了发送给固态存储器110的内存库214的数据而将命令排队。
在一种实施方式中,代理402、 404、 406、 408将预定用于特定内存库214a 的合适类型的命令送到内存库214a的修正队列。例如,读取代理402可接收 用于内存库-1 214b的读命令并将所述读命令送到内存库-1读取队列410b。写 入代理404可接收将数据写入固态存储器110的内存库-0 214a的写入命令并 然后会将所述写入命令发送给内存库-0写入队列412a。类似地,擦除代理406 可接收擦除命令以擦除内存库-1 214b中的擦除块并然后会将所述擦除命令传 送给内存库-1擦除队列414b。管理代理408通常接收管理命令、状态请求及 其类似消息,如复位命令或读取内存库214 (如内存库-0 214a)的配置寄存器 的请求。管理代理408将所述管理命令发送给内存库-0管理队列416a。
代理402、 404、 406、 408通常还监测队列410、 412、 414、 416的状态 并当队列402、 404、 406、 408满、接近满、丧失功能时,发送状态、中断或 其他消息。在一种实施方式中,代理402、 404、 406、 408^矣收命令并生成相 应的子命令。在一种实施方式中,代理402、 404、 406、 408通过控制和状态 寄存器340接收命令并生成相应的子命令,所述子命令^皮转发给队列410、412、 414、 416。本领域技术人员会认识到代理402、 404、 406、 408的其他功能。
队列410、 412、 414、 416通常接收命令并存储所述命令直到所述命令被
56要求传送给固态存储器内存库214。在典型的实施方式中,队列410、 412、 414、 416是先进先出("FIFO")寄存器或以FIFO运行的类似组件。在另一 种实施方式中,队列410、 412、 414、 4166按与数据、重要性或其他标准相 匹配的顺序来存储命令。
内存库控制器418通常接收来自队列410、 412、 414、 416的命令并生成 合适的子命令。例如,内存库-0写入队列412a可接收将数据包的页写入内存 库-0 214a的命令。内存库-0控制器418a可在合适的时间接收写入命令并可为 每个存储在写入緩冲器320中的数据包生成一个或多个写入子命令(将要^皮 写入内存库-0 214a的页中)。例如,内存库-0控制器418a可生成验证内存库 -0 214a和固态存储阵列216状态的命令、选择写入一个或多个数据包的合适 位置的命令、清除位于固态存储阵列216内的输入緩冲器的命令、将一个或 多个数据包传送所述输入緩沖器的命令、将输入緩冲器放到选定位置中的命 令、检验数据被正确编程的命令,并且如果发生程序故障,则一次或多次地 中断主控制器、重试写入同一物理地址并重试写入不同的物理地址。此外, 与实例中的写入命令一起,存储总线控制器348会将一条或多条命令乘以每 条存储I/O总线210a-n从而翻倍,而所述命令的逻辑地址映射到用于存储I/O 总线210a的第一物理地址,并映射到用于存储I/O总线210a的第二物理地址, 下面将详细描述。
通常,总线仲裁器420选自内存库控制器418并从内存库控制器418的 输出队列提取子命令,并且将这些子命令以最优化内存库214性能的序列形 式发-给存储总线控制器348。在另一种实施方式中,总线仲裁器420可响应高 级中断并修改普通选择标准。在另一种实施方式中,主控制器224可通过控 制和状态寄存器340控制总线仲裁器420。本领域技术人员会认识到总线控制 器420可控制和交错从内存库控制器418传送到固态存储器110的命令序列。
通常,总线仲裁器420协调来自内存库控制器418适当的命令和命令类 型所需的相应数据的选择,并将所述命令和数据发送给存储总线控制器348。 总线仲裁器420通常还将命令发送给存储控制总线212以选择合适的内存库 214。对于闪存或其他具有异步、双向串行的存储I/O总线210的固态存储器 110而言, 一次只能传送一条命令(控制信息)或数据集。例如,当将写入命 令或数据通过存储I/O总线210传送给固态存储器110时,读取命令、读取的
57数据、擦除命令、管理命令或其他状态命令不能在存储I/O总线210上传输。 例如,当从存储I/O总线210读取数据时,不能向固态存储器110写入数据。
例如,在内存库-0的写操作期间,总线仲裁器420选择在其队列顶部具 有写入命令或一系列写入子命令的内存库-0控制器418a,所述一系列写入子 命令使得存储总线控制器348执行后继的序列。总线仲裁器420将写入命令 转发给存储总线控制器348,该存储总线控制器348通过下列方式建立了写入 命令通过存储控制总线212选择内存库-0 214a、发送清除与内存库-0 214a 关联的固态存储元件110的输入緩沖器的命令、发送验证与内存库-0 214a关 联的固态存储元件216、 218、 220的状态的命令。然后,存储总线控制器348 通过包含了物理地址存储I/O总线210传送写入命令,该物理地址如同映射自 逻辑4f除块地址一样包括用于每个单独的物理擦除固态存储元件216a-m的逻 辑擦除块地址。然后,存储总线控制器348通过多路转换器350将写入緩冲 器经写入同步緩冲器多路复用到存储I/O总线210并使写入数据流向合适的 页。当所述页写满时,然后,存储总线控制器348促使与内存库-0 214a关联 的固态存储元件216a-m将输入緩冲器编入固态存储元件216a-m的内存单元。 最终,存储总线控制器348验证状态以确保所述页被正确编程。
读操作与上文的写操作实例类似。在读操作期间,通常,总线仲裁器420 或内存库交错控制器344的其他组件接收数据和相应的状态信息并将数据发 送给读取数据管道108,同时将状态信息发送给控制和状态寄存器340。通常, 从总线仲裁器420传送给存储总线控制器348的读数据命令会促使多路转换 器350将读数据通过存储I/O总线210传送给读取数据管道108并通过状态多 路转换器422向控制和状态寄存器340发送状态信息。
总线仲裁器420协调不同的命令类型和数据存取模式,使得在任意给定 的时间内,在总线上只有合适的命令类型或对应数据。如果总线仲裁器420 已选择了写入命令,且写入子命令和对应数据正在被写入固态存储器110,总 线仲裁器420不会允许在存储I/O总线210存在其他命令类型。有利地是,总 线仲裁器420使用定时信息(如预定的命令执行时间)以及接收到的关于内 存库214状态的信息,以协调总线上不同命令的执行,这样做的目标是最小 化或消除总线的停工时间。
通过总线仲裁器420的主控制器224通常使用存储在队列410、 412、414、
58416中的命令的预定完成时间以及状态信息,使得在一个内存库214a上执行 与命令关联的子命令时,而在其他内存库241b-n上执行其他命令的其他子命 令。当内存库214a完全执行完一条命令时,总线仲裁器420将其他命令传给 内存库214a。总线仲裁器420还可与协调存储在队列410、 412、 414、 416的 命令一起协调不存储在队列410、 412、 414、 416的其他命令。
例如,可发出擦除命令以擦除固态存储器110内的一组擦除块。执行擦 除命令可消耗比执行写入或读取命令多10到1000倍的时间,或消耗比执行 程序命令多io到100倍的时间。对于N个内存库214,内存库交错控制器可 将擦除命令分割为N条命令,每条命令擦除内存库214a的虚拟擦除块。当内 存库-0 214a执行擦除命令时,总线仲裁器420可选择在其他内存库214b-n上 执行的其他命令。总线仲裁器420还可与其他組件(如存储总线控制器348、 主控制器224等) 一起工作以在总线之间协调命令的执行。利用总线仲裁器 420、内存库控制器418、队列410、 412、 414、 416、和内存库交错控制器的 代理402、 404、 406、 408协调命令的执行可显著的提升性能(相比于其他没 有内存库交错功能的固态存储系统)。
在一种实施方式中,固态控制器104包括一个内存库交错控制器344,该 内存库交错控制器344为固态存储器110的所有存储元件216、 218、 220提 供服务。在另一种实施方式中,固态控制器104内存库包括用于每个存储元 件行216a-m、 218a-m、 220a-m的交错控制器344。例如一个内存库交错控制 器344服务存储元件的一行SSS0.0-SSS0.N216a、 218a、 220a,第二内存库 交错控制器344服务存储元件的第二行SSS1.0-SSSl.N216b、 218b、 220b, 等等。
图4B是示出了根据本发明的位于固态存储设备内的内存库交错控制器 的一种替代实施方式401的示意性框图。图4B所示实施方式中描述的组件 210、 212、 340、 346、 348、 350、 402-430大体上与相对于图4A描述的 内存库交错装置400类似,除了下述不同点每个内存库214包括单独的队 列432a-n及用于内存库的(如内存库-0 214a)读取命令、写入命令、擦除命 令、管理命令等被传送给内存库214的单独队列432a。在一种实施方式中, 队列432是F1F0。在另一种实施方式中,队列432可具有以不同于存储的顺 序的顺序从队列432中提取的命令。在另一种替代实施方式(未示出)中,
59读取代理402、写入代理404、擦除代理406和管理代理408可结合成单个代 理,所迷单个代理将命令分配给合适的队列432a-n。
在另一种替代的实施方式(未示出)中,命令存储在单独的队列中,其 中,可以以不同于存储的顺序的顺序从队列中提取命令,从而使得内存库交 错控制器344在余下的内存库214b-n上执行。本领域技术人员会轻易地认识 到其他能够在一个内存库214a上执行命令而在其他内存库214b-n上执行其他 命令的队列配置和类型。
特定存储组件
固态存储控制器104包括同步緩冲器346,该同步緩冲器346从固态存储 器110发送和接收的命令和状态消息。同步緩冲器346位于固态存储时钟域 和本地总线时钟域之间的边界上,并提供緩冲以解决时钟域差异。同步緩沖 器346、写入同步缓冲器308和读取同步缓沖器328可独立地或共同运作以緩 冲数据、命令、状态消息等等。在优选实施方式中,同步緩沖器346所处的 位置使得跨越时钟域的信号数量最少。本领域技术人员会认识到时钟域间 的同步可任意运行在固态存储设备102的其他位置,以优化设计实施方案的 某些方面。
固态存储控制器104包括存储总线控制器348,该存储总线控制器348解 释和翻译用于发送给或读取自固态存储器110的数据的命令并基于固态存储 器110的类型接收自固态存储器110的状态消息。例如,存储总线控制器348 可针对不同的存储类型、不同性能特点、不同制造商的存储器等而具有不同 的定时要求。存储总线控制器348还将控制命令发送给存储控制总线212。
在优选实施方式中,固态存储控制器104包括MUX350,该MUX350包 括多路转换器350a-n的阵列,其中,每个多路转换器用于固态存储阵列110 的一行。例如,多路转换器350a与固态存储元件216a、 218a、 220a关联。 MUX350通过存储总线控制器348、同步緩冲器346和内存库交错控制器344 将来自写入数据管道106的数据和来自存储总线控制器348的命令经存储I/O 总线210路由至固态存储器110,并将来自固态存储器110的数据和状态消息 经存储I/O总线210路由至读取数据管道108和控制和状态寄存器340。
在优选实施方式中,固态存储控制器104包括用于固态存储元件的每一 行的(如SSS0.1 216a、 SSS0.2 218a、 SSS0.N220a)的MUX350。 MUX350
60将来自写入数据管道106的数据和发送给固态存储器110的命令通过存储I/O 总线210结合起来,并将需要由读取数据管道108处理的数据从命令中分离 出来。存储在写入緩冲器320中的包通过用于固态存储元件的每一行(SSS x.O toSSSx.N216、 218、 220)的写入緩冲器308由写入緩冲器外的总线传给用 于固态存储元件的每一行(SSSx.0toSSSx.N216、 218、 220)的MUX350。 MUX350从存储I/O总线210接收命令和读取数据。MUX350还将状态消息 传给存储总线控制器348。
存储总线控制器348包括映射模块424。映射模块424将擦除块的逻辑地 址映射到擦除块的一个或多个物理地址。例如,每个内存库214a具有20个 存储元件的阵列(如SSS0.0至SSSM.0 216)的固态存储器110可具有映射 到擦除块的20个物理地址的特定擦除块的逻辑地址(每个存储元件有一个物 理地址)。由于平行访问存储元件,所以位于存储元件216a、 218a、 220a的行 中的每个存储元件中的同 一位置的擦除块会分享物理地址。为了选择一个擦 除块(如在存储元件SSS 0.0 216a中)代替行(如在存储元件SSS 0.0、 0,1,... 0.N216a、 2]8a、 220a中)中的所有擦除块,可选择一个内存库(在这种情况 下为内存库-0 214a)。
这种用于擦除块的逻辑到物理的映射是有好处的,这是由于如果一个擦 除块已损坏或不可访问,所述映射可改为映射到另一擦除块。当一个元件的 擦除块出错时,这种方法减少了失去整个虚拟擦除块的损失。重映射^t块430 将擦除块的逻辑地址的映射改为虚拟擦除块的一个或多个物理地址(遍布存 储元件的阵列)。例如,虚拟擦除块l可映射到存储元件SSS 0.0 216a的擦除 块1、映射到存储元件SSS 1.0 216b的擦除块1、...和映射到存储元件M.O 216m,虛拟擦除块2可映射到存储元件SSS 0.1 218a的擦除块2、映射到存储 元件SSS1.1218b的擦除块2、...和映射到存储元件M.l 218m,等等。
如果存储元件SSS 0.0 216a的擦除块1损坏、由于损耗遇到错误或由于一 些原因不能被使用,重映射模块可将从逻辑到物理的映射改为指向虚拟擦除 块1的擦除块1的逻辑地址的映射。如果存储元件SSS 0.0 216a的空闲擦除块 (将其称为擦除块221)可用且当前并未被映射,重映射模块可改变虚拟擦除 块1的映射为映射到指向存储元件SSS 0.0 216的擦除块221,而继续指向存 储元件SSS 1.0 216b的擦除块1、存储元件SSS2.0(未示出)的擦除块l、...
61和指向存储元件M.O 216m。映射模块424或重映射模块430可按固定顺序映 射擦除块(虛拟擦除块1到存储元件的擦除块1,虚拟擦除块2到存储元件的 擦除块2,等等)或可按基于其他一些标准的顺序映射存储元件216、 218、 220的擦除块。
在一种实施方式中,可按访问时间分组擦除块。按访问时间分组、均衡 命令执行的时间(如将数据编入或写入指定擦除块的页)可平均命令补齐, 从而使得在虚拟擦除块的擦除块之间执行的命令不会由于最慢的擦除块而被 限制。在另一种实施方式中,可按损耗程度、运行状况来分组擦除块。本领 域技术人员会认识到当映射或重映射擦除块时需要考虑的其他问题。
在一种实施方式中,存储总线控制器348包括状态捕捉;f莫块426,该状态 捕捉模块426接收来自固态存储器110的状态消息并将该状态消息发送给状 态MUX422。在另一种实施方式中,当固态存储器110为闪存时,存储总线 控制器348包括NAND总线控制器428。 NAND总线控制器428将命令从读 取和写入数据管道106、 108传送给固态存储器110中的正确位置,并根据所 述闪存的特点协调命令执行的时间,等等。如果固态存储器110为另一种类 型的固态存储器,则将NAND总线控制器428替换为针对存储类型的总线控 制器。本领域技术人员会认识到NAND总线控制器428的其他功能。
流程图
图5 A是根据本发明的在固态存储设备102内釆用数据管道管理数据的方 法500的一种实施方式的示意性流程图。方法500始于步骤502,输入緩沖器306 接收一个或多个将要被写入固态存储器110的数据段(步骤504)。封包器302 可创建一个或多个对象指定包以及对象。通常来说,所述一个或多个数据段 包括对象的至少一部分,但也可以是整个对象。封包器302为每个包添加包头, 所述包头通常包括包的长度和对象内包的序列号。封包器302接收一个或多个 存储在输入緩沖器306的数据或元数据段(步骤504),并通过创建一个或多 个大小适于固态存储器110的包来封包所述一个或多个数据或元数据段(步骤 506),其中,每个包包括一个包头和来自一个或个段的数据。
通常,第一包包括对象标识符,该对象标识符确定对象,为了该对象而 创建包。第二包可包括具有信息的包头,该信息由固态存储设备102用于关 联第二包和第一包中确定的对象,该包头还具有在对象内定位第二包的偏移
62信息和数据。固态存储设备控制器202管理存储体214和包流向的物理区域。 ECC发生器304接收来自封包器302的包并为数据包生成ECC (步骤 508 )。通常,在包和ECC块之间没有固定关系。ECC块可包括一个或多个包。 包可包括一个或多个ECC块。包可始于ECC块内的任意位置并可在ECC块 内的任意位置结束。包可始于第一 ECC块内的任意位置并可在相继的ECC 块中的任意位置结束。
写入同步緩沖器308在将ECC块写入固态存储器110之前緩冲分布在对 应ECC块中的包(步骤510),然后固态存储控制器104在考虑到时钟域差异 的适当的时间写入数据(步骤512),方法500终止于步骤514。写入同步緩 沖器308位于本地时钟域和固态存储器110时钟域的边界上。注意到为方便 起见,方法500描迷了接收一个或多个数据段并写入一个或多个数据包,但 通常接收数据段流或组。通常,若千包括完整固态存储器110的虚拟页的ECC 块被写入固态存储器110。通常,封包器302接收某个大小的数据段并生成另 一大小的包。这必然需要数据或元数据段或数据或元数据段的部分结合起来,
以形成将段的所有数据捕捉进包的数据包。
图5B是示出了根据本发明的用于服务器内SAN的方法的一种实施方式 的示意性流程图。方法500开始于522,并且存储通信模块162促进第一存储 控制器152a和位于第一服务器112a外部的至少一个设备之间的通信(步骤 554)。第一存储控制器152a和外部设备之间的通信独立于第一服务器112a。 第一存储控制器112a位于第一服务器112a内部,并且第一存储控制器152a 控制至少一个存储设备154a。第一服务器112a包括与第一服务器112a和第 一存储控制器152a搭配使用的网络接口 156a。服务器内SAN模块164应答 存储请求(步骤556 )并且方法501终止于558。服务器内SAN模块164使 用网络协议和/或总线协议应答存储请求(步骤556 )。服务器内SAN模块164 独立于第一服务器112a应答存储请求(步骤556 )并且从客户端114、 114a 接收服务请求。
图6是根据本发明的在固态存储设备102内采用数据管道管理数据的方 法600的再一种实施方式的示意性流程图。方法600始于步骤602,输入緩冲 器306接收一个或多个将要被写入固态存储器110的数据或元数据段(步骤 604)。封包器302为每个包添加包头,所述包头通常包括对象内包的长度。
63封包器302接收一个或多个存储在输入緩冲器306中的段(步骤604),并通 过创建一个或多个大小适于固态存储器110的包来封包一个或多个,爻(步骤 606),其中每个包包括包头和来自一个或多个段的数据。
ECC发生器304接收来自封包器302的包并生成一个或多个用于包的 ECC块(步骤608)。写入同步緩冲器308在将ECC块写入固态存储器110 之前缓冲分布在对应ECC块中的包(步骤610 ),然后固态存储控制器104在 考虑到时钟域差异的合适的时间写入数据(步骤612)。当从固态存储器110 请求数据时,包括一个或多个数据包的ECC块^皮读入读取同步緩冲器328并 被緩冲(步骤614)。通过存储I/O总线210接收包的ECC块。由于存储I/0 总线210是双向,当读取数据时,写操作、命令操作等被停止。
ECC纠错模块322接收暂存在读取同步緩冲器328中的请求包的ECC块, 并在必要时修正每个ECC块中的错误(步骤616 )。如果ECC纠错^^块322 确定在ECC块中存在一个或多个错误并且错误可利用ECC —并修正,ECC 纠错模块322修正ECC块中的错误(步骤616 )。如果ECC纠错模块322确 定探测到的错误不可用ECC修正,则ECC纠错;漠块322发送中断。
解包器324在ECC纠错;漠块322修正任何错误之后接收请求包(步骤618 ) 并通过检查和删除每个包的包头解包所述包(步骤618)。对齐模块326接收 经过解包的包、删除多余的数据、并采用与请求数据段的设备兼容的形式按 对象的数据段重新格式化所述数据(步骤620 )。输入緩冲器330接收经过解 包的请求包,并在包传送给请求设备之前緩冲包(步骤622),方法600终止 于步骤624。
图7是示意性流程图,示出根据本发明使用存储体交错来管理固态存储 设备内的数据的方法700的一种实施方式。方法600在602开始而且存储体 交错控制器344将一个或多个命令在604指向两个或更多个队列410、 412、 414、 416。典型的是4妻口进程402、 404、 406、 408将这些命令通过命令类型 在604指向队列410、 412、 414、 416。队列410、 412、 414、 416中每个集合 都包括用于每种命令类型的队列。存储体交错控制器344在606在存储体214 之间协调队列410、 412、 414、 416中保存的命令的执行,以便第一类型的命 令在存储体214a上执行,而第二类型的命令在第二类型存储体214b上执行, 而且方法600在608结束。
64存储空间恢复
图8是示出了根据本发明的用于固态存储设备102中无用存储单元收集 的装置800的一种实施方式的示意性框图。装置800包括顺序存储^t块802、 存储部选择模块804、数据恢复模块806、和存储部恢复模块808,这些模块 描述如下。在其他实施方式中,装置800包括无用存储单元标记^f莫块812和 擦除模块810。
装置800包括顺序存储才莫块802,该顺序存储模块802将数据包顺序地写 入存储部内的页。无论是新的包还是修改过的包,这些包都按顺序存储。在 这种实施方式中,通常不将修改过的包写回其先前存储的位置。在一种实施 方式中,顺序存储模块802将包写入存储部的页中的第一位置,然后写入该 页中的下一个位置,并继续写入下一个位置和再下一个位置,直到该页被写 满。然后,顺序存储模块802开始填充所述存储部中的下一页。这个过程一 直持续到所述存储部被写满。
在优选实施方式中,顺序存储模块802开始将包写入内存库(内存库-0 214a)的存储元件(如SSSO.O到SSSM.0 216)中的存储写入緩冲器。当所 述存储写入緩冲器写满时,固态存储控制器104使得所述存储写入緩冲器中 的数据被编入内存库214a的存储元件216中的指定页。然后,另一个内存库 (如内存库-l 214b)被选定,并且当一个内存库-O编程所述指定页时,顺序 存储模块802开始将包写入内存库214b的存储元件218的存储写入緩冲器。 当内存库214b的存储写入緩沖器写满时,该存储写入緩沖器中的内容被编入 每个存储元件218中的另一指定页。这个过程是有效率的,这是因为当一个 内存库214a编程页时,可填充另一个内存库214b的存储写入緩冲器。
存储部包括固态存储设备102中的固态存储器110的一部分。通常,存 储部是擦除块。对于闪存来说,擦除块上的擦除操作通过充电每个单元来将 一写入擦除块中的每个位。相比于以都是1的位置开始的编程操作,这是冗 长的过程,并且随着数据写入,通过放电用O写入的单元将某些位改变为0。 然而,在固态存储器110不是闪存或具有其中擦除周期花费与其他操作,例 如读取或编程类似的时间量的闪存的情况下,可能不需要擦除存储部。
正如此处所使用的,存储部在大小上与擦除块等同,但可(或可不)被 擦除。当在此处使用擦除块时,擦除块可指存储元件(如SSS0.0 216a)内指
65定大小的特定区域,并通常包括一定数量的页。当"擦除块"与闪存结合使 用时,擦除块通常是在写入之前被擦除的存储部。当"擦除块"与"固态存 储器,, 一起使用时,擦除块可(或可不)被擦除。正如此处所使用的,擦除
块可包括一个擦除块或擦除块组,存储元件(如SSS 0.0到SSS M.O 216a-n) 的每一行都具有该擦除块组中的一个擦除块,擦除块或擦除块组在此处还可 被称为虚拟擦除块。当擦除块指与所述虚拟擦除块关联的逻辑构建时,所述 擦除块在此处可被称为逻辑擦除块("LEB")。
通常,按照处理的顺序顺序地存储所述包。在一种实施方式中,当使用 写入数据管道106时,顺序存储模块802按照包从写入数据管道106出来的 顺序存储包。这种顺序可能是由于下述原因来自请求设备155的数据段与 读取自另一存储部的有效数据包(正如在下述的恢复操作期间从存储部恢复 数据一样)混合。将恢复的、有效的数据包重路由到写入数据管道可包括如 上文中相对于图3的固态存储控制器104描述的垃圾收集器旁路316。
装置800包括选择恢复的存储部的存储部选择模块804。选择恢复的存储 部可以使顺序存储模块802将所述存储部重新用于写入数据,因此将所述恢 复的存储部添加到存储池中,或者所述存储部被重新用于在确定下述条件后 从所述存储部中恢复有效数据所述存储部失效、不可靠、应该^皮刷新、或 其他将所述存储部暂时地或永久地移出所述存储池的理由。在另一种实施方 式中,存储部选择才莫块804通过识别具有大量无效数据的存储部或擦除块来 选择恢复的存储部。
在另一种实施方式中,存储部选择^t块804通过识别具有低额损耗的存 储部或擦除块来选择恢复的存储部。例如,识别具有低额损耗的存储部或擦 除块可包括识别无效数据少、擦除重复的次数少、位出错率低或程序计数低 (緩冲器中 一页数据写入所述存储部中的页的次数少;程序计数可从下列情 况开始被测量制造设备时、所述存储部最近一次被擦除时、其他任意事件 发生时及这些情况的组合)的存储部。存储部选择模块804还可使用上述参 数中的任意组合或其他参数以确定具有低额损耗的存储部。通过确定具有低 额损耗的存储部来选择恢复的存储部可有助于发现未充分利用的存储部,还 可由于损耗均衡而被恢复,等等。
在另一种实施方式中,存储部选择模块804通过识别具有高额损耗的存储部或擦除块来选择恢复的存储部。例如,识别具有高额损耗的存储部或擦 除块来选择恢复的存储部包括识别擦除重复次数多、位出错率高、具有不可
恢复的ECC块或程序计数高的存储部。存储部选择模块804还可使用上述参 数的任意组合或其他参数以确定具有高额损耗的存储部。通过确定具有高额 损耗的存储部来选择恢复的存储部可有助于发现被过度使用的存储部,还可 通过利用擦除周期刷新所述存储部而被恢复等等,或者使所述存储部像不能 使用那样不提供服务。
装置800包括数据恢复模块806,该数据恢复模块806从选定为恢复的存 储部中读取有效数据包、将所述有效数据包与其他将要由顺序存储模块802 顺序地写入的数据包排队并更新具有由顺序存储模块802写入的有效数据的 新物理地址的索引。通常,所述索引为对象索引,该对象索引将对象的数据 对象标识符映射到形成包的位置的物理地址,所述数据对象存储在固态存储 器110中。
在一种实施方式中,装置800包括存储部恢复模块808,该存储部恢复模 块808为使用或再使用而准备所述存储部并将所述存储部标记为对顺序存储 模块802可用,以在数据恢复模块806完成从所述存储部中复制有效数据之 后顺序地写入数据包。在另一种实施方式中,装置800包括存储部恢复模块 808,该存储部恢复模块808将选定为恢复的存储部标记为无法存储数据。通 常,这是由于存储部选择模块804识别具有高额损耗的存储部或擦除块来选 择恢复的存储部,从而使得所述存储部或擦除块没有条件被用于可靠的数据 存储。
在一种实施方式中,装置800位于固态存储设备102的固态存储设备控 制器202内。在另一种实施方式中,装置800控制固态存储设备控制器202。 在另一种实施方式中,装置800的一部分位于固态存储设备控制器202内。 在另一种实施方式中,由数据恢复模块806更新的对象索引也位于固态存储 设备控制器202内。
在一种实施方式中,所述存储部为擦除块,并且装置800包括擦除模块 810,该擦除模块810在数据恢复模块806完成从所述选定的擦除块中复制有 效数据包之后并在存储部恢复模块808将所述擦除块标记为可用之前,擦除 选定为恢复的擦除块。对于闪存和其他擦除操作消耗的时间比读取或写入操 作消耗的时间长得多的固态存储器来说,在使数据块可以写入新数据之前擦
67除所述数据块有助于高效的操作。当固态存储器110布置在内存库214内时, 擦除^f莫块810的擦除操作可在一个内存库上执行,而另一个内存库可执行读 取、写入或其他操作。
在一种实施方式中,装置800包括垃圾标记才莫块812,该垃圾标记模块 812将存储部中的数据包识别为无效,以响应指示所述数据包不再有效的操 作。例如,如果数据包被删除,垃圾标记模块812可将所述数据包识别为无 效。读-修改-写操作是用于将数据包识别为无效的另一种方法。在一种实施方 式中,垃圾标记^t块812可通过更新索引将所述数据包识别为无效纟在另一 种实施方式中,垃圾标记模块812可通过存储另一数据包将所述数据包识别 为无效,所述另一数据包指示无效的数据包已经被删除。这种方法是有利的, 这是由于在固态存储器110中存储所述数据包已被删除的信息允许对象索引 重建才莫块262或类似;溪块重建具有项的对象索引,所述项指示所述无效的数 据包已经被删除。
在一种实施方式中,装置800可被用于在清洗命令之后填充数据的虚拟 页中的剩余部分,以提升整体的性能,其中,所述清洗命令使数据停止流入 写入数据管道106,直到写入数据管道106为空且所有的包已被永久地写入非 易失性固态存储器IIO。这具有以下好处降低了需要的垃圾收集的量、减少 了用于擦除存储部的时间并减少了编程虛拟页所需的时间。例如,可仅在准 备将一个小包写入固态存储器100的虚拟页内时,接收清洗命令。编程这个 几乎为空的页可能会引起下述结果需要立即恢复浪费的空间;导致所述存 储部内的有效数据被当作垃圾不必要的收集;及擦除、恢复所述存储空间并 将所述存储空间返回到可用空间池以被顺序存储模块802写入。
将所述数据包标记为无效而不是实际上擦除无效的数据包是有效率的, 这是因为,如上所述,对于闪存和其他类似存储器来说,擦除操作消耗相当 长的时间。允许垃圾收集系统(如装置800中所述的)在固态存储器110内 自主地运行提供了 一种将擦除操作与读取、写入或其他更快的操作分开的方 法,从而使得固态存储设备102能比其他许多固态存储系统或数据存储设备 运行得快得多。
图9是示意性流程图,示出了根据本发明的用于存储恢复的方法900的 一种实施方式。方法900始于步骤902,顺序存储才莫块802将数据包顺序地写 入存储部(步骤904)。所述存储部是固态存储设备102中的固态存储器110
68的一部分。通常,存储部为擦除块。所述数据包源于对象,而且所述数据包 按处理的顺序被顺序地存储。
存储部选择模块804选择恢复的存储部(步骤906 ),并且数据恢复模块 806从选定为恢复的存储部中读取有效的数据包(步骤908)。通常,有效的 数据包为未被标记为擦除、删除或其他一些无效数据标识符的数据包,所述 数据包被视为有效或"好,,的数据。数据恢复模块806将有效的数据包与其 他预定由顺序存储模块802顺序地写入的数据包排队(步骤910 )。数据恢复 模块806更新具有由顺序存储模块802所写入的数据的新物理地址的索引(步 骤912)。所迷索引包括从数据包的物理地址到对象标识符的映射。这些数据 包存储在固态存储器110中,并且所述对象标识符对应于所述数据包。
在数据恢复模块806完成从所述存储部复制有效数据后,存储部恢复模 块将选定为恢复的存储部标记为对顺序存储模块802可用(步骤914 ),以顺 序地写入数据包,方法900结束于步骤916。
多个独立主机之间共享的设备
图IO是示意性框图,示出了根据本发明的用于在多个主机之间共享的设 备的系统2500的一种实施方式。所述系统包括通过系统总线2508连接的命 令代理主机2502、 一个或多个其他主机2504以及共享设备2506,下面对这 些设备进行描述。该系统还包括计算机网络116、服务器112、客户端114、 以及存储设备150、它们基本上与上述设备类似。
命令代理主机2502和其他主机2504通常每一个都包括一个操作系统的 分立图1象,所以每个主才几2502、 2504才丸行独立于其他主机2502、 2504的操 作系统。在一种实施方式中, 一个或多个主机可以包括具有在虚拟机层之上 运行的一个或多个操作系统的独立虚拟机。主机2502、 2504包括一个或多个 处理器而且可以被包括在服务器112、计算机或能够运行操作系统的其他设备 中。在一种实施方式中, 一个或多个主机2502、 2504在一台计算机中,比如 主机计算机。在另一种实施方式中,至少一个主机2502、 2504是与其他主机 2502、 2504在物理上分开的。
在一种实施方式中,命令代理主机2502包含根端口。在另一种实施方式 中,命令代理主机2502在这两个或更多个主机2504之一中执行。在另一种 实施方式中,命令代理主机2502在传送给独立于主机2504的共享设备2506
69的第三方元件管理命令中执行。在又一种实施方式中,命令代理主机2502在 将根端口 、主机2602之一、共享设备2506以及第三方元件管理命令组合起 来的设备中执行。根和根端口在此可互换使用并且包括根端口和相关联的处 理、处理器等等。本领域技术人员将认识到通过系统总线2508连接到共享设 备2506上的两个或两个以上主机2502、 2504的其他形式。
对于特定的共享设备2506,主机2502、 2504之一被指定为既能够与其他 主机2504又能够与共享设备2506通信的命令代理主机2502。典型的是,命 令代理主机2502能够为来自共享设备2506的中断提供服务。中断可以采取 多种本领域技术人员所知的形式。在一种实施方式中,中断可以包括具有要 向主机2504转移的或者有已经转移给主机2504的数据的共享设备2506。命 令代理主机2052能够与主机2504和共享设备2506通信。该通信可以是控制 请求和/或数据转移。本领域技术人员将认识到指定的命令代理主机2502共有 的其他特征和功能。
系统2500包含连接到系统总线2508上的至少一个共享设备2506。共享 设备2506可以是存储设备150、网络接口 156,图形显示驱动器、输入/输出 ("I/O")适配器或其他能够连接到系统总线2508上并能够在主机2502、 2504之间共享的设备。除共享设备2506之外,其他设备也可以连接到系统总 线2506上。
在一种实施方式中,共享设备2506是连接到对其他设备(比如客户端 114 、服务器112、存储设备150等等)的计算机网络116的网络接口 156。 共享设备2506 (作为网络接口 156)典型的是在主机2502、 2504和另一设 备(比如客户端114、服务器112或存储设备150)之间转移数据并控制请求, 而且典型的是用作在计算机网络116上运行的网络协议和系统总线2508之间 的桥接。本领域技术人员将认识到其他合适的共享设备2506和配置。
系统2500包括连接到主机2502、 2504和共享设备2508上的系统总线 2508。系统总线2508可以是单系统总线2508或多总线。系统总线2508能够 在主机2502、 2504之间并且在主机2502、 2504和共享设备2506之间传输控 制命令,而且能够使直接数据转移得以独立于命令代理主机2502在主机2504 和共享设备2506之间进行。可以使用高级系统总线协议,比如PCI-e、 PCI-e 高级交换("PCIe-AS,,)、无限带宽以及类似协议。在系统总线2508是PCI-e总线的情况下,在一种实施方式中,共享设备2506支持PCI-e输入/输出虚拟 化("PCIe隱IOV")。在共享设备2506支持PCIe-IOV的情况下,主机2602、 2604可以在一个或多个设备场境中单设备场境内共享该共享设备2506。本领 域技术人员将认识到其他系统总线2508配置和类型使控制请求并使直接数据 转移得以独立于命令代理主机2502在主机2504和共享设备2506之间进行。
在一种实施方式中,共享设备2506是第一存储设备150a,指定的命令代 理主机2502是第 一服务器112a,其他主机2504是在服务器112a上运行的客 户端114a或其他客户端114。在另一种实施方式中,共享设备2506是第一网 络接口 156a,命令代理主机2502是第一存储设备150a,而且其他主机2504 可以是包括第一存储设备150a、或另一客户端114a、114或第二存储设备150b 的第一服务器112a。这些实施方式可以配置为与上文中相对于图1C描述的服 务器内SAN系统103相类似。第一存储设备150a可以是如上所述具有固态 存储控制器104的固态存储设备102,或者可以是硬盘驱动、光驱等等。
图11是示意性框图,示出根据本发明的命令代理主机中的一个装置2600 的一种实施方式,该装置用于在多个主机之间共享的设备。在不同的实施方 式中,装置2600包括代理请求接收器模块2602、代理请求命令模块2604、 中断接收器模块2606、中断发送模块2608、通信路径模块2610以及标准设 备模拟模块2612,下面对这些模块进行描述。
在一种实施方式中,如所描绘的,装置2600的所有才莫块2602-2612或其 中一部分包括在命令代理主机2502中。在另一种实施方式中,装置2600的 所有模块2602-2612或其中 一部分在控制命令代理主机2502的另一台计算机、 主机2604、服务器112、设备等等中。
装置2600包括接收来自请求主机(如2504a)的代理请求的代理请求接 收器模块2602。代理请求包括要由共享设备2506执行的控制请求。该控制请 求包括足够的信息以便命令代理主机2502能够配置共享设备2506用于在发 送代理请求的请求主机2504a和共享设备2506之间进行数据转移。这些信息 可以包括请求主机2504a或共享设备2506的地址信息、数据标识符、数据长 度、数据源和目的信息、中间緩沖器标识或其他使命令代理主机2502得以配 置共享设备2506用于数据转移的相关设备。代理请求可以是中断请求的形式, 包括全部或部分代理请求。
71在一种实施方式中,代理请求包括足够的信息来建立在共享设备2506和 请求主机2504a之间的DMA或RDMA转移。在另一种实施方式中,代理请 求包括足够的信息来建立数据的广播或组播。本领域技术人员将认识到代理 请求中其他相关信息来建立用于数据转移的共享设备2506。该代理请求包括 对命令代理主机2502来说足够的信息来建立用于数据转移,该数据转移独立 于命令代理主机2502而执行。
代理请求接收器模块2602使用代理请求中的信息生成控制请求,该控制 请求将要被发送给共享设备2506并在其上执行以建立数据转移。该控制请求 基本上没有要在主机和共享设备之间转移的数据,但是作为替代的是,该控 制请求通常包括要在共享设备2506上执行的控制信息。在一种实施方式中, 共享设备2506执行所述控制请求一次,以便共享设备2506可以是与请求主 机2504a间不止一个数据转移的一部分。例如,该控制请求可以在初始化进 程期间执行,该初始化进程使共享设备2506和请求主机2504a能够独立于命 令代理主机2502随意进行数据转移。
在另一种实施方式中,必须发送控制请求用于与数据转移相关联的每个 代理请求。例如,系统总线2508可以连接有比共享设备2506上可用的虚拟 端口更多的设备,所以发送给共享设备2506的控制请求为每个数据转移配置 或验证共享设备2506和请求主机2504a之间的通信路径。本领域普通技术人 员将认识到可以生成其他控制请求用于要由共享设备2506执行的代理请求, 从而使数据转移能够在共享设备2506和请求主机2504a之间进行。
装置2600包括代理请求命令模块2604,用于将控制请求发送给共享设备 以作为对代理请求接收器模块2602接收控制请求的响应。代理请求命令模块 2604通常基于识别共享设备2506的代理请求中的地址信息或其他识别信息来 发送控制请求。代理请求接收器模块2602和代理请求命令模块2604合作来 建立共享主机2506,以用于由请求主机2504a初始化的数据转移。
中断接收器模块2606和中断发送模块2608合作使由共享设备2506通过 中断方式初始化的直接数据转移能够在共享设备2506和主机2504之间进行。 中断接收器模块2606接收来自共享设备2606的中断。该中断包括如下信息 共享设备具有要向主机2504发送的数据和/或具已经将数据发送给主机2504。 例如,如果共享设备2506接收要转移给主机2504的数据或初始化向主机2504
72的数据转移,则共享设备2506具有要转移的数据。在另一个例子中,如果主 机2504正等待数据(有可能是由于主机2504初始化的数据请求),则共享 设备2506可以将数据转移到主机2504中的特定存储缓冲器,共享设备2506 将在数据转移之后发送中断,表示转移完成。
中断发送模块2608向主机发送中断中所包括的信息。这些信息对接收信 息的主机2504来说足以继续接收数据传输的进程。在一种实施方式中,这些 信息使主机2504得以准备接收数据转移的数据。在另一种实施方式中,这些 信息使得主机2504得以认识到来自请求设备2506的数据转移完成而且得以 在之后必要时使用这些数据。在一种实施方式中,这些信息使得主机2504识 别新的内存緩冲器位置并将这通过命令代理主机直接或间接传达给共享设备 2506。在一种实施方式中,这些信息源自该中断并被发送给主机2504。在另 一种实施方式中,将该中断转交给主机2504。本领域技术人员将想到可以被 包括在要由中断传输模块2608传输的中断中以继续接收数据传输的进程的信 息。
命令代理主机2502能够服务所述中断。在一种实施方式中,命令代理主 机2502可以为来自共享设备2506的中断提供服务,其他主机2504能够为来 自共享设备2506的中断提供服务。在另一种实施方式中,命令代理主机2502 和其他主机2504能够为中断提供服务,但是将命令代理主机2502指定为来 自共享设备2506的中断提供服务。
在优选实施方式中,在主机2504和共享设备2506之间的数据转移独立 于命令代理主机2502。在一个事实例中,数据转移是主机2504和共享设备 2506之间的DMA转移。在另 一种实施方式中,由主机2504初始化数据转移, 或者直接将数据转移到共享设备2506或者转移来自共享设备2506的数据或 者建立DMA或RDMA。在其他实施方式中,数据转移是广播或组播的一部 分。在任何一种情况下,数据转移都独立于命令代理主机2502。
在一种实施方式中,装置2600包括确定主机2504和共享设备2506之间 是否存在通信路径的路径模块2610。通信路径可以是数据路径或命令路径或 既是通信路径又是命令路径。如果通信路径不存在,则路径;漠块2610还创建 通信路径。例如,如果系统总线2508连接有比虚拟端口更多的设备,则路径 才莫块2610首先确定是否有期望的通信路径在主机2504和共享设备2506之间
73存在,而且如果系统总线2508端口未配置有主机2504和共享设备2506之间 的通信路径,则创建通信途径。
通常,路径模块2610确定是否由通信路径存在作为对代理请求接收器模 块2602从请求主机2504a接收代理请求或从共享设备2506接收中断的响应。 由路径模块2610创建的通信路径足以将数据或控制请求或两者在主机2504 和共享设备2506之间转移。在另一种实施方式中,路径模块2610在初始化 期间接收代理请求或中断并且创建一次通信路径。在另一种实施方式中,才莫 块2610在每个代理请求或中断之后确定通信路径是否存在。本领域技术人员 将认识到当路径模块2610可以确定通信路径是否存在,然后如果它不存在则 创建通信路径时有其他次数。
在一种实施方式中,装置2600包括标准设备模拟模块2612,在用对于设 备的操作特定的代码装载主机2504之前将通到一个或多个主机2504的设备 模拟成附着到系统总线2508上的标准设备。该标准设备被工业标准BIOS支 持。在一种优选实施方式中,由标准设备模拟模块2612模拟的设备是共享设 备2506。例如,如果共享设备2506包括不被标准驱动器支持的功能性,该标 准驱动器被主机2504支持,标准设备模拟模块2612仿真由主机2504支持的 标准设备是在初始化时或直到标准设备模拟模块2612可以装载对于共享设备 2506有特定功能性的特定驱动器。这个自举电路操作使主机2504得以用受限 方式查看并访问共享设备2506直到用于共享设备2506的驱动器载入主机 2504。在一种实施方式中,标准设备模拟模块2612支持I/O虚拟化。
系统总线2508可以包括非透明端口 。非透明端口能够在初始化和设备发 现操作期间阻塞附着到非透明端口上的设备,以便执行发现/初始化的设备不 能接入连接到非透明端口上的设备。在一种实施方式中,系统总线2508包括 有非透明端口的系统总线交换。在这种实施方式中,在主机2504上执行的第 一初始化进程发现至少命令代理主机2502通到主机2504而且不能够发现共 享设备2506。在这种实施方式中,所发现的命令代理主机2602被识别用来与 至少主机2504通信作为第一初始化进程的结果,主机2504执行第一初始化 进程的。
在另 一种实施方式中,在共享设备2506被识别用来与至少命令代理主机 2602通信以作为初始化进程的结果的情况,在命令代理主机2502上执行的第
74二初始化进程至少发现通到命令代理主机2502的共享设备2506。
例如,在存储设备150访问独立于服务器112的网络接口 156的情况, 非透明端口会在由服务器112 (用作命令代理主机2502 )执行的初始化进程 期间隐藏网络接口 156,却会使存储设备150可以被发现用于进行通信。在这 种情况下,存储设备150用作通到第一服务器112a的共享设备2506,其他服 务器112能够基于第一服务器112a所完成的发现来访问存储设备150。
在第二初始化进程中,网络接口 156用作共享设备2506,存储设备150 用作命令代理主机2502,所以在由作为命令代理主机2502和根的存储设备 150执行的第二初始化进程中,然后存储设备150发现网络接口 156用于通信。 然后存储设备150可以向独立于服务器112的网络接口 156传达。在另一种 实施方式中,服务器112用作命令代理主机2502,以使存储设备150和网络 接口 156之间能够进行直接通信。
图12是示意性框图,示出根据本发明与共享设备2506相关联的一个装 置2700的一种实施方式,该设备用于在多个主机2502、 2504之间共享的设 备。在不同的实施方式中,装置2700包括共享设备控制请求接收器模块2702、 控制请求响应^^块2704以及中断发送模块2706,下面对这些;f莫块进行描述。 装置2700的模块2702-2706中每一个的所有或部分可以在共享设备2506中或 在控制该共享设备2506的另一个设备中执行。
装置2700包括共享设备控制请求接收器模块2702,该模块在命令代理主 机2502从请求主机2504a接收代理请求之后接收来自命令代理主机2502的 控制请求。控制请求响应模块2704配置共享设备2506以在请求主机2504a 和共享设备之间进行数据转移。该控制请求不包括数据转移的数据,却可以
包括足以在主机2504a和共享设备2506之间建立DMA或其他数据转移操作 的信息。该控制请求可以设置共享设备2506中的控制寄存器,或者可以配置 共享设备2506和请求主机2504a之间的通信路径。
装置2700包括向命令代理主机2502发送中断的中断发送模块2706。该 中断随后被发送到主机2504并且包括用于主机2504继续进行接收数据转移 的数据的进程的足够信息。在一种实施方式中,该中断发送^^莫块2706在共享 设备2506从另一设备(比如存储设备150或客户端114)接收数据之后发送 中断。在另 一种实施方式中,中断发送模块2706发送中断以响应来自主机2504的请求。主机2504可以请求数据,然后继续其他任务,然后共享设备2506 可以命令中断发送模块2706在所请求的数据准备好进行转移时发送中断。本 领域技术人员将认识到中断发送^^块2706发送中断的其他理由。
图13是示意性框图,示出根据本发明与请求主机2504a结合操作的装置 2800的一种实施方式,该设备用于在多个主机之间共享的设备。装置2800包 括代理请求发送器模块2802、主机数据发送器模块2804、主机中断接收器模 块2806以及主机数据接收器模块2808,下面对这些模块进行描述。装置2800 的才莫块2802-2808中每一个的所有或部分可以在主机2504中或在控制该主机 2504的另 一个设备中执行。
装置2800包括从请求主机2504a至所指定的命令代理主机2502发送代 理请求的代理请求发送器模块2802。然后命令代理主机2502基于代理请求向 共享设备2506发送控制请求。该控制请求在共享设备2506上执行以建立用 于请求主机2504a和共享设备2506之间的直接数据转移的共享设备2506。
装置2800包括在请求主机2504a上执行的主机数据发送器模块2804,启 动请求主机2504a和共享设备2506之间的数据转移。数据转移独立于命令代 理主机2502而执行。请求主机2504a可以转移这些数据或者可以直接或通 过代理请求建立DMA或RDMA转移。数据转移会通到共享设备2506或者会 通到可通过共享设备2506接入的另 一个设备。本领域技术人员将认识到请求 主机2504a初始化数据转移的其他方式,其中,数据转移独立于命令代理主 机2502。
在一种实施方式中,装置2800包括在主机上执行的主机2504中断接收 器模块2806,用于接收来自命令代理主机2502的信息,共享设备2506具有 要向主机2504发送的数据和/或已经发送给主机2504的数据。这些信息源自 命令代理主机2502从共享设备2506接收的中断。然后主机数据接收器^^莫块 2808继续接收数据传输的进程。该数据传输独立于命令代理主机2506执行。 在共享设备2506具有要转移的数据的情况下,主机数据接收器模块2808可 以建立缓沖器、向共享设备2506发送主机2504准备好进行数据传输等等的 信号,以继续数据转移进程。在共享设备2506已经转移这些数据的情况,主 机数据接收器^t块2808可以发送转移完成的信号、可以移动数据等等,以继 续并完成数据传输。
76图14是示意性流程图,示出根据本发明的方法2900的第一实施方式,
该方法用于在多个主机之间共享的设备。方法2900始于步骤2902,代理请求 接收器模块2602接收来自请求主机2504a的代理请求(步骤2904 )。代理请 求命令模块2604向共享设备2506发送控制请求(步骤2906 ),方法2900在 步骤2908结束。该控制请求由共享设备2506执行。该控制请求从代理请求 中生成并且足以配置共享设备2506用于共享设备2506和请求主机2504a之 间的数据转移。数据转移独立于命令代理主机2502来执行。
图15是示意性流程图,示出根据本发明的方法3000的第二实施方式, 该方法用于在多个主机之间共享的设备。方法3000始于步骤3002,共享设备 控制请求模块2702接收来自命令代理主机2502的控制请求(步骤3004 )。 该控制请求在命令代理主机2502上由从请求主机2504a接收的代理请求中生 成。控制请求响应模块2704配置共享设备2506用于请求主机2504a和共享 设备2506之间的数据转移(步骤3006 ),方法3000在步骤3008结束。该控 制请求不包含数据转移的数据,该数据转移独立于命令代理主机2502执行。
图16是示意性流程图,示出根据本发明的方法3100的第三实施方式, 该方法用于在多个主机之间共享的设备。方法3100始于步骤3102,代理请求 发送器模块2802从请求主机2504a向所指定的命令代理主机2502传输代理 请求(步骤3104 )。然后命令代理主机2502将从代理请求中生成的控制请求 发送给共享设备2506。主机数据发送器才莫块2804初始化独立于命令代理主机 2502的在请求主机2504a和共享设备2506之间的数据转移(步骤3106 ), 方法3100在步骤3108结束。该代理请求不包括数据转移的数据。
本发明可釆用其他特定形式实施而不脱离本发明的宗旨或本质特点。描
明的范围由附属的权利要求确定,而不是由上述说明书确定。在本发明的权 利要求的含义和等价范围内的所有改变被包含在本发明的保护范围内。
7权利要求
1.一种用于在多个主机之间共享设备的装置,该装置包括在指定的命令代理主机上执行的代理请求接收器模块,用于从请求主机接收代理请求,该请求主机包括两个或更多个主机之一,其中该两个或更多个主机中每一个都执行独立于其他主机和共享设备的操作系统,而且其中指定所述两个或更多个主机中的一个主机为命令代理主机,所述两个或更多个主机和所述共享设备通过系统总线连接,所述代理请求包括要由所述共享设备执行的控制请求,该控制请求足以配置该共享设备以在发送该代理请求的所述请求主机和所述共享设备之间进行数据转移,该数据转移独立于该命令代理主机执行,该控制请求大体上没有要在所述请求主机和所述共享设备之间转移的数据;以及在所述命令代理主机上执行的代理请求命令模块,用于向所述共享设备发送控制请求,以作为对代理请求接收器模块接收控制请求的响应。
2. 权利要求1的装置,还包括在所述命令代理主机上执行的中断接收器模块,用于从所述共享设备接 收中断,该中断包括如下信息所述共享设备具有要向主机发送的一个或多 个数据或者已经将数据发送给主机;以及中断发送模块,将中断中所包括的信息发送给主机,该信息对于接收该 信息的主机来说足以继续进行接收该数据传输的过程。
3. 权利要求2的装置,其中,除了命令代理主机之外的所述主机都能够 接收所述中断。
4. 权利要求l的装置,还包括在命令代理主机中执行的路径模块,该路 径^=莫块确定在主机和所述共享设备之间是否存在通信路径,该通信路径包括 数据路径和命令路径中的一个或多个,该路径模块还创建通信路径以作为确 定所述通信路径不存在的响应,该数据路径足以在所述主机和所迷共享设备 之间转移一个或多个数据和控制请求。
5. 权利要求4的装置,其中,所述通信路径模块确定通信路径是否存在 以响应来自所述主机的代理请求和来自所述共享设备的中断中的一个。
6. 权利要求l的装置,其中,所述共享设备包括如下配置的网络接口将通过计算机网络从所述两个或更多个主机之一接收的数据转移到一个设备并将通过计算机网络接收的数据从一个设备转移到所述两个或更多个主机之
7. 权利要求l的装置,其中,所述共享设备包括存储设备和存储控制器中的一个或多个。
8. 权利要求7的装置,其中,所述存储设备进还包括固态存储设备,所述存储控制器包括固态存储控制器。
9. 权利要求1的装置,其中,所述系统总线包括外围组件互连快速("PCl-e")。
10. 权利要求9的装置,其中,PCI-e总线和所述共享设备支持PCI-e输入/输出虚拟化("PCIe-IOV")。
11. 权利要求10的装置,其中,所述两个或更多个主机中的两个或更多个在单一的设备场境内共享该共享设备。
12. 权利要求1的装置,其中,所述命令代理主机在如下设备之一上执行根;所述两个或更多个主机之一;所迷共享设备;对共享设备的第三方元件管理命令,该共享设备独立于所述两个或更多个主机;以及将如下设备中一个或多个的结合起来的设备根;所迷两个或更多个主机之一;所述共享设备;以及所迷第三方组件管理命令。
13. 权利要求1的装置,其中,独立的操作系统包括一个虚拟机层,该虚拟机层具有在该虚拟机层之上运行的一个或多个操作系统。
14. 权利要求1的装置,其中,该共享设备使用直接存储器存取("DMA")和远程直接存储器存取("RDMA")中的一个在控制请求中识别的主机和共享设备之间转移数据。
15. 权利要求1的装置,还包括在命令代理总线上执行的标准设备模拟模块,该标准设备模拟模块在给一个或多个主机装载对于该设备操作来说特定的代码之前将通到一个或多个主机的设备^^莫拟成附着到系统总线上的标准设备,该标准设备由工业标准BIOS所支持。
16. 权利要求15的装置,其中,由所述标准设备模拟模块模拟的设备包括所述共享设备。
17. 权利要求15的装置,其中,用于标准设备的所述标准设备模拟模块支持1/0虚拟化。
18. 权利要求1的装置,其中,该系统总线还包括具有非透明端口的系统总线切换,其中,在主机上执行的第一初始化进程至少发现对该主机的所述命令代理主机且不能发现该共享设备,其中,所发现的命令代理主机作为第 一初始化进程的结果被识别用来与至少执行该第 一初始化进程的主机通信。
19. 权利要求18的装置,其中,在命令代理主机上执行的第二初始化进程至少发现对所述命令代理主机的所述共享设备,其中,该共享设备作为初始化进程的结果被识别用来与至少该命令代理主机通信。
20. —种用于在多个主机之间共享设备的装置,该装置包括在所述共享设备上执行的共享设备控制请求接收器模块,用于从指定为命令代理主机的主机接收控制请求,该命令代理主机包括两个或更多个主机中的一个,其中所述两个或更多个主机中每一个都执行独立于其他主机和共享设备的操作系统,所述两个或更多个主机和共享设备通过系统总线连接,该命令代理主机发送所述控制请求,以作为对从请求主机接收代理请求的响应,所述请求主才几是两个或更多个主机中的一个;以及在共享设备上执行的控制请求响应模块,用于配置所述共享设备以在请求主机和共享设备之间的进行数据转移,该控制请求大体上无数据转移的数据,而且数据转移独立于命令代理主机执行。
21. 权利要求20的装置,还包括在共享设备上执行的中断发送模块,用于向命令代理主机发送中断,该中断包括如下信息所述共享设备之一有要向主机发送的数据和所述共享已将数据转移给主机,所述信息对主机来说足以继续该接收数据的进程,其中命令代理主机向主机发送所述信息。
22. —种用于在多个主机之间共享设备的装置,该装置包括代理请求发送器模块,用于从请求主机向指定的命令代理主机发送代理请求,所述请求主机和所述命令代理主机中的每一个都包括连接到系统总线上的两个或更多个主机之一和共享设备,其中所述两个或更多个主机中每一个都执行独立于其他主机和共享设备的操作系统,该代理请求包括要由该共享设备执行的控制请求,该命令代理主机将所述控制请求发送给所述共享设备,该控制请求足以配置该共享设备以用于共享设备和发送代理请求的请求主机之间的数据转移,该控制请求大体上没有要在请求主机和共享设备之间转移的数据;以及在请求主机上执行的主机数据发送器模块,用于初始化请求主机和共享设备之间的数据转移,该转移独立于所迷命令代理主机执行。
23. 权利要求22的装置,还包括在主机上执行的主机中断接收器模块,用于从命令代理主机接收如下信所述信息源于所述命令代理主机从所述共享设备接收的中断;主机数据接收器模块继续接收数据传输的进程,该数据传输独立于命令代理主一几纟丸行。
24. —种用于在多个主机之间共享设备的系统,该系统包括系统总线;连接到该系统总线上的共享设备;连接到该系统总线上的两个或更多个主机,其中,所述两个或更多个主机中每一个都执行独立于其他主机和共享设备的操作系统,而且其中所述两个或更多个主机中有一个是指定的命令代理主机;在该命令代理主机上执行的代理请求接收器模块,用于接收来自请求主机的代理请求,该代理请求足以配置共享设备以用于在发送代理请求的请求主机和共享设备之间的数据转移,该数据转移独立于命令代理主机执行,该控制请求大体上没有要在所述请求主机和所述共享设备之间转移的数据;以及在所述命令代理主机上执行的代理请求命令模块,用于向共享设备发送控制请求,以作为对代理请求接收器模块接收控制请求的响应。
25. 权利要求24的系统,还包括在命令代理主机上执行的中断接收器模块,用于从共享设备接收中断,该中断包括如下信息共享设备具有要向主机发送的数据或者已经将数据发送给主机;以及中断发送才莫块,用于将来自所述中断的信息发送给主机,该信息对于接收该信息的主机来说足以继续进行接收该数据传输的进程。
26. —种计算机程序制品,包括具有计算机可用程序代码的计算机可读介质,可执行所述程序代码以完成在多个主机之间共享设备的操作,该计算机程序制品的操作包括4妄收来自请求主机的代理请求,该请求主机包括两个或更多个主机中之一,其中所述两个或更多个主机中的每一个都执行独立于其他主机和共享设备的操作系统,而且其中所述两个或更多个主机中的一个被指定为命令代理主机,所述两个或更多个主机和共享设备通过系统总线连接,该代理请求包括要由所述共享设备执行的控制请求,该控制请求足以配置该共享设备以用于发送所述代理请求的所述请求主机和所述共享设备之间的数据转移,该数据转移独立于命令代理主机而执行,该控制请求基本上没有要在所述请求主机和所述共享设备之间转移的数据;及将该控制请求发送给共享设备,以作为对代理请求接收器模块接收控制请求的响应。
27. —种计算机程序制品,包括具有计算机可用程序代码的计算机可读介质,可执行所述程序代码以完成在多个主机之间共享设备的操作,该计算机程序制品的操作包括从指定为命令代理主机的主机接收控制请求,该命令代理主机包括两个或更多个主机中的一个,其中所述两个或更多个主机中每一个都执行独立于其他主机和共享设备的操作系统,所述两个或更多个主机和共享设备通过系统总线连接,该命令代理主机发送控制请求,以作为从请求主机接收代理请求的响应,该请求主才几包括两个或更多个主才几;及配置该共享设备以用于请求主机和共享设备之间的数据转移,该控制请 求大体上没有数据转移的数据,该数据转移独立于命令代理主机执行。
28. —种计算机程序制品,包括具有计算机可用程序代码的计算机可读 介质,可执行所述程序代码以完成在多个主机之间共享设备的操作,该计算 机程序制品的操作包括从请求主机向指定的命令代理主机发送代理请求,该请求主机和所述命 令代理主机的每一个都包括连接到系统总线上的两个或更多个主机中的一个 和所述共享设备,其中所述两个或更多个主机中的每一个都执行独立于其他 主机和共享设备的操作系统,该代理请求包括要由共享设备执行的控制请求, 该命令代理主机向共享设备发送控制请求,该控制请求足以配置共享设备以 用于所述共享设备和发送代理请求的所述请求主机之间的数据转移,该控制 请求大体上没有要在所迷请求主机和所述共享设备之间转移的数据;及初始化所述请求主机和所述共享设备之间的数据转移,该转移独立于命 令^理主一A4丸行。
全文摘要
本发明公开了允许在多个主机之间共享设备的装置、系统和方法,其中,能够在主机和共享的设备之间通过系统总线转移数据,共享的设备独立于连接到系统总线上的其他主机。命令代理主机建立共享的设备和请求主机之间的数据路径,并然后充当被选择用于建立数据转移的命令的代理。
文档编号G06F3/06GK101690068SQ200780051023
公开日2010年3月31日 申请日期2007年12月6日 优先权日2006年12月6日
发明者乔纳森·撒切尔, 大卫·弗林, 约翰·斯特拉瑟 申请人:弗森多系统公司(dba弗森-艾奥)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1