分级存储系统及其数据迁移方法

文档序号:6461380阅读:189来源:国知局
专利名称:分级存储系统及其数据迁移方法
技术领域
本发明涉及一种存储计算机(以下也称为"服务器")数据的存储装置系 统(以下也称为"存储系统"),尤其涉及使多个磁盘装置构成的多个存储装置
成为分级结构,为了文件的输入输出而连接了 NAS( Network Attached Storage) 的存储系统中的分级存储装置之间的数据迁移方法、以及将分级存储装置提供 的巻向NAS提供的目录进行分配的方法。
背景技术
近年来,面向HPC (High Performance Computing)的计算机、即所谓的 超级计算机的计算能力的提高引起人们的注意,预计今后数年将会出现具有每 秒千万亿次浮点运算(Peta FLOPS: Floating Operation Per Second)级的计算 性能的超级计算机,大约10年后将会出现具有每秒百亿亿次浮点运算(Exa FLOPS)级的计算性能的超级计算机。与此相伴,利用超级计算机进行的科学 计算等大规模计算的规模也变大,预计输入输出超级计算机的各个文件的大小 也会从吉字节(GB: GigaByte)增大到超过太字节(TB: TeraByte)。因此, 对于与超级计算机连接的存储系统,预计对于容量的要求将会从拍字节(Peta Byte)级达到艾字节(Exa Byte)级。此外,根据高速进行TB级文件的输入 输出的需要,还考虑存储装置的I/0处理性能与目前相比需要提高1~2位左右。
目前,在面向超级计算机的存储系统中,横向地排列与超级计算机的节点 数相应数量的性能价格比良好的中型存储装置来使它们并行工作,由此提供了 与服务器要求的I/O处理性能相应的存储装置的I/O处理性能。
此外,面向超级计算机的存储装置所要求的性能要件是各种各样的,为了 高速地输入输出大文件而要求高的顺序(s叫uential)性能,为了同时输入输出 大量文件而要求高的事务处理(transaction)性能。
为了应对这样的性能要件,在专利文献1中公开了根据计算机或应用程序 所要求的性能来分配存储文件的巻的技术。该方法为对每个业务应用程序预性等要件),而且在存储装置一侧预先具有存储装置自身具有的文件存储用巻 的性能等的规格表,对于每个应用程序的存储要件,以文件单位参照上述表来 分配存储目的地巻。
专利文献1特开2004-7040
发明内容
要求面向超级计算机的存储系统具有高速进行大文件或大量文件的输入 输出的高性能,并且要求以较低的价格构成大容量的系统。
但是,今后在横向排列多台现有的中型存储装置来构成所需要的PB ~ EB 级容量的大规模系统的方法中,为了实现所需要的性能,需要数百台至一千台 以上的中型存储装置,存在难以提供低价格的系统的问题。
此夕卜,作为对于面向超级计算机的存储系统的各种各样性能要件的应对方 法,当通过专利文献l公开的现有技术进行处理时存在以下的问题。即,在现 有技术中,分配与各个文件的特性相适合的存储用巻来存储文件,由此实现了 文件输入输出的高速化,此时,在由超级计算机执行的科学计算等程序中,在 输入输出中使用的文件的种类多种多样,因此存在难以对于每个计算预先决定 对于文件存储用巻的性能以及可靠性的必要要件的问题。
为了解决上述问题,在本发明中,在由与多个计算才几连接的文件服务器; 与所述文件服务器连接的第一存储装置;与第 一存储装置连接的第二存储装 置;以及与上述文件服务器、第一存储装置以及第二存储装置连接的存储管理 装置构成的存储系统中,所述第一存储装置具有在自身装置内的磁盘装置上形 成的第一巻,所述第二存储装置具有在自身装置内的磁盘装置上形成的第二 巻,所述第一存储装置具有将所述第二巻虚拟化为自身装置的巻而得的虚拟 巻,所述文件服务器将所述虛拟巻作为第二目录进行加载,在预先决定的第一 时刻,将所述第一巻作为第一目录进行加载,向所述第一目录复制上述第二目 录内的预先决定的文件,在预先决定的第二时刻,向所述第二目录复制所述第 一目录内的预先决定的文件。
并且,所述存储管理装置具有收集所述计算机的计算执行作业信息的单 元;分析所述计算执行作业信息的单元;以及决定所述第一和第二时刻的单元。此外,所述存储管理装置具有根据所述计算执行作业信息,提取为了进 行计算而输入输出的文件的特性的单元;以及选择存储文件的所述第一巻的单
元。所述文件服务器将选择出的所述第一巻作为所述第一 目录进行加载。在此, 所述选择存储文件的所述第一巻的单元,在文件的大小大于预先决定的第一值 时,选择由预先决定的第二值以上数量的磁盘装置构成的第一巻。
此外,所述选择存储文件的所述第一巻的单元,在文件数量大于预先决定 的第三值时,选择预先决定的第四值以上数量的巻,所述文件服务器将选择出 的所述多个第一巻分别作为独立的第一目录进4亍加载,将多个文件分散复制到 所述多个第一目录。
而且,所述文件服务器在所述预先决定的第二时刻向所迷第二目录复制所 述第一目录内的预先决定的文件后,卸载所述第一目录,将卸载的所述第一巻 作为其他计算的文件存储用巻进行提供。
另外,本发明还提供一种存储系统中的数据迁移方法,该存储系统具有 多个计算机;与所述多个计算机连接的文件服务器;与所述文件服务器相连接 的,具有第一巻的第一存储装置;与所述第一存储装置相连接的,具有第二巻 的第二存储装置;以及与所述文件服务器、所述笫一存储装置以及所述第二存 储装置连接的管理装置,所述第一存储装置具有将所述第二巻虚拟化为自身装 置的巻而得到的虛拟巻,该数据迁移方法的特征在于,具有如下步骤根据所 述管理装置的指示,将所述虚拟巻作为第二目录进行加载的步骤;在预先决定 的第一时刻,将所述第一巻作为第一目录进行加载,向所述第一目录复制所述 第二目录内的文件的步骤;以及在预先决定的第二时刻,向所述第二目录复制 所述第一目录内的预先决定的文件的步骤。
此外,根据本发明的实施方式以及附图,本申请公开的问题及其解决方法 将会变得明确。
根据本发明,可以通过最少数量的存储装置提供兼顾超级计算机所要求的 高性能和大容量双方面的存储系统。


图1表示本发明的存储系统以及与其相关的计算机、管理服务器的结构例。图2表示本发明第一分级存储装置的结构的例子。 图3表示本发明第二分级存储装置的结构的例子。
图4表示文件存储用目录和文件存储用虛拟巻、文件存储用巻的对应关系 的例子。
图5表示文件存储用目录和文件存储用虚拟巻、文件存储用第一巻、第二 巻的对应关系的例子。
图6表示本发明的文件服务器和第一、第二分级存储装置之间的文件的升 级(staging) /降级(destaging)顺序的一例。
图7表示本发明的计算机管理服务器和存储管理服务器的结构的一例。
图8表示本发明的存储系统以及与其相关的计算机、管理服务器的其他结 构的例子。
图9表示计算机执行脚本的例子。
图IO表示本发明的文件服务器和第一、第二分级存储装置之间的文件的 升级/降级顺序的其他例子。
符号说明
l计算机系统;2存储系统;11第一分级存储装置;12第二分级存储装置; 13文件服务器;14计算机;16IP交换机;17FC交换机;18计算机管理服务 器;19存储管理服务器;2UOB管理部;22用户管理部;23信息提供部;24 信息收集部;25信息分析部;26巻管理部;27用户区域管理部;28存储管理 部;51文件存储用第一巻;52文件存储用第二巻;61文件存储用虚拟巻
具体实施例方式
图1表示包含第一实施方式的存储装置的系统的构成例。计算机系统1 具有存储系统2、 IP交换机16、计算机14以及计算机管理服务器18。此外, 存储系统2具有文件服务器13、第一分级存储装置11、第二分级存储装置12、 光纤通道(FC: Fibre Channel)交换机17以及存储管理服务器19。
如图1所示,经由IP交换机16将文件服务器13与计算机14连接,由此 连接了存储系统2和计算机14。此外,计算机管理服务器18和存储管理服务 器19直接连接,或者经由LAN (LocalAreaNetwork)相互连接。而且,存储 管理服务器19、文件服务器13、第一分级存储装置以及第二分级存储装置直接连接,或者经由LAN ( Local Area Network)相互连接。
第一分级存储装置11直接与文件服务器13连接。作为连接接口 , 一般使 用光纤通道、iSCSI等发送块数据的协议的接口。在此,第一分级存储装置ll 还可以经由交换机(Switch)与文件服务器13连接。第二分级存储装置12经 由FC交换机17与第一分级存储装置11连接。作为连接接口,除了光纤通道 之外可以使用iSCSI等发送块数据的协议的接口。
第一分级存储装置11具有文件存储用第一巻51,用于存储文件服务器13 进行输入输出处理的文件。第二分级存储装置12具有文件存储用第二巻52, 用于存储文件服务器13进行输入输出处理的文件。此外,第一分级存储装置 11具有虛拟化功能,该虚拟化功能虚拟地提供第二分级存储装置12具有的巻, 作为该第一分级存Y渚装置11提供给计算机14的巻、即文件存储用虚拟巻。
图2表示第一分级存储装置11的结构的一例。控制器31具有通道IF (接口 )部32,其控制来自文件服务器13或计算机14等上位装置的数据的 写入/读取访问;盘IF(接口)部33,其与多个硬盘42连接,控制向硬盘42 的数据的写入/读出访问;高速緩冲存储器34,其暂时存储向硬盘42的写入/ 读出数据;以及连接部35,其连接通道IF部32、盘IF部33以及高速緩冲存 储器34。连接部35—Jl殳由一个以上的开关(Switch)构成,但也可以由一条 以上的公共总线构成。
通道IF部32在接收到来自上位装置的数据写入/读出访问时,控制其与 高速緩沖存储器34之间的数据传输,盘IF部33在向硬盘42的数据写入/读 出时,控制其与高速緩冲存储器34之间的数据传输。通过这种经由高速緩冲 存储器34的、通道IF部32和盘IF部33之间的数据交换,进行从上位装置 向硬盘42的数据的写入/读出。为了进行这样的控制,通道IF部32、盘IF部 33具有一个以上的处理器(未图示)。在该处理器上连接内部LAN37。而且, 存储装置外部的存储管理服务器19与内部LAN37连接。
在此,上述控制器31的结构仅为一个实施例,并不是将结构限定为上述 那样的结构。控制器31可以具有根据来自计算机的数据写入/读出请求,进行 向硬盘42的数据的写入/读出的功能。
而且,控制部31可以具有控制硬盘42的电源的ON/OFF (接通/切断)的电源控制部36,此时,电源控制部36与内部LAN37连接。
硬盘安装部41具有多个硬盘42、和对各个硬盘42提供电源的硬盘电源
43。将多个硬盘42分组为由多个硬盘42构成的RAID组(Gr.)。
在此,可以对每个硬盘42或每个RAIDGr.设置一个或者两个左右(组成
冗余结构时)硬盘电源43。
控制器31内的电源控制部36与硬盘电源43连接,进行电源ON/OFF的控制。
在此,电源控制部36可以不在控制器31中,而在石更盘安装部41中。此 外,电源控制部36可以直接与存储管理服务器19连接。
在由多个石更盘42构成的RAID组(Gr.)的区域上形成在图1的说明中记 述的文件存储用第一巻51。
图3表示第二分级存储装置12的结构的一例。控制器71具有计算机连 接端口 76,其连接第一分级存储装置11等上位装置;盘连接端口 78,其连接 多个硬盘42;共享存储器73,其暂时存储向硬盘42的写入/读出数据;以及 处理器72。此外,经由连接部74连^l矣计算机连接端口 76、盘连接端口 78、 处理器72以及共享存储器73。连接部74 —般由开关(Switch )构成,但也可 以由公共总线构成。
处理器72在接收到来自上位装置的数据写入/读出访问时,控制计算机连 接端口 76与共享存储器73之间的数据传输,并且在向硬盘42的数据写入/ 读出时,控制硬盘42与共享存储器73之间的数据传输。通过这种经由共享存 储器73的计算机连接端口 76和硬盘42之间的数据交换,进行从上位装置向 硬盘42的数据写入/读出。
在处理器72上连接内部LAN77。而且,存储装置外部的存储管理服务器 19与内部LAN77连接。在此,上述控制器71的结构仅为一个实施例,并不 是将结构限定为上述那样的结构。控制器71可以具有根据来自计算机的数据 写入/读出请求,进行向硬盘42的数据的写入/读出的功能。
而且,控制部71可以具有控制硬盘42的电源的ON/OFF (接通/切断)的 电源控制部75,此时,电源控制部75与内部LAN37连接。
关于硬盘安装部41,与图2所示的第一分级存储装置的结构相同。在由多个硬盘42构成的RAID组(Gr.)的区域上形成在图1的说明中记 述的文件存储用第二巻52。
在图2、图3中,关于第一分级存储装置11、第二分级存储装置12的结 构,分别记述了一^:的结构,并不是将它们限定为上述结构。作为第一分级存 储装置ll,只要是以下的装置即可作为所要求的I/0处理性能,具有高于第 二分级存储装置12的I/O处理性能。此外,作为第二分级存储装置12,只要 是以下的装置即可作为所要求的规格,可以通过与第一分级存储装置11相 比数量少的硬盘实现上述计算机所需要的容量。
图7表示计算机管理服务器18以及存储管理服务器19的功能。
计算机管理服务器18具有JOB管理部21,其管理由计算机14执行的 JOB;用户管理部22,其管理委托计算机执行JOB的用户;以及信息提供部 23,其成为向存储管理服务器19提供由计算机执行的JOB信息的接口。
此外,在说明本实施例中的构成要素时使用的JOB管理部等各功能部可 以通过软件以逻辑方式构成,也可以通过专用LSI等以硬件方式构成,而且还 可以通过软件和硬件的组合来实现。此外,在以逻辑方式构成时,各功能部被 存储在存储器中,由处理器来执行,由此实现其功能。
JOB管理部21具有投入JOB管理部201 、 JOB调度程序202以及结束JOB 管理部206。此外,JOB调度程序202具有等待队列203和执行队列205。
用户为了使用计算机14执行计算JOB,生成图9所示的计算执行脚本234 , 并将其输入计算机管理服务器18。例如通过计算机管理服务器18具备的GUI (Graphical User Interface )、 CLI ( Command Line Interface ),直接在计算机管 理服务器18中进行该输入,或者通过与计算机管理服务器连接的客户终端来 进行该输入。
输入的计算执行脚本234由投入JOB管理部201进行管理,被分配给等 待队列203内按照优先度从高到低的顺序所准备的队列1: 211、队列2: 212、 队列3: 213、或者队列4: 214中的某一个。该分配方法、即优先度附加方法 例如根据计算执行脚本234中记述的计算时间的长短、使用的主存储器容量的 多少等进行判断,或者由用户在计算执行脚本234中明确地指定优先顺序。按 照在各队列中排列的顺序执行JOB。此外,队列1~4的JOB的执行顺序为从优先度高的队列1开始依次执行。在优先度高的队列的JOB进入执行之后,
如果在计算机14的CPU资源中存在空闲,可以执行下一优先度的J0B,则在 空闲的CPU上也并行地执行该JOB。关于其之后的下一优先度的JOB也相同。 在执行队列205中管理执行中的JOB,当JOB结束时将管理向结束JOB管理 部206转移。
用户管理部22管理从计算机管理服务器18或者从与计算机管理服务器 18连接的客户终端使用计算机14的用户,即管理用户认证和用于存储用户在 计算中使用的文件的用户目录。为了进行该管理,例如使用NIS (Network Information Service )或LDAP ( Lightweight Directory Access Protocol)等十办i义。
此外,信息提供部23对存储管理服务器19发送各JOB的计算执行脚本 234和表示JOB的执行顺序的信息、以及使用计算机14的用户和该用户使用 的用户目录的信息。
存储管理服务器19具有信息收集部24,其从计算机管理服务器18的 信息提供部23取得计算机14执行的JOB信息;信息分析部25,为了在存储 装置中使用JOB信息而对其进行分析;巻管理部26,其根据所分析的信息, 对第一分级存储装置11、第二分级存储装置12具有的巻向文件服务器13管 理的用户目录的加载/卸载进行管理,或者对该用户目录之间的文件的升级/降 级进行管理;用户区域管理部27,其管理文件服务器13处理的用户目录;以 及存储管理部28,其向文件服务器13、第一分级存储装置11以及第二分级存 储装置12指示巻的分配,或者指示巻的加载/卸载。
接下来,使用图4至图6对用户执行计算时的用户目录的管理顺序进行说明。
图4表示用户开始计算之前的用户目录和巻的关系的一例。文件服务器 13根据存储管理部28的指示,加载文件存储用虚拟巻61来作为用户目录、 即文件存储用目录81。
第一分级存储装置11内的控制器31根据存储管理部的指示,将第二分级 存储装置12内的文件存储用第二巻52虚拟为第一分级存储装置11内的文件 存储用虚拟巻61,并且由第一分级存储装置ll进行管理。由此,第一分级存 储装置ll也可以统一管理第二分级存储装置12的巻,因此可以简化巻的管理。在此,可以直接加载文件存储用第二巻52来作为文件存储用目录81。 在目录树91中表示用户目录和文件存储用第二巻52的关系的一例。在此, 对usr0下的每个目录dir0, dirl和usrl下的每个目录dir0、 dirl 、 dir2分配了 独立的文件存储用第二巻52。在此,上述用户目录和文件存储用第二巻52的 对应关系(映射)由存储管理部19内的用户区域管理部27进行管理。此外, 在用户从与存储管理服务器19连接的客户终端发出请求时,生成或者变更该 对应关系。
图6表示了本发明的分级存储系统中的文件的升级/降级的顺序。首先, 在步骤501中,存储管理服务器19的信息收集部24从计算机管理服务器18 的信息提供部23取得等待队列203内的全部JOB的计算执行脚本234以及表 示JOB的执行顺序的信息。
在此,作为JOB调度程序202控制JOB的执行顺序的方法,具有如下方 法(1)当JOB的执行结束时转为执行按照顺序的下一个JOB的方法;(2) 对投入JOB管理部201投入多个JOB,根据所投入的多个JOB的计算执行脚 本234内记载的计算时间,对各JOB的执行开始时间和执行结束时间进行调 度,根据该调度顺次执行JOB的方法。
因此,在方法(1 )的情况下,信息收集部24从信息提供部23取得在等 待队列203内排列的全部计算执行脚本234以及表示JOB执行顺序的信息, 所述JOB执行顺序表示该计算执行脚本234是等待队列203内的哪个队列的 第几个JOB。然后,在每个等待队列203内的队列(队列1~4)中,对计算 执行脚本234附加序号。在此,可以由信息提供部23执行该序号附加,然后 将结果发送给信息收集部24。
此外,在方法(2)的情况下,信息收集部24从信息提供部23取得表示 计算机管理服务器18进行了调度的各JOB的执行开始时间和执行结束时间的 表。
然后,在步骤502进行计算执行脚本234的分析。
在对该分析进行说明之前,在图9中表示记述了由计算机14执行的执行 作业(或者计算)的信息的计算执行脚本234的一例。因为多个用户投入计算 执行脚本234,所以在图9中表示了具有多个计算执行脚本的图像。为了管理第一分级存储装置11、第二分级存储装置12具有的巻向文件服务器13所管 理的用户目录的加载/卸载的调度,或者为了管理该用户目录之间的文件的升
级/降级的调度,以及为了管理文件服务器13处理的用户目录,计算执行脚本 234至少包含存储计算参数和计算执行结果的目录的信息300。
最好还包含计算执行时间(CPUTIME) 301、计算重复次数302、以及输 出计算结果的重复次数间隔303。根据这些信息,计算机可以准确地求出输出 文件的时间。
在此,图9的计算执行脚本的格式仅为一个实施例,并不是将格式限定为 图示的那样。只要至少包含上述信息即可。
在信息分析部25中,从各JOB的计算执行脚本234中提取计算时间、输 入输出用文件的目录、以及输入输出的文件的特性。在此,所谓文件的特性是 指例如文件大小、文件数量。
然后,在步骤503中,在巻管理部26中,根据文件的特性决定用于存储 在计算中使用的文件的文件存储用第一巻51所需要的规格。以下叙述决定规 格的方法的例子。
首先,作为一例,在计算中使用的文件的大小大于预先决定的文件大小时 (例如文件大小为1TB以上时),将构成在该计算中使用的巻的硬盘的数量设 为在第一分级存储装置11中可以设定的最大硬盘数量(例如16个)。在此, 假设所准备的文件存储用第一巻51为tmp0,将构成该巻的硬盘的数量决定为 tmp0的规格。
因为跨越构成巻的全部硬盘来存储文件,所以通过增加构成巻的硬盘的数 量,可以提高文件读出的并行度,文件读出的吞吐量提高。
作为另一例子,在文件数量多于预先决定的数量时,将文件存储用第一巻 51的数量设为针对每个文件数量预先决定的数量以上的数量。例如,在文件 数量为1000个以上时,将文件存储用第一巻51的数量设定为文件数量的 1/100。在此,假设文件存储用第一巻51的数量为8个,将它们设为tmp1 8。
其原因在于,例如在一个巻中存储了全部的文件时,该巻的文件的读出吞 吐量成为瓶颈。通过将文件分散存储在根据文件数量而决定的多个巻中,文件 的读出吞吐量提高。在此,在上述两个例子中,显然可以使各巻(tmp0-8)的容量为在各个 巻中存储的全部文件的总的大小以上。
然后,在步骤504中,在巻管理部26中,决定文件存储用目录81和文件 存储用第一巻51 (tmp0-tmp8)的对应关系(映射)。
使用图5说明该关系的一例。在图4中说明的计算开始前的用户用文件存 储用目录81和文件存储用第二巻52的对应关系中加入文件存储用第一巻51。 在此,作为文件存储用第 一巻51 ,增加tmpO ~ tmp8的关系。如目录树92所 示,通过文件服务器13分别将它们作为目录usr0下的tmp0、 usrl下的目录 tmpl ~ 8进行力口载。
即,在文件存储用第二巻usrO/dir0中存储有usrO在计算中使用的、文件 的大小大于预先决定的大小的文件,作为存储该文件的第一分级存储装置11 内的文件存4诸用第一巻51 ,将tpm0加载为vdir0下的目录tmp0。
此外,usrl在计算中使用的文件的数量大于预先决定的数量,将这些文件 存储在文件存储用第二巻usd/dir0 dir2中,作为存储该文件的第一分级存储 装置11内的文件存储用第一巻51,将tmpl ~8加载为vidr0~2的三个目录下 的tmpl ~ 8
在此,为了在加载了文件存储用第二巻的目录和加载了文件存储用第 一巻 的目录之间使对应关系变得清楚,在两者中存储了相同文件的情况下,在将文 件存储用第二巻一方的目录设为dir0 ~ 2时,将对应的第一巻一方的目录设为 vdir0~2。但是,如果进行了管理使两者的对应关系清楚,则可以不像该例子 那样研究目录名的命名方法。
然后,在步骤505中,在巻管理部26中对在步骤503中已决定了规格的 文件存储用第一巻的选定/生成的时间、以及将该文件存储用第一巻加载为用 户目录的时间进行调度。
通过由JOB调度程序202控制JOB的执行顺序来决定上述加载/卸载时间 的决定方法。而且,在该JOB调度程序202控制JOB的执行顺序的方法中具 有如下方法(1)当JOB的执行结束时转为执行按照顺序的下一个JOB的方 法;(2 )对投入JOB管理部201投入多个JOB,根据所投入的多个JOB的计 算执行脚本234内记载的计算时间,对各JOB的执行开始时间和执行结束时间进行调度,根据该调度顺次执行JOB的方法。在下面对这些方法进行说明。
在方法(1)的情况下,对队列中的作为对象的JOB在计算中使用的文件 的升级时间进行计算,而且检查该JOB的前一个JOB的计算所需时间。在此, 设文件的升级时间为如下值在根据所升级的文件的数量、各文件大小以及从 第二分级存储装置12向第一分级存储装置11的数据传输吞吐量计算出的时间 上,加上例如计算出的时间的10%左右的余量而得到的值。在升级的时间比前 一个JOB的计算时间短时,不决定加载时间地转为执行前一个JOB后,可以 由计算机管理服务器18对该巻管理部通知已开始执行的信息。在升级的时间 比前一个JOB的计算时间长时,前一个JOB的文件的升级结束后,由计算机 管理服务器18对该巻管理部通知升级已结束的信息。此时,存在根据前一个 JOB的计算所需时间,即使该前一个JOB结束,但相应JOB的文件的升级没 有结束的情况。在这种情况下无法执行相应JOB。为了防止这样的状况,存储 管理服务器19对计算机管理服务器18通知表示各JOB所需要的文件的升级 是否结束的信息。在计算机管理服务器18中进行控制,以便根据从上述存储 管理服务器19发送的升级结束信息,在开始执行各JOB之前检查执行该JOB 所需要的文件的升级是否已完成,如果升级已完成则执行JOB,如果没有完成 则在升级完成之后执行JOB。
此外,将进行卸载的时间设为,在已转为执行相应JOB的时间上加上相 应JOB的计算时间而得的时间。因此,在方法(l)的情况下,在开始执行相 应JOB后决定进行卸载的时间。
在方法(2)的情况下,巻管理部根据从计算机服务器18取得的所述信息, 取得各JOB的执行开始时间和执行结束时间。因此,将加载开始时间设定为 JOB执行开始时间之前的一定时间。设该一定时间为如下值在根据进行升级 的文件的数量、各文件大小以及从第二分级存储装置12向第一分级存储装置 11的数据传输吞吐量计算出的时间上,例如加上该计算出的时间的10%左右 的余量而得到的值。
将卸载时间设定为JOB执行结束时间之后的一定时间。该一定时间是输 出该JOB的计算结果所需要的时间,根据每个文件大小,将其设为基于根据 第一分级存储装置的写入吞吐量以及文件大小计算出的值而预先决定的值。然后在步骤506中进行等待,直到到达指定时间(表示时刻)l为止。在
方法(1)的情况下,指定时间1没有被预先决定,成为已转为执行从计算机
管理服务器18通知的相应JOB的前一个JOB的时刻,或者成为相应JOB的 前一个JOB的文件的升级已完成的时刻。在方法(2)的情况下,指定时间1 是比步骤505中决定的时间提前文件存储用第一巻的设定或生成处理所需要 的时间以上的时间。在此,首先判断在第一分级存储装置51内是否具有所需 要的规格的巻,在存在这样的巻时需要"选定时间",在不存在时需要"生成 处理所需要的时间"。
如果到达指定时间1,则在步骤507中,巻管理部26经由存储管理部28 对第一分级存储装置11指示选定或者生成在步骤503中决定的规格的文件存 储用第一巻51。
然后,存储管理部28在步骤508中检查巻的选定或者生成是否完成,如 果已完成则进入到步骤509。
在步骤509中,巻管理部26按照在步骤504中决定的目录树,经由存储 管理部28向文件服务器13指示在步骤507中选定/生成的文件存储用第一巻 向用户目录的加载、以及由相应JOB使用的文件的升级。然后,文件服务器 13执行加载,在加载完成之后对相应JOB使用的文件进行升级。
在为图5中说明的例子时,通过将usr0/dir0的文件向usr/vdir0/tmp0复制 来进行升级。此外,通过将usrl/dirO的文件分散地复制到usrl/vdirO/tmpl、 2; 将usrl/dirl的文件分散地复制到usrl/vdirl/tmp3 ~ 6;将usrl/dir2的文件分散 地复制到usrl/vdir2/tmp7、 8来进行升级。
在步骤510中,存储管理部28检查来自文件服务器13的升级完成报告, 若有升级完成报告则进入步骤511。
在步骤511中,存储管理部28经由信息收集部24向计算机管理服务器 18通知相应JOB所需要的文件升级完成。
然后,在步骤512中进行等待,直到到达指定时间(表示时刻)2为止。 在方法(1)的情况下,如上所述,指定时间2在执行相应JOB之后决定,使 其成为已转为才丸行相应JOB的时间加上相应JOB的计算时间而得到的时间。 在此,在即使到达指定时间2, JOB也没有结束的情况下,例如在计算所需要的时间与预定相比延长时,无法进行文件的降级以及巻的卸载。因此,从计算
机管理服务器18取得JOB的完成通知。根据该信息,在到达指定时间2时检 查相应JOB是否结束,在没有结束时,在存储管理服务器19取得相应JOB的 结束通知之前等待步骤513的执行。在方法(2)的情况下,指定时间2成为 在步骤505中决定的时间。在此,在即使到达指定时间2, JOB也没有结束的 情况下,进行与方法(1)情况下相同的处理。
如果到达指定时间2,则在步骤513中,存储管理部28向文件服务器13 指示相应文件的降级,文件服务器13接受指示进行降级。即,将步骤509中 说明的复制源目录作为复制目的地目录,将复制目的地目录作为复制源,来复 制相应文件。然后,如果相应文件的降级结束,则文件服务器13从用户目录 卸载相应的文件存储用第一巻51,将用户目录恢复到图4所示的状态。然后, 在步骤514中,存储管理部28检查来自文件服务器13的卸载完成报告,如果 接收到完成报告则转移至步骤515。
然后,在步骤515中,存储管理服务器19释放已卸载的文件存储用第一 巻来用作其他JOB使用的文件存储用巻。然后,重复进行步骤506至步骤515 的处理。
根据本实施方式,由计算机14执行的JOB在必要时可以将需要的文件升 级到第一分级存储装置11中,所以可以发挥第一分级存储装置11的高性能, 使文件向计算机14的输入输出高速化。此外,可以使第一分级存储装置11的 容量为最小限度,可以削减存储系统的成本。
在本实施方式中,在将JOB文件存储用第一巻51作为用户目录进行加载 之后,在由计算机14进行的JOB执行结束、对输出的文件进行降级之前,不 卸载并释放文件存储用第一巻51。
但是,在图6所示的顺序中,在步骤511中存储管理服务器19向计算机 管理服务器18通知升级完成,在计算机14从用户目录读出相应文件之后,可 以从相应目录卸载文件存储用第一巻51,确保该巻作为其他JOB使用的文件 存储用第一巻51,对其他的用户目录加载该巻。此时,在使用卸载了巻的用 户目录的JOB结束之前,可以重新确保需要的巻,对该用户目录加载该巻。
此外,可以预先分开地准备输入文件用目录以及巻、和输出用目录以及巻,输入用巻可以在相应JOB开始执行后从输入用目录卸载,释放该巻用于其他
的JOB。
此外,可以在指定时间1仅准备好输入用目录以及巻,在相应JOB开始 执行后,从输入用目录进行卸载,释放该巻用于其他的JOB,在指定时间2 之前确保输出用巻,对输出用目录加载该巻。
通过进行上述的控制,可以进一步削减第一分级存储装置11所需要的容 量,使存储系统l低成本化。
如果在指定时间2,因为第一分级存储装置11的容量不足而无法确保输 出用巻的情况下,通过将该JOB的文件直接写入加载了第二分级存储装置12 的存储该JOB的文件的文件存储用第二巻52的用户目录中,可以避免第一分 级存储装置11的容量不足。然后,使用图10对在本实施方式的存储系统2中 降低消耗电力的方法进行说明。在该方法中,具有以下的方法仅在第二分级 存储装置12和笫一分级存储装置11之间升级、降级与执行JOB相关的文件 时,接通构成第二分级存储装置12的存储有相关文件的巻的硬盘的电源,在 除此之外的时间,切断构成不进行文件升级、降级的巻的硬盘的电源。
图10表示该方法的顺序。基本的处理流程与图6所示的流程相同。不同 点如下所述。
首先,在步骤411 (相当于图6的步骤509)之前,在步骤409中,存储 管理服务器19对第二分级存储装置12发出以下的指示接通构成存储有成为 升级对象的文件的文件存储用第二巻的硬盘的电源。存储管理服务器19具有 表示文件存储用第二巻和构成该巻的硬盘的对应关系的表。
然后,在步骤410中,存储管理服务器19对来自第二分级存储装置12 的HDD电源接通的完成报告进行检查,如果收到完成报告则转移至步骤411 的处理。
此外,在步骤413之后,存储管理服务器19对第二分级存储装置12发出 的硬盘的电源。
然后,如果到达指定时间2,则在步骤416中存储管理服务器19对第二 分级存储装置12发出指示,来再次接通构成与相应的JOB相关联的文件存储用第二巻52的硬盘的电源。
然后,在步骤417中,存储管理服务器19检查来自第二分级存储装置12 的HDD电源接通的完成报告,如果收到完成报告,则转移至步骤418的处理。
此外,在步骤420之后,在步骤421中,存储管理服务器19对第二分级 存储装置12发出指示,来再次切断构成存储有文件降级已完成的文件的文件 存储用第二巻52的^5更盘的电源。之后,重复步骤406至步骤421的处理。
此外,还可以在步骤413之后,在计算机14已读入了输入文件之后,存 储管理服务器19对第一分级存储装置11发出指示,来切断构成存储有该文件 的文件存储用第一巻51的硬盘的电源。此时,在步骤416之后,存储管理服 务器19对第一分级存储装置11发出指示,来再次接通上述电源已切断的硬盘 的电源。存储管理服务器19具有表示文件存储用第一巻和构成该巻的硬盘的 对应关系的表。
由此,与仅切断第二分级存储装置12的硬盘的电源的情况相比,可以进 一步降低消耗电力。
接下来,对本发明的第二实施方式进行说明。
图8表示包含第二实施方式的存储装置的系统的结构例。图8所示的系统 的结构除了以下的不同点以外,与图l所示的系统的结构相同。
不同点在于,第一分级存储装置11具有转储(dump)用巻53、以及第一 分级存储装置11经由FC交换机15与计算机14相连接。
在本实施例的系统中,在JOB的执行过程中,定期将计算机14中的执行 JOB时使用的全部处理器的主存储器(处理器在计算中使用的数据)的内容原 样不变地作为块数据写入转储用巻53。把向转储用巻53写入该主存储器的内 容的时刻称为;f佥查点(check point)。如此,通过在每个^r查点向转储用巻53 写入在计算中使用的处理器的主存储器的内容,在由于计算机的故障而使JOB 的执行中断时,通过将在JOB执行中断前不久的检查点在转储用巻53中写入 的主存储器的内容读入计算机14的主存储器中,可以从该时刻起继续再次开 始计算。
在不进行这样的处理时,在由于计算机的故障而使JOB的执行中断时, 需要从最初开始重新进行计算,浪费计算时间。在进行该处理的系统中,在第一分级存储装置11内,除了用于向计算机
14输入输出文件的巻(文件存储用第一巻51 )之外,还需要准备转储用巻53, 因此与没有转储用巻的情况相比需要更多的容量,成为存储系统1成本上升的 原因。为了防止成本上升,执行如下所示的转储用巻53的分配。
首先,存储管理服务器19从所述计算机管理服务器18取得用于计算机 14内的计算的主存储器容量、和在转储用巻53中写入在计算机14的主存储 器内存储的数据的次数、即检查点的次数的信息,该存储管理服务器19根据 该信息设定作为转储用巻53而确保的巻的数量和容量。例如,设转储用巻53 为一个,在该巻中写入在全部检查点的主存储器的内容时,将转储用巻53的 容量设为(主存储器容量)x (检查点的数量)。此外,在准备与检查点的数 量相同的转储用巻53时,将各转储用巻53的容量设为与主存储器容量相等, 或者设为具有余量,例如比主存储器容量稍微多5%左右的容量。
然后,对转储用巻53的分配方法进行说明。通过第一分级存储装置11根 据存储管理服务器的指示执行,来实现以下的方法。在第一分级存储装置11 中的巻的分配中,优先进行文件存储用第一巻51的分配,将剩余的巻分配给 转储用巻53。其原因在于,文件存储用第一巻51是用于存储执行JOB所需要 的文件的巻,当无法确保该巻时无法执行JOB。
因为通过这样的想法来进行巻的分配,所以当确保了根据检查点和在计算 中使用的主存储器容量而计算出的转储用巻的数量以及各个巻的容量时,在超 过第一分级存储装置11的最大容量时,经由计算机管理服务器18向用户通知 再次设定检查点的次数。
或者,不准备所需数量的转储用巻53,而分配在剩余巻的范围内分配的 最大数量的转储用巻53。而且,在计算的过程中在所准备的数量的转储用巻 53全部用尽时,向存储有最早的检查点的数据的转储用巻53覆盖写入新的检 查点的数据。此时,经由计算机管理服务器18向用户通知执行该处理,可以 使用户选择执行该处理或者再次设定检查点的数量。
或者,可以使转储用巻53仅为2 3个,在该数量范围内循环使用巻。即, 如果巻的数量不足,则向较早的检查点的巻覆盖写入新的检查点的数据。
此外,可以在最初向用户提示上述三个分配方法,让用户选择。此外,在预先已知JOB的计算开始时间和结束时间,并且计算时间比巻 的重新分配和向用户目录加载/卸载巻所需的时间长时,可以在计算开始后从 用户目录卸载用于存储输入文件的文件存储用第一巻51,将其作为转储用巻
53重新进行分配。此时,在计算结束时间之前的一定时间,释》丈与存储JOB 的输出文件所需要的巻相等的转储用巻,将其作为存储输出用文件的巻再次进 行分配,并且作为用户目录进行加载。
如此,可以削减第一分级存储装置11所需要的容量,可以削减存储系统 1的成本。
在此,可以将在上述说明的转储用巻53中存储的检查点的主存储器的内 容,关于用户指定的^f全查点,向在第二分级存储装置12中准备的转储用巻进 行降级。如此,当希望在计算结束后从某个检查点再次进行计算时,可以缩短 计算时间。
权利要求
1. 一种存储系统,其具有多个计算^^;与所述多个卄算机连接的文件 服务器;与所述文件服务器相连接的,具有第一巻的第一存储装置;与所述第 一存储装置相连接的,具有第二巻的第二存储装置;以及与所述文件服务器、 所述第 一存储装置以及所述第二存储装置连接的管理装置,该存储系统的特征 在于,所述第一存储装置具有将所述第二巻虚拟化为自身装置的巻而得到的虛 拟巻,所述文件服务器具有以下的单元,该单元根据所述管理装置的指示,将所 述虚拟巻作为第二目录进行加载,在预先决定的第一时刻,将所述第一巻作为第一目录进行加载,向所述第 一目录复制所述第二目录内的文件,在预先决定的第二时刻,向所述第二目录复制所述第一目录内的预先决定 的文件。
2. 根据权利要求1所述的存储系统,其特征在于, 所述管理装置具有收集单元,其收集所述计算机的计算执行作业信息; 分析单元,其分析所述收集的计算执行作业信息;提取单元,其根据所述分析的计算执行作业信息,提取输入输出的文件的 特性;以及选择单元,其根据所述文件的特性,选择存储文件的所述第一巻。
3. 根据权利要求2所述的存储系统,其特征在于, 所述提取单元作为文件的特性提取文件大小,所述选择单元,在所述提取出的文件大小大于预定的值时,选择由预定盘 数以上数量的磁盘装置构成的第一巻。
4. 根据权利要求2所述的存储系统,其特征在于, 所述提取单元作为文件的特性提取文件数量,所述选择单元在所述提取出的文件数量多于预定的值时,选择预定的巻数以上的巻作为第一巻。
5. 根据权利要求4所述的存储系统,其特征在于,所述文件服务器将选择出的所述多个第一巻分别作为独立的所述第一目 录进行加载,并且对所述多个第一目录分散地复制所述第二巻中存储的多个文 件。
6. 根据权利要求1所述的存储系统,其特征在于, 所述文件服务器具有卸载单元,其在所述预先决定的第二时刻向所述第二目录复制了所述第一 目录内的预先决定的文件之后,卸载所述第一目录;以及巻提供单元,其将卸载的所述第 一巻作为其他计算的文件存储用巻进行提供。
7. 根据权利要求1所述的存储系统,其特征在于, 具有选择单元,其根据所述文件的特性,选择存储文件的所述第一巻, 所述选择单元在所述第二时刻之前的规定时间,作为输出计算结果的文件存储用巻,选择与所述第一巻不同的第三巻,所述文件服务器将所述第三巻作为第三目录进行加载。
8. 根据权利要求1所述的存储系统,其特征在于,具有以下的单元,该单元在所述第一时刻将所述第一巻作为所述第一目录 进行加载,并且向第一目录复制了所述第二目录内的预先决定的文件之后,切 断构成所述第二巻的磁盘装置的电源。
9. 根据权利要求8所述的存储系统,其特征在于, 所述文件服务器具有在所述计算机从所述第一 目录读出希望的文件之后,卸载所述第一巻的单元,该存储系统具有切断构成所述被卸载的第 一巻的磁盘装置的电源的单元。
10. 根据权利要求1所述的存储系统,其特征在于, 具有决定所述第 一 以及第二时刻的时刻决定单元,该时刻决定单元选择已转为执行由所述管理装置通知的作业的前一个作 业的时刻,作为所述第一时刻。
11. 根据权利要求1所述的存储系统,其特征在于,具有决定所述第 一以及第二时刻的时刻决定单元,该时刻决定单元选择执行对象作业的前一个作业的文件升级完成的时刻, 作为所述第一时刻。
12. 根据权利要求1所述的存储系统,其特征在于, 具有决定所述第 一 以及第二时刻的时刻决定单元,该时刻决定单元选择比执行对象作业的执行预定时间提前文件存储用第 一巻的选定或者生成的处理所需要的时间以上的时刻,作为所述第一时刻。
13. 根据权利要求1所述的存储系统,其特征在于, 具有决定所述第 一 以及第二时刻的时刻决定单元,该时刻决定单元选择在执行对象作业的执行开始时间上加上该作业的计 算时间而得的时刻,作为所述第二时刻。
14. 一种存储系统,其具有多个计算机;与所述多个计算机连接的文件 服务器;与所述文件服务器相连接的,具有第一巻和第三巻的第一存储装置; 与所述第一存储装置相连接的,具有第二巻的第二存储装置;以及与所述文件 服务器、所述第一存储装置以及所述第二存储装置连接的管理装置,该存储系 统的特征在于,所述第一存储装置具有将所述第二巻虚拟化为自身装置的巻而得到的虚 拟巻,所述计算机对所述第三巻写入或者读出在该计算机的主存储器中存储的 数据,所述文件服务器具有以下的单元,该单元根据所述管理装置的指示,将所 述虚拟巻作为第二目录进行加载,在预先决定的第一时刻,将所述第一巻作为第一目录进行加载,向所述第 一目录复制所述第二目录内的文件,在预先决定的第二时刻,向所述第二目录复制所述第一 目录内的预先决定 的文件。
15. 根据权利要求14所述的存储系统,其特征在于, 所述管理装置具有收集单元,其收集所述计算机的计算执行作业信息;分析单元,其分析所述收集的计算执行作业信息;以及 根据由所述管理装置通知的所述计算执行作业信息,并且根据在所述计算 机内的计算中使用的主存储器容量、和向所述第三巻写入所述计算机内的主存 储器中存储的数据的次数,计算所述第三巻的数量和容量的单元。
16. 根据权利要求15所述的存储系统,其特征在于, 所述管理装置在所述第一存储装置内的巻的分配中,在首先分配了所述第一巻之后,将剩余的巻作为所述第三巻进行分配。
17. 根据权利要求16所述的存储系统,其特征在于, 所述管理装置,在所述剩余的巻的容量小于作为根据所述计算执行作业信息而计算出的第三巻所需要的总容量时,向所述计算机指示再次设定对所述第 三巻进行写入的次数。
18. 根据权利要求16所述的存储系统,其特征在于, 所述管理装置,在所述剩余的巻的容量小于作为^^艮据所述计算执行作业信息而计算出的第三巻所需要的总容量时,在所述剩余的巻的范围内分配第三 巻,在由于容量不足在执行计算的过程中无法在所述第三巻中写入数据时,删 除最早的数据。
19. 根据权利要求16所述的存储系统,其特征在于, 在开始执行计算之后,所述文件服务器卸载所述第一巻, 所述管理装置将所述卸载的第一巻作为所述第三巻进行分配。
20. 根据权利要求19所述的存储系统,其特征在于, 所述管理装置在计算结束之前,将所述第三巻作为第一巻进行重新分配, 所述文件服务器将所述重新分配而得的第一巻作为所述第一目录再次进行力口载。
21. —种存储系统中的数据迁移方法,该存储系统具有多个计算机;与 所述多个计算机连接的文件服务器;与所述文件服务器相连接的,具有第一巻 的第一存储装置;与所述第一存储装置相连接的,具有第二巻的第二存储装置; 以及与所述文件服务器、所述第一存储装置以及所述第二存储装置连接的管理 装置,所述第一存储装置具有将所述第二巻虚拟化为自身装置的巻而得到的虚 拟巻,该数据迁移方法的特征在于,具有如下步骤冲艮据所述管理装置的指示,将所述虚拟巻作为第二目录进行加载的步骤; 在预先决定的第一时刻,将所述第一巻作为第一目录进行加载,向所述第一目录复制所述第二目录内的文件的步骤;以及在预先决定的第二时刻,向所述第二目录复制所述第一目录内的预先决定的文件的步骤。
22. 根据权利要求21所述的数据迁移方法,其特征在于, 选择已转为执行由所述管理装置通知的作业的前一个作业的时刻,作为所述第一时刻。
23. 根据权利要求21所述的数据迁移方法,其特征在于, 选择执行对象作业的前一个作业的文件升级完成的时刻,作为所述第一时刻。
24. 根据权利要求21所述的数据迁移方法,其特征在于, 选择比执行对象作业的执行预定时间提前文件存储用第一巻的选定或者生成的处理所需要的时间以上的时刻,作为所述第一时刻。
25. 根据权利要求21所述的数据迁移方法,其特征在于, 选择在执行对象作业的执行开始时间上加上该作业的计算时间而得的时刻,作为所述第二时刻。
全文摘要
本发明提供一种兼顾高性能和大容量的、低价格的分级存储系统,其具有与多个计算机连接的文件服务器;与该文件服务器连接的第一存储装置;与该第一存储装置连接的第二存储装置,其中,第二存储装置具有第二卷,第一存储装置具有第一卷和将所述第二卷虚拟化为自身装置的卷而得到的虚拟卷,所述文件服务器将第一卷作为第一目录进行加载,将所述虚拟卷作为第二目录进行加载,并且向第一目录复制上述第二目录内的预先决定的文件。
文档编号G06F12/00GK101311911SQ20081008282
公开日2008年11月26日 申请日期2008年2月28日 优先权日2007年5月23日
发明者松并直人, 藤本和久, 赤池洋俊 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1