为数据对象提供预期存储管理的分级存储管理系统与方法

文档序号:6560679阅读:193来源:国知局
专利名称:为数据对象提供预期存储管理的分级存储管理系统与方法
技术领域
本发明总体上涉及存储管理,更具体而言,涉及用于提供基于内容的预期存储管理的系统与方法。
背景技术
分级存储管理(HSM)现在被认为是几乎所有归档系统必须遵循的最小能力。当前的HSM系统是通过基于显式声明规则的策略驱动的,该策略是从象年代、大小、使用频率或某种用户指定的文件优先级的底层属性得到的。
一般来说,管理数据从例如磁盘的昂贵介质到例如磁带的廉价低速介质的移动的简化规则不支持基于数据属性、内容和相互关系的综合考虑的智能、抢先式数据迁移。因此,分级存储空间是被次优管理的,而且系统性能降低。
通过提供基于底层文件属性设置显式策略的能力,当前的HSM系统解决了归档和空间管理问题。TSM HSMTM和LEGATODiskExtenderTM是提供这些能力的一些系统。这些系统使用非常简化的方式来确定归档的候选数据。同样,数据召回操作也一般是由特定的用户请求触发的。
由当前的现有技术的分级存储管理工具所采用的简化属性不解决当前跨分级布置存储系统集合的数据迁移(归档和召回)的复杂需求。很讽刺的是,归档操作通常忽略描述提交到档案的数据对象之间关系的很容易获得但很重要的信息。同样,召回操作不预期用户可能需要的数据对象的召回。因此,数据迁移(召回和次级归档)不执行并且可能有更复杂的规则、策略和信息。
当前的HSM系统基于象文件大小、年代、使用频率等的底层属性。因此,HSM策略被限定为工作在有限的属性集合上。这在用户对基于内容而不仅仅是文件大小等迁移文件感兴趣的复杂存储情况中具有有限的使用。用户没有设置用于跨存储层次迁移的更高层策略的灵活性,象“将关于在1998年之前进行的药品试验及提到化合物X、Y和Z的所有文件迁移到磁带存储器”或“将提到项目号IS23的所有文件迁移到廉价的SATA磁盘”或“迁移用于已经出院的病人的所有病例和相关文档”。类似地,当前HSM系统不处理更复杂的策略,如“将满足X的所有文件迁移到存储介质Y中”,其中X可以是标准的SQL谓词或条件,而Y是具有确定成本和性能的存储介质类型,可能作为存储池的一部分。
这些类型的策略不能被现有的HSM系统支持,因为这些系统被策略属性的个数和性质严重限制。此外,存储属性是相当有限的-尤其是关于存储介质的性能和成本特征,及因此由所讨论介质提供的可能服务水平。
当前的HSM系统是由显式定义的规则“如果X,则Y”驱动的,该规则依赖于策略属性(数据对象和存储介质)。但是,当前系统的存储情况更加复杂。用户不能总是定义所有可能的规则。理想地,HSM系统还应当被一组隐含规则管理。例如,用户可能总是在相同的时间移动一组特定的医院账单集和病历。很有可能在涉及医院账单和病历的对象类集合之间存在隐含的关系,例如,它们可能属于一个已经出院的特定病人。因此,如果有传输已经出院的病人的所有医院账单的显式HSM策略,则这对于迁移该病人的病历也是有意义的。
类似地,如果病人的病历从磁带存储器停止,则停止医院账单可能是个好主意。查找病历的保险代理可能也想检查医院账单。不是发出两个独立的显式数据移动命令,如果记录在单个命令中自动停止将是优选的,从而降低磁带的等待时间。这些类型的规则不能利用当前的HSM系统实现。

发明内容
通过提供识别并跟踪关于数据归档和召回的信息并在提高数据归档系统性能的机制中采用整理成规则、策略和数据关系的这种信息的系统与方法,本发明解决了以上提到的问题及其它问题。本发明包括用于通过系统监视和用户输入捕捉显式或隐含数据关系的机制。本发明还包括用于利用产生用于存储空间改善的分配与使用的建议的算法处理数据关系的机制。
在第一方面,本发明提供了分级存储管理(HSM)系统,其包括用于从由内容管理系统管理的分级存储复合体中的数据对象中提取数据对象信息的数据使用监视器;用于存储数据对象信息的数据关系仓库,其中数据对象信息包括用于分级存储复合体中数据对象的关系数据;及分析关系数据并对分级存储复合体作出数据管理动作建议的系统。
在第二方面,本发明提供了存储在计算机可读介质上的用于管理存储管理系统中数据对象关系的程序产品,包括配置成从由内容管理系统管理的存储复合体中的数据对象中提取数据对象信息的程序代码;用于存储数据对象信息的数据关系仓库,其中数据对象信息包括用于分级存储复合体中数据对象的关系数据;及配置成分析关系数据并为存储复合体创建数据管理动作建议的程序代码。
在第三方面,本发明提供了用于对存储复合体中数据对象提供预期存储管理的方法,包括分析数据对象,以便生成内容信息;将内容信息存储到识别具有相似内容信息的对象的关系仓库中;及基于在关系仓库中识别的关系创建建议的存储管理动作。
在第四方面,本发明提供了部署用于管理存储复合体中数据对象的预期存储管理应用的方法,包括提供可用于进行以下动作的计算机基础结构从存储复合体中的数据对象中提取数据对象信息;存储数据对象信息,其中数据对象信息包括用于存储复合体中数据对象的关系数据;及分析关系数据并为存储复合体创建数据管理动作建议。
在第五方面,本发明提供了在传播信号中体现的用于实现管理存储复合体中数据对象的预期存储管理应用的计算机软件,该计算机软件包括使计算机执行以下功能的指令从存储复合体中的数据对象中提取数据对象信息;存储数据对象信息,其中数据对象信息包括用于存储复合体中数据对象的关系数据;及分析关系数据并为存储复合体创建数据管理动作建议。
根据以上所述,本发明提供了各种存储管理特征,包括允许可预测归档和召回操作;允许对可预测迁移分级空间的基于规则/策略的管理;及对于归档和召回操作允许对用户有改进的响应时间。


本发明的这些和其它特征将从以下对本发明各个方面的具体描述并联系附图变得更容易理解,其中图1描述了根据本发明实施方式的分级存储管理系统。
图2描述了显示根据本发明实施方式的说明性操作的流程图。
具体实施例方式
现在参考附图,图1描述了通常包括分级存储复合体12、内容管理系统14和数据关系管理系统16的分级存储管理(HSM)系统10。分级存储复合体12可以包括用于存储数据对象的各种类型的存储机制,例如硬盘驱动器、磁带、磁盘、光盘等。为此,本发明的HSM系统10可以包括其中数据对象可以从一种存储机制移动到另一种的任何类型的存储管理系统。
数据对象可以包括被HSM系统10作为单个元素管理的任何数据片断。一般来说,每个文件都被看作是独立的对象;但是,文件集合也可以看作一个数据对象。HSM系统10的规范将确定独立文件、文件集合或两者是否跨其存储层次被管理(即,归档、召回、移动)。因此,本发明对可以是独立文件、文件集合或两者的数据对象起作用。
内容管理系统14包括用于管理企业中内容的一般系统,该系统可以是从其中所有文件都简单地存储在文件系统中的非常底层的系统到其中数据存储在具有描述每个特定数据对象的元数据的数据库中的更加复杂的系统。内容管理系统14对关于分级存储复合体12中的数据对象的任何动作22进行响应。这些动作可以包括例如打开/编辑文件、请求召回归档的数据对象等。
如所指出的,内容可以与元数据一起存储。依赖于内容管理系统14的类型,元数据可以包括如文件大小、年代、使用频率等的底层属性,或者包括如文件内容描述的高层属性,例如用于电子病历的病人编号、疾病名称、处方细节等。内容管理系统14具有访问数据对象及所关联元数据的能力。
包括在内容管理系统14中的是存储归档/召回(SAR)系统20。SAR系统20可以是与内容管理系统14一起运行的独立系统或者可以与内容管理系统14完全集成在一起。SAR系统20对所有存储的元素保持跟踪。它具有关于存储类型(例如,磁带、磁盘、光盘等)、关于每种存储类型的成本(例如,存储介质的价格和与从存储器拉出数据关联的检索时间)、每种存储子类型的容量、每种子类型中所使用的存储量、指定在数据需要迁移到“更廉价”介质之前被允许的最大存储使用量的用户阈值、存储器中每个数据文件的访问模式(例如,保持跟踪同时移动的对象)的信息。
数据关系管理系统16分析并识别关系和关于其中数据对象被利用的方式的其它信息,以便优化内容管理系统14所采取的存储归档和检索动作。集中到数据关系管理系统16的是根据数据关系模型30组织数据的数据关系仓库28。数据关系仓库28包含关于每个唯一识别的数据对象的信息。它还包含管理数据对象之间关系的所有信息。数据关系模型30提供用于组织数据对象信息的结构。数据使用规则集合44可以应用到结构化信息,来管理分级存储复合体12中数据对象的存储和检索。模型30包括三种类型的数据数据对象描述符、数据访问描述符和数据关系描述符。
数据对象描述符包括用于每个数据对象的唯一标识符、用于每个数据对象的包括大小(例如,以字节或某种其它度量)和数据类型的描述信息。数据对象描述符还可以包括关于特定数据对象的内容信息(例如,元数据或实际的数据内容)。数据访问描述符描述数据访问事件并对每个事件包括用户标识符、时间和日期、被访问数据的唯一标识符及访问类型(读、读/写等)。数据关系描述符描述数据对象之间的关系。数据关系通常包括两个或多个相关数据对象的列表、关系类型、每个对象作为集合一部分出现的频率及关系的“使用”。关系类型指数据对象如何关联,例如都包含相似的内容信息、一般都是由用户同时打开的,等等。“使用”识别关系所应用的内容管理动作的类型(例如,移动、归档或召回)。
信息通过数据使用监视器24、内容分析处理器26或用户接口34流到数据关系仓库28。数据使用监视器24接收关于在存储管理系统10中发生的对数据访问的信息。一般来说,这种信息将从内容管理系统14中的组件发送并且将包括唯一用户标识符、访问的时间和日期、被访问数据的唯一标识符、数据的大小(例如,以字节或某种其它度量)和类型及访问类型(例如,读、读/写)。可选地,内容管理组件可以提供唯一访问事件标识符和相关的先前访问事件标识符集合。数据使用监视器24处理这种信息,来创建包括属于存储分级的归档和召回处理及属于移动的任何数据关系的数据对象描述符信息。
内容分析处理器(CAP)26从内容管理系统14取数据对象和关联的元数据信息,以便为每个数据对象创建内容信息。这种内容信息是与从对象提取的对象和内容属性关联的元数据的联合。因此,CAP26利用内容信息丰富了数据对象描述符。应当指出,CAP 26的实现依赖于要处理的数据对象的类型和特定的领域。例如,用于图像数据的CAP 26可以实现成处理包括JPEG、GIF、TIFF、PNG等的很宽范围的图像格式。CAP 26可以例如提取具有基于颜色和质地的特征的图像处理子例程。类似地,用于药品试验数据的CAP 26应当能够支持由各种试验管理应用创建的各种药品试验格式,还应当能够提取头和内容信息,例如病人名字、疾病类型等。
内容属性是可以从数据对象内容提取并提供在确定适当数据管理动作中有用的分类信息的特征。应当指出,内容管理系统14中的元数据信息可以包含内容属性。例子包括电子数据表中指示日期和财务数据类型;图像的颜色、质地、布局信息;DICOM图像中存在的DICOM头信息内容等的列头。
用户接口34提供使用户能够提供描述他们所使用的数据之间关系的用户输入32的机制。用户接口34将用户所描述的关系转换成数据关系模型30预制的格式并将该关系信息作为数据关系描述符的一部分存储在数据关系仓库28中。
一旦数据关系仓库28根据数据关系模型30加载了数据对象信息,数据使用规则处理器38就可以对信息应用数据使用规则44,以便创建建议的数据管理动作。所建议的数据管理动作可以例如包括数据对象列表、动作(例如,迁移、召回、归档)、建议有效的时间、概率和/或优先化。数据使用规则44可以响应内容管理系统14中发生的特定动作应用,例如从磁带备份检索文件的用户请求可以触发查找数据关系仓库28中所有数据关系的规则。应当指出,所建议的数据管理动作可以包括附关于它的概率。例如,动作可以声明当文件X被检索时,文件Y也被检索的概率是N%。
存储分配系统36优先化来自数据使用规则处理器38的所建议的数据管理动作并为内容管理系统14创建存储管理动作集合。存储管理动作集合是基于可配置的存储使用规则42和先前的存储使用模式40的集合。存储使用规则42描述存储管理动作不允许、允许和建议的条件。存储使用规则包括类型(不允许、允许、建议)、存储管理动作(移动、召回、归档)集合及条件(存储驻留阈值/最高限度、可执行时间周期)。存储使用模式40描述数据跨分级存储复合体12的各个层次随时间的移动。
如所指出的,分级存储复合体12包括物理存储介质。它可以包括与不同存储类型关联的不同的存储层次。每个存储层次是一组具有相似价格成本和访问成本的存储介质。例如,所有磁带介质属于一个存储层次,而所有高速磁盘属于另一存储层次。价格成本(PC)是存储介质的成本价格,即磁带存储器的价格成本比磁带存储器低得多。访问成本(AC)是访问存储介质上存储单元所需的时间。例如,磁带存储器的访问成本比磁盘存储器的高得多。
在一种说明性实施方式中,分级存储复合体可以设置成存储层次从1到MaxLevel编号,其中MaxLevel是存在的存储层次的总数。存储层次(1)包括具有最高PC和最低AC的存储介质。存储层次(MaxLevel)包括具有最低PC和最高AC的存储介质。
分级空间18是分级存储复合体12的可以实现成处理来自存储分配系统36的基于概率的存储管理建议的一部分。对于每个存储层次n(1<=n<MaxLevel),都有标记为Staging(n)的所关联的存储组件。存储层次(n)的特定部分标记为Staging(n)。当数据基于概率规则移动时(0<概率<1),它首先移动到分级区域18。因此,如果数据关于预期的召回规则从存储层次(n)移动到存储层次(n-1),则它首先移动到Staging(n-1)中。这确保当给出实际的召回命令时数据处于较高的存储层次。相应地,如果数据基于概率规则从存储层次(n)移动到存储层次(n+1),则它首先移动到Staging(n+1)中。
现在参考图2,在流程图中描述了存储系统10运行的说明性实现。首先,在步骤S1,内容管理系统14在内容管理系统14的控制下向数据使用监视器发送何时用户访问数据的数据访问描述。这种描述包括唯一的用户标识符、时间和日期、被访问数据的唯一标识符、数据的大小(例如,以字节或某种其它度量)和类型及访问类型(读、读/写等)。可选地,内容管理系统14可以提供唯一访问事件标识符和相关的先前访问事件标识符集合。数据使用监视器24处理这种信息,以便创建关于存储层次中归档、召回和迁移的数据关系集合。该数据关系指示同一用户同时访问的数据对象,带有同时访问频率的指示符。
接下来,在步骤S2,数据使用监视器24将数据关系存储在数据关系仓库28中。在步骤S3,用户可以浏览并更新现有的数据管理动作规则而且他们可以通过用户接口添加新规则。规则可以直接输入,或者用户可以通过在用户接口中提供的一组提示提供创建规则的信息。数据使用规则是通过用户接口34创建的。
在步骤S3,内容管理系统14向内容分析处理器(CAP)26发送内容和关于内容的元数据。元数据可以包括例如由MIME定义的显式数据类型或者内容格式可以自定义(例如通过文件头)。在有些情况下,数据格式可以是不定义的。如果内容是可以被CAP处理的格式,则内容分析处理器26基于元数据和内容生成内容信息。否则,只有元数据被用于产生内容信息。在步骤S4,内容信息作为用于被处理数据对象数据描述符的一部分在数据关系仓库28中归档。
在步骤S5,数据使用规则处理器38和存储分配系统36创建建议的存储管理动作列表。这种处理可以以调度为基础或者基于如来自数据使用监视器24的提示的外部信号调用,这种处理对新空间的可用性或者达到预设阈值的可用空间使用作出反应。数据使用规则处理器38访问并扫描数据关系仓库28,识别有期望数据对象管理动作的高可能性的数据对象。例如,如果数据使用监视器24指示第二个数据对象刚刚被给定用户从档案召回而且用于该数据对象的数据关系指示另一数据对象常常被同时访问,则数据使用规则处理器38将生成内容管理系统14还召回第二个相关数据对象的建议。所建议的数据管理动作将传递到存储分配系统36,以便优先化并转发到内容管理系统14。
在步骤S6,存储分配系统向存储归档/召回系统20发送优先化的动作集合,存储归档/召回系统20执行例如根据需要在不同存储层次和存储空间之间移动指定数据的动作。
在步骤S7,存储归档/召回系统20向存储分配系统36发送分级存储复合体12的所有属性的列表。这种属性列表包括存储类型(磁带、磁盘、光盘等)、存在的各种存储层次、与每个存储层次关联的成本(既有PC又有AC)、每个存储层次的总容量、用于每个层次中的存储量、在数据需要迁移之前指定允许使用的存储使用的最大量的用户定义阈值、存储器中数据文件的访问模式(例如,它们使用多频繁、跟踪同时移动的对象等)等。
总的来说,以上描述的各种组件可以在例如桌面计算机、膝上计算机、工作站等的计算机系统上实现,这些计算机系统可以作为客户端和/或服务器的一部分实现。对计算机系统的访问可以在例如因特网、局域网(LAN)、广域网(WAN)、虚拟专用网(VPN)的网络上提供。通信可用通过直接硬连线连接(例如,串行口)或者通过可以利用有线和/或无线发送方法的可寻址连接发生。此外,传统的网络连接,如令牌环、以太网、WiFi或其它传统的通信标准,都可以使用。还有,连接可以由基于传统TCP/IP套接字的协议提供。在这种情况下,因特网服务提供商可以用于建立互连。连接可以由例如JMS的基于消息的协议或自发现或例如web服务的基于其它服务的协议提供。此外,如上面所指出的,通信可以在客户端-服务器或服务器-服务器环境中发生。
应当理解,本发明的教义可以作为以预定或付费为基础的商业方法提供。例如,包括关系管理系统16的计算机系统可以由为客户提供在此所述功能的服务提供商创建、维护和/或部署。即,服务提供商可以向内容管理系统提供如上所述提供建议数据管理动作的接口。
应当理解,在此所述的系统、功能、机制、方法、引擎和模块可以以硬件、软件或硬件与软件的组合实现。它们可以由任何类型的计算机系统或适于执行在此所述方法的其它装置实现。硬件与软件的典型组合可以是具有计算机程序的通用计算机系统,当被加载并执行时,该计算机程序可以控制计算机系统使其执行在此所述的方法。可选地,可以使用包括用于执行本发明一种或多种功能任务的指定硬件的特定于用户的计算机。在另一实施方式中,本发明的部分或全部可以分布方式实现,例如在如因特网的网络上。
本发明还可以嵌入到计算机程序产品中,该计算机程序产品包括使在此所述方法与功能实现的所有特征,而且当加载到计算机系统中时,该计算机程序产品能够执行这些方法与功能。本上下文中如计算机程序、软件程序、程序、程序产品、软件等的术语意味着指令集的任何语言、代码或符号的任何表达,该指令集打算使具有信息处理能力的系统直接或者在以下一个或两个步骤之后执行特定功能(a)转换成其它语言、代码或符号;和/或(b)以不同的材料形式再现。
本发明以上描述是为了说明和描述而给出的。它不打算是穷尽的或者要将本发明限定到所公开的精确形式,而且很显然,许多修改和变化都是可能的。对本领域技术人员显而易见的此类修改和变化打算包括在由所附权利要求定义的本发明范围之内。
权利要求
1.一种分级存储管理(HSM)系统,包括数据使用监视器,用于从由内容管理系统管理的分级存储复合体中的数据对象中提取数据对象信息;数据关系仓库,用于存储数据对象信息,其中数据对象信息包括用于分级存储复合体中数据对象的关系数据;及分析关系数据并为分级存储复合体作出数据管理动作建议的系统。
2.如权利要求1所述的HSM系统,其中数据对象信息包括数据对象描述符、数据访问描述符和数据关系描述符。
3.如权利要求1所述的HSM系统,还包括内容分析处理器,该内容分析处理器分析数据对象的内容属性和元数据并生成与数据对象信息一起存储到数据关系仓库中的内容信息。
4.如权利要求1所述的HSM系统,还包括用户接口,该用户接口允许用户将关系数据输入到数据关系仓库中。
5.如权利要求1所述的HSM系统,还包括存储分配系统,该存储分配系统为内容管理系统优先化数据管理动作建议。
6.如权利要求5所述的HSM系统,其中存储分配系统基于存储使用规则和存储使用模式优先化数据管理动作建议。
7.如权利要求1所述的HSM系统,其中分级存储复合体包括用于在分级层次之间移动的数据对象的分级空间。
8.如权利要求1所述的HSM系统,其中关系数据包括相关对象集合、用于每个相关对象集合的关系类型、与每个对象集合相关的频率和用于每个相关对象集合的内容管理动作。
9.如权利要求8所述的HSM系统,其中内容管理动作选自迁移、归档和召回。
10.一种用于对存储复合体中的数据对象提供预期存储管理的方法,包括分析数据对象,以便生成内容信息;将内容信息存储到识别具有相似内容信息的对象的关系仓库中;及基于在关系仓库中识别的关系创建建议的存储管理动作。
11.如权利要求10所述的方法,还包括优先化所建议存储管理动作的步骤。
12.如权利要求10所述的方法,其中内容信息包括内容特征和元数据。
13.如权利要求10所述的方法,其中所建议的存储管理动作包括选自迁移、归档和召回的动作。
14.一种部署用于管理存储复合体中数据对象的预期存储管理应用的方法,包括提供计算机基础结构,其可用于从存储复合体中的数据对象提取数据对象信息;存储数据对象信息,其中数据对象信息包括用于存储复合体中的数据对象的关系数据;及分析关系数据并为存储复合体创建数据管理动作建议。
15.一种体现在传播信号中的计算机软件,用于实现管理存储复合体中数据对象的预期存储管理应用,该计算机软件包括使计算机执行以下功能的指令从存储复合体中的数据对象中提取数据对象信息;存储数据对象信息,其中数据对象信息包括用于存储复合体中的数据对象的关系数据;及分析关系数据并为存储复合体创建数据管理动作建议。
全文摘要
一种分级存储管理(HSM)系统和方法。所提供的系统包括数据使用监视器,用于从由内容管理系统管理的分级存储复合体中的数据对象中提取数据对象信息;数据关系仓库,用于存储数据对象信息,其中数据对象信息包括用于分级存储复合体中数据对象的关系数据;及分析关系数据并为分级存储复合体作出数据管理动作建议的系统。
文档编号G06F17/30GK1912873SQ20061011073
公开日2007年2月14日 申请日期2006年8月7日 优先权日2005年8月8日
发明者威廉·A.·托尔斯基, 瓦姆西·K.·乌图库鲁 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1