云存储系统中基于动态阈值调整的分级存储方法与流程

文档序号:15923354发布日期:2018-11-14 00:52阅读:409来源:国知局

本发明主要涉及到云计算领域,特别涉及到云存储系统中的分级存储领域。

背景技术

随着数据的爆炸式增长,存储需求日益增大,大规模设备集群的云存储系统是目前解决海量数据高效存储的有效技术手段。云存储技术衍生于云计算,是通过集群整合、分布式文件系统、网络技术等技术,将集群中的众多设备与应用软件等资源协同工作,对外提供较大吞吐能力的数据存储业务。

云存储系统中的各存储节点往往具有不同的存储容量和存储性能,如何将海量数据存储到这些性能异构的存储节点中,来提高云存储系统的资源利用率,并满足用户的性能需求,是云存储系统亟待解决的问题。分级存储技术能够充分考虑存储系统中存储资源的异构性,将存储资源划分为多个层级,并依据存储系统中数据特点与数据业务应用规律,以数据访问热度为主来评估数据的价值,得到数据相应的存储层级与放置策略,在云存储系统中具有较强的技术可行性。

目前有较多的研究人员与相关学者,相继提出了将分级存储理论应用于云存储系统中的解决方案。然而,由于提出的分级结构固化不灵活,用于衡量数据存储等级的阈值固定,在具体的实施过程中往往出现数据迁移抖动等问题。因此,本发明设计了一种云存储系统中基于动态阈值调整的分级存储方法。



技术实现要素:

本发明公开了一种云存储系统中基于动态阈值调整的分级存储方法,它通过动态阈值调整与动态分级协同的优化算法来共同决定数据对象的存储状态,使得数据对象依据最优的存储策略进行离线优化存储,从而解决系统出现的数据迁移抖动问题,提升系统性能。

本发明提供的基于动态阈值调整的分级存储方法,包括以下步骤:

步骤1、存储节点信息采集:

由各存储节点分别采集各自的服务器状态信息,并将采集到的信息周期性地发送至中心服务器。

步骤2、存储节点分级处理:

依据存储节点服务器状态信息,计算存储节点的性能值sp,所有存储节点按性能值sp排序并划分出冷热区,再计算冷区存储节点的分级评估值,并从冷区中划分出一份缓冲区。

步骤3、忽略冷区存储节点中,在统计时间t内没有被访问过的数据对象,计算其他数据对象i的数据温度pi并保存。

步骤4、对于步骤3中处理过的数据对象,将其数据温度与冷热阈值比较,生成离线优化存储策略元组。

步骤5、根据步骤4生成的策略元组信息,动态调整热阈值与分级结构。

步骤6、根据策略元组信息,对数据对象实施离线优化分级存储调整策略。

附图说明

图1是本发明的功能模块图;

图2是本发明的流程图;

具体实施方式

如图2所示,本发明方法的具体实施过程步骤为:

步骤1、云存储系统中各个存储节点的信息采集:

1)周期性地收集所有存储节点的状态信息,包括存储节点的cpu、内存、硬盘、网络、读写速率等运行状态信息,获取存储节点数据访问业务信息;

2)将收集到的存储节点状态信息加上节点id,处理成节点服务状态消息发送给中心服务器;

步骤2、根据集群内所有存储节点的状态信息,对存储节点依据存储性能进行初始等级分区:

1)根据步骤1收集的存储节点运行状态信息,依次计算各存储节点的性能值,记为sp。

2)依据二八定律,80%的用户访问请求集中在20%的数据上,而这20%的数据即为热点数据。因此,对云存储系统中的所有存储节点按性能进行排序,将高位的20%划分为热区,其他的80%划分为冷区。

3)为避免因数据对象热度改变频繁而造成的存储迁移抖动,在划分好的冷区中,再划分出一个冷热缓冲区,用冷热缓冲区存储下阶段热度可能上升的数据对象。

在本发明中,最终数据对象的存储等级调整,都需要在不同分区的存储节点间传输数据,为了降低数据迁移带来的系统开销,需要缩短存储节点间的数据传输时间。设存储节点a与存储节点b之间的网络距离为ndab,对按存储性能排序的冷区存储节点,依次计算每个冷区存储节点与所有热区存储节点的平均网络距离e(nd)。对于冷区存储节点da,与热区的平均网络距离可计算为其中存储节点db属于热区存储节点集{d1,....,dk}。对每个冷区存储节点,计算分级评估值hp,hp=α·sp+(1-α)·e(nd),其中α为平衡常量,用来综合评估冷区存储节点与热区存储节点的平均网络距离和自身性能。再对冷区存储节点按分级评估值hp进行排序,取高位的20%为缓冲区,剩余部分为新的冷区。

步骤3、计算在统计时间t内,数据对象i的数据温度pi并保存,计算方法如下:

1)忽略冷区节点中,在t时间内没有被访问过的数据对象,减少不必要的计算与消耗。选择热区与缓冲区节点中所有数据对象,以及在时间t内被访问过的冷区节点数据对象为计算目标。

2)计算数据对象i的访问频率fi=ni/t。其中ni为数据对象i在t时间内的访问量。

3)由于数据对象的大小直接影响到存储设备与网络带宽占用,从而引入数据对象的静态影响因子数据对象i的静态影响因子其中β为静态因子数值归一化常量,si为数据对象i的大小。

4)在信息生命周期中,数据的信息价值从整体上随存储时间的延长而降低;同时,具有较高价值的数据在下阶段也具有一定价值。

所以计算数据对象i的t时温度其中,参数为常量,pi'为数据对象上阶段的数据温度,tei为数据对象i的存在时间。

步骤4、将步骤2,3计算出的数据对象的温度与冷热阈值比较,生成离线优化存储策略元组,生成方法如下:

1)取策略元组为(dp,ds,dq,op),其中dp为数据对象的源路径,ds为数据对象的大小,dq为数据对象的源分区,op为该数据对象的策略操作(取值为1或0,1,表示升迁,0表示降级)。

2)对于热区数据对象,当其数据温度低于热阈值时,将该数据对象的元组属性op置0。

3)对于缓冲区数据对象,当其数据温度高于热阈值时,将该数据对象的元组属性op置1,低于冷阈值时,将该数据对象的元组属性op置0。

4)对于冷区数据对象,当其数据温度高于冷阈值时,将该数据对象的元组属性op置1。

步骤5、根据离线优化存储策略元组,动态调整热阈值与分级结构:

1)获取热区与缓冲区的负载率信息;扫描所有存储策略元组。

2)当热区负载过高时,提高热区存储节点比率,缓冲区后移。调整热阈值,新热阈值=原热阈值+平衡系数*降级数据总大小/升迁数据总大小。

3)当热区负载过低时,降低热区存储节点比率,缓冲区回收热区裁剪的存储节点。调整热阈值,新热阈值=原热阈值-平衡系数*降级数据总大小/升迁数据总大小。

步骤6、根据步骤4,5,离线优化数据对象的存储等级:

根据策略元组信息,按属性op实施数据对象的升迁或降级操作。其中,每次选取目标分区中,与数据对象源存储节点网络距离最近的目标存储节点,并按策略元组属性op实施数据对象的升迁或降级操作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1