一种多种存储介质并存下的多路数据分配方法

文档序号:6548984阅读:483来源:国知局
一种多种存储介质并存下的多路数据分配方法
【专利摘要】一种多种存储介质并存下的多路数据分配方法,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类n设立对应的n路数据分布策略。存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。多种存储介质并存下的多路数据分配方法既能根据存储介质的不同特性合理分配数据,还能继续将数据较为均匀的分配到个存储节点中,且即使未来出现更多的新型存储介质,具有很好的扩展性。
【专利说明】一种多种存储介质并存下的多路数据分配方法
【技术领域】:
[0001]本发明涉及存储系统领域,具体涉及到多种存储介质并存下的具体数据分布领域。
【背景技术】
[0002]近年来,大数据已经成为学术界和工业界普遍关注的一个热点问题。与大数据技术同步发展的是新型存储技术。鉴于磁盘在面临大数据带来的挑战时已显得力不从心,市场上对于新型存储器件的需求越来越强烈,国际上从2000年以来在闪存、相变存储器等新型存储器件的制造和产业化方面取得了重要突破,并已开始逐步在各类应用领域(如嵌入式系统、企业计算等)中使用。其中闪存和PCM发展最为迅速,目前已经达到了实用化的水平。
[0003]一系列新型存储介质的引入使得大数据存储架构有了多种选择。但是,由于新型存储介质在价格、寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质以及传统存储介质,由此产生了多种存储介质并存的大数据存储架构。
[0004]新型存储介质的加入给大数据存储带来了机遇的同时也带来了挑战,特别是底层存储介质发生的变化直接影响上层存储系统中的很多方法和算法,其中之一便是数据分布方法。
[0005]数据分布方法是大数据存储系统中的关键技术之一,主要解决存储数据对象到存储资源对象的映射问题。数据分布方法决定了系统数据组织管理的效率,直接影响到存储系统的可扩展性,数据可靠性,存储系统的负载均衡等问题。
[0006]因此,在这种多种存储介质并存的存储体系下,如何根据数据的不同特性(例如访问的冷热属性、操作的特性等)以及不同存储介质的特性(读写速度、时延等)合理地分配数据存储位置,既保证存储系统的可扩展性,数据可靠性,存储系统的负载均衡等,同时充分发挥各新型存储介质的优势是需要考虑的重要问题。
[0007]在存储系统设计中,早期出现的数据分布策略有三种基本方法:区间划分法、轮循分配法和散列函数分配法。这三种方法中,前两种方法实现相对简单,易于实现;但数据单元的分配容易造成存储负载失衡的情况,影响系统的资源利用率,导致系统的总体性能的下降。第三种方法,由于利用散列函数计算获得的键值为伪随机数,所以存储对象在地址空间上的分布是均匀的,因此,该方法更加容易实现存储资源单元之间的负载均衡。但是,这种方法对散列函数的数学特性有一定要求,并且存在哈希冲突的问题。
[0008]之后随着应用需求的变化和发展,存储系统的规模不断扩大,数据分布策略也有了新的发展。存储分布策略设计开始更加注重系统的可扩展性、支持底层存储节点的动态变化、提供快捷的数据查询机制等问题。具体有:线性哈希、可扩展哈希算法、分布式动态哈希算法、一致性哈希算法等。以较流行的一致性哈希算法为例,其原理分为两步,如图1所示:首先,对存储节点的哈希值进行计算,其将存储空间抽象为一个环,将存储节点配置到环上。环上所有的节点都有一个值。其次,对数据进行哈希计算,按顺时针方向将其映射到离其最近的节点上去。
[0009]但以上这些数据分布策略虽优缺点各有不同,但大多还是针对磁盘和内存的数据分布,统一的考虑存储节点,都还没有考虑如何在多种存储介质并存下的具体的数据分布方法。

【发明内容】

[0010]发明目的:现今一系列新型存储介质已经逐渐应用到大数据存储系统的搭建之中并形成多种存储介质并存的大数据存储架构,但现有的大数据存储中的数据分配方法还主要针对单一的存储介质或并不区分不同的存储介质,这样的数据分配方法能够实现一定程度上的负载均衡、可扩展性等,但却不能充分运用各种新型存储介质的优势,结合数据的特性以及不同存储介质的特性合理地分配数据存储位置,提高系统资源利用率。
[0011]技术方案:一种多种存储介质并存下的多路数据分配方法,其特征在于,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类η设立对应的η路数据分布策略。
[0012]优选方案为存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。
[0013]优选方案为存储系统中的数据特征提取及分流模块中设立数据特性及热度挖掘模块。
[0014]优选方案为数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。
[0015]有益效果:
[0016]1.本专利提出的一种多种存储介质并存下的多路数据分配方法,其特征为数据根据存储介质的不同特性和各存储介质的剩余资源进行分流,对分流的数据再进行各路的数据分配。该发明针对现在多种新型存储介质进入并形成混合存储体系,既能根据存储介质的不同特性合理分配数据,还能继续将数据较为均匀的分配到个存储节点中,且即使未来出现更多的新型存储介质,具有很好的扩展性。
[0017]2.数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。该分流方法综合考量各存储介质与不同数据类型的适合程度,同时兼顾各存储介质的空闲资源比例,使得不同存储介质间的负载保持均衡。
【专利附图】

【附图说明】
[0018]图1 一致性哈希示意图
[0019]图2 —种多种介质并存下的多路数据分配方法示意图【具体实施方式】[0020]本发明提出一种多种介质并存下的多路数据分配方法,如图2,该方法主体可分为数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,其中数据特征提取及分流模块中还设立数据特性及热度挖掘模块。根据存储系统中存储介质种类η设立对应的η路数据分布策略,值得说明的是,此处每路分别对应一种存储介质,需设立的对应的η路数据分布策略可选取各种现有的数据分布策略,充分利用前人智慧而无需重新开发新的分布策略,并且这η路数据分布策略可以根据存储介质特性或实际需求进行选取,每路数据分布策略可相同也可不同,给予用户选择的自由,然后为这η种存储介质及对应数据分布策略从I到η编号。
[0021]当数据需要存储时,数据先进行类型特征提取,提取出的特征与数据特性及热度挖掘模块、存储资源监控模块反馈的信息共同决定了数据分流到那一路。随后根据数据的分流号对应的数据分布策略将数据及其分流号一同分配存放到存储节点中,并更新存储资源监控模块中的信息。
[0022]其中,数据特性及热度挖掘模块中所要挖掘的数据特性由存储资源池中的存储介质种类和特性决定。以存储资源包括磁盘和闪存为例,闪存与磁盘介质相比无机械延迟,随机读的延迟很低;读写不对称,通常闪存上的随机读速度较快,但随机写速度较慢;异地更新,对闪存的写操作需要先执行块擦除操作显著降低系统性能。如此可根据I/o特性和数据的冷热程度来进行存储分配,将读倾向负载的数据或者热点数据存放在闪存上,而写倾向负载或冷数据等则存放在磁盘上,这样数据特性及热度挖掘模块就需挖掘不同数据类型的I/o特性和数据的冷热程度。这种何种存储介质更适合存储何种数据的相关研究已有很多,在此就不一一赘述。这样,数据特性及热度挖掘模块根据存储资源中存储介质种类和特性挖掘对应的数据相关特征,维护出一张不同介质所最适合存储的数据类型的优先级表,并附各类型数据在整体存储资源中大致所占比列(某类型数据及其更高优先级数据的比例之和及为该数据类型的优先级比例)。而数据进行的类型特征提取,也是与数据特性及热度挖掘模块中挖掘的数据类型征一致的。
[0023]在分流操作中,有三输入,分别为待存储数据类型特征、数据特性及热度挖掘模块挖掘出的不同存储介质所最适合存储的数据类型的优先级表及各类型数据在整体存储资源中大致所占比列,存储资源监控模块反馈的空闲存储资源信息。前两者上文已做解释,而存储资源监控模块反馈的空闲存储资源信息包括每种存储介质其剩余存储资源(% ),以及各存储介质剩余存储资源量的比例。用户预设优先级-资源量存储资格表,表中定义存储介质剩余存储资源及各存储介质剩余存储资源量比例与优先级比例的对应关系。本发明以存储资源包括磁盘和闪存为例给出参考定义:
[0024]
【权利要求】
1.一种多种存储介质并存下的多路数据分配方法,其特征在于,在存储系统中设有数据特征提取及分流模块和记录各存储节点剩余资源量的存储资源监控模块,并根据存储系统中存储介质种类η设立对应的η路数据分布策略。
2.根据权利要求1所述的多种存储介质并存下的多路数据分配方法,其特征在于,存储资源监控模块将存储资源剩余量等信息反馈给数据特征提取及分流模块,数据特征提取及分流模块中数据提取出的特征、数据特性及热度挖掘模块以及存储资源监控模块反馈的信息共同决定数据分流到哪一路。
3.根据权利要求1或2所述的多种存储介质并存下的多路数据分配方法,其特征在于,存储系统中的数据特征提取及分流模块中设立数据特性及热度挖掘模块。
4.根据权利要求1或2所述的多种存储介质并存下的多路数据分配方法,其特征在于,数据特征提取及分流模块中分流的方法,其特征为优先级-资源量存储资格表和三输入:待存储数据类型特征、数据特性及热度挖掘模块挖掘出的优先级信息、存储资源监控模块反馈的空闲存储资源信息。
5.根据权利要求1至4任一所述的多种存储介质并存下的多路数据分配方法,其特征在于,具体分流步骤如下: Stepl:根据数据特征类型查询优先级表,得到其在各存储介质中的优先级比例; Step2:选择其最高的优先级比例; Step3:在优先级-资源量存储资格表中查看该优先级比例对应需要的资源剩余量和剩余存储资源量的比例,比较实际值是否大于等于表中定义的值; Step4:若均达到优先级-资源量存储资格表中的值,则分流到该存储介质对应的那一路。若达不到,则选取次高的优先级比例,重复Step3 ; Step5:若遍历每种存储介质均不能达到优先级-资源量存储资格表的标准,则选取现剩余存储资源量的比例中最高的那种存储介质,分流到那一路中。
【文档编号】G06F17/30GK104035880SQ201410252644
【公开日】2014年9月10日 申请日期:2014年6月9日 优先权日:2014年6月9日
【发明者】孙知信, 王文君, 宫婧 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1