一种用于数据中心分布式文件存储的节能方法

文档序号:9914265阅读:669来源:国知局
一种用于数据中心分布式文件存储的节能方法
【技术领域】
[0001] 本发明涉及云数据中心领域,尤其涉及一种用于数据中心分布式文件存储的节能 方法。
【背景技术】
[0002] 当今,信息技术带动了各种现代服务业,以及新兴产业的快速发展,这些业务产生 的数据正在以几何级数的形式增长。其中,这些业务包括:互联网、物联网和智能电网等。据 统计,纽约证券交易所每天的交易数据会有1TB(万亿字节);Twitter(推特)每天会产生7TB 的数据;Facebook(脸谱网)每天产生的数据超过10TB。据IDC(Internet Data Center,互联 网数据中心)的调查与统计,2007年全球的数据信息量约为165EB(百亿亿字节),即使在全 球遭遇金融危机的2009年,仍约800EB的数据量,相比上一年增长了62%。2012年全球信息 总量已经达到2.7ZB(十万亿亿字节),2020年将会达到35ZB,约为2007年的230倍。大数据每 年都在激增庞大的数据量,这给整个数据的存储以及数据的处理带来了挑战。
[0003] 数据中心的能耗也一直居高不下,2007年,IT设备能耗占全球总能耗的5.3%,消 耗电力达8700亿千瓦时。随着IT技术的广泛应用,该能耗以每年20%~25%的速度继续增 长。根据麦肯锡公司2008年研究表明,2007年全球的数据中心所消耗能源的总费用为86亿 美元。预计2025年,整个IT行业的整体平均能耗将会是2006年的5倍。并且存储系统占 IT耗 能的比重呈不断增长之势。
[0004] 分布式文件存储系统是云计算底层的核心基础设施,并且是上层数据服务的提供 者。由于分布式文件存储系统规模的不断扩大使其运营成本不断提高,不仅包括硬件、机 房、冷却设备等固定成本,还包括IT设备和冷却设备的电能消耗。这将会导致能耗的浪费以 及温室效应,给环境带来的危害毋庸置疑。另外,分布式文件存储系统在设计时,没有考虑 对环境的危害问题。因此,无论是要减少本身消耗的成本,还是达到保护环境的目的,提高 分布式文件存储系统的能耗利用率是云计算领域中需要研究的一个热点问题。

【发明内容】

[0005] 本发明提供了一种用于数据中心分布式文件存储的节能方法,本发明在HDFS (HadoopDistributed File System,Hadoop分布式文件存储)集群中,通过建立超图模型, 清晰地表述文件的数据块和服务器之间的多对多的关系,根据超图里的横贯理论,提出了 一种可变覆盖的泛横贯模型,详见下文描述:
[0006] -种用于数据中心分布式文件存储的节能方法,所述节能方法包括以下步骤:
[0007] 基于分布式文件存储的机架感知存储策略,将文件数据块及其副本、与存储的数 据节点之间的关系用超图表示出来;
[0008] 利用超图的关联矩阵清晰地表示超边和节点之间的关系;
[0009] 提出根据分布式集群文件的访问特点,在满足低时延的应用访问要求前提下,不 同文件应该具有的活跃副本数目疋;
[0010]在满足数据块可用的前提下,依据文件被访问的频率,获取可变覆盖逆横贯模型; [0011]根据可变覆盖的纪横贯模型确定最大关闭数据节点DataNode数目,实现数据中心 分布式文件存储节能。
[0012] 所述将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来具体 为:
[0013] 数据节点DataNode作为超图的顶点,以每种数据块作为超边,数据块和数据节点 间复杂的多对多关系通过超图表示出来。
[0014] 所述活跃副本数目史具体为:
[0015] 处于活跃状态服务器上的数据块副本个数,该参数也是所求的数据节点的子集与 每条超边的交点个数。
[0016] 所述可变覆盖的无横贯模型具体为:
[0020] 气,=〇或1 i = l,2,...,n
[0021] 其中,武,;表示第si个机架上的第i个服务器的状态;0表示服务器处于休眠状态,1 表示服务器处于活跃状态;表示节点关联矩阵里的元素为文件的活动系数;见为文件 1所包含的数据块的个数;Σ1心(气,·\)为服务器节点的顶点度之和;η表示服务器的个数; m表示超边的个数,即数据块的种类;w表示文件的个数。
[0022] 所述根据可变覆盖的F横贯模型确定最大关闭数据节点DataNode数目具体为:
[0023] 在满足文件的活跃副本数目1^的情况下,使开启服务器的个数最少,即值 最小;
[0024] 当存在开启服务器的个数相同、但不同状态向量爽"解集时,从中选取顶点度之和 最小的,即[/=14 (气,·',.)值最小的;
[0025] 当存在f横贯集等秩、且存储的总数据块个数相同的解集时,考虑选择活跃状态 服务器分布的机架数量多的解集,BP .%)十他 值最大的。
[0026] 所述节能方法还包括:
[0027] 1)负载均衡度的评价:负载均衡度表示的是服务器集群中所有服务器负载的总偏 差和总负载的比值,根据服务器实际负载与负载平均值差的绝对值表示负载偏差,计算负 载均衡度
其中BL表示HDFS集群的负载均衡度, Sl表示第i个服务器的负载 率,歹表示平均负载率;
[0028] 2)对分布式文件集群进行节能评价;
[0029] 一个DataNode节点的功耗为:
[0030] P server一Se+14eS
[0031] 式中,Se为空闲功耗或者静态功耗,s为服务器的负载率,与服务器的时钟频率成 正比,μθ和a为常数;
[0032]整个HDFS集群节约的功耗为:
[0034] 其中,S1为进行节能处理前的服务器的负载率,s2为进行节能处理后处于活跃状态 的服务器的负载率,一般情况下有si〈S2; η为HDFS集群中DataNode的个数;q为休眠的 DataNode的个数。
[0035]本发明提供的技术方案的有益效果是:本发明提供的基于超图的完全覆盖的HDFS 节能方法,能够清晰地表述文件的数据块和服务器之间的多对多的关系。在保证数据块可 用性的前提下,本发明基于k_横贯理论设计了实现数据中心分布式文件节能存储的可变覆 盖的$横贯模型,可依据文件的不同访问频率设定不同数据块的活跃副本可变数目免.,通 过可变覆盖的泛横贯模型确定最大关闭DataNode服务器数目,实现系统存储单元的节能。
【附图说明】
[0036]图1为HDFS数据存储的示意图;
[0037]图2为基于机架感知的存储策略示意图;
[0038]图3为数据块与DataNode节点的关系示意图;
[0039]图4为数据块存储的二部图;
[0040]图5为文件存储情况示意图;
[0041 ]图6为超图Η的不意图;
[0042] 图7为数据块存储量最小化求解的流程图;
[0043] 图8为集群关闭比率和数据块不可用性之间的关系图;
[0044] 图9为处于活跃状态的服务器个数的比较示意图;
[0045] 图10为活跃状态服务器的顶点度之和的比较示意图;
[0046] 图11为低负载时节能算法执行前的示意图;
[0047] 图12为低负载时对称数据块存储节能算法执行后的示意图;
[0048] 图13为低负载时横贯节能算法执行后的示意图;
[0049] 图14为高负载时节能算法执行前的示意图;
[0050] 图15为高负载率时对称数据块存储节能算法执行后的示意图;
[0051 ]图16为高负载率时横贯节能算法执行后的示意图;
[0052]图17为低负载状态下节点功耗对比图。
[0053]图18为高负载状态下节点功耗对比图。
【具体实施方式】
[0054]为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0055]他(1〇(^[1]是一个分布式处理的软件框架,能在由大量计算机组成的集群中运行海 量数据并进行分布式计算。由于其具有可扩展、低成本、高效性与可靠性等优点,Hadoop在 分布式计算领域得到了广泛运用。Hadoop通过副本策略与节点的失效处理等方法,在保证 数据块可用性的同时并没有考虑集群负载率与系统能耗之间的关系,即使在Hadoop集群利 用率很低的情况下,集群中所有的DataNode节点都保持活跃状态以保证数据块的可用性, 其高能耗低效率的情况与Google服务器集群类似,并由此造成了大量电能的浪费。因此,在 保证数据块可用性的前提下,不改变数据的存储,控制服务器的状态,从而达到存储与节能 的目的具有重大意义。
[0056]在保证数据块可用性的前提下,考虑集群负载率与系统能耗之间的关系对HDFS的 节能进行研究。在不改变存储策略的节能上,一些学者研究完全覆盖(full coverage)问 题,即要求活跃节点上必须存有所有数据对象中的至少一个副本,因此需要在所有的存储 节点集合中找到一个覆盖所有数据的子集,即在保证数据块可用性的前提下,将文件的数 据块及副本中的至少一个放入该子集中,通过关闭该子集以外的DataNode节能来达到节能 的目的。本发明的实施例所求取的DataNode节点的子集中的数据块的活跃副本数目是可变 的,实现不同的文件具有不同的活跃副
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1