云计算中面向节能的Hadoop分布式文件系统存储策略的制作方法

文档序号:8258990阅读:391来源:国知局
云计算中面向节能的Hadoop分布式文件系统存储策略的制作方法
【技术领域】
[0001]本发明涉及计算机大数据领域,尤其涉及一种云计算中面向节能的Hadoop分布式文件系统存储策略。
【背景技术】
[0002]随着云计算技术的不断完善和普及,在继追求性能、容量、容错、安全性等指标之后,绿色节能的概念也逐渐成为该行业内的新标准。在当前已有的围绕Hadoop分布式文件系统节能管理的策略中,一部分主要通过对计算负载分类学习或者实时迀移存储数据等手段来减少服务器运行时的能耗,还有一部分的研宄集中在减少对整个数据中心基础设施进行冷却的成本上。现有的方法虽然节能明显,但与传统Hadoop分布式文件系统一样,系统采用基于机架感知的数据块存储策略使得数据块在集群中的分布具有随机性,该策略一方面会导致整个集群的数据分布出现不均衡的情况,特别是有新节点加入的时候,这会造成新增节点的计算和存储能力的浪费;另一方面,不同文件间的访问规律存在巨大差异,如果使Hadoop分布式文件系统集群中所有的数据节点都处于活跃状态,势必造成能耗的增加,导致大量电能被浪费。这就亟需本领域技术人员解决相应的技术问题。

【发明内容】

[0003]本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种云计算中面向节能的Hadoop分布式文件系统存储策略。
[0004]为了实现本发明的上述目的,本发明提供了一种云计算中面向节能的Hadoop分布式文件系统存储策略,其特征在于,包括如下步骤:
[0005]步骤1,将全部的数据节点进行区域划分,对于全天活跃状态的数据节点划分为热区,对于处于待机状态的数据节点划分为冷区,将新创建的数据文件存储于热区;
[0006]步骤2,对于存储于热区的数据文件根据优先匹配策略,将该数据文件存储在经过优先匹配的热区最大数据节点;
[0007]步骤3,判断该数据文件的活跃程度,当活跃程度达到阈值范围后,将该数据文件转存到冷区,根据优先匹配策略将该数据文件存储在冷区最大数据节点且该数据节点为活跃状态;
[0008]步骤4,对转存在冷区的该数据文件进行活跃程度判断,如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值Tidle,则将该节点置为待机状态。
[0009]所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤I包括:
[0010]步骤1-1,对于全部数据节点采用主/从架构,包含一个名字节点和多个数据节点,名字节点为管理节点,用于管理数据节点和客户端对数据文件的访问;所存储的数据文件被分成若干数据块,而数据节点则用于存储该数据块;
[0011]步骤1-2,数据节点分布在多个机架中,数据节点之间通过机架网络来通讯,每个数据节点定期向名字节点发送心跳信息,报告相应数据节点的工作状态信息和存储的数据块?目息;
[0012]步骤1-3,在名字节点中设置热节点列表和冷节点列表,该热节点列表和冷节点列表保存数据节点的工作状态信息和存储的数据块信息,一旦数据节点有数据操作时,需要实时更新热节点列表和冷节点列表的数据。
[0013]所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤2的优先匹配策略为:
[0014]对于热区中数据节点,查找名字节点中热节点列表后优先匹配剩余空间最大的数据节点。
[0015]所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤3的优先匹配策略为:
[0016]对于冷区中数据节点,优先匹配剩余空间最大的数据节点时,满足以下两点,
[0017]Α,直接选择剩余空间最大的节点,获得冷区中存储数据分布不均衡的数据节点;
[0018]B,选择的数据节点空间使用率不大于冷区中所有数据节点平均使用率。
[0019]所述的云计算中面向节能的Hadoop分布式文件系统存储策略,优选的,所述步骤3包括:
[0020]步骤3-1,定时查找遍历热节点列表,将驻留时间超过驻留时间阈值和前一日访问量小于日最低访问量阈值的文件迀移到冷区中;
[0021]步骤3-2,其中驻留时间阈值根据数据统计进行确定,最低访问量阈值是根据访问情况来确定;为了最大限度降低文件迀移策略对整个系统的效率和性能的影响,选择在访问的非高峰时段来实施迀移。
[0022]综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0023]本策略针对新闻媒体机构中急需高效管理的海量文本、图片、音频和视频新闻数据,提出了四种存储中所使用的策略,对传统Hadoop分布式文件系统的存储策略进行了优化,从而可以大幅度的降低整个分布式文件系统在运行时所消耗的能量,达到节能降耗的效果,同时可以平衡节点的负载,提高整个系统的计算效能。
[0024]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0025]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0026]图1是本发明云计算中面向节能的Hadoop分布式文件系统存储策略数据节点分区策略的示意图;
[0027]图2是本发明云计算中面向节能的Hadoop分布式文件系统存储策略最大活动剩余空间节点优先匹配策略的流程图;
[0028]图3是本发明云计算中面向节能的Hadoop分布式文件系统存储策略文件迀移策略的流程图;
[0029]图4是本发明云计算中面向节能的Hadoop分布式文件系统存储策略节点待机策略的流程图。
【具体实施方式】
[0030]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0031 ] 在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0032]在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0033]如图1所示,不同于Hadoop分布式文件系统以往的数据节点(DataNode)管理方式,节点分区策略将所有的数据节点(DataNode)逻辑上分为热区(HotRackZone)和冷区(ColdRackZone)。其中,步骤I,将全部的数据节点进行区域划分,对于全天活跃状态的数据节点划分为热区,对于处于待机状态的数据节点划分为冷区,将新创建的数据文件存储于热区;当热区和冷区划分完毕之后,并不因为冷区的数据节点变为活跃状态而将该活跃状态的数据节点重新划分到热区,而是在最初划分热区和冷区之后,数据节点不再发生变化。
[0034]步骤2,对于存储于热区的数据文件根据优先匹配策略,将该数据文件存储在经过优先匹配的热区最大数据节点;
[0035]步骤3,判断该数据文件的活跃程度,当活跃程度达到阈值范围后,将该数据文件转存到冷区,根据优先匹配策略将该数据文件存储在冷区最大数据节点且该数据节点为活跃状态;
[0036]步骤4,对转存在冷区的该数据文件进行活跃程度判断,如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值Tidle,则将该节点置为待机状态。
[0037]如图2所示的是本发明中最大活动剩余空间节点优先匹配策略的流程图,该过程的主要步骤为:
[0038](I)热节点列表和冷节点列表的维护
[0039]Hadoop 分布式文件系统(HDFS)是基于 Google 的 Google File System(GFS)开发的,采用的是主/从(Master-Slave)架构,包含一个名字节点(NameNode)和多个数据节点(DataNode)。名字节点是管理节点,用于管理数据节点和客户端对文件的访问。Hadoop分布式文件系统存储的文件被分成若干个64MB大小的块(
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1