云计算中面向节能的Hadoop分布式文件系统存储策略的制作方法_2

文档序号：8258990阅读：来源：国知局

Chunk)，而数据节点(DataNode)则用于存储这些数据块。数据节点(DataNode)分布在多个机架(Rack)中，数据节点(DataNode)间通过机架网络来通讯。每个数据节点(DataNode)定期向名字节点(NameNode)发送“心跳”，以此报告该节点的状态信息和存储的数据块信息。
[0040]最大活动剩余空间节点优先匹配策略在名字节点(NameNode)上增加热节点列表(HotNodeList)和冷节点列表(ColdNodeList)两张表来保存节点的主要信息，一旦节点有数据操作时，需要实时更新表中数据。当然节点的剩余空间、所处状态等信息可直接从节点的“心跳”信息中获得。热节点列表用于维护热区中所有节点存储空间使用情况、节点所处状态、节点最后一次访问时间等信息，并按可用空间大小降序排列，以便有新数据块需要写入时，能快速匹配到最合适的节点。类似地，冷节点列表用于维护冷区中所有节点的信息。
[0041](2)优先匹配剩余空间最大的节点
[0042]对热区中的节点而言，优先匹配策略较为简单，只需查找热节点列表后优先匹配剩余空间最大的数据节点(DataNode)即可。而对于冷区中的节点而言，优先匹配剩余空间最大的节点时，有两种方案可选:①直接选择剩余空间最大的节点，不考虑数据分布均衡的问题。此方案会使冷区(ColdRackZone)中会有较多数据分布不均衡的节点出现，访问文件时需要唤醒节点的次数较多，影响数据访问时的效率，但优点是集群的耗电量低，有较好的节能效果。②所选择的节点空间使用率不大于冷区(ColdRackZone)中所有节点平均使用率。这相当于在写入数据时就有选择性的进行平衡数据分布，可以使得冷区(ColdRackZone)中“过载”或“负载”的节点非常少，实现数据分布的自均衡，提高集群的服务效率，但缺点是耗电量会有所增加。因此，具体采取何种方案需视具体情况而决定。
[0043]如图3所示的是文件迀移策略的流程图。从维基英文新闻网站的访问日志中可以统计得出:文件自创建起的3天内访问量较大，其访问量几乎占10天内访问总量的60%;7天内的访问量占10天内访问总量的88% ;而10天之后文件通常很少再被访问。因此要定时查找遍历热节点列表(HotNodeList)，将驻留时间超过驻留时间阈值Texsisted和前一日访问量小于日最低访问量阈值Taccessed的文件迀移到冷节点中去。其中驻留时间阈值Texsisted是根据大量数据统计来确定的，而Taccessed则是根据经验来确定的，如设定日最低访问量小于5次的文件就属于“冷门”文件，这个具体要根据访问情况来确定。同时，为了最大限度降低文件迀移策略对整个系统的效率和性能的影响，选择在访问的非高峰时段来实施迀移。
[0044]经过统计，对于新闻来说，文件自创建起之后每天的访问量呈递减趋势下降，所以要将热区中驻留时间超过驻留时间阈值Texsisted和前一日访问量小于日最低访问量阈值Taccessed的文件迀移到冷区中去。因为随着文件驻留时间增加，文件被访问的次数逐渐降低，这些访问量较低的文件会大量占据热区的存储空间，将这些文件移动到冷区中去，能有效利用热节点的存储空间；同时，由于冷节点默认是处于待机状态，即如果没有写入或读取任务时，就让节点待机，则可以较大幅度的降低能耗。
[0045]如图4所示的是节点待机策略的流程图。在每个小时末遍历冷节点列表，如果节点最后一次访问时间与当前时间之差大于节点待机时间阈值Tidle，则将该节点置为待机状态。节点待机时间阈值Tidle亦需视具体情况而决定。
[0046]此外，还要考虑一下冷区中的数据节点被唤醒的情况:因为有数据的写入和读取，所以冷区中的数据节点会在以下两种情况出现时被唤醒:①将热节点中满足一定条件的文件迀移到处于待机状态的冷节点时。这种情况是可控的，在每天的非高峰时段进行。②已经移动到冷节点中的文件再次被访问时。如果再次被访问的文件位于已经由其它任务唤醒的节点上，则文件可以直接被访问，响应时延不会增加；而如果文件位于待机状态的节点上，则需要唤醒该节点，响应时延就会有所增加。而这种情况的发生是随机的、不可预测的。
[0047]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0048]尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
【主权项】
1.一种云计算中面向节能的Hadoop分布式文件系统存储策略，其特征在于，包括如下步骤: 步骤1，将全部的数据节点进行区域划分，对于全天活跃状态的数据节点划分为热区，对于处于待机状态的数据节点划分为冷区，将新创建的数据文件存储于热区；步骤2，对于存储于热区的数据文件根据优先匹配策略，将该数据文件存储在经过优先匹配的热区最大数据节点；步骤3，判断该数据文件的活跃程度，当活跃程度达到阈值范围后，将该数据文件转存到冷区，根据优先匹配策略将该数据文件存储在冷区最大数据节点且该数据节点为活跃状态；步骤4，对转存在冷区的该数据文件进行活跃程度判断，如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值Tidle，则将该节点置为待机状态。
2.根据权利要求1所述的云计算中面向节能的Hadoop分布式文件系统存储策略，其特征在于，所述步骤I包括: 步骤1-1，对于全部数据节点采用主/从架构，包含一个名字节点和多个数据节点，名字节点为管理节点，用于管理数据节点和客户端对数据文件的访问；所存储的数据文件被分成若干数据块，而数据节点则用于存储该数据块；步骤1-2，数据节点分布在多个机架中，数据节点之间通过机架网络来通讯，每个数据节点定期向名字节点发送心跳信息，报告相应数据节点的工作状态信息和存储的数据块信息; 步骤1-3，在名字节点中设置热节点列表和冷节点列表，该热节点列表和冷节点列表保存数据节点的工作状态信息和存储的数据块信息，一旦数据节点有数据操作时，需要实时更新热节点列表和冷节点列表的数据。
3.根据权利要求2所述的云计算中面向节能的Hadoop分布式文件系统存储策略，其特征在于，所述步骤2的优先匹配策略为: 对于热区中数据节点，查找名字节点中热节点列表后优先匹配剩余空间最大的数据节点。
4.根据权利要求2所述的云计算中面向节能的Hadoop分布式文件系统存储策略，其特征在于，所述步骤3的优先匹配策略为: 对于冷区中数据节点，优先匹配剩余空间最大的数据节点时，满足以下两点， A，直接选择剩余空间最大的节点，获得冷区中存储数据分布不均衡的数据节点； B，选择的数据节点空间使用率不大于冷区中所有数据节点平均使用率。
5.根据权利要求1所述的云计算中面向节能的Hadoop分布式文件系统存储策略，其特征在于，所述步骤3包括: 步骤3-1，定时查找遍历热节点列表，将驻留时间超过驻留时间阈值和前一日访问量小于日最低访问量阈值的文件迀移到冷区中；步骤3-2，其中驻留时间阈值根据数据统计进行确定，最低访问量阈值是根据访问情况来确定；为了最大限度降低文件迀移策略对整个系统的效率和性能的影响，选择在访问的非高峰时段来实施迀移。
【专利摘要】本发明公开了一种云计算中面向节能的Hadoop分布式文件系统存储策略，包括如下步骤：步骤1，将数据节点进行区域划分，对于活跃状态的数据节点划分为热区，对于待机状态的数据节点划分为冷区，将新建的文件存储于热区；步骤2，对于存储于热区的数据文件根据优先匹配策略，将该数据文件存储在经过优先匹配的热区最大数据节点；步骤3，判断该数据文件的活跃程度，当活跃程度达到阈值范围后，将该数据文件转存到冷区；步骤4，对转存在冷区的该数据文件进行活跃程度判断，如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值，则将该节点置为待机状态。发明能有效利用热节点和冷节点较大幅度的降低能耗。
【IPC分类】G06F17-30
【公开号】CN104573119
【申请号】CN201510061392
【发明人】钟将, 何隆, 杨雷, 时待吾
【申请人】重庆大学
【公开日】2015年4月29日
【申请日】2015年2月5日

完整全部详细技术资料下载

当前第2页1 2