Hadoop分布式文件系统及其存储优化方法

文档序号:9432682阅读:752来源:国知局
Hadoop分布式文件系统及其存储优化方法
【技术领域】
[0001]本发明涉及数据存储技术领域,特别是涉及Hadoop分布式文件系统及其存储优化方法。
【背景技术】
[0002]Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
[0003]HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
[0004]然而,在大数据应用场景下,随着基于Hadoop的Hive工具在大数据存储和查询的普遍使用,Hive关联HDFS存储中,存在小文件优化问题,但现有的方案单一,无法最大限度的到达优化的同时,也能对查询性能得到提高。

【发明内容】

[0005]鉴于以上所述现有技术的缺点,本发明的目的在于提供Hadoop分布式文件系统及其存储优化方法,解决现有技术中对文件存储优化方案单一的问题。
[0006]为实现上述目标及其他相关目标,本发明提供一种基于Hadoop分布式文件系统的存储优化方法,包括:配置Hadoop分布式文件系统的环境;判断待存储数据文件容量是否大于预设阈值,若否,则判断为小文件,经第一优化处理后存储;若是,则判断为大文件,经第二优化处理后存储;其中,所述第一优化处理包括=Hadoop分布式系统中HAR格式的处理,所述第二优化处理包括基于Hadoop分布式系统的Hive工具的ORCFile格式的处理。
[0007]可选的,所述预设阈值包括:128M。
[0008]可选的,所述经第一优化处理后的小文件存储于第一目录;所述经第二优化处理后的大文件存储于第二目录。
[0009]可选的,所述的存储优化方法,还包括:分别关联第一目录及第二目录建立数据存储表。
[0010]可选的,所述配置Hadoop分布式文件系统的环境,包括:配置Namenode HA和ResourceManager HA 功會泛。
[0011]为实现上述目标及其他相关目标,本发明提供一种Hadoop分布式文件系统,包括:配置模块,用于配置Hadoop分布式文件系统的环境;存储处理模块,用于判断待存储数据文件容量是否大于预设阈值,若否,则判断为小文件,经第一优化处理后存储;若是,则判断为大文件,经第二优化处理后存储;其中,所述第一优化处理包括=Hadoop分布式系统中HAR格式的处理,所述第二优化处理包括基于Hadoop分布式系统的Hive工具的ORCFile格式的处理。
[0012]可选的,所述预设阈值包括:128M。
[0013]可选的,所述经第一优化处理后的小文件存储于第一目录;所述经第二优化处理后的大文件存储于第二目录。
[0014]可选的,所述的Hadoop分布式文件系统,还包括:建表模块,用于分别关联第一目录及第二目录建立数据存储表。
[0015]可选的,所述配置Hadoop分布式文件系统的环境,包括:配置Namenode HA和ResourceManager HA 功會泛。
[0016]如上所述,本发明提供Hadoop分布式文件系统及其存储优化方法,配置Hadoop分布式文件系统的环境;判断待存储数据文件容量是否大于预设阈值,若否,则判断为小文件,经第一优化处理后存储;若是,则判断为大文件,经第二优化处理后存储;其中,所述第一优化处理包括=Hadoop分布式系统中HAR格式的处理,所述第二优化处理包括基于Hadoop分布式系统的Hive工具的ORCFile格式的处理;对应不同容量的文件作不同优化存储处理,尤其是在海量文件的存储上,有效提升性能。
【附图说明】
[0017]图1显示为本发明一实施例中基于Hadoop分布式文件系统的存储优化方法的流程不意图。
[0018]图2显示为本发明一实施例中Hadoop分布式文件系统的结构示意图。
[0019]元件标号说明
[0020]IHadoop分布式文件系统
[0021]11配置模块
[0022]12存储处理模块
[0023]SI?S4 方法步骤
【具体实施方式】
[0024]以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的【具体实施方式】加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0025]如图1所示,本发明提供一种基于Hadoop分布式文件系统的存储优化方法,包括:
[0026]步骤S1:配置Hadoop分布式文件系统的环境。
[0027]在一实施例中,所述配置Hadoop分布式文件系统的环境,可以是搭建Hadoop2.6的集群环境,并配置好HIVE、HDFS等环境与配置,并设置好Namenode HA (Namenode高可用性)和ResourceManager HA(资源管理器高可用性)功能,使分布式系统满足高可用性。
[0028]步骤S2:判断待存储数据文件容量是否大于预设阈值。
[0029]在一实施例中,所述待存储数据文件的来源可以是通过Flume获取的源数据,对数据的文件大小进行判断;Flume是Cloudera公司提供的一个高可用、高可靠的分布式的海量日志采集、聚合和传输的工具;Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
[0030]在一实施例中,所述预设阈值包括:128M ;若在预设阈值以下可认为是小文件,若大于预设阈值可认为是大文件,此处预设阈值为128M仅为优选例,并非以此为限,例如在HDFS中小于其块大小(block size,默认64M)的文件即可认为是小文件,因此,该预设阈值可以根据实际需求加以变化。
[0031]步骤S3:若否,则判断为小文件,经第一优化处理后存储;
[0032]步骤S4:若是,则判断为大文件,经第二优化处理后存储;
[0033]其
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1