千万级小文件数据的一种读写解决策略的制作方法

文档序号:6636815阅读:979来源:国知局
千万级小文件数据的一种读写解决策略的制作方法
【专利摘要】本发明提供一种千万级小文件数据的一种读写解决策略,设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件;首先将磁盘空间划分为多个块,大文件的连续磁盘空间就由这一系列块所组成,遇到的文件比较小时,每个小文件只能存放在单个块中,不能跨越2个块存放,每个文件数据都存放在连续的磁盘空间上。本发明主要是通过将逻辑上连续的小文件数据尽可能的存储在物理磁盘的连续空间之内,这样就提高用户对文件访问的并发性操作,从而提高了小文件的访问性能;采用Cache技术充当元数据服务器的角色,同时通过设计一种简化的小文件信息节点数据结构Node,大大提高Cache利用率和小文件读取性能。
【专利说明】千万级小文件数据的一种读写解决策略
[0001]

【技术领域】 本发明涉及计算机应用【技术领域】,具体地说是一种千万级小文件数据的一种读写解决 策略。

【背景技术】
[0002] 在现阶段的读取、存储领域小文件是数据访问、使用的最常见的数据形式。相对于 大文件的条带化技术进行切片,来提高用户对文件访问的并发性,小文件64KB)由于其 不利于条带化,传统的方法一般是采用将单个文件存储在单个数据服务器上的策略,但是 当小文件的数量到达一定程度之后,对小文件的大量地重复访问将会给数据服务器带来性 能上的负担及I/O瓶颈问题,由于互联网上的数据信息大多以高频率的小文件形式表现出 来,而且在一般用户的信息读取、存储中,对小文件的读取、存储较多,因此对互联网上高频 率的小文件读/写性能的研究有重要的现实意义。
[0003] 在现阶段,传统的针对千万级小文件的处理、操作等管理上主要存在以下3个方 面的问题: 1、 由于小文件的访问频率较高,需要多次访问磁盘,所以磁盘I/O的性能较低; 2、 因为文件比较小,容易形成文件碎片而造成磁盘空间的浪费; 3、 为每个小文件请求建立一个连接时容易产生网络时延,降低了小文件的读取速率。


【发明内容】

[0004] 本发明的目的是克服现有技术中存在的不足,提供一种千万级小文件数据的一种 读写解决策略。
[0005] 本发明的技术方案是按以下方式实现的,其特点是设计在存储小文件时通过采用 开辟大块的连续磁盘空间的方式来存储大量的小文件;首先将磁盘空间划分为多个块,每 个块的大小为64KB,大文件的连续磁盘空间就由这一系列块所组成,当遇到的文件比较小 时,每个小文件只能存放在单个块中,不能跨越2个块存放,每个文件数据都存放在连续的 磁盘空间上,在一个块中存放多个小文件Al, A2, A3, A4和A5为5个文件,文件与文件之间 连续存放,Al与A2, A3与A4,红色部分为此块的碎片,当出现文件的大小小于这些碎片的 大小时,应优先把文件存放在这些碎片中,本发明的存储布局中设计的是将逻辑上连续的 数据尽可能地存储在物理磁盘的连续空间上,将同一个文件的数据或将同一个文件夹下的 文件数据尽可能地存储在连续的磁盘空间块上,每一个文件夹将拥有一个或多个块,这些 块都只存放此文件夹的文件; 在本系统的数据存储结构中,我们将文件信息节点的属性信息存放在元数据服务器 上,在I/O服务器上,只需要知道文件的磁盘空间信息即可进行访问,在I/O服务器上,只需 要记录文件的磁盘空间信息,而不需要记录文件的其他属性;对Node的数据结构进行简化 设计,只保留文件的磁盘空间信息以及属于它的少量数据成员; 针对本系统的数据存储访问频率问题,首先,设计一个全局变量NodeList,NodeList 是对Node的一个排序链表,根据文件的访问频率进行排序,它是为了实现优化文件传输而 设计的,为整个小文件读取、存储解决方案服务。NodeList是对与每个文件夹而服务的,根 据文件夹里的每个文件的访问频率形成一个排序列表,当用户访问该文件夹里的某个文件 时,系统会自动地将这个列表里高访问频率的文件一起发送过去设定一个高访问频率的阈 值巧,并将所有访问频率高于忍的文件顺序分成多个组,每个组可能包含多个文件,组中 所有文件大小之和不超过64KB,每当用户请求当前文件夹中的一个文件时,系统会按照顺 序将一个组的文件一起发送过去,从而降低文件传输时延,f &的计算公式如下:

【权利要求】
1.千万级小文件数据的一种读写解决策略,其特征在于设计在存储小文件时通过采用 开辟大块的连续磁盘空间的方式来存储大量的小文件;首先将磁盘空间划分为多个块,每 个块的大小为64KB,大文件的连续磁盘空间就由这一系列块所组成,当遇到的文件比较小 时,每个小文件只能存放在单个块中,不能跨越2个块存放,每个文件数据都存放在连续的 磁盘空间上,在一个块中存放多个小文件Al,A2, A3, A4和A5为5个文件,文件与文件之间 连续存放,Al与A2, A3与A4,红色部分为此块的碎片,当出现文件的大小小于这些碎片的 大小时,应优先把文件存放在这些碎片中,本发明的存储布局中设计的是将逻辑上连续的 数据尽可能地存储在物理磁盘的连续空间上,将同一个文件的数据或将同一个文件夹下的 文件数据尽可能地存储在连续的磁盘空间块上,每一个文件夹将拥有一个或多个块,这些 块都只存放此文件夹的文件; 在本系统的数据存储结构中,我们将文件信息节点的属性信息存放在元数据服务器 上,在I/O服务器上,只需要知道文件的磁盘空间信息即可进行访问,在I/O服务器上,只需 要记录文件的磁盘空间信息,而不需要记录文件的其他属性;对Node的数据结构进行简化 设计,只保留文件的磁盘空间信息以及属于它的少量数据成员; 针对本系统的数据存储访问频率问题,首先,设计一个全局变量NodeList,NodeList 是对Node的一个排序链表,根据文件的访问频率进行排序,它是为了实现优化文件传输而 设计的,为整个小文件读取、存储解决方案服务; NodeList是对与每个文件夹而服务的,根据文件夹里的每个文件的访问 频率形成一个排序列表,当用户访问该文件夹里的某个文件时,系统会自动 地将这个列表里高访问频率的文件一起发送过去设定一个高访问频率的阈值 ?;,并将所有访问频率高于?;的文件顺序分成多个组,每个组可能包含多个文件,组中所 有文件大小之和不超过64ΚΒ,每当用户请求当前文件夹中的一个文件时,系统会按照顺序 将一个组的文件一起发送过去,从而降低文件传输时延,g , Fs的计算公式如下:
朽:为文件夹每个文件的访问频率,η为当前文件夹中的文件个数,N由用户自己设置 数值。
【文档编号】G06F17/30GK104391961SQ201410718009
【公开日】2015年3月4日 申请日期:2014年12月3日 优先权日:2014年12月3日
【发明者】张砚波, 吴丙涛 申请人:浪潮集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1