一种集群文件系统重复数据删除方法

文档序号:7866094阅读:307来源:国知局
专利名称:一种集群文件系统重复数据删除方法
技术领域
本发明涉及到计算机集群存储领域,具体的说是一种集群文件系统重复数据删除方法。
背景技术
目前,大规模的集群文件系统能提供PB级甚至是EB级数据存储,存储空间不再是存储技术的瓶颈。但是,数以EB级的物理存储介质会使得集群文件系统在外观上很庞大,这就给集群文件系统部署、维护和使用带来不便。而企业存储的数据如果按数据块去划分,就会有很多重复的、冗余的数据,这些数据是没有必要存储在集群上的。如果能只保存一份数据又能看到存储数据的完整性,这样就能大大节省存储空间,减少存储成本。

发明内容
本发明针对现有集群文件系统的数据存储方面存在的不足之处,提出一种集群文件系统重复数据删除方法。该方法适用于多客户端、大容量的分布式或并行集群文件系统,是按如下方式解决所述技术问题的该方法是在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,使得在集群文件系统上只存储一份数据,并在被重复删除的数据所属的文件中提供指向该数据块的索引,保证了文件的可读和可用;其体系结构包括集群文件系统模块、接口节点模块及客户端模块。
`
下面对该方法体系结构的各个组成模块进行说明
集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块,同时负责存储数据的高可用性、高可靠性,确保数据安全和可恢复性;
客户端模块负责提供外部数据写入集群文件系统存储空间的接口,客户端支持windows和Linux两种客户端;
接口节点模块负责将集群文件系统的存储空间提供给客户端使用,在客户端的接口节点上部署重复数据删除技术,并提供windows客户端访问集群文件系统的接口。所述Linux客户端,在其上部署基于数据块级的重复数据删除技术,配置samba服务,并直接将集群文件系统挂载到Linux客户端目录上;所述数据块级支持4K到512K之间的不同数据块。所述windows客户端,在其接口节点上配置samba服务,windows客户端不需要部署重复数据技术;当用户需要用到windows客户端时,通过samba服务将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;当用户不使用windows客户端时,接口节点的角色则变成集群文件系统的Linux客户端。本发明的一种集群文件系统重复数据删除方法的有益效果是使用该方法,用户可根据需求选择相应重复删除数据块的大小,通过在接口节点部署重复数据删除软件,使得写入到集群文件系统数据只存储一份数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。


附图1为本发明所述方法的体系结构示意图。
具体实施例方式为了使本发明的目的、技术方案更加清晰,下面结合附图对本发明作进一步详细说明。该方法体系结构包括集群文件系统模块、接口节点模块及客户端模块,是在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,保证在集群文件系统上只存储一份数据,被重复删除的数据在其所属的文件中提供了指向该数据块的索引,保证了文件 的可读和可用。该方法适用于大规模、多客户端的分布式、并行文件系统,通过在集群文件系统的客户端部署重复数据删除技术,使得数据在写入时就删除冗余、重复的数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。对本方法体系结构的各个组成模块进行详细说明
集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块;同时还负责存储数据的高可用性、高可靠性,确保数据安全和可恢复性。客户端模块负责提供外部数据写入集群文件系统存储空间的接口,也就是用户与文件系统的接口,客户端支持windows和Linux两种客户端。由于Linux客户端容易配置,所以直接将文件系统挂载到客户端目录上,在windows客户端的接口节点上配置samba服务,将部署有重复删除软件的卷(卷容量是使用集群文件系统空间)映射给windows客户端,这样用户在windows客户端上写入重删卷的数据,经过重删技术后最终也是存到集群文件系统上。接口节点模块负责将集群文件系统的存储空间提供给windows客户端使用,也能做Linux客户端使用。另外,重复数据删除技术部署在接口节点上,使得保存到集群存储的数据只保存一份。实际上是在集群文件系统的Linux客户端上部署基于数据块级的重复数据删除技术,实现重复数据在线删除,并提供windows客户端访问集群文件系统的接口。当用户不需要使用windows客户端时,接口节点的角色就变成集群文件系统的Linux客户端。本发明所述方法的整体系统结构如图1所示。该集群文件系统重复数据删除方法的具体操作过程如下
(1)在若干台服务器上搭建具有高可靠性、高可用性的集群文件系统;
(2)用服务器或PC机作为集群文件系统客户端,在该客户端上挂载集群文件系统;
(3)在集群文件系统客户端挂载目录上部署重复数据删除软件,该节点就能作为集群文件系统的Linux客户端使用;
(4)若用户需要用到windows客户端,则在Linux客户端上配置samba服务,将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;
(5)具有重复数据删除的集群文件系统部署完毕,用户能在Linux客户端或windows客户端上写数据。
除说明书所述技术特征之外,均为本专业技术人员的已知技术。
权利要求
1.一种集群文件系统重复数据删除方法,其特征在于,在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,使得在集群文件系统上只存储一份数据,并在被重复删除的数据所属的文件中提供指向该数据块的索引,保证了文件的可读和可用;其体系结构包括集群文件系统模块、接口节点模块及客户端模块; 其中,集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块; 客户端模块负责提供外部数据写入集群文件系统存储空间的接口,客户端支持windows和Linux两种客户端; 接口节点模块负责将集群文件系统的存储空间提供给客户端使用,在客户端的接口节点上部署重复数据删除技术,并提供windows客户端访问集群文件系统的接口。
2.根据权利要求1所述的方法,其特征在于,所述Linux客户端,在其上部署基于数据块级的重复数据删除技术,配置samba服务,并直接将集群文件系统挂载到Linux客户端目录上。
3.根据权利要求1所述的方法,其特征在于,所述windows客户端,在其接口节点上配置samba服务,不需要部署重复数据删除技术,当用户需要用到windows客户端时,通过samba服务将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;当用户不使用windows客户端时,接口节点则变成集群文件系统的Linux客户端。
4.根据权利要求2所述的方法,其特征在于,所述数据块级支持4K到512K之间的不同数据块。
全文摘要
本发明的一种集群文件系统重复数据删除方法,涉及到计算机集群存储领域。该方法是在集群文件系统所有客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,保证在集群文件系统上只存储一份数据,被重复删除的数据在其所属的文件中提供了指向该数据块的索引,保证了文件的可读和可用,其体系结构包括集群文件系统模块、接口节点模块及客户端模块。本发明所述方法的有益效果是通过在接口节点部署重复数据删除软件,使得写入到集群文件系统数据只存储一份数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。
文档编号H04L29/08GK103051671SQ20121047584
公开日2013年4月17日 申请日期2012年11月22日 优先权日2012年11月22日
发明者张延良, 胡振, 孟圣智 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1