一种云存储系统中基于模糊聚类的重复数据删除方法与流程

文档序号:15932599发布日期:2018-11-14 01:52阅读:150来源:国知局

本发明主要涉及到计算机存储领域,特别涉及到一种云存储系统中基于模糊聚类的重复数据删除方法。



背景技术:

目前全球的数字化浪潮带来了海量的数据信息,人类社会已经进入了信息化和大数据时代。据idc预计,到2020年,人类所产生的数据量将超过40zb。云存储系统作为当下最热门的存储数据的系统,在储存海量数据时,将会出现很多重复数据,有的系统中数据重复率高达70%~80%。因此需要重复数据删除技术来删除冗余数据,以减少储存空间的占用,节约网络带宽,同时减少数据中心的储存花费和日常能耗。

与其它的存储系统不同的是,云存储系统中存储的数据类型多样,例如邮件服务器(mail),虚拟机映像(vm),web服务器(web)数据集,照片集(照片),音乐库(音频)等等,但是不同数据类型间的冗余数据很少。



技术实现要素:

针对重复数据在云存储系统中,对检索造成的麻烦,但同时不同类型文件间冗余量可以忽略不计。本发明公开了一种云存储系统中基于模糊聚类的重复数据删除方法。

本发明为了实现上述目的所采用的技术方案:对存储空间的文件按类型进行分类,然后分块,对数据块进行哈希计算,提取指纹特征。构建初始聚类中心,分别计算待存储文件与各个聚类中心的隶属度,根据文件隶属度选择适合的聚类,通过数据块指纹比对来达到删除重复数据的目的,并更新聚类中心。

与现有技术相比,本方法的优点在于:

本发明具有计算速度快的优点,有更少的指纹比对量,同时提高了系统的可拓展性。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示,本发明技术方案的具体步骤为:

步骤1、对来自客户端待存储的文件,确定其文件类型,其特征所述的确定文件类型还应包括以下步骤:

根据待存储文件的头部信息,可以确定文件的类型。如通过ultraedit得到的jpg文件的文件头为ffd8ff,xml文件的文件头为3c3f786d6c。

步骤2、构建初始聚类中心,其特征在于所述的构建初始聚类中心的方法还应包括以下步骤:

设存储空间的文件可按文件类型划分为c类,对于每类文件都随机地选取至少f个文件,对选取的文件进行分块,计算每个数据块的指纹。

例如,对于类型为i的文件组可以得到它的指纹集合p={p1,p2,......,pl},随机地选取指纹集合p中的m个数据块指纹作为聚类i的聚类中心,up={p1,p2,......,pm},并记录集合p中所有数据块指纹的出现次数k,删除集合p中的重复数据块,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给数据块的出现次数k加1。

依次对c个指纹集合进行处理,得到c个独立的聚类中心。

步骤3、根据步骤1中得到的文件类型和步骤2中得到的聚类中心。其特征所描述的计算待存储文件与各个聚类中心的隶属度的过程还应包含以下步骤:

1)设存储空间有待存储文件s,对文件s进行分块,计算各数据块的指纹,得到文件s的所有数据块的指纹集合,sp={sp1,sp2,......,spn}。

2)为了简便计算,本发明对文件指纹集合采取抽样处理,在得到的文件s指纹集合sp中,随机地选取t个数据块指纹,组成样本集合vp={sp1,sp2,......,spt}。

3)选择与文件s具有相同类型的聚类,计算文件s与各个聚类中心的相似度,例如,聚类中心i和文

件s的样本相似度为:

但是使用抽样的样本集合计算的相似度代表整个文件的相似度并不准确。

假设文件与聚类中心的冗余块有b个,抽到冗余块的概率为q,样本抽样的数量t是那么抽到冗余块的概率符合离散型随机变量的分布规律,可得抽到冗余块的期望为e:

抽样样本的相似度r为:

则文件s与聚类i的重复率有ri:

其中ri表示文件s的样本与聚类中心i的相似度。

4)计算文件s与各个聚类的隶属度,例如文件s与聚类i的隶属度为:

步骤4、根据得到的隶属度,文件与某个聚类的隶属度越接近1,则说明文件s属于该聚类的程度越高,并且文件s与该聚类的重复数据块越多。按照隶属度的高低,依次比对文件与各个聚类中的所有指纹数据,删除重复数据块,并更新聚类中心,只留下索引信息和非重复数据块。其特征所描述的聚类的选择以及聚类中心更新的方法还应该包括以下步骤:

1)设定一个隶属度阈值δ,0<δ<1。对于隶属度小于阈值δ的聚类,文件将不再进行数据指纹的比对,若待存储的文件对所有聚类的隶属度都小于δ,则保存该文件,再随机地选取m个指纹,将其作为新的聚类中心。

2)按待存储文件s与各个聚类中心的隶属度a(s)值由高到低,依次与各个聚类中心中的所有指纹数据进行比对,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1。

3)查找完所有符合条件的聚类以后,将文件中剩余的非重复数据块指纹存入隶属度最高的聚类中。

4)在存储了文件以后,对各个进行了重复数据块删除的聚类,按k值由大到小,依次选取m个数据块指纹作为新的聚类中心。当聚类中具有相同k值的数据块指纹超过m个时,则随机选取m个数据块指纹,将其作为新的聚类中心。



技术特征:

技术总结
本发明提出了一种云存储系统中基于模糊聚类的重复数据删除方法。本发明步骤:首先,对来自客户端待存储的文件,确定其文件类型;其次,构建初始聚类中心;然后,依次计算待存储文件的数据指纹集合与各聚类中心的隶属度;最后,按照隶属度的高低,选择合适的聚类,将文件的各数据块指纹与该聚类中所有的数据块指纹进行精确比对,舍弃指纹相同的数据块,只留下重复数据块的索引信息和非重复数据块,从而达到删除重复数据的目的,并更新聚类中心。本发明对文件的数据块指纹采取抽样处理,考虑抽样的数量,结合样本的相似度构建隶属度函数。本发明具有计算速度快的优点,有更少的指纹比对量,适用于云存储系统。

技术研发人员:龙赛琴;刘子浩;曾令斌;周思恒
受保护的技术使用者:湘潭大学
技术研发日:2018.06.06
技术公布日:2018.11.13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1