云存储中一种重复数据删除算法的制作方法

文档序号:11063315阅读:587来源:国知局

本发明涉及计算机存储、云存储中重复数据的删除及检索、信号处理领域。



背景技术:

随着信息技术和网络技术的发展,大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术。只有备份还不够;重复数据删除与压缩即将成为主存储的必备功能。重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针来最小化数据量;这个指针通过给定大小的数据模式进行哈希创建。目前只有少数主存储阵列提供重复数据删除作为产品的附加功能;据报道,只有不到5%的磁盘阵列真正支持在线重复数据删除与压缩,通过数据去重节约的空间十分可观。研究表明,在云存储应用系统所保存的数据中,高达60%的数据是冗余的,以重复数据为主导的冗余数据所占比例也将随着时间的推移而上升,重复数据删除作为一项应用于存储系统上的数据管理技术,有必要结合数据特征和存储规模来探讨。

重复数据删除技术不仅能够更好地利用昂贵的闪存资源,而且也比较容易实现。与大多数存储供应商相比,数据去重技术在闪存上的表现更好,因为每秒的输入/输出操作对闪存来说几乎无须任何代价。

同样,对于租用云空间的用户来说,大量重复数据充斥在云空间内,不仅对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销。所以本发明将重复数据删除理论引入云存储中,从而帮助云租户最大价值的利用云空间。



技术实现要素:

针对现有技术的上述不足,本发明提出了云存储中一种重复数据删除算法。

针对以上问题,本发明提出了以下技术方案:

本发明提出一种云存储中一种重复数据删除算法,采用4阶累积量切片实现对云存储系统重复数据信息流的能量聚集和噪声抑制,进行重复数据检测后置滤波处理,创建多个线程的信息流特征编码,实现对重复数据的删除。具体步骤如下:

步骤1:数据分块。

步骤2:生成校验信息存储子集。

步骤3:生成重复数据集合。

步骤4:重复数据流分数Fourier构造变换简化。

步骤5:重复数据检测。

步骤6:数据删重。

本发明的有益效果是:

1、有效避免数据信息流的干扰特征造成的误删和漏删;

2、对云存储系统中重复数据的检测性能较好;

3、重复数据删除准确性高;

4、综合性能优于传统算法。

具体实施方式

步骤1:数据分块

在云存储中,分为三个角色,客户端负责用户信息的采集和命令生成,服务端负责管理用户的操作和请求,也就是负责对数据的冗余进行鉴定,云空间负责存储用户信息。在本算法中,首先要将数据进行分块,假设信息F是由若干个文件组成,将每一个文件作为一个完整的数据块进行分块,那么得到完整的数据信息流为:

其中,t0、tg分别表示数据块边界偏移的个体极值和全局极值进化停滞步数;T0、Tg分别表示个体极值和全局极值需要扰动的停滞步数阈值。

步骤2:生成校验信息存储子集

根据云存储中的Qos偏好,将数据存储的适应度函数定义为如下:

fij=ωtσtcσcqσqsσs

其中,ωtcqs=1,t代表时间,c代表花费、q代表质量、s代表安全,不同应用文件在选择相同的划分策略和指纹提取方法时候,各个存储子集组合成一个具有层次结构树状图,得到存储节点的系统子集随机概率分布函数为:

ω(epkq)=α×ω(spkq)

重复数据的双随机概率分布函数的权重主要依据它在所属双随机概率分布函数中出现的概率来计算,而所有双随机概率分布函数都是围绕一个核心概率函数展开的,得到重复数据信息流的存储节点权重ω(epkq),以此计算存储集群系统的校验信息存储子集,计算方法为:

对多个任务流中的重复数据进行在线编码调度,云存储系统将启动下一存储子集,客户端向文件服务器请求源数据,得到存储系统生成校验位为:

flowk=(n1,n2,...nq),q∈N

步骤3:生成重复数据集合

假设云存储系统重复数据流信息的目标端信息分量为:

r1=x(t)-c1

采用窗函数宽度可变方法对频率分辨力进行调整,重复数据一般都会备份到远端存储节点,可以利用重删系统中文件信息流进行相位信息评估,得到重复数据出现的概率权重为:

ωij=β×ω(epkq),β>1

重复数据信息流通过网络传输到远端节点的输出向量模型为:

进而计算得到重复数据的集合为:

P=(p1,p2,...pm),m∈N

步骤4:重复数据流分数Fourier构造变换简化

重复数据的集合为:P=(p1,p2,...pm),m∈N,假设其输入信息流为x(t),则将分数Fourier变换定义为:

其中,p为分数阶Fourier域的阶,是实数,旋转角α=pπ/2,Fα[*]表示变换算子形式记号,KP(t,u)是FRFT的变换核。

步骤5:重复数据检测

根据上面建立的变换表达式以及重复数据的丢失信息流特征,对其进行分解,得到简化后的表达式为:

X=Fα·x

式中,X=[Xα(0),Xα(1),...,Xα(N-1)]T,Fα是一个N×N维矩阵,存储系统中各个节点需要创建多个线程的信息流特征编码,得到重复数据信息流矩阵各元素为:

由此实现对重复数据信息流的检测。

步骤6:数据删重

经过6中滤波处理后,得到的重复数据信息流作为输入向量,进行删重计算;重复数据的文件系统层设训练样本集为X=|X1,X2,...,Xk,...XN]T,其中任意训练样本为Xk=[xk1,xk2,...,xkm,...xkm],,采用以此设计的检测滤波系统,得到云存储系统中的重复数据信息流的离散分数阶Fourier逆变换可表示为:

定义云存储系统中的源端节点存储数据的4阶累积量切片表达式为:

式中,在目标端重删系统中,假设的对角切片表达为那么多个客户端节点的数据对角切片在分数fourier域上的离散时间点为n处的检测计量为则有其4阶混合累积表达式为:

式中,γ为客户端节点的数据带宽,h(j)为云存储系统的滤波函数,τ为重复数据重构时延,采用分数阶Fourier变换方法结合4阶累积量后置处理,得到重复数据信息流的删除后的系统输出为:

Yk=[yk1,yk2,...,ykj,…xkJ],k=1,2,...N

采用4阶累积量切片后置算子,通过k次分解后,把每个文件分为若干个块,针对每个文件块进行重删,实现存储资源上的重复数据检测及其删除,提高抗干扰能力,减低误删概率,从而提高了集群云存储系统计算资源的利用率。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1