1.一种基于分布式文件系统的多层重复数据删除方法,其特征在于,所述方法包括以下步骤:
获取待写入文件的数字指纹;
判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;
若是,则记录所述待写入文件的元数据信息;
若否,则将待写入文件按预设方式切片,并获取每个切片的数字指纹;
判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;
若是,则将所述切片的元数据信息记录到存储节点中;
若否,则将所述切片及该切片的数字指纹发送到对应的存储节点。
2.如权利要求1所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片及该切片的数字指纹发送到对应的存储节点之后还包括步骤:
判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;
若是,则确认该切片写入成功;
若否,则写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。
3.如权利要求2所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将所述切片写入磁盘,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表之后还包括步骤:
定时获取系统负载;
当系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。
4.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述将待写入文件按预设方式切片,并获取每个切片的数字指纹具体包括步骤:
判断所述待写入文件的大小是否大于预设值;
若是,则将所述待写入文件按预设大小切片;
若否,则将所述待写入文件整体确定为一个切片。
5.如权利要求1-3任一项所述的基于分布式文件系统的多层重复数据删除方法,其特征在于,所述获取待写入文件的数字指纹具体包括步骤:
获取所述待写入文件的MD5校验值和sha值;
将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。
6.一种基于分布式文件系统的多层重复数据删除装置,其特征在于,包括:
第一获取模块,用于获取待写入文件的数字指纹;
第一判断模块,用于判断全局文件数字指纹列表中是否存在所述待写入文件的数字指纹;
第一记录模块,用于在所述第一判断模块的判断结果为“是”时,记录所述待写入文件的元数据信息;
切片模块,用于在所述第一判断模块的判断结果为“否”时,将待写入文件按预设方式切片,并获取每个切片的数字指纹;
第二判断模块,用于判断全局文件切片数字指纹列表中是否存在所述切片的数字指纹;
第二记录模块,用于在所述第二判断模块的判断结果为“是”时,将所述切片的元数据信息记录到存储节点中;
发送模块,用于在所述第二判断模块的判断结果为“否”时,将所述切片及该切片的数字指纹发送到对应的存储节点。
7.如权利要求6所述的基于分布式文件系统的多层重复数据删除装置,其特征在于,还包括:
第三判断模块,用于判断当前存储节点的切片数字指纹列表中是否存在所述切片的数字指纹;
确认模块,用于在所述第三判断模块判断为“是”时时,确认该切片写入成功;
写入模块,用于在所述第三判断模块判断为“否”时,写入所述切片,并将所述切片的数字指纹记录到本存储节点的切片数字指纹列表。
8.如权利要求7所述的基于分布式文件系统的多层重复数据删除装置,其特征在于,还包括:
第二获取模块,用于定时获取系统负载;
上传模块,用于在系统负载低于预设值时,将每个存储节点的切片数字指纹列表中的信息上传至所述全局切片数字指纹列表。
9.如权利要求6-8任一项所述的基于分布式文件系统的多层重复数据删除装置,其特征在于,所述切片模块具体包括:
判断单元,用于判断所述待写入文件的大小是否大于预设值;
切片单元,用于在所述判断单元的判断结果为“是”时,将所述待写入文件按预设大小切片;
确定单元,用于在所述判断单元的判断结果为“否”时,将所述待写入文件整体确定为一个切片。
10.如权利要求6-8任一项所述的基于分布式文件系统的多层重复数据删除装置,其特征在于,所述第一获取模块具体包括:
获取单元,用于获取所述待写入文件的MD5校验值和sha值;
叠加单元,用于将所述MD5校验值和sha值的字符串叠加作为待写入文件的数字指纹。