数据存储方法及装置的制造方法

文档序号:9546881阅读:283来源:国知局
数据存储方法及装置的制造方法
【技术领域】
[0001] 本发明实施例涉及数据存储技术,尤其涉及一种数据存储方法及装置。
【背景技术】
[0002] 随着信息化技术的发展和深入,企业对数据的依赖不断增强。与此同时,急速增长 的数据量也给管理和使用带来了全新的挑战。面对数据的爆炸性增长,仅仅提高网络设备 的运算能力和增加存储介质容量已经不能满足高速发展的各种数据应用,因此,对高效数 据缩减技术的需求已经逐步显现出来,并且越来越迫切。
[0003] 其中,数据缩减技术主要包括的是重复数据删除的方法,所谓重复数据删除则是 着眼于删除重复出现的数据。重复数据删除的实现由三个基本操作组成:首先,待处理数据 (文件)被分割成固定或可变大小的数据块,然后计算各数据块的指纹,其中,指纹是对一 个数据块通过某种算法处理后得到的一个数值,数据块的任何变化都会导致指纹的不同, 因此指纹可以有效标识数据块。最后,丢弃重复出现的数据块。比如:各个数据块对应的指 纹分别为:A、B、C、B、A、D、A和C,那么,网络设备最后应该丢弃重复重现的A、B和C它们对 应的数据块。
[0004] 然而,现有技术中,当数据块完全相同时,采用上述方法可以进行重复数据的删 除,当两个数据块仅有少量数据不一样,则必然导致这两个数据块的指纹也不相同,这时网 络设备根据指纹确定不进行重复数据删除。针对这种情况,并不能达到降低占用存储空间 的效果。

【发明内容】

[0005] 本发明实施例提供一种数据存储方法及装置,从而达到降低占用存储空间的效 果。
[0006] 第一方面,本发明实施例提供一种数据存储方法,包括:网络设备确定至少两个数 据块之间的数据关联关系;若网络设备根据数据关联关系在函数库中成功匹配到数据关联 关系对应的函数;则该网络设备根据数据块和函数确定待输入的参数信息,该参数信息用 于代入函数中,得到对应的数据块。并将每个数据块存储为一个数据结构;或者,网络设备 根据至少两个数据块和函数确定待输入的参数信息,并将至少两个数据块存储为一个数据 结构;其中,该数据结构包括:函数索引和参数信息,该函数索引与函数一一对应。由于该 数据存储方法只需要存储函数索引和参数信息即可,无需将整个数据块中的所有数据进行 存储,从而达到降低占用存储空间的效果。
[0007] 可选地,该网络设备将每个数据块存储为一个数据结构,具体包括:
[0008] 若至少两个数据块之间存在的数据关联关系为第一数据块和第二数据块之间存 在相同的数据段,并将相同的数据段作为基准段;
[0009] 则网络设备将第一数据块存储为第一数据结构,第二数据块存储为第二数据结 构;
[0010] 其中,第一数据结构包括:第一函数索引和第一参数信息;该第一参数信息包括: 第一数据和第一位置信息,该第一数据为该述第一数据块中除上述基准段之外的数据,该 位置信息用于表示所述第一数据和所述基准段的位置关系;
[0011] 第二数据结构包括:第一函数索引和第二参数信息;该第二参数信息包括:第二 数据和第二位置信息,该第二数据为该第二数据块中除上述基准段之外的数据,该位置信 息用于表示第二数据和基准段的位置关系;此外,第一函数索引对应的函数包括上述基准 段。
[0012] 通过将原来的两个数据块分别存储为上述的第一数据结构和第二数据结构,由于 第一数据结构和第二数据结构中只是包括对应的函数索引和参数信息,从而大大较少了存 储的数据量,从而达到降低占用存储空间的效果。
[0013] 进一步地,网络设备读取上述第一数据结构和第二数据结构过程包括:只需要根 据第一位置信息组合第一数据和基准段,得到第一数据块;同样,根据第二位置信息组合第 二数据和基准段,得到第二数据块。从而可以准确地读取数据结构对应的原始数据块。
[0014] 更进一步地,上述第一参数信息和上述第二参数信息都包括:基准段索引,该基准 段索引与上述基准段对应;因此,网络设备根据第一位置信息组合第一数据和基准段,得到 第一数据块之前,还包括:网络设备根据基准段索引在第一函数索引对应的函数中进行基 准段匹配。
[0015] 通过建立基准段索引的方式,可以使得网络设备快速匹配到索引对应的基准段。
[0016] 可选的,该网络设备将至少两个数据块存储为一个数据结构,具体包括:
[0017] 若至少两个数据块之间存在的数据关联关系为至少两个数据块中的所有数据构 成等差数列;
[0018] 则网络设备将至少两个数据块存储为一个数据结构;
[0019] 其中,参数信息包括:该等差数列的首项、公差和项数。
[0020] 从而使得数据存储时只需存储等差数列的首项、公差和项数,无需存储等差数列 的每一项,大大较少了存储的数据量,从而达到降低占用存储空间的效果。
[0021] 进一步地,针对具有等差数列特征的各个数据块,网络设备读取过程包括:网络设 备将等差数列的首项、公差和项数参数信息代入函数中,得到等差数列的每一项。从而可以 准确地读取数据结构对应的原始数据块。
[0022] 网络设备根据所述数据关联关系在函数库中匹配所述数据关联关系对应的函数, 包括:网络设备扫描函数库中的各个函数;若存在一个函数中包括数据关联关系,则匹配 成功。从而实现函数与数据关联关系的匹配过程。
[0023] 可选地,若该网络设备根据该数据关联关系在网络设备上的函数库中未成功匹配 到函数;则该网络设备根据该数据关联关系建立函数,并将函数存入函数库中。通过建立函 数不断的完善函数库,从而可以提高数据关联关系与函数的匹配效率。
[0024] 下面将介绍发明实施例提供一种数据存储装置,其中装置部分与上述方法对应, 对应内容技术效果相同,在此不再赘述。
[0025] 第二方面,本发明实施例提供一种数据存储装置,包括:确定模块、匹配模块和存 储模块;该确定模块,用于确定至少两个数据块之间的数据关联关系;若该匹配模块根据 数据关联关系在函数库中成功匹配到数据关联关系对应的函数;则确定模块根据数据块和 函数确定待输入的参数信息,并且存储模块将每个数据块存储为一个数据结构;或者,确定 模块根据至少两个数据块和函数确定待输入的参数信息,并且存储模块将至少两个数据块 存储为一个数据结构;其中,数据结构包括:函数索引和参数信息,函数索引与函数一一对 应;该参数信息用于代入所述函数中,得到对应的数据块。
[0026] 可选地,该存储模块具体用于:若至少两个数据块之间存在的数据关联关系为第 一数据块和第二数据块之间存在相同的数据段,并将相同的数据段作为基准段;则存储模 块将第一数据块存储为第一数据结构,第二数据块存储为第二数据结构;
[0027] 第一数据结构包括:第一函数索引和第一参数信息;第一参数信息包括:第一数 据和第一位置信息,第一数据为第一数据块中除基准段之外的数据,位置信息用于表示第 一数据和所述基准段的位置关系;
[0028] 第二数据结构包括:第一函数索引和第二参数信息;第二参数信息包括:第二数 据和第二位置信息,第二数据为第二数据块中除所述基准段之外的数据,位置信息用于表 示所述第二数据和所述基准段的位置关系;其中,第一函数索引对应的函数包括基准段。
[0029] 进一步地,该装置还包括:第一获得模块;第一获得模块用于根据第一位置信息 组合第一数据和所述基准段,获得第一数据块;第一获得模块还用于根据第二位置信息组 合第二数据和所述基准段,获得第二数据块。
[0030] 更进一步地,第一参数信息和第二参数信息都包括:基准段索引,基准段索引与基 准段对应;则匹配模块还用于根据基准段索引在第一函数索引对应的函数中进行基准段匹 配。
[0031] 可选地,该存储模块具体用于:若至少两个数据块之间存在的数据关联关系为至 少两个数据块中的所有数据构成等差数列;则存储模块将至少两个数据块存储为一个数据 结构;其中,参数信息包括:等差数列的首项、公差和项数。
[0032] 进一步地,该装置还包括:第二获得模块,用于将等差数列的首项、公差和项数参 数信息代入所述函数中,获得等差数列的每一项。
[0033] 可选地,匹配模块具体用于扫描函数库中的各个函数;若存在一个函数中包括数 据关联关系,则匹配成功。
[0034] 可选地,该装置还包括:建立模块:若存储模块根据数据关联关系在函数库中未 成功匹配到函数;则建立模块根据数据关联关系建立函数,并且存储模块将建立的函数存 入函数库中。
【附图说明】
[0035] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以 根据这些附图获得其他的附图。
[0036] 图1为本发明一实施例提供的一种数据存储方法的流程图;
[0037] 图2A为本发明一实施例提供的Windows NTFS的示意图;
[0038] 图2B为本发明一实施例提供的用户1与用户2的NTFS分区的示意图;
[0039] 图2C为现有技术与基于本发明存储方法的重复数据删除示意图;
[0040] 图3A为本发明一实施例提供的写处理流程图;
[0041] 图3B为本发明一实施例提供的读处理流程图;
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1