一种高复用分布式存储方法及系统的制作方法

文档序号:10534431阅读:327来源:国知局
一种高复用分布式存储方法及系统的制作方法
【专利摘要】本申请公开了一种高复用分布式存储方法及系统,该方法包括:利用待存储的原始文件数据,相应地生成至少一条数据信息链;根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,存储区域为物理存储设备上的空闲存储区域。可见,在本申请中,由于最终存储下来的数据形式为二进制格式,所以能够利用现有低廉的物理存储设备对上述二进制编码序列进行存储,从而实现了对现有低端物理存储设备的高复用,而无需利用昂贵的存储设备进行存储,由此降低了大数据存储成本。
【专利说明】
一种高复用分布式存储方法及系统
技术领域
[0001]本发明涉及数据读写技术领域,特别涉及一种高复用分布式存储方法及系统。
【背景技术】
[0002]当前,随着大数据时代的到来,人们每天在工作和生活中会产生海量数据。为了存储这些大数据,人们开发出了高性能高容量的物理存储设备,利用这些物理存储设备,可以有效地对海量数据进行存储。
[0003]然而,上述物理存储设备的购买成本非常高,令一般的客户难以承受。可见,如何降低大数据存储成本是目前有待解决的问题。

【发明内容】

[0004]有鉴于此,本发明的目的在于提供一种高复用分布式存储方法及系统,大幅降低了大数据存储成本。其具体方案如下:
[0005]—种高复用分布式存储方法,包括:
[0006]利用待存储的原始文件数据,相应地生成至少一条数据信息链;
[0007]根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;
[0008]将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,所述存储区域为物理存储设备上的空闲存储区域。
[0009]优选的,所述利用待存储的原始文件数据,相应地生成至少一条数据信息链的过程,包括:
[0010]获取待存储的原始文件数据;
[0011 ]对所述待存储文件数据进行分解,相应地得到至少一条数据信息链。
[0012]优选的,所述对所述待存储文件数据进行分解,相应地得到至少一条数据信息链的过程,包括:
[0013]对所述原始文件数据进行特征提取,相应地得到至少一种数据特征信息;
[0014]根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。
[0015]优选的,所述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。
[0016]优选的,所述方法,还包括:
[0017]获取客户端发送的针对目标文件数据的数据读取请求;
[0018]对所述目标文件数据进行解析,以确定用于合成所述目标文件数据的所有数据信息链;
[0019]根据合成所述目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列;
[0020]将读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至所述客户端。
[0021]本发明还公开了一种高复用分布式存储系统,包括:
[0022]信息链生成模块,用于利用待存储的原始文件数据,相应地生成至少一条数据信息链;
[0023]信息链转译模块,用于根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;
[0024]序列分布存储模块,用于将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,所述存储区域为物理存储设备上的空闲存储区域。
[0025]优选的,所述信息链生成模块包括:
[0026]数据获取子模块,用于获取待存储的原始文件数据;
[0027]数据分解子模块,用于对所述待存储文件数据进行分解,相应地得到至少一条数据信息链。
[0028]优选的,所述数据分解子模块包括:
[0029]特征信息提取单元,用于对所述原始文件数据进行特征提取,相应地得到至少一种数据特征信息;
[0030]信息映射单元,用于根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。
[0031 ]优选的,所述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。
[0032]优选的,所述系统,还包括:
[0033]读取请求获取模块,用于获取客户端发送的针对目标文件数据的数据读取请求;
[0034]数据解析模块,用于对所述目标文件数据进行解析,以确定用于合成所述目标文件数据的所有数据信息链;
[0035]序列读取模块,用于根据合成所述目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列;
[0036]信息链合并模块,用于将所述序列读取模块读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至所述客户端。
[0037]本发明中,高复用分布式存储方法包括:利用待存储的原始文件数据,相应地生成至少一条数据信息链;根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,存储区域为物理存储设备上的空闲存储区域。可见,在本发明中,当需要进行数据存储时,先利用原始文件数据生成相应的数据信息链,然后将每条数据信息链转译成至少两段的二进制编码序列,并将转译后的序列分发至不同的存储区域进行存储。由于最终存储下来的数据形式为二进制格式,所以能够利用现有低廉的物理存储设备对上述二进制编码序列进行存储,从而实现了对现有低端物理存储设备的高复用,而无需利用昂贵的存储设备进行存储,由此降低了大数据存储成本。另外,由于本发明是将一条数据量较大的数据信息链转译成至少两段的二进制编码序列,进而进行存储的,也即是将低维存储转变成了高维存储,这样能够降低最终存储的每一段序列的数据容量,从而可以利用低廉物理存储设备上的零碎存储区域对相应的二进制编码序列进行存储,由此大幅提高了单位区域的存储效率。
【附图说明】
[0038]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1为本发明实施例公开的一种高复用分布式存储方法流程图;
[0040]图2为本发明实施例公开的一种具体的高复用分布式存储方法流程图;
[0041]图3为本发明实施例公开的一种高复用分布式存储系统结构示意图。
【具体实施方式】
[0042]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]本发明实施例公开了一种高复用分布式存储方法,参见图1所示,该方法包括:
[0044]步骤Sll:利用待存储的原始文件数据,相应地生成至少一条数据信息链。
[0045]在生成数据信息链时,可相应地记录原始文件数据与数据信息链之间的对应关系O
[0046]步骤S12:根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列。
[0047]步骤S13:将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,存储区域为物理存储设备上的空闲存储区域。
[0048]需要说明的是,上述步骤S13中,不同的存储区域可以是位于不同物理存储设备上的存储区域,也可以是指位于同一物理存储设备上的不同存储区域。
[0049]本实施例中的物理存储设备可以是目前现有技术中能够对二进制数据进行存储的各式各样的物理存储设备。
[0050]可以理解的是,上述将二进制编码序列存储至相应的存储区域时,需记录相应存储区域中存储的起始地址。
[0051]本发明实施例中,高复用分布式存储方法包括:利用待存储的原始文件数据,相应地生成至少一条数据信息链;根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,存储区域为物理存储设备上的空闲存储区域。可见,在本发明实施例中,当需要进行数据存储时,先利用原始文件数据生成相应的数据信息链,然后将每条数据信息链转译成至少两段的二进制编码序列,并将转译后的序列分发至不同的存储区域进行存储。由于最终存储下来的数据形式为二进制格式,所以能够利用现有低廉的物理存储设备对上述二进制编码序列进行存储,从而实现了对现有低端物理存储设备的高复用,而无需利用昂贵的存储设备进行存储,由此降低了大数据存储成本。另外,由于本发明实施例是将一条数据量较大的数据信息链转译成至少两段的二进制编码序列,进而进行存储的,也即是将低维存储转变成了高维存储,这样能够降低最终存储的每一段序列的数据容量,从而可以利用低廉物理存储设备上的零碎存储区域对相应的二进制编码序列进行存储,由此大幅提高了单位区域的存储效率。
[0052]本发明实施例公开了一种具体的高复用分布式存储方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
[0053]上一实施例步骤Sll中,利用待存储的原始文件数据,相应地生成至少一条数据信息链的过程,包括下面步骤SI 11和SI 12;其中,
[0054]步骤SI11:获取待存储的原始文件数据;
[0055]步骤SI12:对待存储文件数据进行分解,相应地得到至少一条数据信息链。
[0056]具体的,上述步骤S112中,对待存储文件数据进行分解,相应地得到至少一条数据信息链的过程,包括下面步骤S1121和步骤S1122;其中,
[0057]步骤S1121:对原始文件数据进行特征提取,相应地得到至少一种数据特征信息;
[0058]步骤SI122:根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。
[0059]其中,上述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。
[0060]需要说明的是,上述数据信息链与二进制编码序列之间映射关系的确定可以通过参考生物信息编码解码机制来实现。例如,通过参考遗传信息表达成蛋白质载体以携带编码信息的机制来实现。其中,一条数据信息链对应一条氨基酸信息链,而每段二级制编码序列则构成一个密码子,多个密码子则对应于一条氨基酸信息链。
[0061 ]参见图2所示,本发明实施例中的高复用分布式存储方法,还进一步包括:
[0062]步骤S21:获取客户端发送的针对目标文件数据的数据读取请求;
[0063]步骤S22:对目标文件数据进行解析,以确定用于合成目标文件数据的所有数据信息链;
[0064]步骤S23:根据合成目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列;
[0065]步骤S24:将读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至客户端。
[0066]相应的,本发明实施例公开了一种高复用分布式存储系统,参见图3所示,该系统包括:
[0067]信息链生成模块31,用于利用待存储的原始文件数据,相应地生成至少一条数据信息链;
[0068]信息链转译模块32,用于根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列;
[0069]序列分布存储模块33,用于将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,存储区域为物理存储设备上的空闲存储区域。
[0070]可见,在本发明实施例中,当需要进行数据存储时,先利用原始文件数据生成相应的数据信息链,然后将每条数据信息链转译成至少两段的二进制编码序列,并将转译后的序列分发至不同的存储区域进行存储。由于最终存储下来的数据形式为二进制格式,所以能够利用现有低廉的物理存储设备对上述二进制编码序列进行存储,从而实现了对现有低端物理存储设备的高复用,而无需利用昂贵的存储设备进行存储,由此降低了大数据存储成本。另外,由于本发明实施例是将一条数据量较大的数据信息链转译成至少两段的二进制编码序列,进而进行存储的,也即是将低维存储转变成了高维存储,这样能够降低最终存储的每一段序列的数据容量,从而可以利用低廉物理存储设备上的零碎存储区域对相应的一.进制编码序列进彳丁存储,由此大幅提尚了单位区域的存储效率。
[0071]本发明实施例公开了一种具体的高复用分布式存储系统,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
[0072]上一实施例中的信息链生成模块,具体可以包括数据获取子模块和数据分解子模块;其中,
[0073]数据获取子模块,用于获取待存储的原始文件数据;
[0074]数据分解子模块,用于对待存储文件数据进行分解,相应地得到至少一条数据信息链。
[0075]其中,上述数据分解子模块具体包括特征信息提取单元和信息映射单元;其中,
[0076]特征信息提取单元,用于对原始文件数据进行特征提取,相应地得到至少一种数据特征信息;
[0077]信息映射单元,用于根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。
[0078]具体的,上述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。
[0079]本实施例中的高复用分布式存储系统,还进一步包括:
[0080]读取请求获取模块,用于获取客户端发送的针对目标文件数据的数据读取请求;[0081 ]数据解析模块,用于对目标文件数据进行解析,以确定用于合成目标文件数据的所有数据信息链;
[0082]序列读取模块,用于根据合成目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列;
[0083]信息链合并模块,用于将序列读取模块读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至客户端。
[0084]最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0085]以上对本发明所提供的一种高复用分布式存储方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种高复用分布式存储方法,其特征在于,包括: 利用待存储的原始文件数据,相应地生成至少一条数据信息链; 根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的二进制编码序列; 将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,所述存储区域为物理存储设备上的空闲存储区域。2.根据权利要求1所述的高复用分布式存储方法,其特征在于,所述利用待存储的原始文件数据,相应地生成至少一条数据信息链的过程,包括: 获取待存储的原始文件数据; 对所述待存储文件数据进行分解,相应地得到至少一条数据信息链。3.根据权利要求2所述的高复用分布式存储方法,其特征在于,所述对所述待存储文件数据进行分解,相应地得到至少一条数据信息链的过程,包括: 对所述原始文件数据进行特征提取,相应地得到至少一种数据特征信息; 根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。4.根据权利要求1至3任一项所述的高复用分布式存储方法,其特征在于,所述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。5.根据权利要求1至3任一项所述的高复用分布式存储方法,其特征在于,还包括: 获取客户端发送的针对目标文件数据的数据读取请求; 对所述目标文件数据进行解析,以确定用于合成所述目标文件数据的所有数据信息链; 根据合成所述目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列; 将读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至所述客户端。6.一种高复用分布式存储系统,其特征在于,包括: 信息链生成模块,用于利用待存储的原始文件数据,相应地生成至少一条数据信息链;信息链转译模块,用于根据预设信息转译规则,将每条数据信息链转译为两段或两段以上的一■进制编码序列; 序列分布存储模块,用于将与每条数据信息链对应的所有二进制编码序列分发至不同的存储区域进行存储;其中,所述存储区域为物理存储设备上的空闲存储区域。7.根据权利要求6所述的高复用分布式存储系统,其特征在于,所述信息链生成模块包括: 数据获取子模块,用于获取待存储的原始文件数据; 数据分解子模块,用于对所述待存储文件数据进行分解,相应地得到至少一条数据信息链。8.根据权利要求7所述的高复用分布式存储系统,其特征在于,所述数据分解子模块包括: 特征信息提取单元,用于对所述原始文件数据进行特征提取,相应地得到至少一种数据特征信息; 信息映射单元,用于根据预设信息映射机制,将每一种数据特征信息映射成相应的数据信息链。9.根据权利要求6至8任一项所述的高复用分布式存储系统,其特征在于,所述预设信息转译规则为用于确定数据信息链与二进制编码序列之间映射关系的规则;其中,任一数据信息链均与至少两段的二进制编码序列对应。10.根据权利要求6至8任一项所述的高复用分布式存储系统,其特征在于,还包括: 读取请求获取模块,用于获取客户端发送的针对目标文件数据的数据读取请求; 数据解析模块,用于对所述目标文件数据进行解析,以确定用于合成所述目标文件数据的所有数据信息链; 序列读取模块,用于根据合成所述目标文件数据的所有数据信息链,从相应的物理存储设备中读取出相应的二进制编码序列; 信息链合并模块,用于将所述序列读取模块读取出的所有二进制编码序列转译成相应的数据信息链并进行合并处理,然后将合并后得到的文件数据反馈至所述客户端。
【文档编号】G06F3/06GK105892956SQ201610410851
【公开日】2016年8月24日
【申请日】2016年6月13日
【发明人】杨宁, 罗华永, 李兴, 尚枫, 黄海, 吕国远, 何金
【申请人】北京中电普华信息技术有限公司, 国网信息通信产业集团有限公司, 国家电网公司, 国网天津市电力公司信息通信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1