数据分片的处理以及垃圾文件的删除方法和装置的制造方法

文档序号：8905276阅读：456来源：国知局

数据分片的处理以及垃圾文件的删除方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及计算机技术，尤其涉及一种数据分片的处理以及垃圾文件的删除方法和装置。
【背景技术】
[0002]一般来说，数据在数据库中主要通过Key-Value (键值对)的方式进行存储。每一个键名(Key)中存储有对应的键值(Value)，通过键名可以查找到相应的键值，进而可以对该键值完成一定的数据操作。此外，为了实现对数据库中数据的快速读写，数据库中存储的数据一般为全序数据。
[0003]全序数据在逻辑上看是一个按key排序的超大数据集(数据行数在万亿量级以上)，由于其数据量巨大，仅通过一个或者几个服务器是无法将超大数据集完全存储下来的。因此，在现有的分布式全序存储系统中，需要将海量全序数据以分布式的方式分散存储在服务器集群的各个数据分片中。其中，不同的数据分片存储于一个或者多个分片服务器，不同分片中所存储的数据信息范围被统一存储于管理服务器的分片元信息中。这样，多个分片服务器通过一个管理服务器进行统一的调度配置，即可实现对全序数据的各类操作。
[0004]显然，数据库中存储的全序数据是动态变化的，随着对数据的持续增删操作，分片的大小会发生变化，因此需要对较大分片进行分裂，并对较小的分片进行合并，而如何将存储全序数据的数据分片进行合理且高效的分裂/合并是目前一个非常重要的研宄课题。
[0005]现有的分片分裂/合并技术的实现方法主要有如下两种:
[0006]1、离线分裂/合并。本方案在分片分裂/合并的时候需要停止服务。然后将分片内的旧数据离线写入至新分片中，再修改分片元信息生效。这种实现的分裂/合并效率非常低，需要增加一倍的带宽/计算资源，且需要长时间停止服务，在对实时性要求较高的场景下是不可接受的；
[0007]2、基于文件链接的分裂。在本方案中，分片的物理存储对应于一个文件系统目录，如果生成新的分片，只需要在新分片目录下创建旧文件的链接。这种方案无需移动数据，可在线分裂，无需停止服务。但需要依赖文件系统的链接功能，且无法有效实现分片合并。

【发明内容】

[0008]有鉴于此，本发明实施例提供一种数据分片的处理以及垃圾文件的删除方法和装置，以优化现有的分布式全序存储系统中数据分片的处理机制，满足人们日益增长的便捷化、高效化的数据分片的处理需求。
[0009]在第一方面，本发明实施例提供了一种分布式全序存储系统中数据分片的处理方法，包括:
[0010]在分布式全序存储系统生成全序数据分片的过程中，获取与所述数据分片对应的至少一个属性描述信息，其中，所述属性描述信息包括数据迭代信息；
[0011]将所述属性描述信息写入与所述数据分片对应的文件元信息中；
[0012]在接收到对至少一个目标数据分片的处理指示时，对与所述目标数据分片对应的文件元信息中的数据迭代信息进行处理，以实现对所述目标数据分片的处理。
[0013]在第二方面，本发明实施例提供了一种垃圾文件的删除方法，包括:
[0014]查询分布式全序存储系统中与各数据分片对应的文件元信息，获取第一文件列表，其中，所述文件元信息中存储有与数据分片对应的属性描述信息，且所述属性描述信息中包括有数据迭代信息；
[0015]扫描与所述分布式全序存储系统对应的文件系统，获取第二文件列表；
[0016]计算所述第一文件列表与所述第二文件列表的差集，作为待删除文件列表；
[0017]删除所述分布式全序存储系统中与所述待删除文件列表相匹配的数据文件。
[0018]在第三方面，本发明实施例提供了一种分布式全序存储系统中数据分片的处理装置，包括:
[0019]属性描述信息获取模块，用于在分布式全序存储系统生成全序数据分片的过程中，获取与所述数据分片对应的至少一个属性描述信息，其中，所述属性描述信息包括数据迭代信息；
[0020]属性描述信息写入模块，用于将所述属性描述信息写入与所述数据分片对应的文件元信息中；
[0021]文件元信息处理模块，用于在接收到对至少一个目标数据分片的处理指示时，对与所述目标数据分片对应的文件元信息中的数据迭代信息进行处理，以实现对所述目标数据分片的处理。
[0022]在第四方面，本发明实施例提供了一种垃圾文件的删除装置，包括:
[0023]第一文件列表获取单元，用于查询分布式全序存储系统中与各数据分片对应的文件元信息，获取第一文件列表，其中，所述文件元信息中存储有与数据分片对应的属性描述信息，且所述属性描述信息中包括有数据迭代信息；
[0024]第二文件列表获取单元，用于扫描与所述分布式全序存储系统对应的文件系统，获取第二文件列表；
[0025]待删除文件列表计算单元，用于计算所述第一文件列表与所述第二文件列表的差集，作为待删除文件列表；
[0026]数据文件删除单元，用于删除所述分布式全序存储系统中与所述待删除文件列表相匹配的数据文件；
[0027]所述第一文件列表获取单元具体用于:
[0028]获取所述分布式全序存储系统中与各数据分片对应的文件元信息作为待处理文件元信息；
[0029]根据各所述待处理文件元信息中的数据迭代信息以及文件存储位置信息，获取所述待处理文件元信息中包括的分裂文件元信息，和/或合并文件元信息，其中，所述分裂文件元信息具体包括经过分裂处理后的文件元信息，所述合并文件元信息具体包括经过合并处理后的文件元信息；
[0030]根据所述分裂文件元信息，和/或所述合并文件元信息，生成所述第一文件列表。
[0031]本发明实施例通过将数据分片的数据迭代信息写入与数据分片对应的文件元信息中的技术手段，实现了在接收到对目标数据分片的处理指示时，无需直接处理该目标数据分片中存储的数据文件，仅通过对与所述目标数据分片对应的文件元信息进行处理，即可完成对所述目标数据分片的处理的技术效果，无需对数据文件进行任何移动或修改，优化了现有的分布式全序存储系统中数据分片的处理机制，满足人们日益增长的便捷化、高效化的数据分片的处理需求。
【附图说明】
[0032]图1是本发明第一实施例的一种分布式全序存储系统中数据分片的处理方法的流程图；
[0033]图2是本发明第二实施例的一种分布式全序存储系统中数据分片的处理方法的流程图；
[0034]图3是本发明第三实施例的一种分布式全序存储系统中数据分片的处理方法的流程图；
[0035]图4是本发明实施例中所应用的分片元信息、文件元信息以及数据分片之间的关系不意图；
[0036]图5是本发明实施例中管理服务器以及分片服务器之间的信息交互示意图；
[0037]图6是本发明实施例中数据分片的分裂以及合并的实际耗时示意图；
[0038]图7是本发明第四实施例的一种垃圾文件的删除方法的流程图；
[0039]图8是本发明第四实施例的一种具体的垃圾文件的删除过程的流程图；
[0040]图9是本发明第五实施例的一种分布式全序存储系统中数据分片的处理装置的结构图；
[0041]图10是本发明第六实施例的一种垃圾文件的删除装置的结构图。
【具体实施方式】
[0042]为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0043]第一实施例
[0044]图1为本发明第一实施例提供的一种分布式全序存储系统中数据分片的处理方法的流程图，本实施例的方法可以由分布式全序存储系统中数据分片的处理装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于分布式全序存储系统中的分片服务器中，与分布式全序存储系统中的管理服务器配合使用。本实施例的方法具体包括:
[0045]110、在分布式全序存储系统生成全序数据分片的过程中，获取与所述数据分片对应的至少一个属性描述信息，其中，所述属性描述信息包括数据迭代信息。
[0046]如前所述，对于PB (petabyte，千万亿字节)以上的全序数据，仅通过单一服务器是很难将其完整存储下来的。因此需要使用分布式全序存储系统将全序数据进行数据分片后，存储于不同的分片服务器中。
[0047]在本实施例中，在分布式全序存储系统生成全序数据分片的过程中，获取与各个数据分片对应的包括有数据迭代信息的属性描述信息。
[0048]所述数据迭代信息具体用于标识其所对应的数据分片中所包括的全序数据的范围。相应的，所述数据迭代信息可以包括所述数据分片中存储的全序数据的起始数据标识(典型的，Key-Value中的Key值)以及结束数据标识；也可以包括所述数据分片中存储的全序数据的起始数据顺序号以及结束数据顺序号；还可以包括所述数据分片中存储的全序数据的起始数据标识以及所包括的全序数据的数目等，本实施例对此并不进行限制。
[0049]举例而言，

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐佩林;颜世光;覃安;李康;梁栋;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：基于频繁项集的数据关联性分析和预读取方法
上一篇：一种只读内存数据库的实现方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。