基于分布式的文件存储方法、系统、介质和计算设备与流程

文档序号:29911183发布日期:2022-05-06 01:26阅读:69来源:国知局
基于分布式的文件存储方法、系统、介质和计算设备与流程

1.本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及一种基于分布式的文件存储方法、系统、介质和计算设备。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.随着科学技术的进步,各行各业纷纷开始向信息化转型,数据的总量正在几何级数增长。面对数据的大爆炸,分布式存储成为现代信息存储的必然选择。目前,在以hadoop分布式文件系统(hadoop distributed file system,hdfs)为代表的分布式文件存储技术领域中,广泛使用hdfs高效处理各类大文件。然而,在实践中发现,hdfs存储文件的过程中会出现海量的小文件,会占用大量的内存资源,导致了访问存储文件的速度降低。


技术实现要素:

4.在本上下文中,本发明的实施方式期望提供一种基于分布式的文件存储方法、系统、介质和计算设备。
5.在本发明实施方式的第一方面中,提供了一种基于分布式的文件存储方法,应用于列式文件存储系统,包括:
6.将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
7.对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
8.将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
9.在本发明实施方式的第二方面中,提供了一种基于分布式的文件存储系统,所述文件存储系统为列式文件存储系统,包括:
10.数据存储单元,用于将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
11.提取单元,用于对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
12.元数据存储单元,用于将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
13.在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。
14.在本发明实施方式的第四方面中,提供了一种计算设备,包括第三方面所述的存储介质。
15.根据本发明实施方式的基于分布式的文件存储方法、系统、介质和计算设备,该方法是应用于列式文件存储系统的,能够将待存储数据文件存储至数据存储文件尾部,并从待存储数据文件中提取出待存储元数据文件,将待存储元数据文件存储至元数据存储文件尾部,通过上述方式可以在列式文件存储系统的基础上在数据存储文件/元数据存储文件尾部追加待存储数据文件/待存储元数据文件,可以将体量较小的待存储数据文件/待存储元数据文件追加存储至体量较大的数据存储文件/元数据存储文件中,以使数据存储文件/元数据存储文件根据追加的待存储数据文件/待存储元数据文件形成体量更大的存储文件,可见,基于列式文件存储系统对体量较小的待存储数据文件/待存储元数据文件进行追加存储的过程中不会出现大量的体量更小的小文件,因此无需考虑存储大量的小文件,简化了列式文件存储系统的存储过程,提升了在列式文件存储系统中访问存储文件的速度。
附图说明
16.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
17.图1为本发明一实施例提供的基于分布式的文件存储方法的流程示意图;
18.图2为本发明另一实施例提供的基于分布式的文件存储方法的流程示意图;
19.图3为本发明一实施例提供的基于分布式的文件存储方法中的逻辑文件结构示意图;
20.图4为本发明一实施例提供的基于分布式的文件存储方法中的数据存储文件结构示意图;
21.图5为本发明一实施例提供的基于分布式的文件存储方法中元数据存储文件的头部元数据文件的结构示意图;
22.图6为本发明一实施例提供的基于分布式的文件存储方法中元数据存储文件的追加元数据文件的结构示意图;
23.图7为本发明一实施例提供的基于分布式的文件存储系统的结构示意图;
24.图8示意性地示出了本发明实施例的一种介质的结构示意图;
25.图9示意性地示出了本发明实施例的一种计算设备的结构示意图。
26.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
27.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
28.本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
29.根据本发明的实施方式,提出了一种基于分布式的文件存储方法、系统、介质和计
算设备。
30.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
31.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
32.示例性方法
33.下面参考图1,图1为本发明一实施例提供的基于分布式的文件存储方法的流程示意图。需要注意的是,本发明的实施方式可以应用于适用的任何场景。
34.图1所示的本发明一实施例提供的基于分布式的文件存储方法的流程,包括:
35.步骤s101,将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
36.步骤s102,对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
37.步骤s103,将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
38.本实施例是应用于列式文件存储系统的,能够将待存储数据文件存储至数据存储文件尾部,并从待存储数据文件中提取出待存储元数据文件,将待存储元数据文件存储至元数据存储文件尾部,通过上述方式可以在列式文件存储系统的基础上在数据存储文件/元数据存储文件尾部追加待存储数据文件/待存储元数据文件,可以将体量较小的待存储数据文件/待存储元数据文件追加存储至体量较大的数据存储文件/元数据存储文件中,以使数据存储文件/元数据存储文件根据追加的待存储数据文件/待存储元数据文件形成体量更大的存储文件,可见,基于列式文件存储系统对体量较小的待存储数据文件/待存储元数据文件进行追加存储的过程中不会出现大量的体量更小的小文件,因此无需考虑存储大量的小文件,简化了列式文件存储系统的存储过程,提升了在列式文件存储系统中访问存储文件的速度。
39.下面结合附图说明如何提升访问存储文件的速度建议:
40.本发明实施例中,待存储数据文件中可以包含各种类型的数据文件,例如文字类型的数据文件、音频类型的数据文件、视频类型的数据文件或图像类型的数据文件等,对此,本发明实施例不做限定。待存储数据文件中包含需要存储的所有数据的数据信息,待存储数据文件可以认为是原始且完整的数据文件,因此,可以将待存储数据文件存储至与待存储数据文件匹配的数据存储文件尾部。需要说明的是,本实施例是应用于列式文件存储系统的,可以在列式文件存储系统中通过追加的方式将待存储数据文件存储至数据存储文件尾部。
41.本发明实施例中,可以从待存储数据文件中提取出待存储数据文件对应的待存储元数据文件,例如,可以通过spark data source api得到待存储元数据文件,待存储元数据文件中可以为待存储数据文件的总结信息,即待存储元数据文件中可以包括以下之一:待存储数据文件的版本信息、表信息、总数据行数、总数据组数、额外信息、创建信息、列顺序、每个块包含的列数、每块的总字节数、每块的行数、每块的列顺序、每列文件的路径、每列文件的位移、每列的元数据、每列元数的类型、每列数据的编码列表、每列字段在整个表中的路径、每列文件的压缩编码、每列数据值、每列文件的未压缩的大小、每列文件压缩的
大小、每列文件关键元数据信息、每列文件数据内容的位移、每列索引页的位移、每列字典页的位移、每列每页的编码信息以及每列静态信息等。
42.本发明实施例中,待存储元数据文件可以通过与待存储数据文件中的信息进行提取得到,待存储元数据文件中可以包括对待存储数据文件中数据的总结信息、数据的类型信息、数据的总字节数等信息。可见,待存储元数据文件的格式类型通常为字符数据类型和数值数据类型,通过字符数据类型和数值数据类型的数据文件记录待存储数据文件的各种数据信息,而待存储数据文件的格式类型可以为文字类型、音频类型、图像类型或视频类型等,对此,本发明实施例不做限定。在多种情况下,待存储元数据文件的格式类型与待存储数据文件的格式类型是不同的,因此,待存储元数据文件可以另外存储在与待存储元数据文件匹配的元数据存储文件尾部。需要说明的是,本实施例是应用于列式文件存储系统的,由此,待存储元数据文件也可以在列式文件存储系统中通过追加的方式存储至元数据存储文件尾部,通过在元数据存储文件/数据存储文件的尾部追加存储待存储元数据文件/待存储数据文件,可以避免出现大量的小文件,提升了列式存储的效率。
43.请参阅图2,图2为本发明另一实施例提供的基于分布式的文件存储方法的流程示意图,图2所示的本发明另一实施例提供的基于分布式的文件存储方法的流程包括:
44.步骤s201,当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件;
45.步骤s202,将所述待存储数据文件在所述尾部数据文件之后存储。
46.实施上述的步骤s201~步骤s202,可以从数据存储文件中获取尾部数据文件,并将待存储数据文件存储在该尾部数据文件之后,保证了待存储数据文件存储的准确性。
47.本发明实施例中,数据存储文件中可以包含两个部分,第一部分可以为数据存储文件的文件头,第二部分可以为文件头后追加的一个或多个数据存储模块,数据存储模块中可以存储待存储数据文件,且一个数据存储模块中仅存储一个待存储数据文件。当有新的待存储数据文件需要存储时,可以在数据存储文件最后一个尾部数据文件之后创建新的数据存储模块,并将新的待存储数据文件存储至新的数据存储模块。
48.步骤s203,将所述待存储数据文件的数据存储信息存储至逻辑文件中;
49.本发明实施例中,所述逻辑文件中包括但不限于标识文件和主体文件;所述主体文件中包括但不限于时间标签、元数据标签、元数据操作信息、数据标签以及数据操作信息,逻辑文件可以为列式文件存储系统中的一部分,可以将数据存储文件存储待存储数据文件的时间同时备份至逻辑文件的时间标签中,同时还可以将待存储数据文件的数据标识备份至逻辑文件的数据标签中,以及还可以将待存储数据文件存储至数据存储文件的操作过程备份至逻辑文件的数据操作信息中;以及,可以将元数据存储文件存储待存储元数据文件的时间同时备份至逻辑文件的时间标签中,同时还可以将待存储元数据文件的元数据标识备份至逻辑文件的元数据标签中,以及还可以将待存储元数据文件存储至元数据存储文件的操作过程备份至逻辑文件的元数据操作信息中,可以使每次存储待存储数据文件/待存储元数据文件的全部过程都在逻辑文件中进行备份,当数据存储文件/元数据存储文件出现损坏的情况时,可以根据逻辑文件中存储的备份信息对损坏的存储文件进行修复,保证了数据存储文件/元数据存储文件的安全性。
50.本发明实施例中,可以将待存储数据文件存储至数据存储文件中的数据存储信息
存储至逻辑文件中,数据存储信息中至少可以包括存储待存储数据文件的时间、待存储数据文件的数据标签以及存储待存储数据文件的存储操作,可以将存储待存储数据文件的时间存储至逻辑文件中的时间标签中,也可以将待存储数据文件的数据标签存储至逻辑文件中的数据标签中,还可以将存储待存储数据文件的存储操作存储至逻辑文件中的数据操作中。
51.请一并参阅图3,图3为本发明一实施例提供的基于分布式的文件存储方法中的逻辑文件结构示意图;其中,magic number可以表示逻辑文件的文件头,可以用来标识文件,sps1 4 bytes可以表示在逻辑文件中每个字段所占空间为4字节,append row可以表示逻辑文件的主体,一行append row可以表示一次数据操作日志,append row可以由5部分组成,包括时间标签(timetag)、元数据标签(metatag)、元数据操作(metaop)、数据标签(datatag)以及数据操作(dataop)。
52.可选的,步骤s201当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件的方式具体可以为:
53.当预先存储有与待存储数据文件匹配的数据文件时,获取所述逻辑文件中的数据存储信息;
54.通过所述数据存储信息对存储所述数据文件的数据存储文件的完整性进行校验,得到第一校验结果;
55.当所述第一校验结果指示所述数据存储文件完整时,从所述数据存储文件中获取尾部数据文件。
56.其中,实施这种实施方式,可以在检测到预先存储有与待存储数据文件匹配的数据文件时,从逻辑文件中获取到数据存储信息,数据存储信息中包含了数据文件中存储的数据存储文件的所有存储信息,因此可以通过数据存储信息与数据存储文件进行完整性校验,确定数据存储文件是否完整,得到第一校验结果,如果第一校验结果指示数据存储文件完整,可以将待存储数据文件追加存储在数据存储文件的尾部数据文件后,保证了已存储的数据存储文件的完整性。
57.本发明实施例中,逻辑文件中可以存储有存储待存储数据文件的时间标签、数据标签、数据操作、元数据标签以及元数据操作等信息,因此可以从逻辑文件中获取到与已存储的数据存储文件对应的数据存储信息(如时间标签、数据标签和数据操作),基于得到的数据存储信息对已存储的数据存储文件进行完整性校验,得到第一校验结果,如果第一校验结果指示数据存储文件完整时,可以将待存储数据文件存储至数据存储文件尾部,以保证数据存储文件的完整性。
58.当所述第一校验结果指示所述数据存储文件不完整时,所述方法还可以包括以下步骤:
59.从所述数据存储信息中获取数据存储操作信息;
60.基于所述数据存储操作信息对所述数据存储文件进行修复,得到完整的数据存储文件。
61.其中,实施这种实施方式,可以在已存储的数据存储文件不完整时,通过数据存储操作信息对数据存储文件进行修复,以使数据存储文件在出现损失的情况下也能及时的修复。
62.本发明实施例中,如果第一校验结果指示数据存储文件不完整时,可以先确定不完整的数据存储文件的文件标识,并且可以从逻辑文件的数据存储信息中获取到与文件标识对应的数据存储操作信息(如文件标识对应的时间标签、数据标签以及数据操作),可以根据数据存储操作信息还原出完整的与文件标识对应的数据存储文件,并且可以通过还原出的数据存储文件对不完整的数据存储文件进行更新,以使数据存储文件中出现损失的数据存储文件可以及时的进行修复,保证了数据存储文件的完整性。
63.本发明实施例中,所述数据存储文件中包括但不限于数据标识文件和数据主体文件;所述数据主体文件为列式的数据块,所述数据块中包括但不限于头部信息、层级信息以及数据值,数据存储文件中的数据标识文件可以用于标识数据存储文件为特殊的列式文件存储系统中的数据存储文件,拥有特殊的存储文件的数据结构,在数据标识文件之后追加有一个或多个数据主体文件,数据主体文件中包括多个列式的数据块,待存储数据文件可以存储至数据主体文件的列式数据块中,可以使得数据存储文件的结构标识更加清晰,同时使得数据存储文件中不同模块的功能区分也更加清晰。
64.请一并参阅图4,图4为本发明一实施例提供的基于分布式的文件存储方法中的数据存储文件结构示意图;其中,magic number可以表示数据存储文件的文件头,可以用于标识数据存储文件为特殊的列式文件存储系统中的数据存储文件,拥有特殊的存储文件的数据结构,spd1 4bytes可以表示在数据存储文件中每个字段所占空间为4字节,数据存储文件中的数据存储模块可以为block,block的数量可以为一个或多个,block内部可以为列式的数据块(column chunk),每个数据块由数据页(page)组成,每个page的内部结构由数据页头部(page header)、层级信息(datapageheader、including、repetitionlevels、definitionlevels)以及值(values)等信息构成。
65.作为一种可选的实施方式,当未存储有与待存储数据文件匹配的数据文件时,所述方法还包括以下步骤:
66.创建数据存储文件;
67.将所述待存储数据文件存储至所述数据存储文件中。
68.其中,实施这种实施方式,在未检测到与待存储数据文件匹配的数据文件时,可以根据待存储数据文件重新创建数据存储文件,以使待存储数据文件可以安全的进行存储。
69.本发明实施例中,在未检测到与待存储数据文件匹配的数据文件时,可以创建与待存储数据文件匹配的数据存储文件,在创建数据存储文件的过程中可以先创建数据存储文件的文件头,再在文件头后创建数据存储模块,并且可以将待存储数据文件存储至数据存储文件中的数据存储模块中。
70.步骤s204,对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
71.步骤s205,当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件;
72.步骤s206,将所述待存储元数据文件在所述尾部元数据文件之后存储。
73.实施上述的步骤s205~步骤s206,可以从元数据存储文件中获取尾部元数据文件,并将待存储元数据文件存储在该尾部元数据文件之后,保证了待存储元数据文件存储的准确性。
74.本发明实施例中,元数据存储文件中可以包含两个部分,第一部分可以为元数据存储文件的头部元数据文件,第二部分可以为头部元数据文件后追加的一个或多个追加元数据文件,头部元数据文件和追加元数据文件都可以存储有待存储元数据文件,如果需要再存储有新的待存储元数据文件,可以在尾部元数据文件之后创建新的追加元数据文件,并将新的待存储元数据文件存储至新的追加元数据文件中。
75.可选的,步骤s205当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件的方式具体可以为:
76.当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,获取所述逻辑文件中的元数据存储信息;
77.通过所述元数据存储信息对所述元数据存储文件的完整性进行校验,得到第二校验结果;
78.当所述第二校验结果指示所述元数据存储文件完整时,从所述元数据存储文件中获取尾部元数据文件。
79.其中,实施这种实施方式,可以对存储的元数据存储文件的完整性进行校验,并且在校验通过的情况下获取尾部元数据文件,保证了已存储的元数据存储文件的完整性。
80.本发明实施例中,逻辑文件中可以存储有存储待存储数据文件的时间标签、数据标签、数据操作、元数据标签以及元数据操作等信息,因此可以从逻辑文件中获取到与已存储的元数据存储文件对应的元数据存储信息(如时间标签、元数据标签和元数据操作),基于得到的元数据存储信息对已存储的元数据存储文件进行完整性校验,得到第二校验结果,如果第二校验结果指示元数据存储文件完整时,可以将待存储元数据文件存储至尾部元数据文件中,以保证元数据存储文件的完整性。
81.以及,当所述第二校验结果指示所述元数据存储文件不完整时,所述方法还可以包括以下步骤:
82.从所述元数据存储信息中获取元数据存储操作信息;
83.基于所述元数据存储操作信息对所述元数据存储文件进行修复,得到完整的元数据存储文件。
84.其中,实施这种实施方式,可以在已存储的元数据存储文件不完整时,通过元数据存储操作信息对元数据存储文件进行修复,以使元数据存储文件在出现损失的情况下也能及时的修复。
85.本发明实施例中,如果第二校验结果指示元数据存储文件不完整时,可以先确定不完整的元数据存储文件的文件标识,并且可以从逻辑文件的元数据存储信息中获取到与文件标识对应的元数据存储操作信息(如文件标识对应的时间标签、元数据标签以及元数据操作),可以根据元数据存储操作信息还原出完整的与文件标识对应的元数据存储文件,并且可以通过还原出的元数据存储文件对不完整的元数据存储文件进行更新,以使元数据存储文件中出现损失的元数据存储文件可以及时的进行修复,保证了元数据存储文件的完整性。
86.本发明实施例中,所述元数据存储文件中包括头部元数据文件和/或追加元数据文件;所述头部元数据文件中包括但不限于头部块元数据、头部列元数据、文件综合元数据、头部元数据长度以及头部元数据标识;所述追加元数据文件中包括但不限于追加块元
数据、追加列元数据、追加元数据起始位置以及追加元数据标识,可以使元数据存储文件的结构更加丰富。
87.请一并参阅图5和图6,图5为本发明一实施例提供的基于分布式的文件存储方法中元数据存储文件的头部元数据文件的结构示意图;其中,blockmetadata表示头部元数据文件的块元数据,一个块元数据中可以包括一个或多个列元数据(columnmetadata),头部元数据文件中还可以包括文件综合元数据(filemetadata)、长度(footerlength)以及标识(tag)等,列元数据中可以包括类型(type)/路径(path)/编码(encoding)/编码译码器(codec)、数值(number values)、第一数据列的偏移量(offset of first data page)、第一索引页的偏移量(offset of first index page)、压缩后大小(compressed size)/未压缩大小(uncompressed size)以及额外键值对(extra key value pairs),以及长度(footerlength)可以为4字节,标识(tag)也可以为4字节。可以将待存储元数据文件存储至任意一个列元数据中。
88.图6为本发明一实施例提供的基于分布式的文件存储方法中元数据存储文件的追加元数据文件的结构示意图;其中,blockmetadata表示追加元数据文件的块元数据,一个块元数据中可以包括一个或多个列元数据(columnmetadata),头部元数据文件中还可以包括起始位置(start pos this part)和标识(tag)等,列元数据中可以包括类型(type)/路径(path)/编码(encoding)/编码译码器(codec)、数值(number values)、第一数据列的偏移量(offset of first data page)、第一索引页的偏移量(offset of first index page)、压缩后大小(compressed size)/未压缩大小(uncompressed size)以及额外键值对(extra key value pairs),以及起始位置(start pos this part)可以为4字节,标识(tag)也可以为4字节。可以在头部元数据文件的存储空间不够存储待存储元数据文件时,将待存储元数据文件存储至追加元数据文件中的列元数据中。
89.作为一种可选的实施方式,步骤s206将所述待存储元数据文件在所述尾部元数据文件之后存储的方式具体可以为:
90.从所述待存储元数据文件中获取数据索引信息;
91.将所述数据索引信息在所述尾部元数据文件之后存储。
92.其中,实施这种实施方式,可以通过存储数据索引信息的方式将待存储元数据文件关联至尾部元数据文件之后,可以简化待存储元数据文件的过程,提高存储待存储元数据文件的效率。
93.本发明实施例中,头部元数据文件中可以存储完整模式的待存储元数据文件以及其余的各种参数信息,后续的追加元数据文件中仅存储数据索引信息,而不去存储全部的元数据;可以获取需要追加存储的元数据标识,并从待存储元数据文件中获取与元数据标识匹配的数据索引信息,将得到的数据索引信息存储至尾部元数据文件之后,可以快速的实现将待存储元数据文件在尾部元数据文件之后存储。
94.作为一种可选的实施方式,当所述元数据存储文件中未存储有与待存储元数据文件匹配的元数据文件时,所述方法还可以包括以下步骤:
95.在所述元数据存储文件中创建头部元数据文件;
96.将所述待存储元数据文件存储至所述头部元数据文件中。
97.其中,实施这种实施方式,可以在未检测到与待存储元数据文件匹配的元数据文
件时,可以根据待存储元数据文件重新创建头部元数据文件,以使待存储元数据文件可以安全的进行存储。
98.本发明实施例中,可以在元数据存储文件中未存储有与待存储元数据文件匹配的元数据文件时,在元数据存储文件中创建头部元数据文件,并将待存储元数据文件存储至头部元数据文件中,可以通过压缩的方式对待存储元数据文件进行存储,压缩方式可以为snappy算法或gzip算法等,对此,本发明实施例不做限定。
99.步骤s207,将所述待存储元数据文件的元数据存储信息存储至所述逻辑文件中。
100.实施上述的步骤s203和步骤s207,可以将待存储数据文件的数据存储信息存储至逻辑文件中,同时也可以将待存储元数据文件的元数据存储信息存储至逻辑文件中,以使待存储数据文件和待存储元数据文件的存储信息可以在逻辑文件中进行备份,保证了待存储数据文件和待存储元数据文件的存储信息的安全性。
101.本发明能够简化列式文件存储系统的存储过程,提升了在列式文件存储系统中访问存储文件的速度。此外,本发明还可以保证待存储数据文件存储的准确性。此外,本发明还可以保证已存储的数据存储文件的完整性。此外,本发明还可以使数据存储文件在出现损失的情况下也能及时的修复。此外,本发明还可以保证数据存储文件/元数据存储文件的安全性。此外,本发明还可以使待存储数据文件可以安全的进行存储。此外,本发明还可以使得数据存储文件中不同模块的功能区分也更加清晰。此外,本发明还可以保证待存储元数据文件存储的准确性。此外,本发明还可以保证已存储的元数据存储文件的完整性。此外,本发明还可以使元数据存储文件在出现损失的情况下也能及时的修复。此外,本发明还可以使元数据存储文件的结构更加丰富。此外,本发明还可以提高存储待存储元数据文件的效率。此外,本发明还可以使待存储元数据文件可以安全的进行存储。此外,本发明还可以保证待存储数据文件和待存储元数据文件的存储信息的安全性。
102.示例性系统
103.在介绍了本发明示例性实施方式的方法之后,接下来,参考图7对本发明示例性实施方式的一种基于分布式的文件存储系统进行说明,该文件存储系统为列式文件存储系统,包括:
104.数据存储单元701,用于将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
105.提取单元702,用于对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
106.元数据存储单元703,用于将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
107.作为一种可选的实施方式,所述数据存储单元701还用于:
108.将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部之后,将所述待存储数据文件的数据存储信息存储至逻辑文件中;
109.以及,所述元数据存储单元703还用于:
110.将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部之后,将所述待存储元数据文件的元数据存储信息存储至所述逻辑文件中。
111.其中,实施这种实施方式,可以将待存储数据文件的数据存储信息存储至逻辑文
件中,同时也可以将待存储元数据文件的元数据存储信息存储至逻辑文件中,以使待存储数据文件和待存储元数据文件的存储信息可以在逻辑文件中进行备份,保证了待存储数据文件和待存储元数据文件的存储信息的安全性。
112.作为一种可选的实施方式,所述逻辑文件中包括但不限于标识文件和主体文件;所述主体文件中包括但不限于时间标签、元数据标签、元数据操作信息、数据标签以及数据操作信息。
113.其中,实施这种实施方式,逻辑文件可以为列式文件存储系统中的一部分,可以将数据存储文件存储待存储数据文件的时间同时备份至逻辑文件的时间标签中,同时还可以将待存储数据文件的数据标识备份至逻辑文件的数据标签中,以及还可以将待存储数据文件存储至数据存储文件的操作过程备份至逻辑文件的数据操作信息中;以及,可以将元数据存储文件存储待存储元数据文件的时间同时备份至逻辑文件的时间标签中,同时还可以将待存储元数据文件的元数据标识备份至逻辑文件的元数据标签中,以及还可以将待存储元数据文件存储至元数据存储文件的操作过程备份至逻辑文件的元数据操作信息中,可以使每次存储待存储数据文件/待存储元数据文件的全部过程都在逻辑文件中进行备份,当数据存储文件/元数据存储文件出现损坏的情况时,可以根据逻辑文件中存储的备份信息对损坏的存储文件进行修复,保证了数据存储文件/元数据存储文件的安全性。
114.作为一种可选的实施方式,所述数据存储单元701将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部的方式具体为:
115.当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件;
116.将所述待存储数据文件在所述尾部数据文件之后存储。
117.其中,实施这种实施方式,可以从数据存储文件中获取尾部数据文件,并将待存储数据文件存储在该尾部数据文件之后,保证了待存储数据文件存储的准确性。
118.作为一种可选的实施方式,所述数据存储单元701还用于:
119.当未存储有与待存储数据文件匹配的数据文件时,创建数据存储文件;
120.将所述待存储数据文件存储至所述数据存储文件中。
121.其中,实施这种实施方式,可以在未检测到与待存储数据文件匹配的数据文件时,可以根据待存储数据文件重新创建数据存储文件,以使待存储数据文件可以安全的进行存储。
122.作为一种可选的实施方式,所述数据存储单元701当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件的方式具体为:
123.当预先存储有与待存储数据文件匹配的数据文件时,获取所述逻辑文件中的数据存储信息;
124.通过所述数据存储信息对存储所述数据文件的数据存储文件的完整性进行校验,得到第一校验结果;
125.当所述第一校验结果指示所述数据存储文件完整时,从所述数据存储文件中获取尾部数据文件。
126.其中,实施这种实施方式,可以在检测到预先存储有与待存储数据文件匹配的数
据文件时,从逻辑文件中获取到数据存储信息,数据存储信息中包含了数据文件中存储的数据存储文件的所有存储信息,因此可以通过数据存储信息与数据存储文件进行完整性校验,确定数据存储文件是否完整,得到第一校验结果,如果第一校验结果指示数据存储文件完整,可以将待存储数据文件追加存储在数据存储文件的尾部数据文件后,保证了已存储的数据存储文件的完整性。
127.作为一种可选的实施方式,所述数据存储单元701还用于:
128.当所述第一校验结果指示所述数据存储文件不完整时,从所述数据存储信息中获取数据存储操作信息;
129.基于所述数据存储操作信息对所述数据存储文件进行修复,得到完整的数据存储文件。
130.其中,实施这种实施方式,可以在已存储的数据存储文件不完整时,通过数据存储操作信息对数据存储文件进行修复,以使数据存储文件在出现损失的情况下也能及时的修复。
131.作为一种可选的实施方式,所述数据存储文件中包括但不限于数据标识文件和数据主体文件;所述数据主体文件为列式的数据块,所述数据块中包括但不限于头部信息、层级信息以及数据值。
132.其中,实施这种实施方式,数据存储文件中的数据标识文件可以用于标识数据存储文件为特殊的列式文件存储系统中的数据存储文件,拥有特殊的存储文件的数据结构,在数据标识文件之后追加有一个或多个数据主体文件,数据主体文件中包括多个列式的数据块,待存储数据文件可以存储至数据主体文件的列式数据块中,可以使得数据存储文件的结构标识更加清晰,同时使得数据存储文件中不同模块的功能区分也更加清晰。
133.作为一种可选的实施方式,所述元数据存储单元703将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部的方式具体为:
134.当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件;
135.将所述待存储元数据文件在所述尾部元数据文件之后存储。
136.其中,实施这种实施方式,可以从元数据存储文件中获取尾部元数据文件,并将待存储元数据文件存储在该尾部元数据文件之后,保证了待存储元数据文件存储的准确性。
137.作为一种可选的实施方式,所述元数据存储单元703还用于:
138.当所述元数据存储文件中未存储有与待存储元数据文件匹配的元数据文件时,在所述元数据存储文件中创建头部元数据文件;
139.将所述待存储元数据文件存储至所述头部元数据文件中。
140.其中,实施这种实施方式,可以在未检测到与待存储元数据文件匹配的元数据文件时,可以根据待存储元数据文件重新创建头部元数据文件,以使待存储元数据文件可以安全的进行存储。
141.作为一种可选的实施方式,所述元数据存储单元703当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件的方式具体为:
142.当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,获取
所述逻辑文件中的元数据存储信息;
143.通过所述元数据存储信息对所述元数据存储文件的完整性进行校验,得到第二校验结果;
144.当所述第二校验结果指示所述元数据存储文件完整时,从所述元数据存储文件中获取尾部元数据文件。
145.其中,实施这种实施方式,可以对存储的元数据存储文件的完整性进行校验,并且在校验通过的情况下获取尾部元数据文件,保证了已存储的元数据存储文件的完整性。
146.作为一种可选的实施方式,所述元数据存储单元703还用于:
147.当所述第二校验结果指示所述元数据存储文件不完整时,从所述元数据存储信息中获取元数据存储操作信息;
148.基于所述元数据存储操作信息对所述元数据存储文件进行修复,得到完整的元数据存储文件。
149.其中,实施这种实施方式,可以在已存储的元数据存储文件不完整时,通过元数据存储操作信息对元数据存储文件进行修复,以使元数据存储文件在出现损失的情况下也能及时的修复。
150.作为一种可选的实施方式,所述元数据存储文件中包括头部元数据文件和/或追加元数据文件;所述头部元数据文件中包括但不限于头部块元数据、头部列元数据、文件综合元数据、头部元数据长度以及头部元数据标识;所述追加元数据文件中包括但不限于追加块元数据、追加列元数据、追加元数据起始位置以及追加元数据标识。
151.其中,实施这种实施方式,可以使元数据存储文件的结构更加丰富。
152.作为一种可选的实施方式,所述元数据存储单元703将所述待存储元数据文件在所述尾部元数据文件之后存储的方式具体为:
153.从所述待存储元数据文件中获取数据索引信息;
154.将所述数据索引信息在所述尾部元数据文件之后存储。
155.其中,实施这种实施方式,可以通过存储数据索引信息的方式将待存储元数据文件关联至尾部元数据文件之后,可以简化待存储元数据文件的过程,提高存储待存储元数据文件的效率。
156.示例性介质
157.在介绍了本发明示例性实施方式的方法和系统之后,接下来,参考图8对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图8,其示出的计算机可读存储介质为光盘80,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部;各步骤的具体实现方式在此不再重复说明。
158.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
159.示例性计算设备
160.在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图9对本发明示例性实施方式的用于基于分布式的文件存储的计算设备。
161.图9示出了适于用来实现本发明实施方式的示例性计算设备90的框图,该计算设备90可以是计算机系统或服务器。图9显示的计算设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
162.如图9所示,计算设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元901,系统存储器902,连接不同系统组件(包括系统存储器902和处理单元901)的总线903。
163.计算设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
164.系统存储器902可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)9021和/或高速缓存存储器9022。计算设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom9023可以用于读写不可移动的、非易失性磁介质(图9中未显示,通常称为“硬盘驱动器”)。尽管未在图9中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线903相连。系统存储器902中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
165.具有一组(至少一个)程序模块9024的程序/实用工具9025,可以存储在例如系统存储器902中,且这样的程序模块9024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9024通常执行本发明所描述的实施例中的功能和/或方法。
166.计算设备90也可以与一个或多个外部设备904(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口605进行。并且,计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图9所示,网络适配器906通过总线903与计算设备90的其它模块(如处理单元901等)通信。应当明白,尽管图9中未示出,可以结合计算设备90使用其它硬件和/或软件模块。
167.处理单元901通过运行存储在系统存储器902中的程序,从而执行各种功能应用以及数据处理,例如,将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了基于分布式的文件存储装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
168.在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
169.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
170.在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
171.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
172.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
173.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
174.最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
175.此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
176.通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此:
177.1.一种基于分布式的文件存储方法,应用于列式文件存储系统,包括:
178.将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
179.对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据
文件;
180.将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
181.2.如方案1所述的基于分布式的文件存储方法,将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部之后,所述方法还包括:
182.将所述待存储数据文件的数据存储信息存储至逻辑文件中;
183.以及,将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部之后,所述方法还包括:
184.将所述待存储元数据文件的元数据存储信息存储至所述逻辑文件中。
185.3.如方案2所述的基于分布式的文件存储方法,所述逻辑文件中包括但不限于标识文件和主体文件;所述主体文件中包括但不限于时间标签、元数据标签、元数据操作信息、数据标签以及数据操作信息。
186.4.如方案2所述的基于分布式的文件存储方法,将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部,包括:
187.当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件;
188.将所述待存储数据文件在所述尾部数据文件之后存储。
189.5.如方案4所述的基于分布式的文件存储方法,当未存储有与待存储数据文件匹配的数据文件时,所述方法还包括:
190.创建数据存储文件;
191.将所述待存储数据文件存储至所述数据存储文件中。
192.6.如方案4或5所述的基于分布式的文件存储方法,当预先存储有与待存储数据文件匹配的数据文件时,从存储所述数据文件的数据存储文件中获取尾部数据文件,包括:
193.当预先存储有与待存储数据文件匹配的数据文件时,获取所述逻辑文件中的数据存储信息;
194.通过所述数据存储信息对存储所述数据文件的数据存储文件的完整性进行校验,得到第一校验结果;
195.当所述第一校验结果指示所述数据存储文件完整时,从所述数据存储文件中获取尾部数据文件。
196.7.如方案6所述的基于分布式的文件存储方法,当所述第一校验结果指示所述数据存储文件不完整时,所述方法还包括:
197.从所述数据存储信息中获取数据存储操作信息;
198.基于所述数据存储操作信息对所述数据存储文件进行修复,得到完整的数据存储文件。
199.8.如方案7所述的基于分布式的文件存储方法,所述数据存储文件中包括但不限于数据标识文件和数据主体文件;所述数据主体文件为列式的数据块,所述数据块中包括但不限于头部信息、层级信息以及数据值。
200.9.如方案2~5任一项所述的基于分布式的文件存储方法,将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部,包括:
201.当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件;
202.将所述待存储元数据文件在所述尾部元数据文件之后存储。
203.10.如方案9所述的基于分布式的文件存储方法,当所述元数据存储文件中未存储有与待存储元数据文件匹配的元数据文件时,所述方法还包括:
204.在所述元数据存储文件中创建头部元数据文件;
205.将所述待存储元数据文件存储至所述头部元数据文件中。
206.11.如方案10所述的基于分布式的文件存储方法,当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,从所述元数据存储文件中获取尾部元数据文件,包括:
207.当所述元数据存储文件中存储有与待存储元数据文件匹配的元数据文件时,获取所述逻辑文件中的元数据存储信息;
208.通过所述元数据存储信息对所述元数据存储文件的完整性进行校验,得到第二校验结果;
209.当所述第二校验结果指示所述元数据存储文件完整时,从所述元数据存储文件中获取尾部元数据文件。
210.12.如方案11所述的基于分布式的文件存储方法,当所述第二校验结果指示所述元数据存储文件不完整时,所述方法还包括:
211.从所述元数据存储信息中获取元数据存储操作信息;
212.基于所述元数据存储操作信息对所述元数据存储文件进行修复,得到完整的元数据存储文件。
213.13.如方案12所述的基于分布式的文件存储方法,所述元数据存储文件中包括头部元数据文件和/或追加元数据文件;所述头部元数据文件中包括但不限于头部块元数据、头部列元数据、文件综合元数据、头部元数据长度以及头部元数据标识;所述追加元数据文件中包括但不限于追加块元数据、追加列元数据、追加元数据起始位置以及追加元数据标识。
214.14.如方案9所述的基于分布式的文件存储方法,将所述待存储元数据文件在所述尾部元数据文件之后存储,包括:
215.从所述待存储元数据文件中获取数据索引信息;
216.将所述数据索引信息在所述尾部元数据文件之后存储。
217.15.一种基于分布式的文件存储系统,所述文件存储系统为列式文件存储系统,包括:
218.数据存储单元,用于将待存储数据文件存储至与所述待存储数据文件匹配的数据存储文件尾部;
219.提取单元,用于对所述待存储数据文件进行提取,得到所述待存储数据文件对应的待存储元数据文件;
220.元数据存储单元,用于将所述待存储元数据文件存储至与所述待存储元数据文件匹配的元数据存储文件尾部。
221.16.一种存储有程序的存储介质,其中,所述存储介质存储有计算机程序,所述计
算机程序被处理器执行时实现如方案1~14中的任一项所述的方法。
222.17.一种计算设备,包括如方案16所述的存储介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1