一种基于文件系统的数据管理分析系统的制作方法

文档序号:12470345阅读:534来源:国知局

本发明涉及计算机技术领域。更具体地,涉及一种基于文件系统的数据管理分析系统。



背景技术:

计算机的文件系统为计算机用户提供了名字空间和地址空间,从而使能用户存储大量数据的同时,根据文件名字,路径和目录来组织数据和发现数据。数据的不断膨胀带来了复杂数据管理的需求,单独依靠文件名字、路径和目录这种组织方式已经无法满足用户的数据管理的需求了。近年来,大量的数据应用和科学计算需要复杂的数据组织和数据发现机制,从而催生了数据管理系统的诞生。目前的数据管理系统,首先需要获取文件系统数据特征及其变化到一个关系数据库,进而根据关系数据库中的数据特征定义规则,进行数据管理、数据发现和组织,其中文件系统的数据特征也叫元数据。

现有技术中通常采用两种方式来获取文件系统的数据特征及其变化:

第一种方式:通过扫描文件系统获取数据特征,并且周期性扫描比对文件系统差异来发现数据特征变化,汇集数据特征及其变化到数据库中去,然后根据数据特征来做数据管理。这种方式有一定的缺陷,首先,周期性扫描损失了数据特征更新的实时性,其次,大的文件系统扫描和比对非常耗时,效率低下。

第二种方式:分离文件系统的数据特征和数据,文件系统的数据特征子系统被设计成一个数据库,所有的文件系统数据特征操作,本身就是对该数据库的操作,所有的数据特征都保存在数据库中,进而方便检索和查询。这种为了数据管理而把文件系统的元数据服务器实现成数据特征库方式属于带内(In Band)数据管理系统,这种方式的缺陷在于,文件系统正常IO引起的元数据变化也需要更新元数据,文件系统无法自适应和动态调整库格式。因为文件系统的数据特征子系统一旦定义好数据特征布局、库类型和库结构(schema)就无法改变实现了,该方式紧耦合设计,数据特征库是文件系统的一部分,所以这种方式非常不灵活,不能根据数据特征管理的目标和分析的需求随时适配的库类型和库结构。同时频繁的数据特征操作的系统性能完全依赖和受限于数据特征子系统数据库的性能。

因此,需要提供一种基于文件系统的数据管理分析系统。



技术实现要素:

本发明的目的在于提供一种基于文件系统的数据管理分析系统,可不改变文件系统的实现而灵活地根据数据特征管理和分析应用的需求适配数据特征库的库类型和库结构。

为达到上述目的,本发明采用下述技术方案:

一种基于文件系统的数据管理分析系统,包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;

所述文件系统的日志子系统设置有客户端接口;

所述数据特征捕捉器通过所述客户端接口从文件系统的日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化;

所述数据特征库适配器根据具体的数据特征分析要求将所述数据特征及其变化转化成检索条目并根据具体的数据特征分析要求设置所述数据特征库的库类型和库结构,然后将所述检索条目重放到数据特征库中;

所述数据特征管理分析子系统根据具体的数据特征管理或分析要求,设置检索条件,组织管理和分析数据特征库中的数据特征;

所述数据特征捕捉器和所述数据特征库均是带外工作的。

优选地,所述文件系统的日志子系统的日志回收策略为:只有当文件系统应用了数据特征操作后且数据特征捕捉器显式允许回收的日志条目才可被按序回收。

优选地,所述数据特征捕捉器在通过所述客户端接口从文件系统的日志子系统中读取日志条目时还同时更新当前日志游标。

优选地,所述数据特征库的类型包括RDBMS关系数据库、分布式NOSQL数据库、搜索引擎或相关的检索、搜索系统。

为了获取数据特征且实时跟踪数据特征的变化,避免扫描大文件系统(深目录层次,海量文件个数),本发明利用文件系统的日志子系统实时捕捉数据特征及其变化,并且将数据特征及其变化汇集到数据特征库中。

为了保证本发明足够灵活,数据特征库的库类型和库结构(schema)要求以解耦合文件系统数据特征布局实现,可以灵活的按照数据管理和分析应用的需求而轻松调整,同时不影响文件系统本身的性能。本发明可允许不改变文件系统的实现而灵活的根据数据特征管理和分析应用的需求适配数据特征库的库类型和库结构。

本发明的有益效果如下:

(1)本发明不影响文件系统的IO性能,数据特征捕捉器和数据特征库均是带外(Out Of Band)工作的,本身不影响文件系统的正常输入输出代码路径和输入输出的性能。

(2)所有的具备日志子系统的文件系统都可以按照本发明改造成适用的数据管理分析系统,因此本发明的适用性广。

(3)本发明根据日志条目捕捉数据特征及其变化,可以做到实时体现数据特征的更新,并且轻松获得数据特征变化的增量,使文件系统中的数据特征和数据特征库中的数据特征保持一致。

(4)本发明根据管理分析的具体需求,灵活的适配数据特征库的库类型和库结构(schema),而无需文件系统实现的改变。可通过数据特征库适配各种不同应用要求的查询、检索和搜索。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明;

图1示出基于文件系统的数据管理分析系统的示意图。

具体实施方式

为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

关于文件系统的日志子系统,很多现有的文件系统都为了保证数据和数据特征的一致性,都实现了日志子系统。文件系统的日志子系统又被称为WAL写前日志或者企图日志Intent Log。每个文件系统更新操作所涉及到的文件系统数据特征的所有改变,会先以日志的方式持久化追加在文件系统日志中,然后再应用到文件系统中。当文件系统的更新操作完成时,即文件系统已经应用了数据特征操作时,于这个改动相关的日志条目才会被回收。

所有的具备写前日志、企图日志子系统的本地文件系统、分布式文件系统都可以按照本实施例提供的文件系统的数据管理分析系统改造而集成进入本实施例提供的文件系统的数据管理分析系统。

本实施例提供的基于文件系统的数据管理分析系统进行数据管理分析的数据特征包括:文件的标准属性(POSIX属性ATTR)和扩展属性(XATTR)。

本实施例提供的基于文件系统的数据管理分析系统,基于文件系统的日志子系统(Filesystem Journaling subsystem)获取数据特征及其变化,汇集数据特征入库,进行基于数据特征的管理和分析。

如图1所示,本实施例提供的基于文件系统的数据管理分析系统包括:文件系统的日志子系统、数据特征捕捉器、数据特征库适配器、数据特征库和数据特征管理分析子系统;

文件系统的日志子系统:文件系统日志子系统设置有客户端接口,该客户端接口的功能为:供数据特征捕捉器按序读取日志条目、更新当前日志游标和显式允许回收的日志条目;日志条目体现了文件系统数据特征和数据特征变化。由于现有的文件系统日志子系统会在数据特征更新到文件系统中后回收日志条目,为了保证数据特征捕捉器不遗漏数据特征更新,本实施例中,文件系统的日志子系统的日志回收策略调整为:没有被数据特征捕捉器(日志子系统的客户端)显式允许回收的日志条目不可以回收,只有当文件系统应用了数据特征操作后且日志子系统的客户端显式允许回收的日志条目才可以被按序回收。

数据特征捕捉器:数据特征捕捉器是带外工作的,数据特征捕捉器作为日志子系统的客户端,主动通过客户端接口从文件系统的日志子系统中读取日志条目,从读取的日志条目中提取数据特征及其变化,更新当前日志游标并将提取出来的数据特征及其变化发送至数据特征库适配器。

数据特征库:数据特征库是带外工作的,在文件系统外的数据特征捕捉器捕捉数据特征及其变化,数据特征库根据适配器适配各种库类型和库结构,因此数据特征库可根据具体的数据特征分析要求针对的目标文件系统的不同而不同,数据特征库的类型包括RDBMS关系数据库、分布式NOSQL数据库、搜索引擎或相关的检索、搜索系统。

数据特征库适配器:由于数据特征库可以根据文件系统应用的不同设置不同的库类型和库结构,因此数据特征库适配器需要根据具体的数据特征分析要求将数据特征捕捉器提取的数据特征及其变化转化成相应的检索条目并根据具体的数据特征分析要求设置数据特征库的库类型和库结构,然后将这些日志条目对应的检索条目重放(replay)到数据特征库中去。

数据特征管理分析子系统:根据具体的数据特征分析要求,设置检索条件,组织管理和分析数据特征库中的数据特征,以达到数据特征管理和数据特征分析的目的,上述组织管理数据特征库中的数据特征包括根据数据特征进行搜索、检索、分类、设定策略和触发条件,以及触发条件触发后执行的动作。

下面代入两个具体的数据特征库对本实施例提供的文件系统的数据管理分析系统作进一步地说明。

文件系统选择CEPHFS为例子,但并不仅限于CEPHFS。改进CEPHFS的文件系统日志子系统。该日志子系统与现有的日志子系统相比,该日志子系统的改进为:1.设置有客户端接口,提供客户端顺序读取日志条目,更新当前日志读取游标;根据客户端要求回收某个日志条目之前的所有条目,更新回收游标的功能。2.调整日志条目回收策略,只有当文件系统应用了数据特征操作后且日志子系统的客户端显式的回收了相关日志条目,文件系统才可以真正的回收该日志条目。

数据特征库的类型为RDBMS PostgreSQL数据库。并且根据文件系统标准文件属性ATTR(文件的大小,创建更新时间,目录大小,所有者等)以及扩展属性XATTR来管理组织数据。

数据特征捕捉器作为日志子系统的客户端,顺序读取相应的日志条目并从读取的日志条目中提取数据特征及其变化。

数据特征库适配器将数据特征及其变化转化成相应的检索条目,并根据库类型PostgreSQL数据特征库和预定义的表结构,重放(Replay)检索条目到PostgreSQL数据特征库中。

数据特征管理分析子系统根据PostgreSQL数据特征库中的内容,设定查询条件做数据的组织和管理:例如挑选出尺寸最大的文件,查找某个时间段更新的所有文件,以及具备某个相同扩展属性值的所有文件。

数据特征库还可以为搜索引擎ElasticSearch,查询具备扩展属性内容为ABC的文件。搜索所有文件中,扩展属性ABC和DEF同时出现的概率和文件。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1