一种分布式存储文件系统的数据删除方法及装置与流程

文档序号:12034767阅读:563来源:国知局
一种分布式存储文件系统的数据删除方法及装置与流程

本申请涉及数据存储领域,特别涉及分布式存储文件系统中的一种数据删除方法及装置。



背景技术:

在大数据时代,数据信息的作用越来越大。不可避免的,数据的存储是个至关重要的问题。在数据存储的过程中,总是会存在一些无效的数据,这些数据会占用相当一部分的存储资源,还会对有效数据形成干扰,严重影响人们对于数据库中数据资源的利用和数据分析的结果。

目前最热门的存储系统无疑是基于分布式文件存储架构的分布式文件存储系统,它主要用于存储文档、图像、视频之类的数据。该系统以全局管理的方式管理系统资源,它可以任意调度集群中的存储资源,并且调度过程是“透明”的。

分布式存储系统采用可扩展的系统结构,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。以高性能、高容量为主要特性的分布式存储系统,一般满足以下四个条件:应用于网络环境中;单个文件数据分布存放在不同的节点上;支持多个终端多个进程并发存取;提供统一的目录空间和访问名称。

但是目前在分布式存储文件系统中主要靠人工对无效数据进行筛选和删除,效率低下且存在误操作风险。数据库的内容庞大,人工删除无效数据不可避免的会因为工作疲劳等因素存在误操作的高风险。



技术实现要素:

有鉴于此,本申请提供了一种数据删除的方法及装置,通过对数据设置有效期,数据检测发现有效期满的数据并删除,解决了现有技术中人工筛选无效数据并删除的低效高风险问题。该方法如下:

设置数据的有效期标签;

将所述有效期标签存到检测表中;

在设定时间遍历所述检测表,筛选出所述检测表中有效期满的标签;

删除所述检测表中所述有效期满的标签和其对应的数据。

其中,所述在设定时间遍历所述检测表包括:

利用所述检测表中剩余数据的有效期标签,通过线性回归法计算得到所述设定时间。

其中,所述删除所述检测表中所述有效期满的标签和其对应的数据之后还包括:

再次利用线性回归法计算出设定时间后,利用该设定时间对原先计算出的设定时间进行校正。

其中,所述删除所述检测表中所述数据标签和其对应的数据,包括:

调用删除程序删除所述检测表中所述有效期满的标签和其对应的数据。

本申请还包括一种分布式存储文件系统的数据删除装置,所述装置包括:

标签设置模块,用于设置数据的有效期标签;

标签映射模块,用于将所述有效期标签存到检测表中;

标签遍历模块,用于在设定时间遍历所述检测表,筛选出所述检测表中有效期满的标签;

数据删除模块,用于删除所述检测表中的所述有效期满的标签和其对应的数据。

其中,所述标签遍历模块包括:

时间计算子模块,用于根据检测表中剩余数据有效期通过线性回归法计算得到遍历检查表的时间。

其中,所述标签遍历模块还包括:

时间校正子模块,用于再次利用线性回归法计算出设定时间后,利用该设定时间对原先计算出的设定时间进行校正。

其中,所述数据删除模块具体用于调用删除程序删除所述检测表中所述数据标签和其对应的数据。

本申请提供了一种分布式文件存储系统的数据删除方法,该方法通过对数据设置有效期,在预先设定的时间检测数据的有效期,有效期满则删除。使得数据存储系统能够自动筛选出无效数据并删除,避免了人工操作带来的低效率高风险。本申请还提供了一种分布式文件存储系统的数据删除装置,具有上述有益效果,此处不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种分布式文件存储系统的数据删除方法流程图;

图2为本申请实施例所提供的另一种分布式文件存储系统的数据删除方法流程图;

图3为本申请实施例所提供的分布式文件存储系统的数据删除装置示意图。

具体实施方式

本发明的核心是提供一种分布式文件存储系统的无效数据删除方法及装置,实现系统能够自动筛选无效数据并将其删除,解决了人工筛选无效数据时造成的低效率高风险的问题。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

请参照图1,图1为本申请提供的一种分布式文件存储系统的无效数据删除方法。具体方法如下:

s101:设置数据的有效期标签。

对分布式文件存储系统中的数据设置有效期标签,种类和形式不限。例如可以对某一数据设置一个单独的标签数据,包括数据有效期、数据类型、数据大小、数据位置等信息的一种或若干种,亦可以作为原有数据的一个属性,附加于原有数据的物理位置或者逻辑位置之上。

s102:将所述有效期标签存到检测表中;

在系统中建立一个检测表,或者利用系统现有的表类型数据,将s101中设置好的有效期标签存放在检测表中。这里的存放可以是将已经设置好的标签移动过去,也可以复制一个标签到检测表。从系统存储数据量的角度来看,因为标签已经含有其对应的数据信息,通过该标签可以寻址到数据,所以直接移动标签到检测表会节省空间。

s103:在设定时间遍历所述检测表,筛选出所述检测表中有效期满的标签;

设定时间可以是根据数学算法计算得到,例如根据线性回归方法对现有数据标签进行处理得到下次遍历时间作为设定时间。此外,再次利用线性回归法计算出校正设定时间后,利用所述校正设定时间对所述设定时间进行校正。这样做的好处就是能够保证得到的校正设定时间是最优遍历时间,能够最大程度降低系统资源的消耗率。也可以人工设置的一个周期,比如三天遍历一次等等,或者在数据量大时设置较短的周期,数据量小时设置较长的周期,能够节省一定的资源。

在遍历检测表时,可以是在每一个标签存入检测表后就对其进行检测是否有效期满,或者是将所有待检测的标签全部存放在检测表后对其检测,还可以是拥有某同一种属性的标签存放完毕进行检测并由此实行数据的分块检测,这里的同一属性包括日期、数据类型、数据长度、数据存储位置等属性的任意一种。

筛选是指将有效期满的数据全部挑选出,“挑选”可以将所有有效期满的标签存放在某一存储区域对其进行集中处理,也可以在系统遍历检测数据标签的有效期时,发现有效期满的数据时对其即刻处理;还可以在发现标签的有效期满时对其标记,待遍历结束之后对有标记的标签进行批量处理。

s104:删除所述检测表中所述有效期满的标签和其对应的数据。

再遍历完检测表中的所有数据后,不管使用s103中的任一种筛选方法总能得到所有有效期满的标签。此时,需要将这些过期的无效数据从存储系统中删除。一般用人工删除或者机器删除。机器删除就是调用删除程序,将系统中有效期满的标签和标签对应的数据全部彻底删除。这样做的好处就是效率较高,错误率极低,而且免去了人工操作,更加自动化智能化。

实施例二

参见图2,图2为本申请所提供的的第二种实施例流程图。在上述实施例的基础上,将所述设定时间的算法具体为线性回归方法,对其遍历周期做了更具体的描述。具体方法如下:

s201:设置数据的有效期标签。

对分布式文件存储系统中的数据设置有效期标签,标签中包含数据的名称、数据的逻辑位置信息和数据的有效期。这样,通过标签上的逻辑位置信息可以寻址到数据的实际地址,以便于后续操作。

s202:将所述有效期标签存到检测表中。

在系统中新建空白表数据作为检测表,将s201中设置好的有效期标签移动到空白表中。表中的标签按照其对应数据的地址关系存放,例如数据1和数据2都是a文件夹下的文件,那么在检测表中数据1和数据2的位置关系也应当并列存放于检测表中。这样做的好处是一旦系统在设置有效期标签时发生错误,使得后续操作中找不到某一标签对应的地址,可以借助该标签周围的标签判断其对应的数据,提供了整个系统的容错率。

s203:计算遍历时间。

通过线性回归方法可以得到系统的遍历时间,这个过程不依赖于有效期标签的设置,我们只需知道每个数据的有效期即可。统计图的横坐标为有效期,纵坐标为标签量,能够得到一个散点图。根据散点图系统可以获得一个最优的时间去遍历检测表中的数据。所谓最优,意即是能单位之间内能够删除的数据量最大。例如,有20个数据的有效期在2号到期,但是1号只有一个1个数据到期,系统会优选的选择在2号遍历检测表中有效期满的过期数据。但是如果在1号和2号同时运行程序遍历,会造成不必要的资源浪费。当然,若是1号的数据同样很多,通过线性回归算法就能算出最优时间,将最近的最优时间作为下次遍历的启动时间。

s204:校正遍历时间。

此外,因为需要多次运用线性回归方法计算,而显然根据最新剩余的数据计算出的遍历时间肯定是最优的。因此每次运用线性回归方法计算之后,用最新的计算结果替代以前的最优时间。这种自适应的时间校正能够降低数据筛选进程的性能损耗。

s205:筛选检测表。

遍历所述检测表,筛选出所述检测表中有效期满的标签;

在遍历检测表的时候,因为分布式文件存储系统中的数据量极其庞大,因此采用分块进行遍历。将系统的数据按地址分类,因此对应的检测表可以是多张,本申请在此不作限定。将某一块的标签全部存放到检测表后,开始遍历检测表中标签的有效期。

筛选过程中,对有效期满的标签数据作一个标记,仅作为区分未过有效期的标签和有效期满的标签使用。在遍历结束后,筛选过程同时结束,所有有效期满的标签全部被标记,进行下一步骤。

s206:删除所述检测表中所述有效期满的标签和其对应的数据。

调用系统中的删除程序,对s203中已经标记的有效期满的标签和其对应的数据作删除处理。

s207:判断检测表是否为空,若不是,返回执行步骤s203;若是,结束流程。

对于一个系统来说,需要周期性的对无效数据进行筛选和自动删除。这里说的“周期性”并不严格限定为固定时间周期的过程,而是指这个过程需要反复出现。

实施例三

本申请还提供了一种分布式文件存储系统的数据删除装置,所述装置包括:

标签设置模块100,用于设置数据的有效期标签;

标签映射模块200,用于将所述有效期标签存到检测表中;

标签遍历模块300,用于在设定时间遍历所述检测表,筛选出所述检测表中有效期满的标签;

在标签遍历模块中,还可以包括一个时间计算子模块和时间校正子模块。时间计算子模块用于根据检测表中剩余数据有效期通过线性回归法计算得到遍历检查表的时间;时间校正子模块用于再次利用线性回归法计算出设定时间后,利用该设定时间对原先计算出的设定时间进行校正。

数据删除模块400,用于删除所述检测表中所述有效期满的标签和其对应的数据。

因此该装置的工作流程如下:

1、标签设置模块为文件存储系统中的数据设置有效期标签。

标签设置模块对分布式文件存储系统中的数据设置有效期标签,种类和形式不限。例如可以对某一数据设置一个单独的标签数据,包括数据有效期、数据类型、数据大小、数据位置等信息的一种或若干种,亦可以作为原有数据的一个属性,附加于原有数据的物理位置或者逻辑位置之上。

2、标签映射模块将设置好的有效期标签存到检测表中。

在系统中建立一个检测表,或者利用系统现有的表类型数据,标签映射模块将1中设置好的有效期标签存放在检测表中。这里的存放可以是将已经设置好的标签移动过去,也可以复制一个标签到检测表。从系统存储数据量的角度来看,因为标签已经含有其对应的数据信息,通过该标签可以寻址到数据,所以直接移动标签到检测表会节省空间。

3、标签遍历模块在设定时间遍历所述检测表,并筛选出所有有效期满的标签。其中,时间计算子模块根据检测表中剩余数据有效期通过线性回归法计算得到遍历检查表的时间,并由时间校正子模块用时间计算子模块计算出的时间对原先计算出的设定时间进行校正。

设定时间可以是根据数学算法计算得到,例如根据线性回归方法对现有数据标签进行处理得到下次遍历时间作为设定时间。此外,再次利用线性回归法计算出校正设定时间后,利用所述校正设定时间对所述设定时间进行校正。这样做的好处就是能够保证得到的校正设定时间是最优遍历时间,能够最大程度降低系统资源的消耗率。若装置中没有时间计算子模块和时间校正子模块,也可以人工设置的一个周期,比如三天遍历一次等等,或者在数据量大时设置较短的周期,数据量小时设置较长的周期,能够节省一定的资源。

在遍历检测表时,可以是在每一个标签存入检测表后就对其进行检测是否有效期满,或者是将所有待检测的标签全部存放在检测表后对其检测,还可以是共同拥有某一种属性的标签存放完毕进行检测并由此实行数据的分块检测,这里的同一属性包括日期、数据类型、数据长度、数据存储位置等属性的任意一种。

筛选是指将有效期满的数据全部挑选出,“挑选”可以将所有有效期满的标签存放在某一存储区域对其进行集中处理,也可以在系统遍历检测数据标签的有效期时,发现有效期满的数据时对其即刻处理;还可以在发现标签的有效期满时对其标记,待遍历结束之后对有标记的标签进行批量处理。

4、数据删除模块删除3中筛选出的所有有效期满的标签和其对应的数据。

数据删除模块会调用删除程序对3中筛选出的所有有效期满的标签和其对应的数据彻底删除。亦可以提示用户人工删除。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1