一种自动删除过期数据的方法和系统的制作方法

文档序号:9326623阅读:372来源:国知局
一种自动删除过期数据的方法和系统的制作方法
【技术领域】
[0001 ] 本发明涉及一种自动删除过期数据的方法和系统。
【背景技术】
[0002]在数据仓库、大数据(Big Data)所涉及的行业中,数据通常是按照分区(或者分表)的方式进行长期存储的。但是,随着时间的推移,所存储的数据量越来越大,数据所保留的时间周期也越来越长。如何管理好海量的数据对传统的数据管理技术带来了巨大挑战,而数据管理的关键环节在于如何将过期的数据进行删除,以释放不必要的存储资源,达到降低企业运营成本的目的。
[0003]目前,传统的数据周期管理的方法,一般是通过手动删除过期数据的方法来进行维护管理。具体地,可以根据实体表所确定的大致保留周期,到一定时间进行过期数据的手动清理。但是,现有的手动删除过期数据的方法会导致在删除时容易出现误操作,同时还会增加数据管理人员的工作量。
[0004]因此,非常有必要设计一种能够实现动删除过期数据的方法。

【发明内容】

[0005]有鉴于此,本发明提供了一种自动删除过期数据的方法和系统,旨在克服现有技术的缺陷。
[0006]本发明所提供的自动删除过期数据的方法包括以下步骤:步骤a,根据分区中数据的加载时间确定分区值;步骤b,计算该分区的分区阈值;步骤C,判断所述分区值是否小于所述分区阈值;步骤d,根据步骤c中的判断结果删除该分区中的数据。
[0007]优选的,所述步骤b包括:步骤bl,读取该分区预设的保留周期;步骤b2,根据系统时间确定系统值;步骤b3,根据所述保留周期与所述系统值计算所述分区阈值。
[0008]优选的,所述分区阈值=所述系统值-所述保留周期。
[0009]优选的,在所述步骤d中,若所述分区值小于所述分区阈值,则删除该分区中的数据。
[0010]优选的,所述步骤d包括:步骤dl,若所述分区值小于所述分区阈值,则读取该分区预设的例外周期;步骤d2,判断所述分区值是否属于所述例外周期的范围;步骤d3,若所述分区值不属于所述例外周期的范围,则删除该分区中的数据。
[0011]本发明所提供的自动删除过期数据的系统包括:分区值确定模块,用于根据分区中数据的加载时间确定分区值;分区阈值计算模块,用于计算该分区的分区阈值;判断模块,用于判断所述分区值是否小于所述分区阈值;数据删除模块,用于根据所述判断模块的判断结果删除该分区中的数据。
[0012]优选的,所述分区阈值确定模块包括:保留周期读取子模块,用于读取该分区预设的保留周期;系统值确定子模块,用于根据系统时间确定系统值;分区阈值计算子模块,用于根据所述保留周期与所述系统值计算所述分区阈值。
[0013]优选的,所述分区阈值=所述系统值-所述保留周期。
[0014]优选的,所述数据删除模块用于在所述分区值小于所述分区阈值时,删除该分区中的数据。
[0015]优选的,所述数据删除模块包括:例外周期读取子模块,若所述分区值小于所述分区阈值,则读取该分区预设的例外周期;判断子模块,用于判断所述分区值是否属于所述例外周期的范围;第二数据删除子模块,用于在所述分区值不属于所述例外周期的范围时,删除该分区中的数据。
[0016]采用本发明所提供的自动删除过期数据的方法和系统,通过判断分区值和分区阈值之间的关系来确定分区中的数据是否符合删除条件,并进一步对特殊数据是否属于例外周期的范围进行判断,从而最终实现了数据的自动删除。本发明所提供的自动删除过期数据的方法和系统具有以下有益的技术效果:能够自动对数据库实体的存储周期进行管理;有效地避免人为删除导致的误操作;在具体应用过程中,只需要在建表的时候定义保留周期,以后则不用考虑数据的存储与删除,达到一劳永逸的效果。
【附图说明】
[0017]下面将通过附图详细描述本发明中优选实施例,将有助于理解本发明的目的和优点,其中:
[0018]图1是本发明的自动删除过期数据的方法的第一种优选实施例。
[0019]图2是本发明的自动删除过期数据的方法的第二种优选实施例。
[0020]图3是本发明的自动删除过期数据的系统的优选实施例。
【具体实施方式】
[0021]下面结合实施例对本发明进行详细说明。其中相同的零部件用相同的附图标记表不O
[0022]图1是本发明的自动删除过期数据的方法的第一种优选实施例。如图1所示,本发明所提供的自动删除过期数据的方法包括下述步骤。
[0023]步骤S100,根据分区中数据的加载时间确定分区值;步骤S200,计算该分区的分区阈值;步骤S300,判断所述分区值是否小于所述分区阈值;步骤S400,根据步骤S300中的判断结果删除该分区中的数据。
[0024]在步骤SlOO中,可以将数据加载到预设的分区中,并在所述分区中实现存储,这种将不同的数据储存在不同的分区中的设计可以实现数据的有序化管理,例如:可以将需要保存时间相同的数据储存在同一个分区中,在管理过程中可以对该分区中的全部数据进行统一的操作(例如:删除操作)。实际使用过程中,可以在数据加载到相应的分区时,记录数据的加载时间,并根据加载时间来确定一个分区值,以供后续的判断步骤使用。例如,某数据在2015年7月17日加载到分区中,则可以将分区值确定为20150717 ;另一数据在2014年5月15日20点18分加载到分区中,则可以将分区值确定为201405152018。
[0025]在步骤S200中,需要计算得出相应的分区阈值。在优选实施例中,所述步骤S200可以通过以下步骤实现:步骤S210,读取分区预设的保留周期;步骤S220,根据系统时间确定系统值;步骤S230,根据所述保留周期与所述系统值计算所述分区阈值。具体地,所述分区阈值=所述系统值-所述保留周期。所述系统值可以根据系统中所显示的当前时间来确定,也可以根据从相关服务器中所获取的当前时间来确定,具体的字段可以根据实际需要做相应的设置。所述保留周期可以根据具体的数据情况进行定义或自动生成,也可以根据数据加载的目标分区中预设的值来进行设定。优选地,所述分区阈值的字段与所述分区值的字段相匹配,以便于数据的计算和处理。
[0026]在步骤S300中,主要是将步骤SlOO与步骤S200中得到的分区值与分区阈值进行比较。例如:可以将分区值与分区阈值进行差值运算,从而获取分区值与分区阈值的大小关系;也可以直接将分区值与分区阈值进行比较运算,从而直接得出二者的大小关系。实际上,所述分区值和所述分区阈值并不限于以日期和时间字段来表示,还可以通过其它字段实现。例如,可以将分区值的日期时间字段映射为一种其它编码方式的字段,并将分区阈值映射为同样编码方式的字段,只要使分区值和分区阈值的字段相匹配,能够完成相关的运算即可。
[0027]对于步骤S400,在具体的执行过程中,若所述分区值小于所述分区阈值,则删除该分区中的数据。例如:步骤SlOO中所得出的分区值为201102111021,而步骤S200中所得到的分区阈值为201102131452,则通过差值运算可知,在当前时间的分区值小于分区阈值。由于在本例中的分区值与分区阈值的字段均以日期和时间来定义,则当分区值小于所述分区阈值时,说明该分区中的数据已经超出了要保存的周期,此时可以将对分区中的数据进行自动删除。
[0028]图2是本发明的自动删除过期数据的方法的第二种优选实施例。其中,与图1中步骤相同的内容这里不在赘述。如图2所示,在步骤S400中,可以具体通过以下步骤实现:步骤S410,若所述分区值小于所述分区阈值,则读取该分区预设的例外周期;步骤S420,判断所述分区值是否属于所述例外周期的范围;步骤S430,若所述分区值不属于所述例外周期的范围,则删除该分区中的数据。
[0029]在实际应用过程中,有部分数据需要较长时间保存或者永久保存,这部分数据就不需要在分区值小于分区阈值时进行删除,而图2所示的优选实施例中很好地解决了这个问题。通过增加一个判断是否是例外周期的步骤,从而保证了这些有特殊需求的数据不被误删。
[0030]在具体实施过程中,可以将分区中所预设的保留周期和例外周期等信息通过建立管理表的实现存储。例如,可以结合当前数据仓库常见的存储周期,将表的存储分为月、日、小时三大类(也可定义其他周期粒度的数据)。对于月、日、小时的频度,分别以M、D、H来进行标识,并将所有涉及的表结构定义在一个元数据管理表中,元数据管理表可以包含(但不限于)如下字段定义:实体名称、数据频度、保留周期、例外周期、数据类型等。在一种优选实施例中,元数据可以被定义为:描述数据的数据,对数据及信息资源的描述性信息。
[0031]具体地,所述实体名称可以是数据库中具体保留的表名称。所述数据频度的设置可以将分区或数据按照不同的频度进行加工或者存储,比如M:代表月份;D:代表日代
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1