一种数据管理方法、装置、设备及存储介质与流程

文档序号:20264501发布日期:2020-04-03 18:12阅读:120来源:国知局
一种数据管理方法、装置、设备及存储介质与流程

本发明实施例涉及数据管理技术领域,尤其涉及一种数据管理方法、装置、设备及存储介质。



背景技术:

随着大数据逐步在各行业的应用,海量数据的查询遇到前所未有的挑战。在大数据领域,保障高并发、高性能、高存储等多因素要求。尤其在涉及时间序列查询人员信息等业务场景中,一般的,通常采用关系型数据库的方式进行时序大数据的存储和处理,然而由于关系型数据库天生的劣势导致其无法进行高效的对时序大数据进行存储和查询,造成时序大数据的业务使用受到相关影响。

当前,相关技术人员采用了特殊的海量数据时序库druid来管理时序大数据,以使时序大数据可以高效存储和快速处理海量时序大数据。然而,在目前的场景中,如果时序数据离散性、时延性较强,则会造成druid在消费数据过程中出现严重的数据摄入调度问题,如,段数据无法从分布式系统基础架构hadoop上进行加载以及元数据数据集mysql负载大等,造成摄入数据任务大概率失败。此外,在数据查询环节,由于当前采用单表存储,数据量大,造成查询性能差。



技术实现要素:

本发明实施例提供一种数据管理方法、装置、设备及存储介质,以实现数据快速查询。

第一方面,本发明实施例提供了一种数据管理方法,所述数据管理方法包括:

接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;

当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

第二方面,本发明实施例还提供了一种数据管理装置,该数据管理装置包括:

接收模块,用于接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;

存储模块,用于当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

第三方面,本发明实施例还提供了一种设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的方法。

本发明实施例通过接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。存储接入时间满足实时存储条件的数据,解决了数据存储过程中由于录入所有数据而导致的数据量过大,数据无法正常录入的问题,提高了数据录入的成功率;根据数据类型确定存储区域,将不同数据类型的数据存储在所属存储区域,解决了数据存储过程中利用单表存储的数据量过大带来的查询困难问题,提高了查询效率。

附图说明

图1是本发明实施例一中的一种数据管理方法的流程图;

图2是本发明实施例二中的一种数据管理方法的流程图;

图3是本发明实施例二中的一种数据存储实现的流程示例图;

图4是本发明实施例二中的一种数据查询实现的流程示例图;

图5是本发明实施例三中的一种数据管理方法的流程图;

图6是本发明实施例三中的一种数据管理方法流程示例图;

图7是本发明实施例四中的一种数据管理装置的结构图;

图8是本发明实施例五中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据管理方法的流程图,本申请实施例提供的方法适用于管理海量数据时序库的客户端上,本实施例可适用于对大数据进行管理的情况,该方法可以由数据管理装置来执行,具体包括如下步骤:

步骤11、接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型。

其中,业务端具体可以理解为采集并上传数据的用户端;待管理数据具体可以理解为采集到的并且需要存储到druid中进行有规律管理的数据;接入时间具体可以理解为待管理数据上传到管理设备的时间;数据类型具体可以理解为数据的属性信息,用于区分不同种类的数据

具体的,接收业务端上传的待管理数据的方式可以是通过无线网络接收待管理数据;数据类型可以是根据身份证、mac地址、ip地址、手机号等类型对数据进行划分;确定所述待管理数据的接入时间及数据类型的方式可以是根据待管理数据确定其是身份证类型数据、mac地址类型数据、ip地址类型数据、手机号类型数据等数据类型中的哪一种数据,根据待管理数据本身携带的本数据产生时间可以确定接入时间。

步骤12、当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

其中,实时存储条件具体可以理解为预设的时间阈值,当接入时间与数据的产生时间的时间差小于预设的时间阈值时,为满足实时存储条件;第一目标存储区域具体可以理解为与待管理数据匹配的,用于存储待管理数据的存储区域,预先根据不同的数据类型划分出不同的存储区域。

具体的,由于数据划分为不同种类型,所以每种类型有其对应的存储区域,当数据的接入时间满足实时存储条件时,根据待管理数据的数据类型确定待管理数据所属的第一目标存储区域,将管理数据以数据段形式发送至第一目标存储区域进行存储。

本发明通过接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。存储接入时间满足实时存储条件的数据,解决了数据存储过程中由于录入所有数据而导致的数据量过大,数据无法正常录入的问题,提高了数据录入的成功率;根据数据类型确定存储区域,将不同数据类型的数据存储在所属存储区域,解决了数据存储过程中利用单表存储的数据量过大带来的查询困难问题,提高了查询效率。

实施例二

图2为本发明实施例二提供的一种数据管理方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:

步骤21、接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型。

步骤22、当所述接入时间满足实时存储条件时,提取所述数据类型中的关键属性信息,从预先划分的物理存储表集合中确定与所述关键属性信息匹配的目标物理存储表。

其中,关键属性信息具体可以理解为数据中携带的可以用来区分数据类型的信息,可以是身份证、mac地址、ip地址、手机号等;物理存储表集合具体可以理解为存储不同类型数据的不同的表的集合;目标物理存储表具体可以理解为对应每种数据类型的存储表。

具体的,不同种类型的数据的关键属性项信息形式不同,例如手机号和身份证号的位数是不同的,根据获取到的数据位数可以确定其属性项;当所述接入时间满足实时存储条件时,通过提取数据类型中的关键属性项信息,可以从预先划分的物理存储表集合中确定与所述关键属性信息匹配的目标物理存储表。可以根据数据类型对数据存储区间进行划分,对于存储大量数据的区域再次进行区域划分,这样划分的区域会更小,更有利于对于海量数据的管理。

步骤23、将所述目标物理存储表归属的存储区域确定为所述待管理数据归属的第一目标存储区域。

具体的,目标物理存储表在存储区域中,一个存储区域中有多个目标物理存储表,当确定管理数据所述的目标物理存储表,根据目标物理存储表归属的存储区域可以确定所述待管理数据归属的目标存储区域,即确定第一目标存储区域。

步骤24、建立所述待管理数据的数据类型与所述第一目标存储区域的映射信息,并将所述映射信息存储至区域映射关系表。

其中,映射信息具体可以理解为数据类型与第一目标存储区域之间的对应关系;区域映射关系表具体可以理解为包含多种映射信息的表。

具体的,通过区域映射关系表中的待管理数据的数据类型与所述第一目标存储区域的映射信息,可以根据数据类型结合映射表确定目标存储区域。

步骤25、将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储。

其中,数据段具体可以理解为文件数据。

具体的,将管理数据存储到第一目标存储区域时存储形式为数据段。

进一步地,所述将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,包括:将所述待管理数据以数据段形式发送至所述第一目标存储区域,并存储至所述第一目标存储区域中与所述待管理数据的关键属性信息匹配的目标物理存储表内。

具体的,待管理数据最终存储位置可以是目标存储表,也可以是目标物理存储表中的目标存储区域,待管理数据进行存储时以数据段形式发送至第一目标存储区域时,也要根据映射信息存储到第一目标存储区域中与所述待管理数据的关键属性信息匹配的目标物理存储表中,即根据映射关系存储到第一目标存储区域所述的目标物理存储表中。

示例性的,图3提供了一种数据存储实现的流程示例图,图中给出目标物理存储表一203、目标物理存储表二204、目标存储区域一205和目标存储区域二206,但是可以知道的是目标物理存储表和目标存储区域不局限于两个。当数据需要存储到druid时,业务端201发送数据给客户端202进行数据写入,可以是通过发送一个数据写入请求,当客户端202接收到业务端201发送的数据写入请求时,接收业务端201上传的数据,并确定数据类型,基于数据类型,根据区域映射关系表,进行数据索引,可以确定数据所在的目标物理存储表和目标存储区域,基于目标物理存储表和目标存储区域信息,将其存储至对应的存储区域。

步骤26、接收到业务端发送的数据查询请求时,根据所述数据查询请求中的数据类型查询区域映射关系表,确定待查找目标存储区域。

具体的,接收到业务端发送的数据查询请求的方式可以是通过无线网络传输的请求信息。

当业务端想要进行数据查询时,发出数据查询请求,在进行数据查询时需要给出要查询的数据,根据数据确定数据类型,并根据区域映射关系表,确定数据所属的目标存储区域。

步骤27、根据所述数据查询请求中的关键属性信息从所述待查找目标存储区域中查找对应所述数据查询请求的目标数据段。

具体的,查找对应所述数据查询请求的目标数据段的方式可以是通过遍历目标存储区域,对目标存储区域中的数据一一进行比对,确定对应所述数据查询请求的目标数据段。

示例性的,图4提供了一种数据查询实现的流程示例图当需要查询druid上存储的数据信息时,业务端201发送给客户端202一个数据查询请求,当客户端202接收到业务端201发送的数据查询请求时,根据要查询的数据确定数据类型,基于数据类型,根据区域映射关系表,进行数据索引,可以确定数据所在的分表和分区,将数据从对应的存储区域取出。在进行数据存储和查询时通过一致性hash算法,主要解决在数据识别的基础上,依据数据特征定位到具体的物理表上,避免对每个物理表均进行查询,降低集群系统资源占用,提高系统并发度。

本发明通过接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。存储接入时间满足实时存储条件的数据,解决了数据存储过程中由于录入所有数据而导致的数据量过大,数据无法正常录入的问题,提高了数据录入的成功率;根据数据类型确定存储区域,将不同数据类型的数据存储在所属存储区域,解决了数据存储过程中利用单表存储的数据量过大带来的查询困难问题,提高了查询效率。

实施例三

图5为本发明实施例三提供的一种数据管理方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:

步骤31、接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型。

步骤32、当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

步骤33、当所述接入时间满足离线存储条件时,将所述待管理数据存储至分布式存储系统hadoop的候选补录数据表上。

其中,离线存储条件具体可以理解为预设的时间值,当数据的接入时间超出预设的时间值,认为数据接入时间满足离线存储条件,此时进行离线存储;候选补录数据表具体可以理解为存储满足离线存储条件数据的表。例如,设置离线存储时间为大于4小时,当业务端上传的数据大于4小时,则此时数据满足离线存储条件,将数据存储到hadoop上。

具体的,通过判断接入时间是否满足离线存储条件,当满足离线存储条件时,将管理数据存储至分布式存储系统hadoop上的候选补录数据表中。

步骤34、接收到数据补录任务时,通过所述hadoop对所述候选补录数据表中的待管理数据进行数据分组整理,获得整理后存储在hadoop上的待补录数据表。

其中,补录任务具体可以理解为根据需求设定每隔一段时间进行一次数据补录;待补录数据表具体可以理解为存储整理好的待管理数据的表。

具体的,数据分组整理的方式可以是根据数据类型按照时间间隔、目标物理存储表、目标存储区域的划分规则对其进行划分整理,将整理好的数据存储到hadoop上的待补录数据表中。

步骤35、确定所述待补录数据表中分组后的待管理数据归属的第二目标存储区域,并将所述待补录数据表中分组后各待管理数据归并至相应的第二目标存储区域中。

其中,第二目标存储区域具体可以理解为存储数据的区域,根据不同的数据类型划分出不同的存储区域。

具体的,根据数据类型确定分组后的待管理数据所归属的第二目标存储区域,并将待管理数据归并至相应的第二目标存储区域中进行存储管理。

步骤36、确定预先划分的各存储区域中所存储数据的生成时间。

具体的,数据的生成时间可以在产生数据时对数据进行时间戳标记,通过数据的时间戳标记确定数据的生成时间。

步骤37、将生成时间大于设定时间阈值的所存储数据从相应的存储区域中删除。

其中,设定时间阈值具体可以理解为根据实际情况和需求预先设定的时间值。

具体的,当数据的生成时间大于设定时间阈值时,根据druid提供的基础段删除接口对过期数据进行删除操作。

通过对过期数据进行删除,保障了过期数据能够及时删除,降低底层存储hadoop上的存储空间。

示例性的,图6提供了一种数据管理方法流程示例图,当业务端上传的数据为实时数据,先进行数据索引,确定数据所属的存储区域信息,将数据存储到druid上对应的存储区域上。当业务端上传的数据为离线存储数据,将数据存储到hadoop上,通过启动数据补录任务,对数据进行分组整理,分组整理时按照时间粒度、分区、分表的划分规则进行数据分组整理,并将数据按照分组重新落到hadoop上,之后启动druid合并任务将分组数据归并到现有的druid数据段上,从而实现延迟数据的补录。

本发明通过接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。存储接入时间满足实时存储条件的数据,解决了数据存储过程中由于录入所有数据而导致的数据量过大,数据无法正常录入的问题,提高了数据录入的成功率;根据数据类型确定存储区域,将不同数据类型的数据存储在所属存储区域,解决了数据存储过程中利用单表存储的数据量过大带来的查询困难问题,提高了查询效率。通过对数据进行补录,保证了数据完整性;通过对过期数据进行删除,保障了过期数据能够及时删除,降低底层存储hadoop上的存储空间。

实施例四

图7为本发明实施例四提供的一种数据管理装置的结构图,该装置包括:接收模块41和存储模块42。

其中,接收模块41,用于接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;存储模块42,用于当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

本发明通过接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。存储接入时间满足实时存储条件的数据,解决了数据存储过程中由于录入所有数据而导致的数据量过大,数据无法正常录入的问题,提高了数据录入的成功率;根据数据类型确定存储区域,将不同数据类型的数据存储在所属存储区域,解决了数据存储过程中利用单表存储的数据量过大带来的查询困难问题,提高了查询效率。

进一步地,存储模块42,包括:

提取单元,用于提取所述数据类型中的关键属性信息,从预先划分的物理存储表集合中确定与所述关键属性信息匹配的目标物理存储表。

确定单元,用于将所述目标物理存储表归属的存储区域确定为所述待管理数据归属的第一目标存储区域。

进一步地,将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储的方式可以是:将所述待管理数据以数据段形式发送至所述第一目标存储区域,并存储至所述第一目标存储区域中与所述待管理数据的关键属性信息匹配的目标物理存储表内。

进一步地,存储模块42,还包括:

映射单元,用于建立所述待管理数据的数据类型与所述第一目标存储区域的映射信息,并将所述映射信息存储至区域映射关系表。

接收单元,用于接收到业务端发送的数据查询请求时,根据所述数据查询请求中的数据类型查询区域映射关系表,确定待查找目标存储区域。

查找单元,用于根据所述数据查询请求中的关键属性信息从所述待查找目标存储区域中查找对应所述数据查询请求的目标数据段。

进一步地,该装置还包括:

候选存储模块,用于当所述接入时间满足离线存储条件时,将所述待管理数据存储至分布式存储系统hadoop的候选补录数据表上。

待补录模块,用于接收到数据补录任务时,通过所述hadoop对所述候选补录数据表中的待管理数据进行数据分组整理,获得整理后存储在hadoop上的待补录数据表。

区域确定模块,用于确定所述待补录数据表中分组后的待管理数据归属的第二目标存储区域,并将所述待补录数据表中分组后各待管理数据归并至相应的第二目标存储区域中。

时间确定模块,用于确定预先划分的各存储区域中所存储数据的已存储时间。

删除模块,用于将已存储时间大于设定时间阈值的所存储数据从相应的存储区域中删除。

本发明实施例所提供的一种数据管理装置可执行本发明任意实施例所提供的一种数据管理方法,具备执行方法相应的功能模块和有益效果。

实施例五

图8为本发明实施例五提供的一种设备的结构示意图,如图8所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图8中以一个处理器50为例;设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图8中以通过总线连接为例。

存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据管理方法对应的程序指令/模块(例如,数据管理装置中的接收模块41和存储模块42)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据管理方法。

存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据管理方法,该方法包括:

接收业务端上传的待管理数据,并确定所述待管理数据的接入时间及数据类型;

当所述接入时间满足实时存储条件时,根据所述数据类型确定所述待管理数据归属的第一目标存储区域,并将所述待管理数据以数据段形式发送至所述第一目标存储区域进行存储,所述第一目标存储区域为预先划分的存储区域。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据管理方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述数据管理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1