数据处理方法、装置、电子设备及存储介质与流程

文档序号:24984869发布日期:2021-05-07 23:02阅读:79来源:国知局
数据处理方法、装置、电子设备及存储介质与流程

本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。



背景技术:

数据仓库是面向主题的、相对稳定的、反映历史数据变化并能快速响应历史数据查询的数据集合。数据仓库能够对源端的业务数据库mysql中的在线数据进行备份与恢复。

相关技术中,为了能够实现对在线数据的备份与恢复,数据仓库通常采用快照存储或拉链表等存储方式。其中,快照存储是每天抽取前一天全量的快照数据进行存储。由于数据是缓慢变化的,按天快照存储的方式会造成大量的冗余数据占用存储空间。拉链表是数据仓库中的一种数据模型,用来存储从起始状态至当前状态的数据变化信息。仅当源端的业务数据发生变化时,才会通过数据计算变更拉链表,这样,既保留了历史数据的变化信息,又不浪费存储空间。然而,在大数据量情况下,目前对拉链表进行数据计算的方式效率较低。



技术实现要素:

本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中数据计算执行效率低的问题。本公开的技术方案如下:

根据本公开的第一方面,提供一种数据处理方法,所述方法包括:

获取历史时刻的拉链表、以及所述历史时刻至当前时刻所生成的数据表,其中,所述拉链表以及所述数据表包含主键字段,所述历史时刻的拉链表包含在所述历史时刻的有效数据,所述数据表包含所述数据表在生成时刻的实时数据;

按照所述拉链表和/或所述数据表中的主键字段内容,对所述有效数据以及所述实时数据进行分组,得到各所述主键字段内容对应的数据集合;

根据各所述主键字段内容对应的数据集合,生成各所述主键字段内容对应的新增拉链记录;

将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,

所述按照所述拉链表和/或所述数据表中的主键字段内容,对所述有效数据以及所述实时数据进行分组,得到各所述主键字段内容对应的数据集合的步骤,包括:

若所述数据表中包含有临时数据,则修复所述数据表;

按照所述拉链表和/或修复后的数据表中的主键字段内容,对所述有效数据以及所述修复后的数据表中的实时数据进行分组,得到各所述主键字段内容对应的数据集合,其中,所述修复后的数据表为不包含所述临时数据的数据表。

在一种可选的实现方式中,所述根据各所述主键字段内容对应的数据集合,生成各所述主键字段内容对应的新增拉链记录的步骤,包括:

按照所述数据集合中各数据的生成时刻,对所述数据集合中的各数据进行排序,得到数据序列;

对比所述数据序列中相邻的两条数据是否相同;

根据对比结果,生成所述新增拉链记录。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述根据对比结果,生成所述新增拉链记录的步骤,包括:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻为所述当前时刻,则生成第一新增拉链记录,所述第一新增拉链记录中所述有效数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述根据对比结果,生成所述新增拉链记录的步骤,包括:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻早于所述当前时刻,则生成第二新增拉链记录,所述第二新增拉链记录中所述有效数据的失效日期标记为所述最后一条数据的生成时刻。

在一种可选的实现方式中,所述相邻的两条数据包括前一数据和后一数据,所述前一数据的生成时刻早于所述后一数据的生成时刻,所述前一数据已标记有生效日期且处于拉链开启状态,所述根据对比结果,生成所述新增拉链记录的步骤,包括:

若所述前一数据与所述后一数据不同,则生成第三新增拉链记录和第四新增拉链记录,所述第三新增拉链记录中所述前一数据的失效日期标记为所述后一数据的生成时刻的前一预定周期,所述第四新增拉链记录中所述后一数据的生效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述根据对比结果,生成所述新增拉链记录的步骤,还包括:

若所述后一数据的生成时刻为所述当前时刻,则生成第五新增拉链记录,所述第五新增拉链记录中所述后一数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述根据对比结果,生成所述新增拉链记录的步骤,还包括:

若所述后一数据的生成时刻早于所述当前时刻,且所述后一数据为所述数据序列的最后一条数据,则生成第六新增拉链记录,所述第六新增拉链记录中所述后一数据的失效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表的步骤,包括:

以所述新增拉链记录的失效日期作为分区字段,将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,各所述主键字段内容对应不同的拉链表,所述历史时刻的拉链表对应的主键字段内容为第一主键,所述将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表的步骤,包括:

将所述第一主键对应的新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

根据本公开的第二方面,提供一种数据处理装置,所述装置包括:

获取模块,被配置为获取历史时刻的拉链表、以及所述历史时刻至当前时刻所生成的数据表,其中,所述拉链表以及所述数据表包含主键字段,所述历史时刻的拉链表包含在所述历史时刻的有效数据,所述数据表包含所述数据表在生成时刻的实时数据;

分桶模块,被配置为按照所述拉链表和/或所述数据表中的主键字段内容,对所述有效数据以及所述实时数据进行分组,得到各所述主键字段内容对应的数据集合;

处理模块,被配置为根据各所述主键字段内容对应的数据集合,生成各所述主键字段内容对应的新增拉链记录;

插入模块,被配置为将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,所述分桶模块还被配置为:

若所述数据表中包含有临时数据,则修复所述数据表;

按照所述拉链表和/或修复后的数据表中的主键字段内容,对所述有效数据以及所述修复后的数据表中的实时数据进行分组,得到各所述主键字段内容对应的数据集合,其中,所述修复后的数据表为不包含所述临时数据的数据表。

在一种可选的实现方式中,所述处理模块包括:

排序单元,被配置为按照所述数据集合中各数据的生成时刻,对所述数据集合中的各数据进行排序,得到数据序列;

对比单元,被配置为对比所述数据序列中相邻的两条数据是否相同;

生成单元,被配置为根据对比结果,生成所述新增拉链记录。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻为所述当前时刻,则生成第一新增拉链记录,所述第一新增拉链记录中所述有效数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻早于所述当前时刻,则生成第二新增拉链记录,所述第二新增拉链记录中所述有效数据的失效日期标记为所述最后一条数据的生成时刻。

在一种可选的实现方式中,所述相邻的两条数据包括前一数据和后一数据,所述前一数据的生成时刻早于所述后一数据的生成时刻,所述前一数据已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述前一数据与所述后一数据不同,则生成第三新增拉链记录和第四新增拉链记录,所述第三新增拉链记录中所述前一数据的失效日期标记为所述后一数据的生成时刻的前一预定周期,所述第四新增拉链记录中所述后一数据的生效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述生成单元还被配置为:

若所述后一数据的生成时刻为所述当前时刻,则生成第五新增拉链记录,所述第五新增拉链记录中所述后一数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述生成单元还被配置为:

若所述后一数据的生成时刻早于所述当前时刻,且所述后一数据为所述数据序列的最后一条数据,则生成第六新增拉链记录,所述第六新增拉链记录中所述后一数据的失效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述插入模块具体被配置为:

以所述新增拉链记录的失效日期作为分区字段,将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,各所述主键字段内容对应不同的拉链表,所述历史时刻的拉链表对应的主键字段内容为第一主键,所述插入模块具体被配置为:

将所述第一主键对应的新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

根据本公开的第三方面,提供一种电子设备,所述电子设备包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的数据处理方法。

根据本公开的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面所述的数据处理方法。

根据本公开的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序由电子设备的处理器执行时实现如第一方面所述的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

本公开技术方案提供了一种数据处理方法、装置、电子设备及存储介质,首先获取历史时刻的拉链表、以及历史时刻至当前时刻所生成的数据表,然后按照拉链表和/或数据表中的主键字段内容,对有效数据以及实时数据进行分组,得到各主键字段内容对应的数据集合;之后再根据各主键字段内容对应的数据集合,生成各主键字段内容对应的新增拉链记录;再将新增拉链记录插入历史时刻的拉链表中,得到当前时刻的拉链表。本公开技术方案,通过对拉链表以及数据表中的数据按照主键字段内容进行分桶,然后再根据同一主键字段内容的数据生成新增拉链记录,本公开技术方案摒弃了按照字段进行关联的过程,能够快速高效地完成新增拉链记录的计算过程,更好地保障拉链表数据内容的一致性,提高拉链表数据质量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。

图2是根据一示例性实施例示出的一种生成新增拉链记录的流程图。

图3是根据一示例性实施例示出的一种更新拉链表的实例数据。

图4是根据一示例性实施例示出的另一种更新拉链表的实例数据。

图5是根据一示例性实施例示出的一种数据处理装置的结构框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

scd(缓慢变化维度)为数据仓库维度建模中的概念,英文全称为slowlychangingdimensions。缓慢变化维度就是数据仓库维度表中,那些随时间变化比较不明显,但仍然会发生变化的维度。例如在员工维度表中,某员工原来在北京分公司工作,后来调往上海分公司,那么“工作地点”就是一个缓慢变化维度。

传统的拉链表生成过程,通常是先取出前一天的快照数据与当天的快照数据,然后按照主键进行关联匹配,对于需要拉链的字段内容进行对比。如果某个字段内容完全一致,那么这条数据在拉链表中的记录不发生变化。如果字段内容发生变化,则要对拉链表触发两个动作,一个是关闭旧数据的作用有效区间,另一个开启新数据的作用有效区间。如果当天的快照数据中出现了前一天的快照数据中没有的数据,则要在拉链表中新生成一条从当天日期开始记录的有效数据。

发明人发现传统的拉链表生成过程中有以下几个问题。

1、效率问题,首先需要划分出数据表中的修改数据和删除数据,划分修改数据和删除数据的过程需要大量的关联操作,划分完成之后还要再按照主键再进行一轮关联才能取得最终的结果信息。在大数据量情况下,关联操作需要将相邻两天的数据表按照字段进行关联,关联操作过程中磁盘的输入/输出(input/output)量较大,导致拉链表数据计算的效率较低。

2、数据质量问题,由于传统的拉链表只能在最新的拉链表基础上添加记录,如果发现历史快照数据中存在脏数据(临时数据),脏数据会作为一条历史记录一直保存在拉链表中,导致拉链表不准确,这种情况下只能通过人工编写修复脚本进行修复,修复成本较高。

为了解决上述问题,图1是根据一示例性实施例示出的一种数据处理方法的流程图,如图1所示,该方法可以包括以下步骤。

在步骤s11中,获取历史时刻的拉链表、以及历史时刻至当前时刻所生成的数据表,其中,拉链表以及数据表包含主键字段,历史时刻的拉链表包含在历史时刻的有效数据,数据表包含该数据表在生成时刻的实时数据。

本实施例中,各步骤的执行主体例如可以为服务器等电子设备,本申请不作限定。

其中,拉链表中包含一条或多条拉链记录,如图3和图4示出的拉链表中,每一行对应一条拉链记录,每条拉链记录包含一条历史数据的生效日期和失效日期。有效数据为在历史时刻的拉链表中已标记有生效日期且处于拉链开启状态的数据,处于拉链开启状态指的是该有效数据的失效日期为未标记状态或者标记为晚于历史时刻的日期(比如9999年12月31日)。如图3和图4所示,拉链表中记录有第一主键id=1的多条拉链记录,该多条拉链记录反映第一主键数据的历史变化信息,拉链表中的每一行对应一条拉链记录,最后一行对应的在历史时刻的有效数据。

数据表可以是由业务数据库以预定周期为间隔生成的,该预定周期例如可以为一天,如图3和图4所示出的。数据表包含该数据表在生成时刻的实时数据,实时数据中包含数据表预设字段的内容,预设字段例如可以包括id(主键)、name(姓名)、age(年龄)、sex(性别)、province(省份)等。需要说明的是,本实施例中的实时数据不包含生成时刻字段的内容。数据表中的每一行(字段行除外)对应一条实时数据,生成时刻字段的内容为同一行实时数据的生成时刻。数据表中可以包含多个主键字段内容在在生成时刻的实时数据,例如图3中的数据表包含id=2、3、4这几个主键字段内容在生成时刻的实时数据,每一行对应一个主键字段内容的实时数据。

历史时刻与当前时刻之间的间隔时间可以为一天或者多天,在实际应用中,可以通过参数配置该间隔时间,灵活地处理拉链表的数据回溯任务。

例如,历史时刻与当前时刻之间的时间间隔设置为一天,即根据前一天的拉链表以及当天生成的数据表,对拉链表进行更新。如图3所示,首先获取历史时刻为2020年08月05日的拉链表、以及当前时刻2020年08月06日的数据表。图3中历史时刻的拉链表中记录有第一主键id=1的历史变化信息(历史时刻的拉链表的前两行)以及在历史时刻即前一天的有效数据(历史时刻的拉链表的最后一行),数据表中包括有第一主键id=1在当前时刻即当天生成的实时数据,在具体实现中,数据表中还可以包括其它主键字段内容(如id=2、3、4)在当天生成的实时数据。

历史时刻与当前时刻之间的时间间隔还可以设置为多天,参照图4,获取历史时刻的拉链表、以及从历史时刻至当前时刻生成的数据表。对于数据表中存在脏数据的情况,获取的数据表可以是完成脏数据修复后的数据表,基于修复后的数据表完成拉链表的更新,这样生成的拉链表中不存在脏数据问题,也就是在生成拉链表的过程中就可以达到数据修复的目的,任务执行过程符合幂等性,保障数据回溯情况下拉链表的准确性,提高数据质量。

如图4所示,获取历史时刻为2020年08月03日的拉链表、以及从2020年08月03日至当前时刻每天(2020年08月04日、2020年08月05日和2020年08月06日)生成的数据表。图4中历史时刻的拉链表中记录有第一主键id=1的历史变化信息(历史时刻的拉链表的前两行)以及在历史时刻即2020年08月03日的有效数据(历史时刻的拉链表的最后一行),根据数据表可以获得第一主键id=1从2020年08月03日至当天每天生成的实时数据。

在步骤s12中,按照拉链表和/或数据表中的主键字段内容,对有效数据以及实时数据进行分组,得到各主键字段内容对应的数据集合。

在具体实现中,可以将步骤s11获得的历史时刻的拉链表以及数据表进行融合,然后按照拉链表和/或数据表中的主键字段内容,对融合后的数据表进行分桶。分桶之后,同一个主键字段内容的有效数据和实时数据构成该主键字段内容对应的数据集合,如图3和图4中id=1的数据集合表格中示出了在数据分桶之后第一主键id=1的有效数据和实时数据构成的数据集合。

在一种可选的实现方式中,若数据表中包含有临时数据(脏数据),则可以在本步骤s12中首先修复数据表(如删除数据表中的临时数据),然后按照拉链表和/或修复后的数据表中的主键字段内容,对有效数据以及修复后的数据表中的实时数据进行分组,得到各主键字段内容对应的数据集合,其中,修复后的数据表为不包含临时数据的数据表。

通过对包含脏数据的数据表进行修复,再对修复后的数据表和拉链表根据主键字段内容进行分桶,得到各主键字段内容对应的数据集合,之后再根据各主键字段内容对应的数据集合生成对应的新增拉链记录,实现对拉链表的更新。通过修复数据表,以删除数据表中的脏数据,可以更好地保障拉链表数据内容的一致性和幂等性,可以提高拉链表的准确性,提高数据质量。

后续实施例会对新增拉链记录的生成过程以及拉链表的计算更新过程进行详细描述。

本实施例中,分桶得到的数据集合可以在单个进程内进行生成新增拉链记录的拉链计算,即各主键字段内容对应的数据集合分别在不同的进程中生成新增拉链记录,减少数据混洗过程中的读写操作,有效地提高任务执行的效率;并且对于不同主键字段内容对应的数据集合可以并行进行处理(并行生成各主键字段内容对应的新增拉链记录),进一步提高任务执行的效率。

在步骤s13中,根据各主键字段内容对应的数据集合,生成各主键字段内容对应的新增拉链记录。

在一种可选的实现方式中,可以首先对数据集合中的各数据按照预设顺序(如生成时刻的先后)进行排序,然后再对排序后的数据进行对比,根据对比结果生成新增拉链记录。在后续实施例中会详细描述拉链计算的过程。

在步骤s14中,将新增拉链记录插入历史时刻的拉链表中,得到当前时刻的拉链表。

在具体实现中,新增拉链记录输出到历史时刻的拉链表(hive表)中的实现方式有多种。参照图3和图4示出的当前时刻的拉链表,其中的加粗斜体为新增拉链记录。

在第一种实现方式中,拉链表本身不设置分区字段,可以将所有的新增拉链记录全量插入到历史时刻的拉链表中,也就是将新增拉链记录与历史时刻的拉链表中的拉链记录一起存储在同一个分区中,得到当前时刻的拉链表。

在第二种实现方式中,可以以新增拉链记录的失效日期作为分区字段,将新增拉链记录插入到历史时刻的拉链表中,得到当前时刻的拉链表。拉链表中设置有多个分区字段,各分区字段中存储有不同失效日期的拉链记录。通过设置分区字段,可以有效地减少数据的读取量,提高数据查询等任务的执行效率。另外,以新增拉链记录中的失效日期作为分区字段进行存储,相对于以生效日期作为分区字段进行存储的方式,可以避免数据查询过程中出现数据丢失的问题,简化数据查询条件的设置。

在一种可选的实现方式中,各主键字段内容可以对应不同的拉链表,假设历史时刻的拉链表对应的主键字段内容为第一主键,则在步骤s14中具体可以包括:将第一主键对应的新增拉链记录插入历史时刻的拉链表中,得到当前时刻的拉链表。

本实施例提供的数据处理方法,对拉链表以及数据表中的数据按照主键字段内容进行分桶,然后再根据同一主键字段内容的数据生成新增拉链记录,本公开实施例摒弃了按照字段进行关联的过程,能够快速高效地完成新增拉链记录的生成过程,有效地提高数据处理效率。

在本实施例一种可选的实现方式中,参照图2,在步骤s13中具体可以包括s21-s23。

步骤s21,按照数据集合中各数据的生成时刻,对数据集合中的各数据进行排序,得到数据序列。

在具体实现中,可以按照各数据生成的先后顺序,对数据集合中的各数据(有效数据和实时数据)进行排序,如图3和图4中示出的id=1的数据集合是已经按照各数据的生成时刻排序后的数据序列,数据集合中的每一行对应的是有效数据或实时数据。需要说明的是,数据集合中的各数据不包含生成时刻字段的内容,数据集合表格中的每一行(字段行除外)对应一条数据,生成时刻字段的内容为同一行数据的生成时刻。

步骤s22,对比数据序列中相邻的两条数据是否相同。

步骤s23,根据对比结果,生成新增拉链记录。

在具体实现中,有效数据在历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,在步骤s23中具体可以包括:

若数据序列中任意相邻的两条数据均相同,且数据序列中最后一条数据的生成时刻为当前时刻,则生成第一新增拉链记录,第一新增拉链记录中有效数据的失效日期标记为未来时刻;

若数据序列中任意相邻的两条数据均相同,且数据序列中最后一条数据的生成时刻早于当前时刻,则生成第二新增拉链记录,第二新增拉链记录中有效数据的失效日期标记为最后一条数据的生成时刻。

在具体实现中,对比数据序列中相邻的两条数据,如果相邻的两条数据内容相同则对比下一条数据,如图4中id=1的数据序列中的第一条数据(如4中数据集合表格中的第一行数据)为历史时刻的拉链表中的有效数据,在拉链表中已经标记有生效日期(对应字段begin_date)2020年08月01日,失效日期(对应字段end_date)为9999年12月31日,因此该有效数据处于拉链开启状态。本实施例中,如图4所示,对比数据序列中第一条数据(图4中数据集合表格中的第一行数据)与第二条数据(图4中数据集合表格中的第二行数据)相同,此时可以不生成新增拉链记录;继续对比第二条数据与第三条数据(图4中数据集合表格中的第三行数据),第二条数据与第三条数据也相同,同样可以不生成新增拉链记录,接下来继续对比第三条数据和第四条数据(图4中数据集合表格中的第四行数据),依次类推。

如果数据序列中任意相邻的两条数据均相同,且数据序列中最后一条数据的生成时刻为当前时刻,这种为数据序列中不存在删除数据的情况,可以生成一条新增拉链记录(第一新增拉链记录),将有效数据的失效日期标记为未来时刻(即晚于当前时刻的时刻)如9999年12月31日。

如果数据序列中任意相邻的两条数据均相同,且数据序列中最后一条数据的生成时刻早于当前时刻,这种为数据序列中存在数据删除的情况,即最后一条数据的生成时刻之后该主键字段内容的数据存在被删除的情况,此时可以生成一条新增拉链记录(第二新增拉链记录),将有效数据的失效日期标记为最后一条数据的生成时刻。

假设相邻的两条数据包括前一数据和后一数据,前一数据的生成时刻早于后一数据的生成时刻,前一数据已标记有生效日期且处于拉链开启状态,步骤s23还可以包括:

若前一数据与后一数据不同,则可以生成第三新增拉链记录和第四新增拉链记录。在第三新增拉链记录中,前一数据的失效日期标记为后一数据的生成时刻的前一预定周期。在第四新增拉链记录中,后一数据的生效日期标记为后一数据的生成时刻。

在一个实施例中,若后一数据的生成时刻为当前时刻,则生成第五新增拉链记录,第五新增拉链记录中后一数据的失效日期标记为未来时刻。若后一数据的生成时刻早于当前时刻,且后一数据为数据序列的最后一条数据,则生成第六新增拉链记录,第六新增拉链记录中后一数据的失效日期标记为后一数据的生成时刻。

如果相邻的两条数据内容不相同,则需要根据相邻的两条数据的生成时刻生成新增拉链记录。如图4中,数据集合中第一条数据(拉链表中的有效数据)至第三条数据都相同,可以不生成新增拉链记录。接下来对比数据集合中第三条数据(前一数据)和第四条数据(后一数据),两者的内容不相同,则生成一条新增拉链记录(第三新增拉链记录),将历史时刻的拉链表中的有效数据(当前时刻拉链表中的第三行)的失效日期标记为后一数据(即图4中数据集合表格中的第四行数据)的生成时刻的前一预定周期,由于本实施例中设定的预定周期为一天,也就是将有效数据的失效日期标记为第四条数据的生成时刻(2020年08月06日)的前一天即2020年08月05日;同时生成另一条新增拉链记录(第四新增拉链记录,当前时刻拉链表中的第四行),将后一数据即第四条数据的生效日期标记为该后一条数据的生成时刻,即将第四条数据的生效日期标记为2020年08月06日。图4示出的数据集合中,由于后一数据即第四条数据的生成时刻为当前时刻即2020年08月06日,因此可以再生成一条新增拉链记录(第五新增拉链记录,当前时刻拉链表中的第四行),即将第四条数据的失效日期标记为未来时刻(即晚于当前时刻的时刻)如9999年12月31日。

需要说明的是,在第四新增拉链记录生成之后,对于后一数据的生成时刻早于当前时刻、且后一数据为数据序列的最后一条数据的情况,说明后一数据生成之后该主键字段内容的数据被删除,此时可以生成一条新增拉链记录(第六新增拉链记录),将后一数据的失效日期标记为后一数据的生成时刻。

本实施例中,根据拉链表中的生效日期和失效日期就可以判断数据内容是否存在物理删除,对于存在物理删除的数据,其生效日期和失效日期在拉链表中不连续,例如物理删除的数据对应拉链记录的失效日期为8月5日,该拉链记录的下一条数据的生效日期为8月10日,即上一条拉链记录的失效日期与下一条拉链记录的生效日期之间的时间间隔大于上述的预定周期,即生效日期和失效日期在拉链表中不连续。

本实施例提供的数据处理方法,通过按照主键字段内容对数据进行分桶,得到各主键字段内容的数据集合,然后根据各主键字段内容的数据集合分别生成新增拉链记录,本方案将传统技术中数据关联的过程转换为数据分组与数据对比的过程,能够快速高效地对拉链表进行更新。本申请技术方案使数据处理的过程更加自动化,高效化,更好地保障了数据处理过程的稳定性和灵活性,极大地降低了运维成本。

图5是根据一示例性实施例示出的一种数据处理装置框图。参照图5,可以包括:

获取模块501,被配置为获取历史时刻的拉链表、以及所述历史时刻至当前时刻所生成的数据表,其中,所述拉链表以及所述数据表包含主键字段,所述历史时刻的拉链表包含在所述历史时刻的有效数据,所述数据表包含所述数据表在生成时刻的实时数据;

分桶模块502,被配置为按照所述拉链表和/或所述数据表中的主键字段内容,对所述有效数据以及所述实时数据进行分组,得到各所述主键字段内容对应的数据集合;

处理模块503,被配置为根据各所述主键字段内容对应的数据集合,生成各所述主键字段内容对应的新增拉链记录;

插入模块504,被配置为将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,所述分桶模块还被配置为:

若所述数据表中包含有临时数据,则修复所述数据表;

按照所述拉链表和/或修复后的数据表中的主键字段内容,对所述有效数据以及所述修复后的数据表中的实时数据进行分组,得到各所述主键字段内容对应的数据集合,其中,所述修复后的数据表为不包含所述临时数据的数据表。

在一种可选的实现方式中,所述处理模块包括:

排序单元,被配置为按照所述数据集合中各数据的生成时刻,对所述数据集合中的各数据进行排序,得到数据序列;

对比单元,被配置为对比所述数据序列中相邻的两条数据是否相同;

生成单元,被配置为根据对比结果,生成所述新增拉链记录。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻为所述当前时刻,则生成第一新增拉链记录,所述第一新增拉链记录中所述有效数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述有效数据在所述历史时刻的拉链表中已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述数据序列中任意相邻的两条数据均相同,且所述数据序列中最后一条数据的生成时刻早于所述当前时刻,则生成第二新增拉链记录,所述第二新增拉链记录中所述有效数据的失效日期标记为所述最后一条数据的生成时刻。

在一种可选的实现方式中,所述相邻的两条数据包括前一数据和后一数据,所述前一数据的生成时刻早于所述后一数据的生成时刻,所述前一数据已标记有生效日期且处于拉链开启状态,所述生成单元具体被配置为:

若所述前一数据与所述后一数据不同,则生成第三新增拉链记录和第四新增拉链记录,所述第三新增拉链记录中所述前一数据的失效日期标记为所述后一数据的生成时刻的前一预定周期,所述第四新增拉链记录中所述后一数据的生效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述生成单元还被配置为:

若所述后一数据的生成时刻为所述当前时刻,则生成第五新增拉链记录,所述第五新增拉链记录中所述后一数据的失效日期标记为未来时刻。

在一种可选的实现方式中,所述生成单元还被配置为:

若所述后一数据的生成时刻早于所述当前时刻,且所述后一数据为所述数据序列的最后一条数据,则生成第六新增拉链记录,所述第六新增拉链记录中所述后一数据的失效日期标记为所述后一数据的生成时刻。

在一种可选的实现方式中,所述插入模块具体被配置为:

以所述新增拉链记录的失效日期作为分区字段,将所述新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

在一种可选的实现方式中,各所述主键字段内容对应不同的拉链表,所述历史时刻的拉链表对应的主键字段内容为第一主键,所述插入模块具体被配置为:

将所述第一主键对应的新增拉链记录插入所述历史时刻的拉链表中,得到所述当前时刻的拉链表。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图6是本公开示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图6,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成任一实施例所述的数据处理方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行任一实施例所述的数据处理方法。

在示例性实施例中,还提供了一种包括指令的性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成任一实施例所述的数据处理方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括可读性程序代码,该可读性程序代码可由装置800的处理器820执行以完成任一实施例所述的数据处理方法。可选地,该程序代码可以存储在装置800的计算机可读存储介质中,该计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图7是本公开示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。

参照图7,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行任一实施例所述的数据处理方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(i/o)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1