数据集成方法、介质、装置和计算设备与流程

文档序号:36326976发布日期:2023-12-09 17:14阅读:75来源:国知局
数据集成方法与流程

本公开的实施方式涉及大数据,更具体地,本公开的实施方式涉及一种数据集成方法、介质、装置和计算设备。


背景技术:

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、在数据处理领域中,通过对数据进行分析,可以获取数据的规律,根据数据的规律制定决策,从而提升执行业务的效率。

3、实际应用中,数据存储在多个数据源中,多个数据源中的数据不能进行整体分析,将来自多个数据源的数据进行合并得到数据集,这个过程为数据集成。对数据集进行分析可以得到数据整体的数据规律。

4、具体的,数据为动态变化的,数据包括已有的静态数据以及变化的实时数据,数据集成需要对两部分数据分别进行集成。执行数据集成需要通过处理逻辑对数据进行转换、清洗或者整合等处理,得到格式或者结构统一的处理后的数据,再将处理后的数据合并得到数据集。

5、在相关技术中,通过多套不同的处理逻辑分别进行数据处理,维护多套处理逻辑存在开发成本高的问题。


技术实现思路

1、本公开提供一种数据集成方法、介质、装置和计算设备,用于降低数据集成的开发成本。

2、在本公开实施方式的第一方面中,提供了一种数据集成方法,包括:确定算子配置;从数据库中获取静态数据,并通过所述算子配置对所述静态数据进行处理得到处理静态数据,并将所述处理静态数据存入离线数据表;从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,并将所述处理实时数据存入实时数据表;通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,得到更新离线数据表。

3、在本公开的一个实施例中,确定算子配置包括:从消息队列中获取用户端发送的多个算子逻辑;将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置。

4、在本公开的另一个实施例中,将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置,包括:确定所述多个算子逻辑之间的关联关系,所述关系包括依赖关系或者并列关系;通过所述关联关系,将所述算子逻辑按照有向无环图的结构,生成所述算子配置,所述算子配置中,存在所述依赖关系的算子逻辑按照所述依赖顺序排列在多个算子节点中,存在所述并列关系的算子存放在同一个算子节点中。

5、在本公开的又一个实施例中,所述实时数据包括变更数据以及新增数据;从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,包括:从所述数据库中获取所述变更数据,并通过所述算子配置对所述变更数据进行处理得到处理变更数据;从所述日志中获取所述新增数据,并通过所述算子配置对所述新增数据进行处理得到处理新增数据;将所述处理变更数据以及所述处理新增数据,确定为所述处理实时数据。

6、在本公开的再一个实施例中,通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,包括:通过所述处理变更数据对所述离线数据表中的所述处理静态数据进行变更处理,所述变更处理包括以下至少一种:增加、删除或修改;将所述处理新增数据,添加在所述离线数据表中。

7、在本公开的再一个实施例中,所述方法还包括:根据所述更新处理,生成多个更新记录,其中每个所述更新记录包括更新时刻;针对任意一个所述更新记录,若所述更新时刻与当前时刻之间的时长超过预设时长,则删除所述更新记录。

8、在本公开的再一个实施例中,所述方法还包括:获取所述更新离线数据表中的多个文件,所述多个文件用于存储离线数据;确定每个所述文件的文件容量;将所述多个文件中,文件容量小于或者等于第一预设容量的文件,确定为待合并文件;将所述待合并文件进行合并处理,得到多个合并文件,每个所述合并文件的文件容量大于所述第一预设容量并且小于或者等于第二预设容量,其中所述第一预设容量小于所述第二预设容量。

9、在本公开的再一个实施例中,所述方法还包括:获取用户端对所述更新离线数据表发起的多个查询操作;确定每个所述查询操作的查询字段,得到多个查询字段;从所述多个查询字段中确定每个所述查询字段的占比,并将所述占比最大的查询字段确定为目标查询字段;将所述更新离线数据表中的离线数据按照所述目标查询字段进行排序处理。

10、在本公开的再一个实施例中,所述方法还包括:从所述数据库中获取多个唯一标识;针对任意一个所述唯一标识,对所述更新离线数据表进行查询处理,得到查询结果;若所述查询结果中不存在所述唯一标识,则发出告警。

11、在本公开的再一个实施例中,所述方法还包括:按照预设周期,获取更新离线数据表中的离线数据的数据量,得到多个数据量;根据所述预设周期以及所述多个数据量,计算数据量同比变化率以及数据量环比变化率;若所述数据量同比变化率大于同比变化率阈值,或者所述数据量环比变化率大于环比变化率阈值,则发出告警。

12、在本公开实施方式的第二方面中,提供了一种计算机可读存储介质,包括:所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的数据集成方法。

13、在本公开实施方式的第三方面中,提供了一种数据集成装置,所述装置包括:确定模块,用于确定算子配置;同步模块,用于从数据库中获取静态数据,并通过所述算子配置对所述静态数据进行处理得到处理静态数据,并将所述处理静态数据存入离线数据表;获取模块,用于从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,并将所述处理实时数据存入实时数据表;更新模块,用于通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,得到更新离线数据表。

14、在本公开的一个实施例中所述确定模块,具体用于从消息队列中获取用户端发送的多个算子逻辑;所述确定模块,具体还用于将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置。

15、在本公开的另一个实施例中,所述确定模块,具体用于确定所述多个算子逻辑之间的关联关系,所述关系包括依赖关系或者并列关系;所述确定模块,具体还用于通过所述关联关系,将所述算子逻辑按照有向无环图的结构,生成所述算子配置,所述算子配置中,存在所述依赖关系的算子逻辑按照所述依赖顺序排列在多个算子节点中,存在所述并列关系的算子存放在同一个算子节点中。

16、在本公开的又一个实施例中,所述实时数据包括变更数据以及新增数据;所述装置还包括:处理模块,用于从所述数据库中获取所述变更数据,并通过所述算子配置对所述变更数据进行处理得到处理变更数据;所述处理模块,还用于从所述日志中获取所述新增数据,并通过所述算子配置对所述新增数据进行处理得到处理新增数据;所述处理模块,还用于将所述处理变更数据以及所述处理新增数据,确定为所述处理实时数据。

17、在本公开的再一个实施例中,所述装置还包括:执行模块,用于通过所述处理变更数据对所述离线数据表中的所述处理静态数据进行变更处理,所述变更处理包括以下至少一种:增加、删除或修改;所述执行模块,还用于将所述处理新增数据,添加在所述离线数据表中。

18、在本公开的再一个实施例中,所述装置还包括:记录模块,用于根据所述更新处理,生成多个更新记录,其中每个所述更新记录包括更新时刻;所述记录模块,还用于针对任意一个所述更新记录,若所述更新时刻与当前时刻之间的时长超过预设时长,则删除所述更新记录。

19、在本公开的再一个实施例中,所述装置还包括:合并模块,用于获取所述更新离线数据表中的多个文件,所述多个文件用于存储离线数据;所述合并模块,还用于确定每个所述文件的文件容量;所述合并模块,还用于将所述多个文件中,文件容量小于或者等于第一预设容量的文件,确定为待合并文件;所述合并模块,还用于将所述待合并文件进行合并处理,得到多个合并文件,每个所述合并文件的文件容量大于所述第一预设容量并且小于或者等于第二预设容量,其中所述第一预设容量小于所述第二预设容量。

20、在本公开的再一个实施例中,所述装置还包括:排序模块,用于获取用户端对所述更新离线数据表发起的多个查询操作;所述排序模块,还用于确定每个所述查询操作的查询字段,得到多个查询字段;所述排序模块,还用于从所述多个查询字段中确定每个所述查询字段的占比,并将所述占比最大的查询字段确定为目标查询字段;所述排序模块,还用于将所述更新离线数据表中的离线数据按照所述目标查询字段进行排序处理。

21、在本公开的再一个实施例中,所述装置还包括:第一稽核模块,用于从所述数据库中获取多个唯一标识;所述第一稽核模块,还用于针对任意一个所述唯一标识,对所述更新离线数据表进行查询处理,得到查询结果;所述第一稽核模块,还用于若所述查询结果中不存在所述唯一标识,则发出告警。

22、在本公开的再一个实施例中,所述装置还包括:第二稽核模块,用于按照预设周期,获取更新离线数据表中的离线数据的数据量,得到多个数据量;所述第二稽核模块,还用于根据所述预设周期以及所述多个数据量,计算数据量同比变化率以及数据量环比变化率;所述第二稽核模块,还用于若所述数据量同比变化率大于同比变化率阈值,或者所述数据量环比变化率大于环比变化率阈值,则发出告警。

23、在本公开实施方式的第四方面中,提供了一种计算设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述计算设备执行如本公开实施方式的第一方面中任一项所述的数据集成方法。

24、根据本公开的实施方式,通过同一套算子配置分别对静态数据以及实时数据进行处理,减少维护算子配置的成本,从而降低数据集成的开发成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1