星型并行单主题多源数据融合方法、介质、设备及系统与流程

文档序号:35490073发布日期:2023-09-17 00:56阅读:23来源:国知局
星型并行单主题多源数据融合方法、介质、设备及系统与流程

本发明涉及电数字数据处理的,特别涉及一种星型并行单主题多源数据融合方法、介质、设备及系统。


背景技术:

1、大数据(big data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着物联网、人工智能、5g等技术的不断突破与发展,全球的数据源和数据量越来越大,所产生的数据的读写、存储需求量不容忽视。

2、etl(extract-transform-load)被用来描述将数据从源端经过抽取(extract)、转换 (transform)和加载(load)直至目的端的过程,能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏”数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,使得这些数据成为数据分析、挖掘的基石。

3、然而,传统的etl在处理多源数据融合的需求时,往往存在时序依赖、融合过程混乱、融合结果不可用等问题,这严重影响了数据融合的并行度和效率,并将造成部分数据的冗余、及另部分数据的缺失,进而导致调用方的操作不便,无法实现对于数据的顺畅应用。当多个(如十几个)任务读取与生成的数据存在较大相关性且数据体量较大(数亿到数百亿)时,提升系统的并行度与吞吐量与融合效率具有较大价值,而在保障数据共享的前提下消减任务中依赖待攻克的解决问题。


技术实现思路

1、本发明解决了现有技术中存在的问题,提供了一种星型并行单主题多源数据融合方法、介质、设备及系统。

2、本发明所采用的技术方案是,一种星型并行单主题多源数据融合方法,所述方法设置对应多源数据的总表,用于融合全局,所述总表可扩展,对应所述总表设置可扩展的子表;

3、配合所述总表配置总表信息,所述子表配置有子表信息,通过子表信息与总表匹配;

4、子表数据按策略融合至对应的总表。

5、优选地,所述总表信息包括对应任一总表的第一id和总表标识单元,所述总表划分为若干分组,任一分组对应一子表;对应任一子表的分组配置有若干属性,任一分组的属性间不重复。

6、优选地,所述总表标识单元包括对应总表的识别码和第一版本号。

7、优选地,所述子表信息包括对应任一分组的第二id、对应的若干属性和子表标识单元,第二id与第一id通过对应的分组关联。

8、优选地,所述子表标识单元包括对应总表的识别码和第二版本号。

9、优选地,处理子表的数据,不同子表间数据通过第二版本号去重,去重后的子表数据基于对应总表的识别码融合至对应的总表。

10、优选地,相同第二id关联的数据的有效性由第二版本号决定;

11、数据融合后,总表包括总表标识单元及各子表融合时的第二版本号,根据版本号确定最终融合内容。

12、本发明中,相同id关联数据的有效性由版本决定,版本号越大表征数据越新,被保留,总表数据含总表的版本号(第一版本号),以及各个子表在融合时的第二版本号,故可以根据id中的各个子表融合时的第二版本号与当下当前子表的最新版本号确定最终的融合内容。

13、一种计算机可读存储介质,其上存储有星型并行单主题多源数据融合程序,该程序被处理器执行时实现上述星型并行单主题多源数据融合方法。

14、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述星型并行单主题多源数据融合方法。

15、一种星型并行单主题多源数据融合系统,所述系统包括:

16、一数据服务器,用于存储总表及总表信息;

17、若干用户端,用于实现子表的数据读取、写入及总表的数据读取;

18、一配置单元,用于配置总表信息、下发子表信息、分配新的子表;

19、一数据融合单元,用于基于策略将子表的数据处理后融合至总表。

20、本发明涉及一种星型并行单主题多源数据融合方法、介质、设备及系统,方法设置对应多源数据的总表,对应总表设置可扩展的子表;配合总表配置总表信息,子表配置子表信息,通过子表信息与总表匹配;子表内容按策略融合至对应的总表;基于方法完成计算机可读存储介质、计算机设备的实现;系统以数据服务器存储总表及总表信息,以若干用户端实现子表的数据读取、写入及总表的数据读取,以配置单元配置总表信息、下发子表信息、分配新的子表,以数据融合单元基于策略将子表的数据处理后融合至总表。

21、本发明的有益效果在于,

22、(1)消除传统etl在处理多源融合中的时序依赖、融合结果不可用等问题;

23、(2)每个源对于子表的数据可以独立操作并实现融合,可以获取对应总表的最新数据;

24、(3)实现并行融合,融合结果永远可用,显著提升数据融合的并行度和效率;

25、(4)实现不同应用业务的并行处理,并可以实现基于需求增加任务,任务量原则上无上限。



技术特征:

1.一种星型并行单主题多源数据融合方法,其特征在于:所述方法设置对应多源数据的总表,所述总表可扩展,对应所述总表设置可扩展的子表;

2.根据权利要求1所述的一种星型并行单主题多源数据融合方法,其特征在于:所述总表信息包括对应任一总表的第一id和总表标识单元,所述总表划分为若干分组,任一分组对应一子表;对应任一子表的分组配置有若干属性,任一分组的属性间不重复。

3.根据权利要求2所述的一种星型并行单主题多源数据融合方法,其特征在于:所述总表标识单元包括对应总表的识别码和第一版本号。

4.根据权利要求2所述的一种星型并行单主题多源数据融合方法,其特征在于:所述子表信息包括对应任一分组的第二id、对应的若干属性和子表标识单元,第二id与第一id通过对应的分组关联。

5.根据权利要求4所述的一种星型并行单主题多源数据融合方法,其特征在于:所述子表标识单元包括对应总表的识别码和第二版本号。

6.根据权利要求5所述的一种星型并行单主题多源数据融合方法,其特征在于:处理子表的数据,不同子表间数据通过第二版本号去重,去重后的子表数据基于对应总表的识别码融合至对应的总表。

7.根据权利要求5或6所述的一种星型并行单主题多源数据融合方法,其特征在于:相同第二id关联的数据的有效性由第二版本号决定;

8.一种计算机可读存储介质,其特征在于:其上存储有星型并行单主题多源数据融合程序,该程序被处理器执行时实现上述星型并行单主题多源数据融合方法。

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时,实现上述星型并行单主题多源数据融合方法。

10.一种星型并行单主题多源数据融合系统,其特征在于:所述系统包括:


技术总结
本发明涉及一种星型并行单主题多源数据融合方法、介质、设备及系统,设置对应多源数据的总表,对应总表设可扩展的子表;总表、子表配置信息,通过子表信息匹配总表;子表内容按策略融合至对应总表;基于方法实现介质、设备;系统以数据服务器存储总表及总表信息,若干用户端实现子表数据读取、写入及总表数据读取,配置单元配置总表信息、下发子表信息、分配新子表,数据融合单元基于策略处理子表数据后融合至总表。本发明的每个源对子表数据独立操作并融合,可获取对应总表的最新数据;实现并行融合,融合结果永远可用,显著提升数据融合的并行度和效率;实现不同应用业务并行处理,实现基于需求增加任务,任务量原则上无上限。

技术研发人员:陈宇飞,张琴,秦学
受保护的技术使用者:浙江融象数字科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1