本发明涉及数据处理,特别是一种基于数据湖的自助式数据分析方法、装置和电子设备。
背景技术:
1、数据湖是一个集中式的存储库,用于存储任意规模的多个来源的结构化、半结构化和非结构化数据,为各类数字化应用提供数据服务。然而,现有的数据湖技术的元数据模型设计简单,存储位置分散,缺少相关工具,无法实现对数据的快速检索,相关的数据分析工作高度依赖于it参与,用户无法快速了解湖中数据分布情况、数据样貌,不能直接分析得到相应数据价值。
2、因此,有必要开发一种基于数据湖的自助式数据分析方法、装置和电子设备,以实现快速准确地对数据湖中数据的数据定位与分析。
技术实现思路
1、鉴于上述问题,本发明实施例提供了一种基于数据湖的自助式数据分析方法、装置和电子设备,以便克服上述问题或者至少部分地解决上述问题。
2、本发明实施例第一方面提供了一种基于数据湖的自助式数据分析方法,所述方法包括:
3、对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;
4、对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示存储数据资产的分布情况和各个数据资产之间的关系;
5、根据所述元数据图数据库和所述数据资产地图,定位待分析数据;
6、对所述待分析数据进行etl作业,收集etl作业过程中的sql语句信息;
7、根据所述sql语句信息,生成血缘图谱;
8、根据所述血缘图谱,生成对所述待分析数据的分析结果。
9、本实施例第二方面还提出了一种数据分析装置,所述装置包括:
10、元数据图数据库生成模块,用于对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;
11、数据资产地图生成模块,用于对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;
12、定位模块,用于根据所述元数据图数据库和所述数据资产地图,定位待分析数据;
13、作业模块,用于对所述待分析数据进行etl作业,得到etl作业过程中的sql语句信息;
14、血缘图谱生成模块,用于根据所述sql语句信息,生成血缘图谱;
15、分析模块,用于根据所述血缘图谱,生成对所述待分析数据的分析结果。
16、本实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例第一方面任一所述的基于数据湖的自助式数据分析方法中的步骤。
17、本发明实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例第一方面任一所述的基于数据湖的自助式数据分析方法中的步骤。
18、本申请实施例第五方面提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一所述的基于数据湖的自助式数据分析方法中的步骤。
19、本发明实施例提供的一种基于数据湖的自助式数据分析方法、装置和电子设备,该方法包括:对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;根据所述元数据图数据库和所述数据资产地图,定位待分析数据;对所述待分析数据进行etl作业,收集etl作业过程中的sql语句信息;根据所述sql语句信息,生成血缘图谱;根据所述血缘图谱,生成对所述待分析数据的分析结果。本申请实施例一方面通过创建元数据图数据库,以对数据湖的元数据信息进行统一管理,通过生成数据资产地图,理清数据资产的分布和关系,从而基于元数据图数据库和数据资产地图实现对数据的快速检索和定位。另一方面,在通过采集sql语句信息,生成数据血缘图谱,根据血缘图谱,进行自动的数据分析,实现了快速准确的数据分析。
1.一种基于数据湖的自助式数据分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于数据湖的自助式数据分析方法,其特征在于,所述对数据湖的元数据信息进行管理,创建元数据图数据库,包括:
3.根据权利要求2所述的基于数据湖的自助式数据分析方法,其特征在于,所述对所述基础元数据信息进行数据融合,得到元模型对象,包括:
4.根据权利要求1所述的基于数据湖的自助式数据分析方法,其特征在于,所述对所述数据湖的数据进行分区分类,生成数据资产地图,包括:
5.根据权利要求4所述的基于数据湖的自助式数据分析方法,其特征在于,在所述落位后的数据为结构化数据或半结构化数据的情况下,所述对落位后的数据进行分类汇聚,得到已分类数据,包括:
6.根据权利要求1所述的基于数据湖的自助式数据分析方法,其特征在于,所述根据所述sql语句信息,生成血缘图谱,包括:
7.根据权利要求6所述的基于数据湖的自助式数据分析方法,其特征在于,所述根据所述数据血缘关系生成所述血缘图谱,包括:
8.根据权利要求7所述的基于数据湖的自助式数据分析方法,其特征在于,所述根据所述血缘图谱,生成对所述待分析数据的分析结果,包括:
9.一种自助式数据分析装置,其特征在于,所述装置包括:
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8任一所述的基于数据湖的自助式数据分析方法的步骤。