本发明涉及数据处理,尤其涉及一种数据湖中的冗余资产识别方法、数据处理系统及存储介质。
背景技术:
1、数据湖是一种高度可扩展的数据存储区域,由于数据湖中数据结构之间的引用关系复杂,数据湖中容易出现冗余的数据表、作业、字段等冗余资产。冗余资产不但会造成数据湖中的存储空间浪费,还会导致数据难以溯源,为了避免其带来的负面影响,需要制定相应的清理策略来定期清除数据湖中的冗余资产。
2、在相关技术方案中,通常是通过业务分析法来识别数据湖中的冗余资产,即从某个数据湖中某个业务功能的角度出发,将该业务功能下相近似的数据表识别为冗余资产进行清理。
3、然而,这种方式仅能够识别出单个业务功能模块下的冗余资产,无法针对多个业务功能模块之间的冗余资产进行识别。当数据湖的规模较大,存在较多业务功能分区时,传统的业务分析法能够识别出的冗余资产便较为有限,进而出现冗余资产的清理效果较差的问题。
4、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种数据湖中的冗余资产识别方法,旨在解决如何对多个业务功能模块之间的冗余资产进行识别的问题。
2、为实现上述目的,本发明提供的一种数据湖中的冗余资产识别方法,所述方法包括以下步骤:
3、确定数据湖中的目标数据表引用上游对象的个数;
4、若所述上游对象的个数为单个,确定所述目标数据表的数据来源类型为单数据来源类型,调用单数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产;
5、若所述上游对象的个数为多个,确定所述目标数据表的数据来源类型为多数据来源类型,调用多数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产。
6、可选地,所述调用单数据来源冗余资产识别策略判断所述数据表是否为冗余资产的步骤包括:
7、获取所述目标数据表对应的作业读写表;
8、确定所述作业读写表是否满足单数据来源冗余判断条件;
9、若满足,确定所述目标数据表对应的各个脚本的目标关键词的词频;
10、根据各个所述词频,确定所述目标数据表是否满足单数据来源冗余判断条件;
11、若满足,确定所述目标数据表为所述冗余资产。
12、可选地,所述确定所述作业读写表是否满足单数据来源冗余判断条件的步骤包括:
13、确定所述作业读写表中是否包含聚合函数和窗口函数;
14、若不包含,确定所述作业读写表是否为单数据来源作业读写表,其中,所述单数据来源作业读写表为仅包含插入操作符、筛选操作符、字段转换函数、字段拼接函数、字段截取函数和字段替换函数的作业读写表;
15、若是,判断所述作业读写表满足所述单数据来源冗余判断条件。
16、可选地,所述根据各个所述词频,确定所述目标数据表是否满足单数据来源冗余判断条件的步骤包括:
17、确定所述插入操作符对应的词频是否小于或等于两个;
18、若是,确定所述筛选操作符的词频、所述字段转换函数的词频、所述字段拼接函数的词频、所述字段截取函数的词频和所述字段替换函数的词频中的至少一个,是否为多个;
19、若是,确定所述目标数据表满足所述单数据来源冗余判断条件。
20、可选地,所述调用多数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产的步骤包括:
21、确定所述目标数据表是否存在与上游数据表相同的主键;
22、若存在,获取所述目标数据表对应的作业读写表;
23、确定所述作业读写表是否满足多数据来源冗余判断条件;
24、若满足,确定所述目标数据表对应的各个脚本的目标关键词的词频;
25、根据各个所述词频,确定所述目标数据表是否满足多数据来源冗余判断条件;
26、若满足,确定所述目标数据表为所述冗余资产。
27、可选地,所述确定所述作业读写表是否满足多数据来源冗余判断条件的步骤包括:
28、确定所述作业读写表中是否包含聚合函数和窗口函数;
29、若不包含,确定所述作业读写表是否为多数据来源作业读写表,其中,所述多数据来源作业读写表为仅包含插入操作符、筛选操作符、关联操作符、字段转换函数、字段拼接函数、字段截取函数和字段替换函数的作业读写表;
30、若是,判断所述作业读写表满足所述多数据来源冗余判断条件。
31、可选地,所述根据各个所述词频,确定所述目标数据表是否满足多数据来源冗余判断条件的步骤包括:
32、确定所述筛选操作符的词频、所述关联操作符的词频、所述字段转换函数的词频、所述字段拼接函数的词频、所述字段截取函数的词频和所述字段替换函数的词频中的至少一个,是否为多个;
33、若是,确定所述目标数据表满足所述多数据来源冗余判断条件。
34、可选地,所述数据湖中的冗余资产识别方法还包括:
35、获取所述目标数据表对应的作业读写表,根据所述作业读写表确定所述目标数据表是否为所述冗余资产;或,
36、确定各个所述目标数据表中各个脚本的关键词的词频,根据所述词频确定所述目标数据表是否为所述冗余资产。
37、此外,为实现上述目的,本发明还提供一种数据处理系统,所述数据处理系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据湖中的冗余资产识别程序,所述数据湖中的冗余资产识别程序被所述处理器执行时实现如上所述的数据湖中的冗余资产识别方法的步骤。
38、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据湖中的冗余资产识别程序,所述数据湖中的冗余资产识别程序被处理器执行时实现如上所述的数据湖中的冗余资产识别方法的步骤。
39、本发明实施例提供一种数据湖中的冗余资产识别方法、数据处理系统及存储介质,通过判断数据湖中的数据表的上游对象的个数,来选择不同的冗余资产识别策略对数据表进行识别。
1.一种数据湖中的冗余资产识别方法,其特征在于,所述数据湖中的冗余资产识别方法包括以下步骤:
2.如权利要求1所述的数据湖中的冗余资产识别方法,其特征在于,所述调用单数据来源冗余资产识别策略判断所述数据表是否为冗余资产的步骤包括:
3.如权利要求2所述的数据湖中的冗余资产识别方法,其特征在于,所述确定所述作业读写表是否满足单数据来源冗余判断条件的步骤包括:
4.如权利要求3所述的数据湖中的冗余资产识别方法,其特征在于,所述根据各个所述词频,确定所述目标数据表是否满足单数据来源冗余判断条件的步骤包括:
5.如权利要求1所述的数据湖中的冗余资产识别方法,其特征在于,所述调用多数据来源冗余资产识别策略判断所述目标数据表是否为冗余资产的步骤包括:
6.如权利要求5所述的数据湖中的冗余资产识别方法,其特征在于,所述确定所述作业读写表是否满足多数据来源冗余判断条件的步骤包括:
7.如权利要求6所述的数据湖中的冗余资产识别方法,其特征在于,所述根据各个所述词频,确定所述目标数据表是否满足多数据来源冗余判断条件的步骤包括:
8.如权利要求1至7任一项所述的数据湖中的冗余资产识别方法,其特征在于,所述数据湖中的冗余资产识别方法还包括:
9.一种数据处理系统,其特征在于,所述数据处理系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据湖中的冗余资产识别程序,所述数据湖中的冗余资产识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据湖中的冗余资产识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据湖中的冗余资产识别程序,所述数据湖中的冗余资产识别程序被处理器执行时实现如权利要求1至8中任一项所述的数据湖中的冗余资产识别方法的步骤。