本发明主要涉及数据处理技术领域,具体涉及一种数据治理方法、装置及存储介质。
背景技术:
数据治理是数据中心及数据湖建设运营过程中长期的、艰巨的、繁重的任务,数据治理的好坏直接关系数据中心及数据湖运行的效率和质量。数据中心及数据湖建设运营过程中,随着时间的推移、相关厂商人员的变更以及业务需求的发展变化,存在大量数据冗余的情况,目前对于数据冗余的处理方法是人工判别数据类型再进行分类处理,存在人工处理速度慢、效率低的问题。
技术实现要素:
本发明所要解决的技术问题是针对现有技术的不足,提供一种数据治理方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种数据治理方法,包括如下步骤:
导入待治理的目标数据表,所述目标数据表中包括多个字段;
根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
本发明解决上述技术问题的另一技术方案如下:一种数据治理装置,包括:
导入模块,用于导入待治理的目标数据表,所述目标数据表中包括多个字段;
类型判定模块,用于根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
字段对比模块,用于将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
相似度判定模块,用于统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的数据治理方法。
本发明的有益效果是:能够自动判定待治理的目标数据表中的连续型字段和离散型字段,再将连续型字段和离散型字段进行相似度判断,实现大批量的处理数据,比传统人工处理效率高,准确性更高。
附图说明
图1为本发明实施例提供的数据治理方法的流程图;
图2为本发明实施例提供的数据治理装置的功能模块框图;
图3为本发明实施例提供的对齐方式的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的数据治理方法的流程图。
如图1所示,一种数据治理方法,包括如下步骤:
导入待治理的目标数据表,所述目标数据表中包括多个字段;
根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
上述实施例中,能够自动判定待治理的目标数据表中的连续型字段和离散型字段,再将连续型字段和离散型字段进行相似度判断,实现大批量的处理数据,比传统人工处理效率高,准确性更高。
可选地,作为本发明的一个实施例,所述根据数据分布类型对所述目标数据表中各个字段进行划分的过程包括:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
上述实施例中,通过数据取值的非数字型和数字型以及计算变异系数来判断是连续型字段还是离散型字段。
可选地,作为本发明的一个实施例,将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比的过程包括:
所述对比组包括连续型字段和离散型字段,将所述对比组中其中一个字段作为对比方,所述对比组中另一个字段作为待对比方,通过预设刻度轴判断所述待对比方能否与所述对比方对齐,
若能对齐,则取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算,得到相似或不相似的结果,
若不能对齐,则判定所述对比方与所述待对比方为不相似。
上述实施例中,将连续型字段和离散型字段进行进一步比对,看能否进行交集,判断是否具备可比性,若有可比性,进一步计算相似度,得到两者是否相似的结果,便于后期整理。
可选地,作为本发明的一个实施例,所述通过预设刻度轴判断所述待对比方能否与所述对比方对齐的过程包括:
将所述对比方和所述待对比方一并置于预设刻度轴的下方,以刻度间距为滑动步长将所述待对比方从所述对比方的起点至结束点方向滑动,当所述待对比方滑出所述对比方时,根据所述预设刻度轴的刻度间距值计算所述待对比方与所述对比方之间的差值,若所述差值大于预设经验值,则得到所述对比方和所述待对比方无法对齐的结果,否则得到所述对比方和所述待对比方对齐的结果。
如图3所示,给出了四种比对的情况:i完全一致、ii子集、iii左超出和iv右超出。
可选地,作为本发明的一个实施例,取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算的过程包括:
通过式子{a}∩{b}取所述对比方与所述待对比方的交集,其中,{a}表示对比方,{b}表示待对比方;
利用欧式距离算法计算所述交集的相似度,得到相似或不相似的结果。
上述实施例中,通过滑动的方式判断待对比方和对比方,即连续型字段和离散型字段是否能对齐,若能对齐再取相交的部分,能够快速且准确地确定待对比方和对比方是否能对齐。
可选地,作为本发明的一个实施例,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果的过程包括:
若所述数量大于或等于预设相似数量,则得到所述连续型字段表与所述离散型字段表为相似的结果,否则,得到所述连续型字段表与所述离散型字段表为不相似的结果。
应理解地,若结果为“相似”的数量大于或等于预设相似数量,则说明连续型字段表和离散型字段表中存在相似度的情况比较多,则说明两个表相似度较高。
上述实施例中,能够从字段类别、相似程度来充分对数据进行筛选,比传统人工处理效率高,准确性更高。
图2为本发明实施例提供的数据治理装置的功能模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种数据治理装置,包括:
导入模块,用于导入待治理的目标数据表,所述目标数据表中包括多个字段;
类型判定模块,用于根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
字段对比模块,用于将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
相似度判定模块,用于统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
可选地,作为本发明的一个实施例,所述类型判定模块具体用于:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
可选地,作为本发明的另一个实施例,一种数据治理装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的数据治理方法。
可选地,作为本发明的另一个实施例,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的数据治理方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。