一种数据清洗方法、装置、设备及计算机可读存储介质与流程

文档序号:36232291发布日期:2023-12-01 05:51阅读:46来源:国知局
一种数据清洗方法与流程

本发明涉及数据处理,特别涉及一种数据清洗方法、装置、设备及计算机可读存储介质。


背景技术:

1、目前进行数据清洗时,具体过程如下:首先解析原始协议数据并转换成json格式的原始事件数据,根据预设的清洗函数对原始事件数据进行二次处理,输出二次处理结果。其中,数据清洗的关键步骤在于清洗函数,清洗函数一般都是通过编程内置在数据清洗服务端的二进制代码中,从而使得数据清洗的业务逻辑可配置性不好,如若要新增设备数据的类型,或者修改业务清洗的逻辑,就需要修改二进制代码并构建数据清洗服务端的二进制代码模块。

2、因此,当前数据清洗方式存在可配置性的问题,故需要提高数据清洗的可配置性。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种数据清洗方法、装置、设备及计算机可读存储介质,解决了现有技术中数据清洗过程中不可配置的技术问题。

2、为解决上述技术问题,本发明提供了一种数据清洗方法,包括:

3、获取待清洗数据,并根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置;

4、根据所述目标数据清洗配置创建待执行清洗脚本;其中,所述待执行清洗脚本为包括各个所述目标数据清洗配置顺序的脚本;

5、利用所述待清洗脚本对所述待清洗数据进行清洗,得到清洗结果数据。

6、可选的,在所述获取待清洗数据之后,还包括:

7、确定所述待清洗数据的有效性;

8、当确定所述待清洗数据有效时,执行确定所述目标数据清洗配置的步骤。

9、可选的,在所述利用所述待清洗脚本对所述待清洗数据进行清洗,得到清洗结果数据之后,还包括:

10、将预设清洗结果结构数据和所述清洗结果数据对比,确定所述待清洗数据是否清洗成功;

11、当确定所述待清洗数据清洗成功时,输出所述清洗结果数据;

12、当确定所述待清洗数据未清洗成功时,确定是否存在未执行的数据清洗配置。

13、可选的,所述根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置,包括:

14、根据数据清洗配置的优先级和所述参数信息从所述数据清洗配置数据库中确定所述目标数据清洗配置。

15、可选的,在所述根据数据清洗配置的优先级和所述参数信息从所述数据清洗配置数据库中确定所述目标数据清洗配置之前,还包括:

16、确定每个所述数据清洗脚本配置的成功率,根据所述清洗脚本配置的成功率确定所述数据清洗配置的优先级;其中,所述数据清洗脚本配置的成功率为使用次数和清洗成功次数的比值。

17、可选的,所述根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置,包括:

18、根据所述待清洗数据的数据类型参数信息从所述数据清洗配置数据库中确定所述目标数据清洗配置。

19、可选的,所述根据所述目标数据清洗配置创建待执行清洗脚本,包括:

20、根据所述目标数据清洗配置创建清洗job;其中,所述清洗job为配置所述目标数据清洗配置中的清洗任务的执行顺序,且存储每步清洗任务的执行结果的容器。

21、本发明还提供了一种数据清洗装置,包括:

22、待清洗数据获取模块,用于获取待清洗数据,并根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置;

23、待执行清洗脚本获取模块,用于根据所述目标数据清洗配置创建待执行清洗脚本;其中,所述待执行清洗脚本为包括各个所述目标数据清洗配置顺序的脚本;

24、清洗模块,用于利用所述待清洗脚本对所述待清洗数据进行清洗,得到清洗结果数据。

25、本发明还提供了一种数据清洗设备,包括:

26、存储器,用于存储计算机程序;

27、处理器,用于执行所述计算机程序时实现上述的数据清洗方法。

28、本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述的数据清洗方法。

29、可见,本发明通过获取待清洗数据,并根据所待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置。根据目标数据清洗配置创建待执行清洗脚本;其中,待执行清洗脚本为包括各个目标数据清洗配置顺序的脚本。利用待清洗脚本对待清洗数据进行清洗,得到清洗结果数据。可见,本申请在需要新增或者修改数据清洗业务逻辑时,用户可以根据数据清洗配置重新创建待执行清洗脚本,而不用新增或者修改整个模块,从而提高了数据清洗的可配置性。

30、此外,本发明还提供了一种数据清洗装置、设备及计算机可读存储介质,同样具有上述有益效果。



技术特征:

1.一种数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的数据清洗方法,其特征在于,在所述获取待清洗数据之后,还包括:

3.根据权利要求1所述的数据清洗方法,其特征在于,在所述利用所述待清洗脚本对所述待清洗数据进行清洗,得到清洗结果数据之后,还包括:

4.根据权利要求1至3任一项所述的数据清洗方法,其特征在于,所述根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置,包括:

5.根据权利要求4所述的数据清洗方法,其特征在于,在所述根据数据清洗配置的优先级和所述参数信息从所述数据清洗配置数据库中确定所述目标数据清洗配置之前,还包括:

6.根据权利要求1所述的数据清洗方法,其特征在于,所述根据所述待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置,包括:

7.根据权利要求1所述的数据清洗方法,其特征在于,所述根据所述目标数据清洗配置创建待执行清洗脚本,包括:

8.一种数据清洗装置,其特征在于,包括:

9.一种数据清洗设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的数据清洗方法。


技术总结
本发明公开了一种数据清洗方法、装置、设备及计算机可读存储介质,应用于数据处理技术领域,包括:获取待清洗数据,并根据待清洗数据的参数信息从数据清洗配置数据库中确定目标数据清洗配置;根据目标数据清洗配置创建待执行清洗脚本;其中,待执行清洗脚本为包括各个目标数据清洗配置顺序的脚本;利用待清洗脚本对待清洗数据进行清洗,得到清洗结果数据。与当前编写代码进行数据清洗的方式相比,本申请通过待执行清洗脚本对待清洗数据进行数据清洗,即数据清洗的过程中,在需要新增或者修改数据清洗业务逻辑时,用户可以根据数据清洗配置确定待执行清洗脚本,而不用新增或者修改整个模块,从而提高了数据清洗的可配置性。

技术研发人员:王滔
受保护的技术使用者:政采云有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1