本技术涉及大数据,尤其涉及数据清洗方法、装置、计算机设备及存储介质。
背景技术:
1、随着大数据的普及,越来越多的业务报表都会在大数据上进行计算,所以首先需要将业务数据同步到大数据,在业务数据的同步完成后,还需要进一步对业务数据进行清洗,以保证数据的可用。
2、对于目前的金融科技公司而言,通常采用的数据清洗方式是由工作人员针对不同的业务报表编写各自对应的清洗程序,然后人为选定数据清洗的时间,并手动调用相应的清洗程序进行业务数据清洗。如果涉及清洗的业务报表的数量教多,则需要工作人员编写很多对应的清洗程序,这样需要消耗较多的人力时间,工作量大,且业务数据的清洗效率低下。
技术实现思路
1、本技术实施例的目的在于提出一种数据清洗方法、装置、计算机设备及存储介质,以解决现有的数据清洗方式需要人为选定数据清洗的时间,并手动调用相应的清洗程序进行业务数据清洗,需要消耗较多的人力时间,工作量大,且业务数据的清洗效率低下的技术问题。
2、为了解决上述技术问题,本技术实施例提供一种数据清洗方法,采用了如下所述的技术方案:
3、判断当前时间是否处于预设的数据清洗时间段内;
4、若是,获取待处理的原始业务数据;
5、调用预设的转换程序对所述原始业务数据进行转换处理,得到转换后的第一业务数据;
6、对所述第一业务数据进行去除重复数据处理,得到处理后的第二业务数据;
7、基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据;
8、将所述第三业务数据存储至预设的存储区域内。
9、进一步的,所述基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据的步骤,具体包括:
10、获取所述第二业务数据中的异常值,并基于预设的异常处理策略对所述异常值进行处理,得到处理后的第一指定业务数据;
11、确定所述处理后的第一指定业务数据中的缺失值,并基于预设的补齐策略对所述缺失值进行数据补齐处理,得到处理后的第二指定业务数据;
12、将所述第二指定业务数据作为所述第三业务数据。
13、进一步的,所述将所述第三业务数据存储至预设的存储区域内的步骤,具体包括:
14、获取所述第三业务数据中的分区数据;
15、对所述第三业务数据中的分区数据进行分区合并,得到处理后的第四业务数据;
16、将所述第四业务数据存储至所述存储区域内。
17、进一步的,所述将所述第四业务数据存储至所述存储区域内的步骤,具体包括:
18、基于预设格式对所述第四业务数据进行格式转换,得到转换后的第五业务数据;
19、获取所述存储区域的存储地址信息;
20、基于所述存储地址信息,将所述第五业务数据存储至所述存储区域内。
21、进一步的,在所述判断当前时间是否处于预设的数据清洗时间段内的步骤之前,还包括:
22、基于预设的长度划分值,将一天的时间划分为多个处理时间段;
23、基于预设的繁忙时间段集合对所有所述处理时间段进行筛选处理,从所有所述处理时间段筛选出第一处理时间段;其中,所述第一处理时间段的数量为多个;
24、从预存储的负载数据记录中获取目标系统在预设时间周期中各所述第一处理时间段内的平均负载数据值;
25、从所有所述平均负载数据值中筛选出小于预设的负载阈值的指定平均负载数据值;
26、从所有所述第一处理时间段中筛选出与所述指定平均负载数据值对应的第二处理时间段;
27、将所述第二处理时间段作为所述数据清洗时间段。
28、进一步的,在所述将所述第三业务数据存储至预设的存储区域内的步骤之后,还包括:
29、判断所述存储区域是否满足预设的缓存清除条件;
30、若是,获取所述第三业务数据中包含的各个子数据在预设时间段内的被使用频次;
31、获取各个所述子数据的数据大小;
32、基于所述被使用频次与所述数据大小,生成各个所述子数据的活跃度评价值;
33、从所有所述子数据中筛选出活跃度评价值小于预设的评价值阈值的指定子数据;
34、在所述存储区域中对所述指定子数据进行清除处理。
35、进一步的,所述判断所述存储区域是否满足预设的缓存清除条件的步骤,具体包括:
36、获取所述存储区域当前的可用资源空间;
37、判断所述可用资源空间是否小于预设的资源空间阈值;
38、若是,判定所述存储区域满足所述缓存清除条件,否则判定所述存储区域不满足所述缓存清除条件。
39、为了解决上述技术问题,本技术实施例还提供一种数据清洗装置,采用了如下所述的技术方案:
40、第一判断模块,用于判断当前时间是否处于预设的数据清洗时间段内;
41、第一获取模块,用于若是,获取待处理的原始业务数据;
42、第一处理模块,用于调用预设的转换程序对所述原始业务数据进行转换处理,得到转换后的第一业务数据;
43、第二处理模块,用于对所述第一业务数据进行去除重复数据处理,得到处理后的第二业务数据;
44、第三处理模块,用于基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据;
45、存储模块,用于将所述第三业务数据存储至预设的存储区域内。
46、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
47、判断当前时间是否处于预设的数据清洗时间段内;
48、若是,获取待处理的原始业务数据;
49、调用预设的转换程序对所述原始业务数据进行转换处理,得到转换后的第一业务数据;
50、对所述第一业务数据进行去除重复数据处理,得到处理后的第二业务数据;
51、基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据;
52、将所述第三业务数据存储至预设的存储区域内。
53、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
54、判断当前时间是否处于预设的数据清洗时间段内;
55、若是,获取待处理的原始业务数据;
56、调用预设的转换程序对所述原始业务数据进行转换处理,得到转换后的第一业务数据;
57、对所述第一业务数据进行去除重复数据处理,得到处理后的第二业务数据;
58、基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据;
59、将所述第三业务数据存储至预设的存储区域内。
60、与现有技术相比,本技术实施例主要有以下有益效果:
61、本技术实施例首先判断当前时间是否处于预设的数据清洗时间段内;若是,获取待处理的原始业务数据;然后调用预设的转换程序对所述原始业务数据进行转换处理,得到转换后的第一业务数据;之后对所述第一业务数据进行去除重复数据处理,得到处理后的第二业务数据;后续基于预设的修正规则对所述第二业务数据进行数据修正,得到修正后的第三业务数据;最后将所述第三业务数据存储至预设的存储区域内。本技术实施例通过智能地设置数据清洗时间段,并在当前时间处于该数据清洗时间段内,会智能地采用通用的数据清理流程,依次对待处理的原始业务数据进行转换处理、去除重复数据处理、数据修正处理以及存储处理,从而实现快速准确地完成对于业务数据的清洗处理,大大降低了业务数据清洗的工作量,有效地提高了对于业务数据的清洗效率,有利于提高了工作人员的工作体验。