大数据清洗方法、装置、计算机设备及存储介质与流程

文档序号:32126386发布日期:2022-11-09 08:19阅读:123来源:国知局
大数据清洗方法、装置、计算机设备及存储介质与流程

1.本技术涉及大数据应用领域,具体涉及一种大数据清洗方法、装置、计算机设备及存储介质。


背景技术:

2.数据清洗(datacleaning)是对数据进行重新审查和校验的过程,以删除重复信息、纠正存在的错误,检查不完整数据等多类数据。可见,数据清洗可以发现并纠正数据文件中可识别的错误,通常包括检查数据一致性,处理无效值和缺失值等,可以依据实际情况选择合适的数据清洗方法。
3.其中,在依据业务数据中的缺失值、异常值等异常数据进行清洗处理过程中,受限于计算机设备的计算能力,通常是采用如直接舍弃、对临近数据进行平滑处理、平均值(中位数)替代、对采用拟合曲线拟合出的数值进行替代等简单固定运算实现,处理过程虽然简单但数据清洗效果很差,且清洗速度也比较低。


技术实现要素:

4.为了解决上述问题,本技术实施例提供如下技术方案:
5.一方面,本技术提出了一种大数据清洗方法,所述方法包括:
6.接收来自数据源的待清洗数据,获得对应的目标数据清洗策略;
7.检测到数据清洗策略调整事件,依据所述目标数据清洗策略对所述待清洗数据进行清洗处理,得到清洗数据,同时依据调整后的待定数据清洗策略对所述待清洗数据进行预清洗处理,得到预清洗数据;
8.获得针对所述待定数据清洗策略的应用判定结果;所述应用判定结果能够表征是否应用所述待定数据清洗策略继续对接收到的待清洗数据进行清洗处理;
9.依据所述应用判定结果,得到所述待清洗数据的目标清洗数据;所述目标清洗数据为所述清洗数据或所述预清洗数据。
10.可选的,所述方法还包括:
11.将处理得到的所述清洗数据写入第一数据库进行存储;和/或,
12.将处理得到的所述预清洗数据写入第二数据库进行存储;
13.按照所述应用判定结果对应的同步方式,对第一数据库和第二数据库进行数据同步。
14.可选的,所述按照所述应用判定结果对应的同步方式,对第一数据库和第二数据库进行数据同步,,包括:
15.若所述应用判定结果为是,将所述目标清洗数据写入所述第一数据库进行存储,删除所述第一数据库存储的对应处理得到的所述清洗数据;
16.若所述应用判定结果为否,将所述目标清洗数据写入所述第二数据库进行存储,删除所述第二数据库存储的对应处理得到的所述预清洗数据。
17.可选的,所述方法还包括:
18.将来自所述数据源的待清洗数据写入第三数据库进行存储;所述第三数据库配置有数据存储周期,以删除存储时长达到所述数据存储周期的所述待清洗数据;
19.禁止响应针对所述第三数据库存储的待清洗数据的清洗处理指令和数据同步指令。
20.可选的,所述获得对应的目标数据清洗策略,包括:
21.获取所述待清洗数据的数据特征;
22.依据所述数据特征和预配置的清洗深度策略,确定针对所述待清洗数据的目标数据清洗策略;
23.其中,所述目标数据清洗策略包括至少一个清洗深度对应的数据清洗模型,所述数据清洗模型基于机器学习算法和/或清洗算法训练得到,以实现对带清洗数据的清洗处理。
24.可选的,所述获得针对所述待定数据清洗策略的应用判定结果,包括:
25.获得监控人员针对所述待定数据清洗策略输入的应用选择指令,得到是否应用所述待定数据清洗策略执行数据清洗操作的应用判定结果;
26.或,
27.调取预配置的数据清洗评估策略,对所述预清洗数据进行评估,得到清洗评估结果;
28.依据所述清洗评估结果,判定是否应用所述待定数据清洗策略执行数据清洗操作,得到对应的应用判定结果。
29.可选的,所述方法还包括:
30.按照预先配置的清洗指标,获得针对所述预清洗数据和所述清洗数据的清洗指标信息;其中,所述清洗指标信息能够表征针对相同所述待清洗数据的预清洗效果与原清洗效果的对比结果;
31.输出所述清洗指标信息;
32.和/或,通过异步通信方式,利用所述清洗指标信息和所述目标清洗数据,动态调整所述目标数据清洗策略包含的数据清洗模型的模型参数,生成数据清洗策略调整事件。
33.又一方面,本技术还提出了一种大数据清洗装置,所述装置包括:
34.待清洗数据接收模块,用于接收来自数据源的待清洗数据;
35.数据清洗策略获得模块,用于获得对应的目标数据清洗策略;
36.数据清洗处理模块,用于检测到数据清洗策略调整事件,依据所述目标数据清洗策略对所述待清洗数据进行清洗处理,得到清洗数据,同时依据调整后的待定数据清洗策略对所述待清洗数据进行预清洗处理,得到预清洗数据;
37.应用判定结果获得模块,用于获得针对所述待定数据清洗策略的应用判定结果;所述应用判定结果能够表征是否应用所述待定数据清洗策略继续对接收到的待清洗数据进行清洗处理;
38.目标清洗数据得到模块,用于依据所述应用判定结果,得到所述待清洗数据的目标清洗数据;所述目标清洗数据为所述清洗数据或所述预清洗数据。
39.又一方面,本技术还提出了一种计算机设备,所述计算机设备包括:
40.通信接口;
41.存储器,用于存储实现如上述的大数据清洗方法的程序;
42.处理器,用于加载执行所述存储器存储的所述程序,实现如上述的大数据清洗方法。
43.又一方面,本技术还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载执行,实现如上述的大数据清洗方法。
44.可见,本技术提供了一种数据清洗方法、装置、计算机设备及存储介质,在对来自任一数据源的待清洗数据进行清洗过程中,提出在不停止依据原有目标数据清洗策略进行数据清洗处理的情况下,为了保证数据清洗效果,可以动态调整数据清洗策略,即在检测到数据清洗策略调整事件时,将同时依据调整前后的数据清洗策略对相同待清洗数据进行清洗处理,通过判定是否应用待定数据清洗策略继续对接收到的待清洗数据进行清洗处理,来确定所得到的清洗数据或预清洗数据为待清洗数据的目标清洗数据,保证数据清洗效果,且实现了对计算资源的充分利用,降低了维护成本,提高了数据清洗速度。
附图说明
45.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
46.图1为本技术提出的大数据清洗方法的一可选示例的流程示意图;
47.图2为本技术提出的大数据清洗方法的又一可选示例的流程示意图;
48.图3为适用于本技术提出的大数据清洗方法的应用环境的一可选系统架构示意图;
49.图4为本技术提出的大数据清洗方法的又一可选示例的流程示意图;
50.图5为本技术提出的大数据清洗方法的又一可选示例的流程示意图;
51.图6为本技术提出的大数据清洗装置的一可选示例的结构示意图;
52.图7为本技术提出的大数据清洗装置的又一可选示例的结构示意图;
53.图8为适用于本技术提出的大数据清洗方法的计算机设备的一可选示例的硬件结构示意图。
具体实施方式
54.针对背景技术部分的描述内容,随着计算机通信技术的发展,计算机设备所具有的计算能力得到极大提升,提出利用大数据技术进行数据清洗,如基于flink技术的批流一体大数据清洗方法,在保证清洗效果的情况下,极大地提高清洗速度,同时在数据清洗系统不停机(即依据数据清洗策略对待清洗数据进行清洗处理的过程不间断)情况下,可以动态调整该数据清洗策略,以提高数据清洗效果,节约机器资源及降低维护成本。
55.基于此,本技术提出采用多重数据库、基于调整后的待定数据清洗策略对待清洗数据进行预清洗处理,以及基于调整前的数据清洗策略(可自定义)对该待清洗数据进行同步清洗处理的方式,将所得到的针对同一待清洗数据的预清洗数据、清洗数据进行分库存
储,这样,通过异步通信方式,实现对当前有效的数据清洗策略的调整过程,不会干扰原数据清洗过程,保证数据清洗安全性,在待定数据清洗策略异常时也就不会导致原清洗过程数据丢失的问题。
56.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.参照图1,为本技术提出的大数据清洗方法的一可选示例的流程示意图,该方法可以由计算机设备执行,该计算机设备可以是具有数据处理能力的终端设备和/或服务器,该服务器可以是至少一个物理服务器或具有云计算能力的云服务器,可以依据数据清洗场景确定,如图1所示,本实施例提出的大数据清洗方法可以包括:
58.步骤s11,接收来自数据源的待清洗数据,获得对应的目标数据清洗策略;
59.本技术实施例中,参照图2所示的流程示意图,可以预先确定本次需要执行数据清理的数据源(如业务服务器、业务终端等),并配置用于数据清洗的各种策略,如不同清洗深度的数据清洗策略,用于确定不同清洗深度及其数据清洗策略的清洗深度策略,各数据清洗策略执行所需的数据清洗模型(其可以基于机器学习算法、清洗算法等进行模型训练得到,本技术对数据清洗模型的训练实现方法不做限制)等,根据需要还可以预先配置用于评估数据清洗策略进行数据清洗的清洗效果的清洗评估策略,表征不同清洗效果所需的清洗指标等配置信息,可以依据实际情况进行灵活配置,本技术在此不做一一举例详述。
60.其中,结合图3所示的适用于本技术提出的大数据清洗方法的一可选应用环境的系统架构图,对于上文列举的各预先配置信息可以由相同或不同工作人员,在各自的终端设备上完成后,可以通过异步通信方式上报至计算机设备,以使计算机设备可以在数据清洗过程中,可以结合这些预先配置信息,确定或动态调整用于数据清洗处理的数据清洗策略,及其所使用的数据清洗模型等,本技术对上述各信息的配置实现方法不作限制。
61.可选的,如图2所示,本技术可以采用异步通信方式,将预先配置的如上述各策略、机器学习算法、清洗算法等配置信息,以及来自所选择的数据源的待清洗数据发送至计算机设备对应的功能模块,如数据接入模块、清洗策略模块、算法库模块等,还可以根据需要配置该算法库中部分参数,以优化对应算法等。
62.基于上述分析,计算机设备接收到来自预选择的至少一个数据源的待清洗数据后,可以由清洗策略模块依据预先配置的清洗深度策略、需要进行数据清洗处理的数据源的数据清洗需求等信息,确定当前用于对来自该数据源的待清洗数据进行清洗处理的数据清洗策略,记为目标数据清洗策略,但并不局限于本实施例描述的数据清洗策略确定方法。如还可以由待清洗数据的提供方或需要清洗后数据的需求方等,预先配置数据清洗策略后上报得到,本技术在此不做一一举例详述。
63.在实际应用中,本技术提出的大数据清洗方法可以支持多种数据接入方式,也就是说,计算机设备可以读取多种数据源的待清洗数据,如pulsar(一种云原生分布式消息流平台,即分布式的消息发布/订阅传递平台)、kafka(一种高吞吐量的分布式发布订阅消息系统)、mqtt(message queuing telemetry transport,消息队列遥测传输协议)、mysql(关系型数据库管理系统)、tidb(一种开源分布式关系型数据库)、hive(基于hadoop的一个数
据仓库工具)、api(application programinterface)接口等多种方式提交待清洗数据;还可以支持待清洗数据的批量导入方式,实现数据批流一体式数据清洗;也可以支持数据实时接入,即实时获取数据源产生的待清洗数据等,本技术对数据源的待清洗数据的获取实现方法不做限制。
64.步骤s12,检测到数据清洗策略调整事件,依据目标数据清洗策略对待清洗数据进行清洗处理,得到清洗数据,同时依据调整后的待定数据清洗策略对该待清洗数据进行预清洗处理,得到预清洗数据;
65.结合上文对本技术技术方案的描述,为了提高数据清洗效果,可以通过异步通信方式,由人工干预或由系统基于清洗效果反馈,来动态调整目标数据清洗策略,保证策略调整过程不会干扰当前计算机设备所执行的数据清洗过程,即在数据清洗系统正常运行情况下动态更新策略,无需暂停数据清洗处理任务,以提高数据清洗效率。
66.由于更新后的数据清洗策略并不一定是更优的数据清洗策略,经过数据清洗处理所得到的清洗效果可能会更差,为了避免这种无效更新,保证数据清洗效果,本技术提出的利用更新后的数据清洗策略对待清洗数据进行预清洗处理,以通过评估其清洗效果,来决定是否使用更新后的数据清洗策略所得到的预清洗数据,作为该待清洗数据的目标清洗数据,甚至是对后续接收到的待清洗数据的处理。
67.因此,本技术可以利用flink架构特点,如图2所示,将数据清洗过程分为预清洗处理和清洗处理两部分,在有数据清洗策略更新时,即检测到数据清洗策略调整事件,可以触发这两部分各自对应的功能模块同时启动,依据原有的目标数据清洗策略,对当前接收到的待清洗数据进行清洗处理,得到清洗数据;同时,依据对调整后的待定数据清洗策略对该待清洗数据进行预清洗处理,得到预清洗清洗数据,以便后续经过清洗效果评估,确定哪一个清洗结果作为目标清洗结果。可见这种处理方式,既不会干扰原数据清洗策略的清洗处理操作,也能够及时响应调整后的待定数据清洗策略,更快得到更好清洗效果的清洗数据。
68.其中,对于上述预清洗处理和清洗处理两部分,计算机设备可以创建两个独立线程,按照上文描述的数据清洗方法,通知执行原有的目标数据清洗策略和调整后的待定清洗策略,得到同一待清洗数据的不同清洗结果,即上述清洗数据和预清洗数据。
69.步骤s13,获得针对待定数据清洗策略的应用判定结果;
70.继上文描述,由于待定数据清洗策略并不一定比调整前的目标数据清洗策略的清洗效果更好,相对于直接执行动态调整后的数据清洗策略,本技术提出先评估调整后的待定数据清洗策略所达到的清洗效果,以确定是否应用该待定数据清洗策略,即是否触发该待定数据清洗策略生效,原有的目标数据清洗策略失效。也就是说,计算机设备可以先获得能够表征是否应用待定数据清洗策略继续对接收到的待清洗数据进行清洗处理的应用判定结果,但本技术对该应用判定结果的获得方法不做限制。
71.可选的,对于上述应用判定结果,可以由人工确定后反馈至计算机设备,也可以由计算机设备依据预清洗数据的清洗指标(即评估特征指标),自动确定是否应用调整后的待定数据清洗策略,得到对应的应用判定结果等,可以依据实际情况灵活选择该应用判定结果的获得方式,本技术不做一一举例详述。
72.步骤s14,依据该应用判定结果,得到待清洗数据的目标清洗数据;该目标清洗数据为清洗数据或预清洗数据。
73.在应用判定结果为是的情况下,说明调整后的待定数据清洗策略所达到的数据清洗效果,优于原有的目标数据清洗策略所达到的数据清洗效果,可以将上述处理得到的预清洗数据确定为对应待清洗数据的目标清洗数据;反之,说明调整后的待定数据清洗策略所达到的数据清洗效果更差,放弃本次对目标数据清洗策略的更新,将上述处理得到的清洗数据确定为对应待清洗数据的目标清洗数据,从而保证数据清洗效果。
74.在又一些实施例中,如图2所示,本技术还可以调用数据存储模块对上述依据不同数据清洗策略进行数据清洗操作,所得到的针对同一待清洗数据的不同清洗结果(即清洗数据、预清洗数据)进行分类入库存储,实现数据有效隔离,保证数据清洗的质量和安全。或者也可以只对所得到的同一待清洗数据的清洗数据或预清洗数据进行存储等,本技术对数据存储的实现方法不作限制,可视情况而定。且在完成数据清洗评估后,可以调用数据同步模块进行数据同步,使得用于存储数据清洗结果的各数据库存储的清洗结果一致,实现过程本技术不做详述。
75.可选的,本技术还可以对数据清洗过程、数据清洗效果进行监控,这样,在按照上述方法完成数据清洗处理后,可以获得针对预清洗数据的至少一个预设清洗指标对应的清洗指标信息,按照预设可视化方式,输出所得到的清洗指标信息,由此展示调整前后的数据清洗策略所达到的清洗效果及其对比结果,还可以展示系统所执行的数据清洗策略内容等,本技术对清洗指标信息内容不做限制,可视情况而定。
76.应该理解的是,在没有策略更新的情况下,如未检测到数据清洗策略事件,可以仅触发上述清洗部分启动,仅依据目标数据清洗策略对接收到的待清洗数据进行清洗处理,将得到的清洗数据确定为该待清洗数据的目标清洗数据。可见,无论数据清洗策略是否被调整,上述清洗处理部分都会被启动,从而依据当前有效的目标数据执行数据清洗操作,保证数据清洗工作不间断。之后,也可以调用数据存储模块和数据同步模块,保证多重数据库存储数据的一致性,实现过程本技术实施例在此不做详述。
77.综上,在本技术实施例中,在对来自任一数据源的待清洗数据进行清洗过程中,提出在不停止依据原有目标数据清洗策略进行数据清洗处理的情况下,可以动态调整数据清洗策略,即在检测到数据清洗策略调整事件时,将同时依据调整前后的数据清洗策略对相同待清洗数据进行清洗处理,通过判定是否应用待定数据清洗策略继续对接收到的待清洗数据进行清洗处理,来确定所得到的清洗数据或预清洗数据为待清洗数据的目标清洗数据,保证数据清洗效果,且实现了对计算资源的充分利用,降低了维护成本,提高了数据清洗速度。
78.参照图4,为本技术提出的大数据清洗方法的又一可选示例的流程示意图,本实施例可以是对上文描述的大数据清洗方法的一可选细化实现方式,如图4所示,该方法可以包括:
79.步骤s41,接收来自数据源的待清洗数据,将待清洗数据写入第三数据库,并获取该待清洗数据的数据特征;
80.结合上文对本技术技术方案的相关描述,在一些实施例中,如图5所示,本技术可以配置用于存储待清洗数据的原始数据库记为第三数据库,这样,对于数据接入模块所接收到的待清洗数据,一路可以输入数据处理模块进行清洗处理,另一路可以写入第三数据库进行存储,这样,在系统崩溃时,可以从该第三数据库中提取所需的待清洗数据,重新进
行数据清洗处理,有效保证数据清洗质量及效率。因此,计算机设备会禁止响应针对第三数据库存储的待清洗数据的清洗处理指令和数据同步指令,保证第三数据库仅存储原始的待清洗数据。
81.可选的,本技术还可以对第三数据库配置数据存储周期,以删除存储时长达到数据存储周期的待清洗数据,即及时清洗第三数据库中存储时间较长的待清洗数据,节省存储资源,本技术对第三数据库的数据存储周期的时长,以及各数据库类型等均不作限制,可视情况而定。
82.步骤s42,依据该数据特征和预配置的清洗深度策略,确定针对待清洗数据的目标数据清洗策略;
83.结合上文实施例对应部分的描述,目标数据清洗策略可以包括至少一个清洗深度(即不同级别)对应的数据清洗模型,该数据清洗模型基于机器学习算法和/或清洗算法训练得到。在本技术实际应用中,对于不同清洗深度可以配置对应的数据清洗策略,调用算法库(如图2所示的清洗算法库、机器学习算法库等)训练学习对应的数据清洗模型,以实现该清洗深度的数据清洗策略。
84.可选的,上述不同清洗深度(即不同级别)的数据清洗策略可以包括但并不局限于:一级(即深度)清洗策略可以为:剔除所有残缺、异常数据;二级清洗策略可以为:剔除残缺数据,保留其他异常数据;三级清洗策略可以为:剔除主键缺失数据,保留其他异常数据;四级清洗策略可以为:剔除主键缺失数据,修复其他异常数据;五级清洗策略可以为:修复缺失数据,修复异常数据等这五级深度各自的数据清洗策略。
85.在数据清洗过程中,可以人工动态调整所使用的数据清洗策略,也可以依据清洗评估结果实现数据清洗策略的动态调整,如按照默认顺序选择,或随机选择,或人工选择,或选择部分级别进行数据处理,本技术对数据清洗策略的动态调整实现方法不作限制,可视情况而定。
86.基于上述分析,参照图5所示的大数据清洗方法的又一可选流程示意图,输入计算机设备的预配置的各策略和参数,可以通过异步通信模块,按照异频通信方式输入对应的“数据源配置”、“清洗深度策略”、“自定义清洗策略”及“配置清洗过程仪表盘”这四个功能模块,其中“数据源配置”模块可以用于配置数据源,即从所支持的多种数据源(包括但不限于mysql、kafka、pulsar、tidb、mqtt及hive等)中,选定需要进行数据清洗的数据源。“清洗深度策略”模块可以按照接收到的配置信息,配置包括但并不局限于上文列举的多个清洗深度,以及针对清洗深度的自适应调整策略,以动态调整多个清洗深度级别顺序及其对应的清洗策略等。上述“自定义清洗策略”模块可以用于自定义清洗指标(即特征指标),并根据该清洗指标,动态调整“清洗深度”以及自定义策略。“配置清洗过程仪表盘”可以用于配置仪表盘所要展示的清洗指标,但并不局限于仪表盘展示方式,可视情况而定。
87.如图5所示,按照上文描述,计算机设备基于异步通信模块上传的配置信息,可以确定基础清洗策略库包含的多种清洗深度及其对应的清洗策略,以及用于实现各清洗策略所需清洗算法、机器学习算法、统计学的各种内置算法库,包括但并不局限于图5所示的清洗算法库和机器学习库,且本技术对各算法库包含的算法类别及其运算原理不做详述。
88.本技术实际应用中,为了提高数据清洗效率,可以结合待清洗数据的数据特征、预置数据机器学习模型(即数据清洗模块)供系统使用,实现对接收到的待清洗数据的清洗处
理。其中,该数据清洗模块可以基于待清洗数据及其清洗结果,调用对应的清洗算法/机器学习算法进行模型训练得到,在该训练以及后续使用过程中,可以依据每次数据清洗处理得到的清洗结果(清洗效果),对数据清洗模型进行动态优化(即调整模型参数),提高模型输出准确性,即提高后续数据清洗质量。本技术对各清洗深度的数据清洗模型的训练及其优化实现方法不做详述。
89.步骤s43,检测到数据清洗策略调整事件,依据目标数据清洗策略对待清洗数据进行清洗处理,将得到的清洗数据写入第一数据库,同时依据调整后的待定数据清洗策略对待清洗数据进行预清洗处理,将得到的预清洗数据写入第二数据库;
90.继上文描述,在数据清洗过程中,可以将接收到的待清洗数据输入目标数据清洗策略对应的数据清洗模型进行清洗处理,得到对应的清洗数据,同时将该待清洗数据输入调整后的待定数据清洗策略对应的数据清洗模型进行预清洗处理,得到对应的预清洗数据,实现数据有效隔离,保证数据清洗的质量及安全,关于数据清洗实现过程本技术在此不做详述。
91.本技术实施例中,在有更新策略,且新的策略(即调整后的待定数据清洗策略)未确认生效时,如图2所示的预清洗处理和清洗处理两部分都启动,将各自对同一待清洗数据的清洗结果进行分库存储,可以将预配置的第一数据库存储清洗数据,配置第二数据库存储预清洗数据。在无预清洗数据时,即未检测到数据清洗策略调整事件,可以将依据目标数据清洗策略得到的清洗数据分别写入第一数据库和第二数据库,使得这两个数据库存储的清洗数据完全一致,可以互为备份数据库。
92.在又一些实施例中,在按照上述方法同步执行预清洗处理过程和清洗处理过程的情况下,可以仅将所得到的一种清洗结果写入对应的数据库进行存储,如将所得到的清洗数据写入第一数据库,可以暂时不用存储对应的预清洗数据,待完成后续评估判定后,再确定是否要存储该预清洗数据;或者,可以将预清洗数据写入第二数据库,暂时不存储对应的清洗数据,待完成后续评估判定后,再确定是要第一数据库同步存储该预清洗数据,还是要同步存储对应的清洗数据,本技术对两个数据库的数据同步存储的实现方法不作限制。
93.步骤s44,调取预配置的数据清洗评估策略,对预清洗数据进行评估,得到清洗评估结果;
94.步骤s45,依据该清洗评估结果,判定是否应用所述待定数据清洗策略执行数据清洗操作,得到对应的应用判定结果;
95.依据上文实施例对应部分的描述,可以依据预先构建的清洗指标,对数据清洗结果(如所得到的预清洗数据)进行评估,将得到的清洗评估结果通过异步通信模块反馈至数据清洗系统,以此实现对相应数据清洗模型、清洗策略进行调整,提高数据清洗效果。可选的,可以依据清洗评估结果,向异步通信模块反馈对应的响应指令,执行该响应指令,按照清洗深度策略,自动调整清洗深度级别,以使所得到的数据清洗策略更适用于当前接收到的数据的清洗,提高数据清洗效果。
96.本技术实施例中,可以依据数据源提供的待清洗数据,构建对应的清洗特征指标,针对不同数据维度等进行分组,运用统计学的四大分布原理进行统计分析,确定数据类型,提取不同数据类型的数据特征,以构建用于评估数据清洗效果的一种或多种清洗指标;同时在数据清洗模型的训练过程中,也可以通过这种方式构建不同清洗深度的清洗策略,训
练执行各清洗策略对应的数据清洗模型,实现方法本技术不做详述,可视情况而定。
97.可选的,上述清洗评估策略可以包括预先配置的一个或多个清洗指标,这样,计算机设备自动执行的清洗评估过程,可以依据预先配置的一个或多个清洗指标及其对应的指标阈值(即表征清洗效果更好的指标参数临界值,本技术对其数值不作限制),从预清洗数据中提取对应的清洗指标信息,由此确定待定数据清洗策略的清洗效果,进而确定后续是否应用该待定数据清洗策略。
98.在实际应用中,数据清洗评估模块可以将所得到的清洗评估结果反馈至异步通信模块,使其不干扰当前所执行的数据清洗工作的情况下,可以将所接收到的各信息发送至数据处理模块,自动调整预先配置的清洗深度级别,且允许人工干预清洗过程,调整清洗策略中的指定参数、数据清洗模型的模型参数(即利用清洗后的数据不断地对数据清洗模型急性训练,调优模型参数)、更新数据清洗策略等,以获得最佳清洗效果,实现过程可以参照上下文对应部分的描述,本实施例在此不做赘述。
99.在又一些实施例中,可以由人工干扰方式确定是否应用待定数据清洗策略,即将是否使用调整后的待定数据清洗策略,对后续导入的待清洗数据进行清洗处理的决定权交给业务人员,可以通过向业务人员的终端设备发送针对待定数据清洗策略应用判定指令,以使终端设备响应该应用判定指令,输出是否应用该待定数据清洗策略的应用提示信息,终端设备响应对该应用提示信息的应用选择操作,得到针对该待定数据清洗策略的应用判定结果,将其反馈至计算机设备。
100.可见,本技术为保证数据清洗效果,将随之接入的待清洗数据内容和清洗要求等变化,及时对数据清洗策略进行动态调整,且在不干扰当前执行的数据清洗工作的情况下,同时依据调整后的待定数据清洗策略,对当前所接入的待清洗数据进行同步预清洗处理,通过对所得到的预清洗结果进行清洗效果的评估,确定后续是否应用待定数据清洗策略(即新策略)进行数据清洗,从而避免直接应用清洗效果更差的新策略,影响数据清洗质量。
101.而且,本技术提出的多重数据库存储方式,在预清洗处理过程中实现了数据有效隔离,保证了数据清洗的质量及安全,且对于上述第一数据库、第二数据库和第三数据库这三类数据库可以是独立数据库,也可以是数据库集群,该数据库规模可以按照实际需求进行动态扩充,满足数据存储需求,本技术对数据库的数据存储方式及其结构不做限制,可视情况而定。
102.步骤s46,若应用判定结果为是,将预清洗数据确定为对应待清洗数据的目标清洗数据,将其同步更新至第一数据库,以使第一数据库与第二数据库存储的数据一致;
103.步骤s47,若应用判定结果为否,将清洗数据确定为对应待清洗数据的目标清洗数据,将其同步更新至第二数据库,以使第一数据库与第二数据库存储的数据一致;
104.可见,在本技术实施例中,经过数据清洗评估后,若确定应用调整后的待定数据清洗策略,数据同步模块可以将预清洗结果作为对应待清洗数据的目标清洗结果,将其同步至所有清洗结果数据库(如第一数据库、第二数据库)中,也就是说,将目标清洗数据写入第一数据库进行存储,同时删除第一数据库已存储的对应处理得到的清洗数据。
105.若确定舍弃该待定数据清洗策略,保持应用调整前的目标数据清洗策略,数据同步模块将上述清洗数据同步至所有清洗结果数据库,也就是说,将清洗数据确定为对应待清洗数据的目标清洗数据,将其写入第二数据库进行存储,删除第二数据库存储的对应处
理得到的预清洗数据,即舍弃预清洗数据,填充对应的清洗数据,从而保证无论是否应用待定数据清洗策略,所有清洗结果数据库存储的数据完全一致。需要说明,关于对各清洗结果数据库的数据同步实现方法包括但并不局限于上文描述的方式,可视情况灵活调整,本技术不做一一举例详述。
106.步骤s48,按照预先配置的清洗指标,输出所获得的针对预清洗数据和清洗数据的清洗指标信息;
107.本技术实施例中,清洗指标信息能够表征针对相同待清洗数据的预清洗效果(即依据待定数据清洗策略进行预清洗处理所达到的清洗效果)与原清洗效果(即依据目标数据清洗策略进行清洗处理所达到的清洗效果)的对比结果,还可以包括当前执行的目标数据清洗策略等,可以依据所监控的清洗指标的内容确定所获得的清洗指标信息
108.步骤s49,通过异步通信方式,利用该清洗指标信息和目标清洗数据,动态调整目标数据清洗策略包含的数据清洗模型的模型参数,生成数据清洗策略调整事件。
109.如图2和图5所示,在上述数据清洗处理过程中,可以监控清洗指标,通过仪表盘处理模块展示所有系统配置的清洗指标信息,但并不局限于这种监控实现方法,也可以将监控到的各清洗指标信息或其他信息,通过预设通信方式发送至预设终端设备进行展示,以使监控人员可以实时或周期性直观监控数据清洗处理过程,实现过程本技术不做详述。
110.参照图6,为本技术提出的大数据清洗装置的一可选示例的结构示意图,该装置可以包括:
111.待清洗数据接收模块61,用于接收来自数据源的待清洗数据;
112.数据清洗策略获得模块62,用于获得对应的目标数据清洗策略;
113.数据清洗处理模块63,用于检测到数据清洗策略调整事件,依据所述目标数据清洗策略对所述待清洗数据进行清洗处理,得到清洗数据,同时依据调整后的待定数据清洗策略对所述待清洗数据进行预清洗处理,得到预清洗数据;
114.应用判定结果获得模块64,用于获得针对所述待定数据清洗策略的应用判定结果;所述应用判定结果能够表征是否应用所述待定数据清洗策略继续对接收到的待清洗数据进行清洗处理;
115.目标清洗数据得到模块65,用于依据所述应用判定结果,得到所述待清洗数据的目标清洗数据;所述目标清洗数据为所述清洗数据或所述预清洗数据。
116.可选的,上述数据清洗策略获得模块62可以包括:
117.数据特征获取单元,用于获取所述待清洗数据的数据特征;
118.目标数据清洗策略确定单元,用于依据所述数据特征和预配置的清洗深度策略,确定针对所述待清洗数据的目标数据清洗策略;
119.其中,所述目标数据清洗策略包括至少一个清洗深度对应的数据清洗模型,所述数据清洗模型基于机器学习算法和/或清洗算法训练得到,以实现对带清洗数据的清洗处理。
120.可选的,上述应用判定结果获得模块64可以包括:
121.第一获得模块,用于获得监控人员针对所述待定数据清洗策略输入的应用选择指令,得到是否应用所述待定数据清洗策略执行数据清洗操作的应用判定结果;
122.或者上述应用判定结果获得模块64也可以包括:
123.清洗评估单元,用于调取预配置的数据清洗评估策略,对所述预清洗数据进行评估,得到清洗评估结果;
124.应用判定单元,用于依据所述清洗评估结果,判定是否应用所述待定数据清洗策略执行数据清洗操作,得到对应的应用判定结果。
125.在又一些实施例中,上述装置还可以包括:
126.清洗指标信息获得模块,用于按照预先配置的清洗指标,获得针对所述预清洗数据和所述清洗数据的清洗指标信息;其中,所述清洗指标信息能够表征针对相同所述待清洗数据的预清洗效果与原清洗效果的对比结果;
127.清洗指标信息输出模块,用于输出所述清洗指标信息;
128.和/或,模型参数调整模块,用于通过异步通信方式,利用所述清洗指标信息和所述目标清洗数据,动态调整所述目标数据清洗策略包含的数据清洗模型的模型参数,生成数据清洗策略调整事件。
129.在又一些实施例中,如图7所示,上述装置还可以包括:
130.第一存储模块66,用于将处理得到的所述清洗数据写入第一数据库进行存储;和/或,
131.第二存储模块67,用于将处理得到的所述预清洗数据写入第二数据库进行存储;
132.数据同步模块68,用于按照所述应用判定结果对应的同步方式,对第一数据库和第二数据库进行数据同步;
133.可选的,数据同步模块68可以包括:
134.第一同步单元,用于在应用判定结果为是的情况下,将所述目标清洗数据写入所述第一数据库进行存储,删除所述第一数据库存储的对应处理得到的所述清洗数据;
135.第二同步单元,用于在应用判定结果为否的情况下,将所述目标清洗数据写入所述第二数据库进行存储,删除所述第二数据库存储的对应处理得到的所述预清洗数据。
136.在又一些实施例中,如图7所示,上述装置还可以包括:
137.第三存储模块69,用于将来自所述数据源的待清洗数据写入第三数据库进行存储;所述第三数据库配置有数据存储周期,以删除存储时长达到所述数据存储周期的所述待清洗数据;
138.禁止响应模块610,用于禁止响应针对所述第三数据库存储的待清洗数据的清洗处理指令和数据同步指令。
139.需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,可以由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,也可以由该程序模型和硬件结合实现,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
140.本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现上述的大数据清洗方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
141.参照图8所示,为适用于本技术提出的大数据清洗方法的计算机设备的一可选示例的硬件结构示意图,该计算机设备产品类型本技术不做限制,以计算机设备是服务器为例进行说明,如图8所示,该计算机设备可以包括但并不局限于:通信接口81、存储器82和处
理器83,其中:
142.通信接口81、存储器82和处理器83各自的数量均可以为至少一个,且通信接口81、存储器82和处理器83可以连接通信总线,通过该通信总线实现相互之间,以及与计算机设备的其他结构组成之间的数据交互,具体可以根据实际需求确定,本技术不做详述。
143.通信接口81可以包括计算机设备通信模块的数据接口,以及实现计算机设备内部组成部件之间的数据交互的如usb接口、串/并口、i/o口等通信接口;其中,通信模块可以包括如wifi模块、5g/6g(第五代移动通信网络/第六代移动通信网络)模块、gprs模块、射频通信模块等,以使计算机设备通过相应的无线通信网络实现与其他设备(如各数据源、数据库、终端设备等)的数据交互,本技术对该通信模块的类型及其工作原理不做详述。
144.本技术实施例中,通信接口81可以用于接收各数据源的待清洗数据、预配置的配置信息等,也可以将清洗处理得到的各清洗结果写入对应的数据库,将监控到的清洗指标信息发送至终端设备输出,实现可视化监控。本技术对通信接口在大数据清洗方法中的数据传输内容不做限制,可视情而定。
145.存储器82可以用于存储实现上述各方法实施例描述的大数据清洗方法的程序;处理器83可以加载并执行存储器存储的该程序,以实现上述相应方法实施例描述的大数据清洗方法的各个步骤,具体实现过程可以参照上述实施例相应部分的描述,不再赘述。
146.本技术实施例中,存储器82可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器83,可以为中央处理器(centralprocessing unit,cpu)、特定应用集成电路(application-specific integrated circuit,asic)、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件等。
147.应该理解的是,图8所示的计算机设备的结构并不构成对本技术实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图8所示的更多的部件,或者组合某些部件,本技术在此不做一一列举。
148.需要说明的是,本发明提供的大数据清洗方法、装置、计算机设备及存储介质可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域或金融领域。上述仅为示例,并不对本发明提供的大数据清洗方法、装置、计算机设备及存储介质的应用领域进行限定。
149.关于上述各实施例中,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
150.其中,在本技术实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,在本技术实施例的描述中,“多个”是指两个或多于两个。
151.本技术涉及到的术语诸如“第一”、“第二”等仅用于描述目的,用来将一个操作、单元或模块与另一个操作、单元或模块区分开来,而不一定要求或者暗示这些单元、操作或模
块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
152.另外,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备、系统、存储介质而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
153.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计预设条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
154.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的核心思想或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1