一种数据清洗方法、装置及计算机可读存储介质

文档序号:26139613发布日期:2021-08-03 14:23阅读:来源:国知局

技术特征:

1.一种数据清洗方法,其特征在于,包括:

从公交ic卡数据中获取待清洗脏数据;

从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;

基于所述目标清洗规则生成相应数据清洗代码;

通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。

2.如权利要求1所述的数据清洗方法,其特征在于,所述从公交ic卡数据中获取待清洗脏数据的步骤,包括:

从公交ic卡数据中获取初始脏数据;

对所述初始脏数据进行格式规范和分类,得到待清洗脏数据。

3.如权利要求1所述的数据清洗方法,其特征在于,所述对所述待清洗脏数据进行清洗的步骤,包括:

对所述待清洗脏数据进行格式纠错处理,得到第一数据清洗结果;

对所述第一数据清洗结果进行逻辑纠错处理,得到第二数据清洗结果。

4.如权利要求3所述的数据清洗方法,其特征在于,所述对所述待清洗脏数据进行格式纠错处理的步骤,包括:

删除所述待清洗脏数据中的无效数据;其中,所述无效数据包括:重复数据、非公交运营时段数据、进出站次数不匹配数据、同站进出数据中至少一种;

在剩余数据中填充缺失数据;其中,所述缺失数据包括:缺失站点数据;

将填充完成的所有数据进行排序。

5.如权利要求3所述的数据清洗方法,其特征在于,所述对所述第一数据清洗结果进行逻辑纠错处理的步骤,包括:

基于预设gps坐标转换规则库,将所述第一数据清洗结果对应的gps数据转换为平面坐标数据;

基于所述平面坐标数据计算乘客换乘距离以及换乘所需时间;

基于所述乘客换乘距离以及所述换乘所需时间识别乘客行程起讫点;

基于所述乘客行程起讫点清除所述第一数据清洗结果中的逻辑错误数据。

6.如权利要求1至5中任意一项所述的数据清洗方法,其特征在于,所述通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗的步骤之后,还包括:

获取清洗出的各脏数据的来源信息以及去向信息;

根据所述来源信息以及所述去向信息,对所述清洗出的各脏数据进行分类保存。

7.如权利要求1至5中任意一项所述的数据清洗方法,其特征在于,所述通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗的步骤之后,还包括:

将数据清洗结果对应的数据指标,与对应于数据清洗需求的标准数据指标进行比对;

当根据比对结果确定所述数据清洗结果不达标时,返回执行所述通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗的步骤。

8.一种数据清洗装置,其特征在于,包括:

获取模块,用于从公交ic卡数据中获取待清洗脏数据;

调用模块,用于从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;

生成模块,用于基于所述目标清洗规则生成相应数据清洗代码;

清洗模块,用于通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。

9.一种电子装置,其特征在于,包括:处理器、存储器和通信总线;

所述通信总线用于实现所述处理器和存储器之间的连接通信;

所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现如权利要求1至7中任意一项所述的数据清洗方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任意一项所述的数据清洗方法的步骤。


技术总结
本发明公开了一种数据清洗方法、装置及计算机可读存储介质,从公交IC卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。

技术研发人员:宫磊;曾凌菲;黄蔚;詹浩龙;温境鹏;林逸超
受保护的技术使用者:深圳技术大学
技术研发日:2021.05.10
技术公布日:2021.08.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1