一种数据清洗方法、装置及计算机可读存储介质

文档序号:26139613发布日期:2021-08-03 14:23阅读:66来源:国知局
一种数据清洗方法、装置及计算机可读存储介质

本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法、装置及计算机可读存储介质。



背景技术:

数据清洗是指发现并纠正数据文件中可识别的错误,主要包括检查数据的一致性,处理数据中的无效值和缺失值等。在公交ic卡数据系统中,往往会因为公交ic卡数据在全国各地由于制式和用途略有差异的原因或者ic卡数据在设备工作或传输故障等原因,公交数据中必然会存在数据错误、时间点不规范、丢失等质量问题,平均错误率在1.5%。除了由于系统、设备等客观因素造成的错误数据信息之外,还有来自公共交通乘客方面的主观因素造成数据信息不准确等因素产生一些脏数据。

特别是目前数据量越来越大,数据清洗过程中需要花费的时间也越来越惊人,因此寻找一种即能规范地对数据进行清洗,又能保障数据清洗在合理的时间范围内完成的数据清洗方法是十分重要的。



技术实现要素:

本发明实施例的主要目的在于提供一种数据清洗方法、装置及计算机可读存储介质,至少能够解决相关技术中提供的数据清洗方式的有效性和效率欠佳的问题。

为实现上述目的,本发明实施例第一方面提供了一种数据清洗方法,该方法包括:

从公交ic卡数据中获取待清洗脏数据;

从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;

基于所述目标清洗规则生成相应数据清洗代码;

通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。

为实现上述目的,本发明实施例第二方面提供了一种数据清洗装置,该装置包括:

获取模块,用于从公交ic卡数据中获取待清洗脏数据;

调用模块,用于从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;

生成模块,用于基于所述目标清洗规则生成相应数据清洗代码;

清洗模块,用于通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。

为实现上述目的,本发明实施例第三方面提供了一种电子装置,该电子装置包括:处理器、存储器和通信总线;

所述通信总线用于实现所述处理器和存储器之间的连接通信;

所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述任意一种数据清洗方法的步骤。

为实现上述目的,本发明实施例第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意一种数据清洗方法的步骤。

根据本发明实施例提供的数据清洗方法、装置及计算机可读存储介质,从公交ic卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。

本发明其他特征和相应的效果在说明书的后面部分进行阐述说明,且应当理解,至少部分效果从本发明说明书中的记载变的显而易见。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的数据清洗系统的系统架构示意图;

图2为本发明第一实施例提供的数据清洗方法的基本流程示意图;

图3为本发明第二实施例提供的数据清洗装置的程序模块示意图;

图4为本发明第三实施例提供的电子装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

第一实施例:

为了解决相关技术中提供的数据清洗方式的有效性和效率欠佳的问题,本实施例提出了一种数据清洗方法,应用于如图1所示的数据清洗系统,该数据清洗系统包括:数据清洗应用层和数据存储层。其中,数据清洗应用层包括数据预处理单元、数据规则配置模块、gps坐标转换规则库、数据清洗代码生成模块、执行模块和解析模块;数据存储层包括数据清洗设备、数据服务器集群和数据仓库。

在实际应用中,数据清洗设备输出端与数据预处理单元、数据规则配置模块、gps坐标转换规则库、数据清洗代码生成模块、执行模块和解析模块的输入端连接;且数据预处理单元与数据规则配置模块、数据清洗代码生成模块和gps坐标转换规则库连接;数据清洗代码生成模块与执行模块和解析模块连接;数据服务器集群连接于数据清洗设备,数据服务器集群可提供多个设备数据连接端,与数据清洗设备连接的载体为互联网,数据清洗设备也称为数据记录器,其数据原型有助于用户在系统实际构建之前测试数据获取机制,收集额外要求并测试已提出系统的可行性。

如图2所示为本实施例提供的数据清洗方法的基本流程示意图,本实施例提出的数据清洗方法包括以下的步骤:

步骤201、从公交ic卡数据中获取待清洗脏数据。

具体的,本实施例首先需要从公交ic卡数据中发现脏数据,该功能由脏数据发现层执行,脏数据发现层主要由数据完整性检测、数据重复性检测和错误数据检测3个功能模块组成,通过对大数据变量的取值范围、相关性、无效性、缺失值和重复值进行判定来发现大数据中的脏数据。

在本实施例一种可选的实施方式中,上述从公交ic卡数据中获取待清洗脏数据的步骤,包括:从公交ic卡数据中获取初始脏数据;对初始脏数据进行格式规范和分类,得到待清洗脏数据。

具体的,本实施例首先从公交ic卡数据中提取初始数据,然后通过数据预处理单元对其进行预处理,该预处理过程可以理解为对数据的首次清洗。在本实施例中,数据预处理单元可以包含数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,对初始数据进行格式规范和分类,得到首次数据清洗的结果。

步骤202、从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则。

具体的,本实施例预先通过数据规则配置模块进行数据清洗规则库的配置,在本实施例中,为保证数据的完整性、合理性、有效性、规范性、一致性和正确性等,借助元数据理论,将需要清洗的数据所对应的元数据信息进行统一整理,形成元数据信息表。同时,构造能够灵活处理下文各种错误数据类型的规则引擎,统一编写能处理大部分数据情况的规则组件,形成可被调用和复制的数据清洗规则库,最终建立数据清洗规则库中各规则与元数据信息表中各类型数据的映射关系,由此,在实际应用中可针对不同类型脏数据对应调用数据清洗规则。

步骤203、基于目标清洗规则生成相应数据清洗代码。

具体的,本实施例针对不同类型脏数据,设置以数据清洗规则为基础的清洗任务,并生成与之相应的数据清洗代码。

步骤204、通过执行数据清洗代码,对待清洗脏数据进行清洗。

具体的,本实施例执行数据清洗代码,完成脏数据的清洗工作,并可在此之后进行有效性验证分析,若在验证清洗结果有效之后输出清洗结果,进一步的可提取公共出行链数据。

在本实施例一种可选的实施方式中,上述对待清洗脏数据进行清洗的步骤,包括:对待清洗脏数据进行格式纠错处理,得到第一数据清洗结果;对第一数据清洗结果进行逻辑纠错处理,得到第二数据清洗结果。

具体的,在本实施例中,采用分步清洗的方式来对脏数据进行清洗,首先对脏数据进行格式上的纠错,然后再进行逻辑上的纠错,以提升数据清洗的有效性。

进一步地,在本实施例一种可选的实施方式中,上述对待清洗脏数据进行格式纠错处理的步骤,包括:删除待清洗脏数据中的无效数据;在剩余数据中填充缺失数据;将填充完成的所有数据进行排序。

具体的,本实施例的无效数据包括:重复数据、非公交运营时段数据、进出站次数不匹配数据(进出站次数不匹配的卡号对应刷卡数据)、同站进出数据中至少一种,缺失数据包括:缺失站点数据等,而缺失站点数据又进一步分为时间缺失站点数据、费用缺失站点数据。在本实施例中,通过对待清洗数据中无效数据进行删除以及对必要数据进行填充以完善待清洗数据的格式,然后按照卡号、时间将每一卡号的刷卡数据进行排序,得到第一数据清洗结果。

进一步地,在本实施例的另一种可选的实施方式中,上述对第一数据清洗结果进行逻辑纠错处理的步骤,包括:基于预设gps坐标转换规则库,将第一数据清洗结果对应的gps数据转换为平面坐标数据;基于平面坐标数据计算乘客换乘距离以及换乘所需时间;基于乘客换乘距离以及换乘所需时间识别乘客行程起讫点;基于乘客行程起讫点清除第一数据清洗结果中的逻辑错误数据。

具体的,本实施例将第一数据清洗结果与gps数据连接,找到公交刷卡数据时间上对应的最近的一条gps数据,将gps经纬度数据转换成笛卡尔二维坐标系,然后基于平面坐标数据计算乘客换乘距离以及合理换乘时间,进一步的可以识别出公共交通乘客的起讫点,并由此进行逻辑错误数据的清除。

在本实施例一种可选的实施方式中,上述通过执行数据清洗代码,对待清洗脏数据进行清洗的步骤之后,还包括:获取清洗出的各脏数据的来源信息以及去向信息;根据来源信息以及去向信息,对清洗出的各脏数据进行分类保存。

具体的,本实施例在数据清洗完成之后,可以将清洗出的脏数据分类保留,以便精准定位每一条脏数据的来源和去向。

在本实施例另一种可选的实施方式中,上述通过执行数据清洗代码,对待清洗脏数据进行清洗的步骤之后,还包括:将数据清洗结果对应的数据指标,与对应于数据清洗需求的标准数据指标进行比对;当根据比对结果确定数据清洗结果不达标时,返回执行通过执行数据清洗代码,对待清洗脏数据进行清洗的步骤。

具体的,在本实施例中,脏数据清洗层是大数据清洗系统的核心,在对脏数据产生的原因、存在形式和数据结构复杂度进行分析后,制定出科学的脏数据定义、评估、清洗和规则反馈优化程序,依据数据清洗的实时性需求,对清洗后数据的完整性、有效性、一致性、准确性和相关性等与标准指标进行比对,以判定数据清洗是否达标,如果清洗结果不达标则进行脏数据的二次清洗,以提高数据清洗的准确率。

根据本发明实施例提供的数据清洗方法,从公交ic卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。

第二实施例:

为了解决相关技术中提供的数据清洗方式的有效性和效率欠佳的问题,本实施例示出了一种数据清洗装置,具体请参见图3,本实施例的数据清洗装置包括:

获取模块301,用于从公交ic卡数据中获取待清洗脏数据;

调用模块302,用于从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;

生成模块303,用于基于目标清洗规则生成相应数据清洗代码;

清洗模块304,用于通过执行数据清洗代码,对待清洗脏数据进行清洗。

在本实施例的一些实施方式中,获取模块具体用于:从公交ic卡数据中获取初始脏数据;对初始脏数据进行格式规范和分类,得到待清洗脏数据。

在本实施例的一些实施方式中,清洗模块具体用于:对待清洗脏数据进行格式纠错处理,得到第一数据清洗结果;对第一数据清洗结果进行逻辑纠错处理,得到第二数据清洗结果。

进一步地,在本实施例的一些实施方式中,清洗模块在执行上述对待清洗脏数据进行格式纠错处理的功能时,具体用于:删除待清洗脏数据中的无效数据,其中,无效数据包括:重复数据、非公交运营时段数据、进出站次数不匹配数据、同站进出数据中至少一种;在剩余数据中填充缺失数据,其中,缺失数据包括:缺失站点数据;将填充完成的所有数据进行排序。

进一步地,在本实施例的另一些实施方式中,清洗模块在执行上述对第一数据清洗结果进行逻辑纠错处理的功能时,具体用于:基于预设gps坐标转换规则库,将第一数据清洗结果对应的gps数据转换为平面坐标数据;基于平面坐标数据计算乘客换乘距离以及换乘所需时间;基于乘客换乘距离以及换乘所需时间识别乘客行程起讫点;基于乘客行程起讫点清除第一数据清洗结果中的逻辑错误数据。

在本实施例的一些实施方式中,数据清洗装置还包括:保存模块,用于:获取清洗出的各脏数据的来源信息以及去向信息;根据来源信息以及去向信息,对清洗出的各脏数据进行分类保存。

在本实施例的另一些实施方式中,数据清洗装置还包括:比对模块,用于:将数据清洗结果对应的数据指标,与对应于数据清洗需求的标准数据指标进行比对。相对应的,清洗模块还用于:当根据比对结果确定数据清洗结果不达标时,再次执行通过执行数据清洗代码,对待清洗脏数据进行清洗的功能。

应当说明的是,前述实施例中的数据清洗方法均可基于本实施例提供的数据清洗装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的数据清洗装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

采用本实施例提供的数据清洗装置,从公交ic卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。

第三实施例:

本实施例提供了一种电子装置,参见图4所示,其包括处理器401、存储器402及通信总线403,其中:通信总线403用于实现处理器401和存储器402之间的连接通信;处理器401用于执行存储器402中存储的一个或者多个计算机程序,以实现上述实施例一中的数据清洗方法中的至少一个步骤。

本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于ram(randomaccessmemory,随机存取存储器),rom(read-onlymemory,只读存储器),eeprom(electricallyerasableprogrammablereadonlymemory,带电可擦可编程只读存储器)、闪存或其他存储器技术、cd-rom(compactdiscread-onlymemory,光盘只读存储器),数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序,其存储的一个或者多个计算机程序可被处理器执行,以实现上述实施例一中的方法的至少一个步骤。

本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述实施例一中的方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。

此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1