本发明涉及数据处理领域,尤其是一种基于数据标准规范的数据清洗方法、装置和系统。
背景技术:
随着社会的迅速进步,手机电脑等产生的数据以每日数亿条增长,应运而生的数据清洗技术的应用也愈加广泛,所以有效地从海量的数据中获取有用的信息是至关重要的。
数据清洗(datacleaning)在字面意思上就是把“脏数据”清洗掉,数据清洗是指发现并纠正数据文件中可识别的错误数据的最后一道程序,而“脏数据”主要分为数据缺失、数据重复、数据错误和数据不可用四大类。然而目前针对不同类型的数据存在不同的清洗方式,因而需要采用不同的数据标准规范。
现有数据清洗方法中并没有对问题报告工单进行归整,导致后续的清洗过程中无法重复利用问题报告工单中的问题现象以及解决方案,在一定程度上,现有技术效率仍然有改进空间。
技术实现要素:
为解决上述技术问题,本发明的目的在于:提供一种能够提升效率的基于标准规范的数据清洗方法、装置和系统。
本发明所采取的第一种技术方案是:
一种基于数据标准规范的数据清洗方法,包括以下步骤:
获取数据标准规范信息和数据源;
根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号;
当问题报告工单被处理后,将已处理的问题报告工单存入知识库中。
进一步,所述根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号,这一步骤具体包括:
根据数据标准规范信息配置数据源中各字段的数据标准规范;
添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。
进一步,还包括以下步骤:
根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。
进一步,还包括以下步骤:
获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。
本发明所采取的第二种技术方案是:
一种基于数据标准规范的数据清洗装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行一种基于数据标准规范的数据清洗方法。
本发明所采取的第三种技术方案是:
一种基于数据标准规范的数据清洗系统,包括:
获取模块,用于获取数据源;
数据标准规范信息管理模块,用于添加、修改和删除数据标准规范信息;
质量检测模块,用于根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号;
问题报告工单处理模块,用于处理问题报告工单;
知识库,用于查询和存储已经处理的问题报告工单。
进一步,所述质量检测模块包括:
映射配置单元,用于根据数据标准规范信息配置数据源中各字段的数据标准规范;
任务执行调度单元,用于添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;
工单管理单元,用于根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。
进一步,还包括:
查询模块,用于根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。
进一步,还包括:
搜索模块,用于获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。
进一步,所述工单管理单元还用于:
获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号;
或者
获取用户输入的第三信息,将问题报告工单发送至设定的外部系统。
本发明的有益效果是:本发明基于标准数据规范信息,对需要清洗的数据源进行质量检测,并生成问题报告工单发送至相关的处理账号,当处理人完成对问题报告工单的处理后,将问题报告工单存储到知识库中,以便于后续数据清洗过程中处理人借鉴已经完成处理的问题报告工单的解决方案,从而提升数据清洗的效率。
附图说明
图1为本发明一种具体实施例的基于数据标准规范的数据清洗方法的流程图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
参照图1,一种基于数据标准规范的数据清洗方法,该方法可以通过计算机实现。
所述方法包括以下步骤:
s1、获取数据标准规范信息和数据源。所述数据标准规范信息可以包含多条规则,处理人可以根据实际需要对数据标准规范信息中的规则进行增加、删除和修改。
s2、根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号。在对数据源进行质量检测的过程中,会发现数据源存在的问题,即发现数据源不符合数据标准规范信息中的规则的情况,问题报告工单会记录数据源所存在的问题,例如记录第n字段的第m个数据有问题。然后记录了数据源的数据问题的问题报告工单会传输到处理人的账号,即第一处理账号,所述第一处理账号可以是固定的,也可以是在每次数据清洗过程中设定的。
s3、当问题报告工单被处理后,将已处理的问题报告工单存入知识库中。其中,已处理的问题报告工单中会记录处理人的解决方案。例如,第n个字段的第m个数据存在问题,针对该问题的解决方案是对该数据进行删除、合并、替换或者是其他操作。这样,如果在后续的数据清洗过程中,处理人遇到类似的问题,可以查找到之前的解决方案,有助于提升数据清洗的效率。
作为优选的实施例,所述步骤s2具体包括:
s21、根据数据标准规范信息配置数据源中各字段的数据标准规范;将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联。
s22、添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;本实施例中的方法可以同时执行多个数据清洗任务,因此需要增设任务调度的功能。
s23、根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。本实施例中,问题报告工单中包含每个字段存在的数据问题。
作为优选的实施例,为了方便处理人借鉴过往问题报告工单的解决方案,本实施例还包括以下步骤:
s4、根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。本实施例可以根据处理人所选择的数据标准规范信息,自动从知识库中匹配采用了相同数据标准规范的案例,并向用户呈现。使得用户可以很方便地找到相关案例的解决方案,从而提升数据清洗的效率。
作为优选的实施例,还包括以下步骤:
s5、获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。本实施例中,用户可以通过输入第一信息进行搜索,所述第一信息可以是相关字段的名称或者所处理数据的格式等等,本实施例可以在过往不存在使用相同的数据标准规范的数据清洗案例的情况下,利用关键词在已处理的问题报告工单中查找近似的数据清洗方案,以便于处理人借鉴过往数据清洗案例的解决方案,以提升数据清洗的效率。
一种基于数据标准规范的数据清洗装置,包括:
存储器,用于存储程序;所述存储器可以是u盘、硬盘或者光盘等存储设备。
处理器,用于加载所述程序以执行上述任一种实施例的基于数据标准规范的数据清洗方法。
本实施例公开了一种基于数据标准规范的数据清洗系统,包括:
获取模块,用于获取数据源;所述数据源可以来源于外部系统的数据接口、本地的数据库或者存储介质。
数据标准规范信息管理模块,用于添加、修改和删除数据标准规范信息;所述数据标准规范信息可以包含多条规则,处理人可以根据实际需要对数据标准规范信息中的规则进行增加、删除和修改。
质量检测模块,用于根据数据标准规范信息对数据源进行质量检测,生成问题报告工单并将问题报告工单发送至第一处理账号。在对数据源进行质量检测的过程中,会发现数据源存在的问题,即发现数据源不符合数据标准规范信息中的规则的情况,问题报告工单会记录数据源所存在的问题,例如记录第n字段的第m个数据有问题。然后记录了数据源的数据问题的问题报告工单会传输到处理人的账号,即第一处理账号,所述第一处理账号可以是固定的,也可以是在每次数据清洗过程中设定的。
问题报告工单处理模块,用于处理问题报告工单;在本模块中,处理人可以登录自己的账号,并对问题报告工单进行处理,例如,针对问题报告工单中指出的问题,可以通过删除、增加和修改等方式进行处理。最后的解决方案会随着问题报告工单存储在知识库中。
知识库,用于查询和存储已经处理的问题报告工单。处理人可以在知识库中查找过去存在类似情况的问题报告工单的解决方案,以提升数据清洗的效率。
本系统能够便于处理人管理数据标准规范信息,提升了数据清洗的灵活度,并且可以充分利用已有的问题报告工单作为借鉴的案例,提升数据清洗的效率。
作为优选的实施例,所述质量检测模块包括:
映射配置单元,用于根据数据标准规范信息配置数据源中各字段的数据标准规范。映射配置单元将数据源中的各字段与各字段对应的数据标准规范通过映射的方式建立关联。
任务执行调度单元,用于添加数据质量检测任务、配置第一处理账号并执行任务调度,得到数据源中各字段的质量检测结果;本实施例中的系统可以同时执行多个数据清洗任务,因此需要增设任务调度的功能。
工单管理单元,用于根据数据源中各字段的质量检测结果生成问题报告工单并将问题报告工单发送至第一处理账号。本实施例中,问题报告工单中包含每个字段存在的数据问题。
作为优选的实施例,为了方便处理人借鉴过往问题报告工单的解决方案,本实施例还包括:
查询模块,用于根据数据标准规范信息,从知识库中查询采用相同数据标准规范且已处理的问题报告工单。本实施例可以根据处理人所选择的数据标准规范信息,自动从知识库中匹配采用了相同数据标准规范的案例,并向用户呈现。使得用户可以很方便地找到相关案例的解决方案,从而提升数据清洗的效率。
作为优选的实施例,还包括:
搜索模块,用于获取用户输入的第一信息,根据第一信息在知识库中查找包含第一信息且已处理的问题报告工单。本实施例中,用户可以通过输入第一信息进行搜索,所述第一信息可以是相关字段的名称或者所处理数据的格式等等,本实施例可以在过往不存在使用相同的数据标准规范的数据清洗案例的情况下,利用关键词在已处理的问题报告工单中查找近似的数据清洗方案,以便于处理人借鉴过往数据清洗案例的解决方案,以提升数据清洗的效率。
作为优选的实施例,为了便于将问题报告工单转处理,所述工单管理单元还用于:
获取用户输入的第二信息,将问题报告工单从第一处理账号分配到第二处理账号;
或者
获取用户输入的第三信息,将问题报告工单发送至设定的外部系统。
本实施例可以灵活地分配问题报告工单到不同的处理人以进行处理,也可以将问题报告工单发送到外部系统。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。