一种能快速实现数据清洗、正确性验证的方法及其系统与流程

文档序号:18214295发布日期:2019-07-19 22:31阅读:503来源:国知局
一种能快速实现数据清洗、正确性验证的方法及其系统与流程

本发明属于数据处理技术领域,具体涉及一种能快速实现数据清洗、正确性验证的方法及其系统。



背景技术:

数据分析、数据挖掘是当下对大数据进行有效利用的热门应用,而数据清洗是以上应用的基础。由于数据清洗针对的数据来源极为广泛,不同的信息系统产生的数据格式各式各样,现行的数据清洗方式存在以下不足:

1)、一致性验证,难以有效的对各个信息系统抽取过来的数据做一致性验证,难以排除数据变形、数据遗漏、数据部分缺失带来的不良后果;

2)、有效性验证,难以有效的验证数据是否按既定规则做了清洗,清洗后的数据是否符合需求;

3)、正确性验证,难以有效的验证清洗后的数据是否正确;

4)、出错排查,难以快速的进行错误定位,找到数据出错的环节及原因。针对以上数据清洗过程中存在的问题,有必要研究开发一种能对数据清洗全过程进行一致性、有效性、正确性验证并对错误数据进行快速定位的系统及方法。



技术实现要素:

本发明的第一目的在于提供一种能快速实现数据清洗、正确性验证的方法;本发明的第二目的在于提供一种能快速实现数据清洗、正确性验证的系统。

本发明的第一目的是这样实现的:一种能快速实现数据清洗、正确性验证的方法,包括步骤a、数据采集,b、数据存储,c、数据抽取,d、数据转换,e、数据汇总和f、定时调度,其特征在于:具体步骤为

a、数据采集,通过数据采集模块联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;

b、数据存储,通过数据存储模块联接数据采集模块,将步骤a采集得的数据存储到数据存储模块中,并做一致性验证处理;

c、数据抽取,通过数据抽取模块联接数据存储模块,将数据由数据存储模块抽取到数据转换处理模块并做数据过滤处理;

d、数据转换,通过数据转换处理模块联接数据抽取模块,将步骤c取得的数据按照既定规则进行清洗并做有效性验证处理;

e、数据汇总,通过数据汇总模块联接数据转换处理模块,将步骤d清洗得的数据按既定规则进行汇总并做正确性验证处理;

f、定时调度,通过定时调度模块联接数据采集模块、数据存储模块、数据抽取模块和数据转换处理模块,所述定时调度模块控制调度步骤a、b、c、d、e的工作时间,定时调度模块根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤a、b、c、d、e依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤a、b、c、d、e中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块记录到系统日志,待管理员处理。

本发明的第二目的是这样实现的:一种适用于分模块实现数据清洗、正确性验证方法的系统,包括数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块、数据汇总模块和定时调度模块,所述数据采集模块依次联接数据存储模块、数据抽取模块、数据转换处理模块、数据汇总模块,在所述数据采集模块上设置数据接收口,数据接收口通过网络、数据传输线联接各个数据源,获取数据,所述定时调度模块分别联接数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块,统一控制调度数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块的工作时间。

与现有技术相比,本发明具有以下技术效果:

本发明能有效解决数据在清洗过程中难以对数据的一致性、有效性、正确性进行验证,每一模块的功能单一,每一模块对本模块数据的一致性、有效性、准确性做验证,每一模块为它的上一模块提供经过一致性、有效性、准确性验证通过的数据,最终保证汇总模块数据的有效性跟正确性,而且即使发现数据有误,也为快速定位出错数据产生的原因,有效解决了数据一致性不好验证、转换规则是否有效不好验证、汇总数是否正确不好验证的难题。

附图说明

图1为本发明的结构示意图;

图中标号:1~数据采集模块,2~数据存储模块,3~数据抽取模块,4~数据转换处理模块,5~数据汇总模块,6~定时调度模块,7~数据源,8~系统管理模块,9~括查询模块,10~统计模块。

具体实施方式

下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。

如附图1所示的能快速实现数据清洗、正确性验证的方法,包括步骤a、数据采集,b、数据存储,c、数据抽取,d、数据转换,e、数据汇总和f、定时调度,具体步骤为

a、数据采集,通过数据采集模块1联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;

b、数据存储,通过数据存储模块2联接数据采集模块,将步骤a采集得的数据存储到数据存储模块2中,并做一致性验证处理;

c、数据抽取,通过数据抽取模块3联接数据存储模块,将数据由数据存储模块2抽取到数据转换处理模块4并做数据过滤处理;

d、数据转换,通过数据转换处理模块4联接数据抽取模块3,将步骤c取得的数据按照既定规则进行清洗并做有效性验证处理;

e、数据汇总,通过数据汇总模块5联接数据转换处理模块4,将步骤d清洗得的数据按既定规则进行汇总并做正确性验证处理;

f、定时调度,通过定时调度模块6联接数据采集模块1、数据存储模块2、数据抽取模块3和数据转换处理模块4,所述定时调度模块6控制调度步骤a、b、c、d、e的工作时间,定时调度模块6根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤a、b、c、d、e依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤a、b、c、d、e中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块4记录到系统日志,待管理员处理。

所述步骤b中数据与各信息系统源数据的一致性验证方式有两种,一种是从数据存储模块2中人工随机抽样部分基础数据与源数据作对比,二者数据一致的表明验证通过,不一致表明验证未通过;另一种是经数据转换处理模块4处理后的高层级数据出错时,人工找到数据存储模块2中与之相对应的高层级数据再跟源数据作对比,二者数据一致的表明验证通过,不一致则表明验证未通过。

所述步骤d的数据清洗及有效性验证中,有效性验证方式有两种:一种是人工随机抽样数据转换处理模块4清洗后的数据计算所得结果,分析对比是否一致,一致为有效,不一致为无效;另一种是针对数据清洗代码进行调试验证,分析对比测试数据调试所得结果与预期结果是否一致,一致为有效,不一致为无效。

所述步骤e的数据汇总及正确性验证中,数据正确性验证方式有两种:一种是人工随机抽样部分数据汇总模块5中汇总后的数据计算所得结果是否一致,一致为正确,不一致为错误;另一种是针对数据汇总代码进行调试验证,看测试数据调试所得结果与预期结果是否一致,一致为正确,不一致则为错误。

所述的步骤f中的定时任务模块6控制数据抽取模块3定期将存储模块2的数据抽取到数据转换处理模块4,数据转换处理模块4则根据数据清洗规则完成数据的清洗;所述的步骤f中的定时任务模块6还控制数据汇总模块5汇集清洗后的正确数据信息,并记录和显示该相应的正确数据信息。

一种适用于分模块实现数据清洗、正确性验证方法的系统,包括数据采集模块1、数据存储模块2、数据抽取模块3、数据转换处理模块4、数据汇总模块5和定时调度模块6,所述数据采集模块1依次联接数据存储模块2、数据抽取模块3、数据转换处理模块4、数据汇总模块5,在所述数据采集模块1上设置数据接收口,数据接收口通过网络、数据传输线联接各个数据源7,获取数据,所述定时调度模块6分别联接数据采集模块1、数据存储模块2、数据抽取模块3、数据转换处理模块4,统一控制调度数据采集模块1、数据存储模块2、数据抽取模块3、数据转换处理模块4的工作时间。

各个所述的数据源7为独立的信息输入存储系统和/或第三方信息系统。

所述的数据采集模块1、数据存储模块2、数据抽取模块3、数据转换处理模块4内分别设置有微处理单元,微处理单元联接定时调度模块6;其中,所述的数据存储模块2内置有数据库单元;所述的数据抽取模块3内置数据过滤降噪单元、数码核对单元,过滤处理数据;所述的数据转换处理模块4内置清洗规则库单元、数据库单元;所述的数据汇总模块5内置算法芯片、数码核对验证单元和中央处理单元,所述算法芯片、数码核对验证单元分别通过数据总线与中央处理单元联接,中央处理单元分析生成报表数据,所述中央处理单元联接数据转换处理模块4。

所述的数据汇总模块5还设置有显示单元,所述显示单元为触控显屏和或pc机。

还包括系统管理模块8,系统管理模块8用于既存数据库维护;还包括查询模块9,用于查询业务进度;还包括统计模块10,用于统计系统运用状况,所述系统管理模块8一端连接数据汇总模块5,另一端依次联接查询模块9、统计模块10。

所述的定时任务模块6为可编程计时钟。

本发明的工作原理和方式:

1)、数据采集,把数据采集模块1通过网络、数据传输线联接各个独立的信息输入存储系统和/或第三方信息系统,采集各个信息系统或第三方系统中的数据;

2)、数据存储,通过数据存储模块2将数据采集模块1采集得的数据进行存储,并做一致性验证处理;即从数据存储模块2人工随机抽样部分基础数据与源数据作对比,二者数据一致的表明验证通过,不一致表明验证未通过;当经处理后的高层级数据出错时,人工找到数据存储模块2与之相对应的高层级数据再跟源数据作对比,二者数据一致的表明验证通过,不一致则表明验证未通过;

3)、数据抽取,通过数据抽取模块3将数据由数据存储模块2抽取到数据转换处理模块4并做数据过滤处理,并传输给数据转换处理模块4;

4)、数据转换,通过数据转换处理模块4将数据抽取模块3处理得的数据按照既定规则进行清洗并做有效性验证处理,验证完成后传输给数据汇总模块5,其中,定时任务模块控制数据抽取模块3定期将存储模块的数据抽取到数据转换处理模块4,数据转换处理模块4根据数据清洗规则完成数据的清洗,并把清洗得的正确数据传输给数据汇总模块5;具体验证方式为:一种是人工随机抽样清洗后的数据与通过公式计算所得结果,分析对比是否一致,一致为有效,不一致为无效;另一种是针对数据清洗代码进行调试验证,分析对比测试数据调试所得结果与预期结果是否一致,一致为有效,不一致为无效;

5)、数据汇总,通过数据汇总模块5将数据转换处理模块4清洗处理得的数据按既定规则进行汇总并做正确性验证处理,得到正确的数据信息,再由数据汇总模块5上设置有得显示单元显示出正确的数据信息;具体方式为:一种是人工随机抽样部分汇总后的数据与通过公式计算所得结果是否一致,一致为正确,不一致为错误;另一种是针对数据汇总代码进行调试验证,看测试数据调试所得结果与预期结果是否一致,一致为正确,不一致则为错误;

6)、定时调度,通过定时调度模块6联接数据采集模块1、数据存储模块2、数据抽取模块3和数据转换处理模块4,定时调度模块6控制调度步骤a、b、c、d、e的工作时间,定时调度模块6根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤a、b、c、d、e依次进行工作,前一步正确执行后,后一步才能开始执行,当a、b、c、d、e中的任一步出错时,则该出错项之后的后续步骤将不执行,此次调度中止,并将出错信息记录到系统日志,待管理员处理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1