一种数据清洗的方法及装置与流程

文档序号:14990686发布日期:2018-07-20 22:09阅读:1280来源:国知局
本公开实施例涉及但不限于数据处理领域,尤指一种数据清洗的方法及装置。
背景技术
::随着互联网的普及,数据已经越发重要,数据可以协助网站进行基础性工作,可以帮助警察办案,甚至可以预测股票价格。由于数据的来源非常广泛,数据质量就至关重要。数据清洗是保证数据质量的重要手段,数据清洗的结果直接影响到由数据产生的模型效果和最终结论。数据清洗的主要方法有去除/补全缺失的数据,去除/修改格式和内容错误的数据,去除/修改逻辑错误的数据,关联性验证等。在实际应用中,清洗的方法主要靠添加规则来实现。通常把需要处理的数据表称之为原始表,处理之后生成的表叫目标表,规则在原始表向目标表转化的过程中进行添加。当原始表和目标表的数据量都很大时,在原始表到目标表的映射上添加清洗规则是一项繁琐且容易出错的工作。技术实现要素:本发明实施例提供一种数据清洗的方法及装置,以减少在原始表到目标表的映射上添加清洗规则的人工配置时间。一种数据清洗的方法,包括:分别为各个原始表和目标表配置对应的清洗规则;建立所述原始表与所述目标表之间的映射关系;将所述原始表与所述目标表的清洗规则同步到所述映射关系上;利用同步后的清洗规则进行数据清洗。可选地,所述将所述原始表与所述目标表的清洗规则同步到所述映射关系上后,还包括:对同步后的清洗规则进行修改。一种数据清洗的装置,其中,包括:配置模块,用于分别为各个原始表和目标表配置对应的清洗规则;建立模块,用于建立所述原始表与所述目标表之间的映射关系;同步模块,用于将所述原始表与所述目标表的清洗规则同步到所述映射关系上;清洗模块,用于利用同步后的清洗规则进行数据清洗。可选地,所述装置还包括:修改模块,用于对所述同步模块同步后的清洗规则进行修改。一种数据清洗的装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现以下步骤:分别为各个原始表和目标表配置对应的清洗规则;建立所述原始表与所述目标表之间的映射关系;将所述原始表与所述目标表的清洗规则同步到所述映射关系上;利用同步后的清洗规则进行数据清洗。综上,本发明实施例提供一种数据清洗的方法及装置,可以减少在原始表到目标表的映射上添加清洗规则的人工配置时间。附图说明图1为本公开实施例的一种数据清洗的方法的流程图;图2为本公开实施例的一种数据清洗的装置的示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。图1为本公开实施例的一种数据清洗的方法的流程图,如图1所示,本实施例的方法包括:步骤11、分别为各个原始表和目标表配置对应的清洗规则;步骤12、建立所述原始表与所述目标表之间的映射关系;步骤13、将所述原始表与所述目标表的清洗规则同步到所述映射关系上;步骤14、利用同步后的清洗规则进行数据清洗。本实施例的本方法依赖于先分别对原始表和目标表添加的清洗规则,再建立原始表和目标表表间的映射关系,然后将原始表和目标表上的规则同步到原始表和目标表之间建立表间的映射关系上,减少了在原始表到目标表的映射上添加清洗规则的人工配置时间。最后再在原始表和目标表之间建立表间的映射关系上进行修改,添加一些个性化的规则,即完成原始表到目标表清洗规则的建立。假设用户要完成对n个原始表进行转换处理,生成m个目标表,需要建立n个原始表到m个目标表的映射,并在每一组表间映射上添加清洗规则,具体实施方式按照如下步骤依次进行:步骤101、为n个原始表分别添加清洗规则;为n个原始表(origin_table_1,origin_table_2,…,origin_table_n)分别添加清洗规则,清洗规则分别为rule_origin_1,rule_origin_1,…,rule_origin_n,需要添加n次,如表1所示。表1origin_table_1rule_origin_1origin_table_2rule_origin_2…………origin_table_nrule_origin_n步骤102、为m个目标表分别添加清洗规则。为m个目标表(target_table_1,target_table_2,…,target_table_m)分别添加清洗规则,清洗规则分别为rule_target_1,rule_target_1,…,rule_target_n,需要添加m次,如表2所示。表2target_table_1target_table_2……target_table_mrule_target_1rule_target_2……rule_target_m步骤103、在n个原始表和m个目标表之间建立由原始表生成目标表的映射关系,最多有n*m个。在n个原始表(origin_table_1,origin_table_2,…,origin_table_n)和m个目标表m个目标表(target_table_1,target_table_2,…,target_table_m)之间建立由原始表生成目标表的映射关系,有n*m个,如表3所示。表3步骤104、将n个原始表和m个目标表上的规则同步到n*m个原始表和目标表的映射关系上。将n个原始表(origin_table_1,origin_table_2,…,origin_table_n)和m个目标表(target_table_1,target_table_2,…,target_table_m)上的规则同步到n*m个原始表和目标表的映射关系上,如表4所示。表4可选地,步骤105、为n*m个原始表和目标表的表级映射关系上进行修改,添加个性化的规则。由以上示例可见,本实施例的数据清洗方法减少了数据清洗过程中清洗规则配置的次数和时间。图2为本公开实施例的一种数据清洗的装置的示意图,如图2所示,本实施例的装置包括:配置模块,用于分别为各个原始表和目标表配置对应的清洗规则;建立模块,用于建立所述原始表与所述目标表之间的映射关系;同步模块,用于将所述原始表与所述目标表的清洗规则同步到所述映射关系上;清洗模块,用于利用同步后的清洗规则进行数据清洗。在一实施例中,所述数据清洗的装置还可以包括:修改模块,用于对所述同步模块同步后的清洗规则进行修改。本实施例还提供一种数据清洗的装置,一种数据清洗的装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现以下步骤:分别为各个原始表和目标表配置对应的清洗规则;建立所述原始表与所述目标表之间的映射关系;将所述原始表与所述目标表的清洗规则同步到所述映射关系上;利用同步后的清洗规则进行数据清洗。本实施例的装置,可以减少在原始表到目标表的映射上添加清洗规则的人工配置时间,简便,不易出错。本发明实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述数据清洗的方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1