本发明涉及大数据,尤其涉及一种用于大数据的企业数据清洗方法。
背景技术:
1、数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。数据清洗就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到最终的结论。
2、随着互联网技术的不断发展,企业应用应用系统所产生的数据呈爆炸性增长。动辄达到数百tb甚至数十至数百pb规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。而传统的交互式数据库,对如此庞大的数据处理显得力不从心。
3、在大数据清洗技术方面,当前的技术除了针对具体数据编写mapreduce程序外,还可采用hadoop的hive。传统的基于hadoop的系统存在无法满足业务需求以及设备成本过高的问题。在业务需求方面,从历史数据分析与实时数据流处理,hadoop虽然能够处理大数据,但是效率较低,另外一方面,设备成本过高。
4、数据清洗将决定数据质量,对于基于数据的企业决策、甚至是行业趋势的分析均有重要作用。总的来说,数据清洗的最终目的是对各种数据进行对应方式的处理,得到标准的、干净的、连续的、所需的数据以进行数据统计、数据挖掘等使用。在以往的数据清洗处理过程中,web方式和大部分数据清洗程序都是在没有经过清洗的大数据量中进行汇总和分析,这样做的后果不仅消耗大量的服务器资源,而且也会大大降低服务器的响应速度。
5、在专利申请号cn201710622180.0中公开了一种大数据清洗方法,包括先对清洗流程进行配置定义,再对清洗流程进行解析并转换为spark的原子操作。将清洗任务提交至大数据分析框架spark集群后,由spark集群进行数据清洗,因为每个清洗流程中的每个步骤都已转换为spark的原子操作,所以在spark集群中进行的各个清洗步骤均可以分布式并行执行,从而能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境;该方案仅仅是采用了集群服务器资源,通过分布式处理的方法来提高了处理效率,在企业进行数据清洗的时候,其服务器资源是有限的,在进行大规模数据集的处理时,是可能遇到计算资源不足的情况,从而导致数据清洗的时间变长。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种用于大数据的企业数据清洗方法。
2、本发明的目的是通过以下技术方案来实现的:
3、一种用于大数据的企业数据清洗方法,包括以下步骤:
4、步骤s1:构建数据清洗数据库,对待清洗的企业数据进行分类,并存入数据清洗数据库中;
5、步骤s2:构建数据清洗规则项目库;
6、步骤s3:构建清洗规则项目,并配置目标数据类型与所述清洗规则项目之间的映射关系,生成清洗规则匹配表;
7、步骤s4:构建分布式集群,所述分布式集群包含一个主控服务器和若干个子服务器集群,所述主控服务器用于控制资源的调度分配以及清洗任务执行;各个所述子服务器集群分别对应处理一种目标数据类型;
8、步骤s5:主控服务器根据分类后各类企业数据的数据大小,进行子服务器集群资源的配置;
9、步骤s6:主控服务器部署清洗任务队列开始数据清洗,并对清洗后的数据进行存储。
10、进一步的,所述构建数据清洗规则项目库用于存储数据清洗规则项目以及清洗规则匹配表。
11、进一步的,所述数据清洗项目包括纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、数据补缺和数据丢弃。
12、进一步的,所述待清洗的企业数据进行分类后,设置分类参数,所述分类参数包括类别编码和清洗状态。
13、进一步的,所述待清洗的企业数据进行分类具体为:根据预先设置的分类策略将待清洗的企业数据分类为各个目标数据类型。
14、进一步的,所述清洗规则匹配表上传至所述主控服务器,主控服务器根据所述目标数据类型将所述清洗规则分配给对应的子服务器集群。
15、进一步的,所述步骤s6具体包括:
16、主控服务器获取清洗规则匹配表,根据目标数据类型将清洗任务发布至子服务器集群并生成清洗队列,根据表中映射关系抽取对应数据清洗规则;
17、子服务器集群根据数据清洗规则对清洗队列的数据进行数据清洗。
18、进一步的,所述主控服务器部署清洗任务队列开始数据清洗时,还包括对子服务器集群的清洗任务执行状态进行检测,当检测到目标子服务器集群的清洗任务队列的数据大小超过阈值,而另一子服务器集群进入空闲状态时,主控服务器从空闲状态的子服务器集群中选取若干空闲的子服务器加入到目标子服务器集群中。
19、本发明的有益效果:本发明能够高效、低错误率地清洗掉企业大数据中的异常数据,同时充分利用了计算服务器的资源,降低了资源浪费率,从而极大的提高了清洗效率。
1.一种用于大数据的企业数据清洗方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述构建数据清洗规则项目库用于存储数据清洗规则项目以及清洗规则匹配表。
3.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述数据清洗项目包括纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、数据补缺和数据丢弃。
4.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述待清洗的企业数据进行分类后,设置分类参数,所述分类参数包括类别编码和清洗状态。
5.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述待清洗的企业数据进行分类具体为:根据预先设置的分类策略将待清洗的企业数据分类为各个目标数据类型。
6.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述清洗规则匹配表上传至所述主控服务器,主控服务器根据所述目标数据类型将所述清洗规则分配给对应的子服务器集群。
7.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述步骤s6具体包括:
8.根据权利要求1所述的一种用于大数据的企业数据清洗方法,其特征在于,所述主控服务器部署清洗任务队列开始数据清洗时,还包括对子服务器集群的清洗任务执行状态进行检测,当检测到目标子服务器集群的清洗任务队列的数据大小超过阈值,而另一子服务器集群进入空闲状态时,主控服务器从空闲状态的子服务器集群中选取若干空闲的子服务器加入到目标子服务器集群中。