大数据清洗方法及装置与流程

文档序号:12364349阅读:来源:国知局

技术特征:

1.一种大数据清洗方法,其特征在于,包括:

对清洗流程进行配置定义;

对清洗流程进行解析,将清洗流程转换为Spark的原子操作;

将清洗任务提交至Spark集群;

由Spark集群进行数据清洗。

2.根据权利要求1所述的方法,其特征在于,所述由Spark集群进行数据清洗,具体包括:

从数据源加载数据;

利用分布式并行的清洗算法,对数据进行清洗;

对数据清洗的结果进行存储。

3.根据权利要求2所述的方法,其特征在于,所述清洗算法包括空值处理、去重处理和排序处理中的至少一种。

4.根据权利要求3所述的方法,其特征在于,多个清洗算法之间的数据流转通过弹性分布式数据集传递。

5.根据权利要求2所述的方法,其特征在于,所述数据源为数据库或分布式文件系统。

6.根据权利要求1所述的方法,其特征在于,所述对清洗流程进行配置定义,具体为:

基于JSON格式,对清洗流程进行配置定义。

7.一种大数据清洗装置,其特征在于,包括:

大数据清洗引擎,用于对清洗流程进行配置定义;对清洗流程进行解析,将清洗流程转换为Spark的原子操作;将清洗任务提交至Spark集群;

Spark集群,用于进行数据清洗。

8.根据权利要求7所述的装置,其特征在于,所述Spark集群具体用于:

从数据源加载数据;

利用分布式并行的清洗算法,对数据进行清洗;

对数据清洗的结果进行存储。

9.根据权利要求8所述的装置,其特征在于,还包括存储组件,用于存储数据清洗的结果。

10.根据权利要求8所述的装置,其特征在于,所述清洗算法包括空值处理、去重处理和排序处理中的至少一种。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1