一种海量数据的清洗方法和系统与流程

文档序号:12177428阅读:来源:国知局
技术总结
本发明公开一种海量数据的清洗方法和系统,涉及数据处理技术领域,以提高数据清洗的速度和效率。所述海量数据的清洗方法包括:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。所述海量数据的清洗系统包括上述海量数据的清洗方法。本发明提供的海量数据的清洗方法用于海量数据清洗。

技术研发人员:张素香;庞九凤;高德荃;张东;曹津平;李莉敏;李国春;王乾坤;徐慧明
受保护的技术使用者:国家电网公司信息通信分公司;国家电网公司
文档号码:201610959853
技术研发日:2016.11.03
技术公布日:2017.03.08

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1