一种海量数据的清洗方法和系统与流程

文档序号:12177428阅读:来源:国知局

技术特征:

1.一种海量数据的清洗方法,其特征在于,包括:

步骤S1:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;

步骤S2:利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;

步骤S3:利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。

2.根据权利要求1所述的海量数据的清洗方法,其特征在于,所述步骤S2中对每个数据块中的数据进行清洗,得到多个清洗的数据块的方法包括:

步骤S21:识别数据块中数据的实体名称,获取数据块中数据的对象类型;

步骤S22:根据数据块中数据的对象类型,对数据块中的数据进行清洗,得到清洗的数据块。

3.根据权利要求2所述的海量数据的清洗方法,其特征在于,所述步骤S21中识别数据块中数据的实体名称的方法如下:

通过对数据块中数据字段的解析,识别数据块中数据的实体名称。

4.根据权利要求2所述的海量数据的清洗方法,其特征在于,所述步骤S22中对数据块中的数据进行清洗,得到清洗的数据块的方法包括:

步骤S221:将数据块中的数据进行预处理,使数据块中的数据格式统一;

步骤S222:计算实体名称相同的数据的内容相似度;

步骤S223:判断相似度值是否大于预设阈值,当相似度值大于预设阈值时,标记实体名称相同的数据为重复数据,并给相应数据打上重复数据标签,得到清洗的数据块。

5.根据权利要求4所述的海量数据的清洗方法,其特征在于,所述步骤S3中对整合数据进行清洗,完成海量数据的清洗的方法包括:

步骤S31:合并多个清洗的数据块中具有重复数据标签的数据,得到合并数据;

步骤S32:将合并数据打上清洗标记。

6.根据权利要求2~5中任一项所述的海量数据的清洗方法,其特征在于,所述实体名称包括:时间、姓名、组织机构名、地名中的一种或多种。

7.一种海量数据的清洗系统,其特征在于,包括:映射归约并行计算单元和清洗单元;所述映射归约并行计算单元包括分块单元和整合单元;所述清洗单元包括第一清洗单元和第二清洗单元;所述分块单元的输出端与第一清洗单元的输入端相连,所述第一清洗单元的输出端与整合单元的输入端相连,所述整合单元的输出端与第二清洗单元的输入端相连;

所述分块单元用于根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1,以及利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块;

所述第一清洗单元用于对每个数据块中的数据进行清洗,得到多个清洗的数据块;

所述整合单元用于利用归约函数整合多个清洗的数据块,得到整合数据;

所述第二清洗单元用于对整合数据进行清洗,完成海量数据的清洗。

8.根据权利要求7所述的海量数据的清洗系统,其特征在于,所述第一清洗单元包括:实体名称识别单元和清洗执行单元;所述分块单元的输出端与实体名称识别单元的输入端相连,所述实体名称识别单元的输出端与清洗执行单元的输入端相连,所述清洗执行单元的输出端与整合单元的输入端相连;

所述实体名称识别单元用于识别数据块中数据的实体名称,获取数据块中数据的对象类型;

所述清洗执行单元用于根据数据块中数据的对象类型,对数据块中的数据进行清洗,得到清洗的数据块。

9.根据权利要求8所述的海量数据的清洗系统,其特征在于,所述实体名称识别单元用于对数据块中数据字段进行解析,识别数据块中数据的实体名称。

10.根据权利要求8所述的海量数据的清洗系统,其特征在于,所述清洗执行单元包括:预处理单元、相似度计算单元、判断单元和第一标记单元;所述实体名称识别单元的输出端与预处理单元的输入端相连,所述预处理单元的输出端与相似度计算单元的输入端相连,所述相似度计算单元的输出端与判断单元的输入端相连,所述判断单元的输出端与第一标记单元的输入端相连,所述第一标记单元的输出端与整合单元的输入端相连;

所述预处理单元用于将数据块中的数据进行预处理,使数据块中的数据格式统一;

所述相似度计算单元用于计算实体名称相同的数据的内容相似度;

所述判断单元用于判断相似度值是否大于预设阈值;

所述第一标记单元用于在判断出相似度值大于预设阈值时,标记相同实体数据为重复数据,并给相应数据打上重复数据标签,得到清洗的数据块。

11.根据权利要求10所述的海量数据的清洗系统,其特征在于,所述第二清洗单元包括合并单元和第二标记单元;所述整合单元的输出端与合并单元的输入端相连,所述合并单元的输出端与第二标记单元的输入端相连;

所述合并单元用于合并多个清洗的数据块中具有重复数据标签的数据,得到合并数据;

所述第二标记单元用于将合并数据打上清洗标记。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1