一种基于容忍度的Hadoop脏数据处理方法及装置与流程

文档序号:37226883发布日期:2024-03-05 15:31阅读:16来源:国知局
一种基于容忍度的Hadoop脏数据处理方法及装置与流程

本技术涉及数据处理,特别是涉及一种基于容忍度的hadoop脏数据处理方法及装置。


背景技术:

1、随着互联网技术的快速发展,各行业已纷纷进入大数据时代,伴随而来的是庞大数据规模下对于数据运算、存储、查询性能的更高需求。hadoop是一种分布式系统基础架构,通过hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的性能进行高速运算和存储。目前,hadoop凭借低廉的软硬件成本、强大的并行计算能力和分布式的查询引擎,为各行业搭建大数据平台提供了解决方案,在各行业获得了广泛应用。

2、极速膨胀的数据规模下,筛选有价值的信息、剔除低效用的信息,是实现迅速有效决策的关键。各行业使用的hadoop存储了大量数据,有的行业数据甚至达到pb(皮字节,peta byte)、eb(艾字节,exa byte)级别。如此庞大的数据量,里面难免充斥着脏数据。脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码或含糊的业务逻辑。当前hadoop数据处理中脏数据的存在,在进行数据导入、加工、导出过程中,有时会引起处理程序报错,影响着hadoop对正常数据的处理,导致hadoop数据处理时效性较差,处理流程不够智能,也额外增加了系统日常运维中的工作量。


技术实现思路

1、基于上述问题,本技术提供了一种基于容忍度的hadoop脏数据处理方法及装置,在hadoop数据处理过程中以容忍度阈值为参考数据,决策容忍过滤脏数据以保障正常数据有条不紊地继续处理,或是决策终止对当前所处理数据的数据处理流程,借助容忍度元数据配置表实现提升hadoop数据处理智能化能力,降低了系统日常运维工作量。

2、本技术实施例公开了如下技术方案:

3、本技术第一方面提供了一种基于容忍度的hadoop脏数据处理方法,该方法包括:

4、在对目标数据表执行hadoop数据处理流程时,识别目标数据表中的脏数据;

5、根据识别到的脏数据,确定对应的字段名称作为目标字段名称;

6、将识别到的脏数据记录到报错日志文件,并依据数据表名称和字段名称记录脏数据条数;

7、从容忍度元数据配置表中查询与目标数据表名称和目标字段名称对应的容忍度阈值;容忍度元数据配置表中包括多种数据表名称、字段名称及配置的容忍度阈值的映射关系;

8、若目标数据表的名称和目标字段名称对应的脏数据条数未超出对应的容忍度阈值,则在过滤脏数据后继续执行hadoop数据处理流程;

9、若目标数据表的名称和目标字段名称对应的脏数据条数超出对应的容忍度阈值,则将目标数据表的hadoop数据处理流程报错并终止执行。

10、在一种可选的实现方式中,将识别到的脏数据记录到报错日志文件,并依据数据表名称和字段名称记录脏数据条数,包括:针对识别到的脏数据生成程序报错日志,并将程序报错日志记录到报错日志文件中,在报错日志文件中统计数据表名称和字段名称对应的脏数据条数;程序报错日志包括识别到的脏数据,以及脏数据对应的数据表名称和字段名称;方法还包括:

11、将脏数据条数按照数据表名称和字段名称记录到报错次数临时记录表中;报错次数临时记录表还包括数据表名称和字段名称对应的容忍度阈值。

12、在一种可选的实现方式中,方法还包括:

13、通过动态分析报错日志文件中统计的脏数据条数和脏数据来源,获得数据表名称和字段名称对应的容忍度阈值动态调整量;

14、根据容忍度阈值动态调整量,对容忍度元数据配置表中对应的容忍度阈值进行调整。

15、在一种可选的实现方式中,方法还包括:

16、通过动态分析报错日志文件中统计的脏数据条数和脏数据来源,调整执行hadoop数据处理流程时采用的脏数据识别方式。

17、在一种可选的实现方式中,方法还包括:

18、根据数据的重要性和敏感度要求,在容忍度元数据配置表中配置相关的数据表名称、字段名称及容忍度阈值。

19、在一种可选的实现方式中,方法还包括:

20、若从容忍度元数据配置表中未查询到与目标数据表名称和目标字段名称对应的容忍度阈值,则将目标数据表的hadoop数据处理流程报错并终止执行。

21、在一种可选的实现方式中,hadoop数据处理流程为数据导入流程,在对目标数据表执行hadoop数据处理流程时,识别目标数据表中的脏数据,包括:

22、通过sqoop组件将关系型数据库的目标数据表的数据导入hadoop内存后,hadoop内存识别目标数据表中的脏数据;

23、在过滤脏数据后继续执行hadoop数据处理流程,包括:

24、hadoop内存从目标数据表中过滤脏数据后,将过滤后的数据写入hadoop分布式文件系统hdfs。

25、在一种可选实现方式中,hadoop数据处理流程为数据加工流程,在对目标数据表执行hadoop数据处理流程时识别目标数据表中的脏数据包括:

26、目标数据表的数据从hadoop分布式文件系统hdfs装载到hadoop内存,在hadoop内存中使用sparksql组件对目标数据表进行数据加工,并识别其中的脏数据;

27、在过滤脏数据后继续执行hadoop数据处理流程,包括:

28、hadoop内存从目标数据表中过滤脏数据后,使用sparksql组件对过滤后的数据进行数据加工,将数据加工结果从hadoop内存写回hdfs。

29、在一种可选实现方式中,hadoop数据处理流程为数据导出流程,对目标数据表执行hadoop数据处理流程时,识别目标数据表中的脏数据,包括:

30、将目标数据表的数据从hadoop分布式文件系统hdfs读入hadoop内存,在hadoop内存中进行数据处理,并识别目标数据表中的脏数据;

31、在过滤脏数据后继续执行hadoop数据处理流程,包括:

32、hadoop内存从目标数据表中过滤脏数据后,利用sqoop组件将过滤后的数据从hadoop内存导出到关系型数据库。

33、本技术第二方面提供了一种基于容忍度的hadoop脏数据处理装置,该装置包括:

34、脏数据识别模块,用于在对目标数据表执行hadoop数据处理流程时,识别目标数据表中的脏数据;

35、字段确定模块,用于根据识别到的脏数据,确定对应的字段名称作为目标字段名称;

36、数据记录模块,用于将识别到的脏数据记录到报错日志文件,并依据数据表名称和字段名称记录脏数据条数;

37、容忍度阈值查询模块,用于从容忍度元数据配置表中查询与目标数据表名称和目标字段名称对应的容忍度阈值;容忍度元数据配置表中包括多种数据表名称、字段名称及配置的容忍度阈值的映射关系;

38、数据处理模块,用于若目标数据表的名称和目标字段名称对应的脏数据条数未超出对应的容忍度阈值,则在过滤脏数据后继续执行hadoop数据处理流程;

39、流程报错及流程终止模块,用于若目标数据表的名称和目标字段名称对应的脏数据条数超出对应的容忍度阈值,则将目标数据表的hadoop数据处理流程报错并终止执行。

40、相较于现有技术,本技术具有以下有益效果:

41、本技术技术方案中,在对目标数据表执行hadoop数据处理流程过程中,持续识别其中的脏数据。并基于脏数据,以其对应的数据表名称和字段名称为索引,查询容忍度元数据配置表中对应的容忍度阈值。并且,还在识别到脏数据后,依据其数据表名称和字段名称进行报错次数的记录。以容忍度阈值为参考数据,基于容忍度阈值与脏数据条数的相对大小,决策容忍过滤脏数据以保障正常数据有条不紊地继续处理,或是决策终止对当前所处理数据的数据处理流程。本方案中通过容忍度元数据配置表确认容忍度阈值以作为对容忍脏数据过滤的底线,进而明确了后续的处理措施。相较于已有技术,可以减少因脏数据把控不严格或把控过于严格导致对正常数据处理的影响,提升hadoop数据处理智能化能力,降低系统日常运维工作量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1