一种大数据处理平台的制作方法

文档序号:32601678发布日期:2022-12-17 16:19阅读:46来源:国知局
一种大数据处理平台的制作方法

1.本发明涉及互联网大数据技术领域,特别是涉及一种大数据处理平台。


背景技术:

2.现有的apache griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在hadoop、spark、stom等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
3.qualitis是微众银行开源的一款数据质量管理系统,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。
4.dataworks是阿里云集成于云上的一套数据质量解决方案,支持多种异构数据源的质量校验,通知及管理服务。
5.这些数据质量解决方案具有以下优缺点:
6.1.apache griffin是一个完全闭环的平台化产品,其质检任务的执行依赖于内置定时调度器的调度,调度执行时间由用户在u i上设定。任务将通过apache livy组件提交至配置的spark集群。这也就意味着质检的实时性难以保障,我们无法对产出异常数据的任务进行强行阻断,二者不是在同一个调度平台被调度,时序上也不能保持串行;依赖第三方组件需投入大量人力运维,产品及组件升级比较难维护。
7.2.qualitis它提供了一整套统一流程来定义和检测数据集数据质量问题并及时阻断,它是基于其开源的另一款组件linkis进行计算任务的代理分发,底层依赖spark引擎,同时可以与其开源的dataspherestudio任务开发平台无缝衔接,也就实现了在任务执行的工作流中嵌入质检任务,满足质检时效性的要求。可见,qualitis需要借助微众银行开源的一系列产品才能达到满意的效果,严重依赖第三方产品,不能独立部署,不能根据公司业务数据及现有产品来做到定制化开发。
8.3.dataworks是阿里云上提供的一站式大数据工场,其中就包括了数据质量在内的产品解决方案。同样,它的实现依赖于阿里云上其他产品组件的支持。


技术实现要素:

9.本发明针对现有技术数据质量解决方案,实时性难以保障,或需依赖第三方产品,不能独立部署的技术问题,提出以下技术方案。
10.本发明采用的一种技术方案是:
11.一种大数据处理平台,包括:
12.web服务层,用于提供规则模型定义,并用于告警管理以及展示质检结果;
13.后台服务层,用于通过规则模型解析为具体结构化查询语言,生成规则实例任务并提交执行,并用于实现多级告警和任务熔断;
14.计算层;
15.数据存储层,用于存储所述大数据处理平台的业务信息和系统配置信息。
16.其中,所述web服务层用于通过web页面接收用户的配置操作指令,所述规则模型定义包括模版规则模型和自定义sql模型。
17.其中,所述后台服务层包括api服务层、核心服务层和数据库。
18.其中,所述核心服务层包括实例生成模块、调度执行模块、恢复模块、日志服务模块。
19.其中,所述api服务层通过手动触发、定时调度、调度系统触发提交质量检测到所述核心服务层。
20.其中,所述实例生成模块负责表实例和规则实例生成并持久化到所述数据库。
21.其中,所述实例生成模块生成的表实例和规则实例提交到所述调度执行模块。
22.其中,所述调度执行模块负责创建执行线程执行规则实例,并驱动所述数据库的表实例状态扭转。
23.其中,所述调度执行模块同时启用日志线程,异步记录规则实例执行日志。
24.其中,所述恢复模块在所述大数据处理平台重启时被调用,查询数据库表中状态为特定的规则实例并提交至所述调度执行模块。
25.本发明的有益效果是:区别于现有技术的情况,本发明提供大数据处理平台,包括web服务层,用于提供规则模型定义,并用于告警管理以及展示质检结果;后台服务层,用于通过规则模型解析为具体结构化查询语言,生成规则实例任务并提交执行,并用于实现多级告警和任务熔断;计算层;数据存储层,用于存储所述大数据处理平台的业务信息和系统配置信息。本发明的大数据处理平台独立部署,并对外提供服务,用户通过web页面简单配置操作就可以对每天产生的数据进行质量检测,具有较好的实时性,对第三方产品依赖性低。
附图说明
26.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
27.图1是本发明提供的大数据处理平台的结构框图;
28.图2是本发明提供的大数据处理平台另一实施例的结构框图;
29.图3是本发明提供的大数据处理平台的规则模型管理;
30.图4是本发明提供的大数据处理平台的后台服务层的工作流程图;
31.图5是本发明提供的大数据处理平台的规则实例状态机扭转图;
32.图6是本发明提供的大数据处理平台的表实例状态扭转图。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部方法和流程。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所
获得的所有其他实施例,都属于本发明保护的范围。
34.本发明中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
35.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
36.本发明实施例的大数据处理平台100,参考图1,包括web服务层10,用于提供规则模型定义,并用于告警管理以及展示质检结果;后台服务层20,用于通过规则模型解析为具体结构化查询语言,生成规则实例任务并提交执行,并用于实现多级告警和任务熔断;计算层30;数据存储层40,用于存储所述大数据处理平台的业务信息和系统配置信息。本发明的大数据处理平台独立部署,并对外提供服务,用户通过web页面简单配置操作就可以对每天产生的数据进行质量检测,具有较好的实时性,对第三方产品依赖性低。
37.本发明实施例的大数据处理平台,为dqc(data quality center)平台。结合图2,所述大数据处理平台总体划分为四层架构,web服务层主要提供规则定义,通过告警管理模块可进行闭环处理,用户可以根据质检结果生成对应的质量报告;后台服务层是本系统核心通过规则模型dsl解析为具体sql语句,生成规则实例任务并提交执行,多级告警和任务熔断也在本层实现;计算层是基于tez引擎来计算;数据存储层用于存储本服务的业务信息和系统配置信息。
38.目前开源的dqc系统都严重依赖第三方系统,与调度系统耦合在一块。如果数据质量检测采用第三方提供商解决方案,将会应用包括调度系统在内一整套大数据产品,费用较高。同时,也存在数据泄漏的风险,不便于根据自身业务做到定制化开发。
39.本发明旨在设计一种大数离线数据质量系统独立部署对外提供服务,即大数据处理平台,用户通过api服务层,在web页面简单配置操作就可以对公司每天产生离线数据进行质量检测。目前提供模版规则模型和自定义sql模型主要有空值检测、长度检测、值域检测、正则检测、波动检测、自定义sql检测;支持用户定义规则的强弱,强规则检测不通过将会阻塞工作流,弱规则检测不通过只会告警;独立的告警模块支持一般、严重、重要多级告警,同时也支持飞书、短信、邮件、电话多渠道告警,提供告警闭环能力,当用户收到告警时需要在告警中心处理,否则告警将会升级到告警人的领导,直到数据质量问题得到解决;提供给用户可以根据规则质检结果生成可视化质量报告,保障数据准确性,给公司业务决策提供支持;提供历史质检结果和样列脏数据查看,以便对数据质量进行分析和定级。
40.本发明实施例的规则模型管理如图3所示。
41.后台服务层20的工作流程如图4所示。大致由权限管理模块、规则模型管理、实例生成、任务调度执行、日志服务、任务告警、soa服务、质量报告生成八部分构成。从功能可以分为api服务模块、实例生成模块、调度执行模块、恢复模块(即recover模块)、日志服务模块、数据库(持久模块)。
42.如图4所示,api服务层通过手动触发、定时调度、调度系统触发提交质量检测到核
心服务层。
43.核心服务层实例生成模块负责表实例和规则实例生成并持久化到数据库。
44.生成的规则实例会提交到调度执行模块。
45.调度执行模块负责创建执行线程执行规则实例,并驱动表实例状态扭转。
46.调度执行模块同时会启用日志线程,异步记录规则实例执行日志。
47.规则实例状态机扭转如图5所示,由于一个表实例下会有n个规则实例,所以每一个规则实例状态扭转会驱动表实例状态扭转如图6所示。
48.调度执行模块每一个规则实例执行完会进行结果解析、阈值表达式判断、告警通知,决定是否熔断调度系统中工作流。
49.dqc系统发版重启时调用recover模块,查询数据库表中状态为init/running的规则实例(即特定的规则实例)提交至调度执行模块。
50.失败处理机制:若规则实例任务执行失败,会进行相应的处理——系统首先会进行重试(重试次数可指定,如1-3次);重试依然失败则告警通知用户;用户可以根据错误日志进行进一步处理,例如手动重跑失败的任务。
51.本发明的发明人,经过调研同类产品,确定了本发明实施例大数据处理平台的设计目标并实现:支持规则模型定义、支持规则任务调度执行、告警闭环处理、支持质检结果展示以及可视化质量报告、支持样列脏数据展示、支持日志查询、支持权限隔离、具备高并发、高性能、高可用的能力。通过大数据处理平台(dqc系统)可以对表产生数据进行事中(事后)检测,第一时间感知到源端数据的变更与etl(extract transformation load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。同时,需提供历史校验结果的管理,以便对数据质量进行分析和定级。
52.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1