数据质量模型的构建方法与流程

文档序号:37195586发布日期:2024-03-01 13:10阅读:25来源:国知局
数据质量模型的构建方法与流程

本公开涉及数据集服务,尤其涉及一种数据质量模型的构建方法、系统和电子设备。


背景技术:

1、进入web3时代,随着数据智能平台在各行业不断得到深度应用,数据驱动业务发展逐渐成为领先企业的发展动力。其背后的源动力既包含了政策的推动,需求的进发,也包含了大数据技术的发展与演进。

2、在产品层面,数据开发类产品在前台和后台之间,构建了企业级的数据共享、能力复用平台,是企业数字化转型的基础和中枢系统。

3、在技术层面,大数据技术在云原生技术势能下加速发展并趋向于成熟,这不仅塑造了国内数据服务厂商的产品架构设计与市场格局,并且在应用基础设施、应用软件架构、开发模式与部署架构四个层面协同进化,为各行各业带来了全新的业务价值与技术优势。

4、数据开发类产品,比如附图1所示的申请人研发提供的universe产品架构,其能够为企业客户提供以数据开发为核心的产品能力,其对下可以支持大数据平台及数据库系统,对上可以打通数据应用系统。其中,数据开发平台中,主要实现开发任务中的基础服务工作、一站式开发工作和数据治理工作。而数据治理,包含数据质量、数据血缘、数据探查三大模块,提供轻量级的数据治理能力,及时发现质量问题,凭借数据血缘完成整个数据链路的影响分析,通过数据探查进行数据集基础特征与数据质量洞察,以业务应用为导向,最大化发挥数据的价值。

5、因此,为了保障在开发任务中的数据质量,需要通过数据质量管理模块对开发数据进行质量检测,以保证数据开发平台中的数据质量,提高后期对业务的服务水平。

6、基于数据集进行表级及字段级的校验规则设置,提供自定义质量规则的功能,并支持定时检测并产出数据质量报告。


技术实现思路

1、为了解决上述问题,本申请提出一种数据质量模型的构建方法、系统和电子设备。

2、本申请一方面,提出一种数据质量模型的构建方法,包括如下步骤:

3、通过数据集成模块,获取开发生成的数据集;

4、对开发生成的数据集进行特征工程处理,获得所述数据集的数据集基础特征;

5、根据所构建的所述数据集基础特征,进行数据质量模型构建,生成数据质量初始模型;

6、为所述数据质量初始模型配置相应的数据质量管理参数,得到与所述数据集相匹配的数据质量模型。

7、作为本申请的一可选实施方案,可选地,通过数据集成模块,获取开发生成的数据集,包括:

8、切换数据集成模块对开发生成的数据集的采集模式;

9、所述数据集成模块根据当前切换的采集模式,从数据处理模块获取开发生成的数据集,并反馈至质量模型构建模块。

10、作为本申请的一可选实施方案,可选地,所述采集模式优选采用离线同步模式,全量采集每次开发生成的数据集,并实时更新传输至所述质量模型构建模块。

11、作为本申请的一可选实施方案,可选地,对开发生成的数据集进行特征工程处理,获得所述数据集的数据集基础特征,包括:

12、对每次开发生成的所述数据集,进行原始数据预处理;

13、按照开发节点的开发属性,将所述数据集进行分组,得到若干组开发数据子集;

14、对所述开发数据子集,进行特征处理,包括:特征构造、特征筛选及降维,得到对应的子集数据特征;

15、集合所有的所述子集数据特征,构成所述数据集的数据集基础特征。

16、作为本申请的一可选实施方案,可选地,所述特征处理的方法,包括:

17、采用pca分析算法,分析并获取所述开发数据子集中的主成分数据特征,生成第一数据子集特征:ta;

18、集合所有的所述一数据子集特征:ta,构成所述数据集的数据集基础特征c。

19、作为本申请的一可选实施方案,可选地,所述特征处理的方法,包括:

20、采用卷积神经网络rnn算法,学习并识别所述开发数据子集中的基础数据特征,生成第二数据子集特征:tb;

21、集合所有的所述第二数据子集特征:tb,构成所述数据集的数据集基础特征c。

22、作为本申请的一可选实施方案,可选地,所述特征处理的方法,包括:

23、采用pca分析算法,分析并获取所述开发数据子集中的主成分数据特征,生成第一数据子集特征:ta;

24、用卷积神经网络rnn算法,学习并识别所述开发数据子集中的基础数据特征,生成第二数据子集特征:tb;

25、取ta与tb的交集:

26、c=ta∩tb,

27、采用交叉验证的方式,提取得到所述数据集的数据集基础特征c。

28、作为本申请的一可选实施方案,可选地,所述数据质量管理参数,包括:

29、当前所述数据集的开发节点名称;

30、采集并更新的时间;

31、当前所述数据集的自定义质量规则,包括:数据集表级或者字段级的校验规则。

32、本申请另一方面,提出一种实现所述数据质量模型的构建方法的系统,包括:

33、数据集成模块,用于获取开发生成的数据集;

34、质量模型建模模块,用于对开发生成的数据集进行特征工程处理,获得所述数据集的数据集基础特征;以及,用于根据所构建的所述数据集基础特征,进行数据质量模型构建,生成数据质量初始模型;

35、数据管理模块,用于为所述数据质量初始模型配置相应的数据质量管理参数,得到与所述数据集相匹配的数据质量模型。

36、本申请另一方面,还提出一种电子设备,包括:

37、处理器;

38、用于存储处理器可执行指令的存储器;

39、其中,所述处理器被配置为执行所述可执行指令时实现所述的一种数据质量模型的构建方法。

40、本发明的技术效果:

41、本申请通过通过全量更新每次开发生成的开发数据集,包括每次开发更新生成的数据流和工作流等数据集,并基于特征工程,对当前的数据集进行数据集基础特征的提取,并基于数据集基础特征进行对应开发属性的开发质量模型构建,通过管理参数配置生成与当前开发属性相匹配的数据质量模型,能够实时对当前开发数据流或者工作流的开发文件进行对应属性的开发质量审核,基于数据集进行表级及字段级的校验规则设置,提供自定义质量规则的功能,并支持定时检测并产出数据质量报告。因此,能够实时对开发数据进行质量检测,以保证数据开发平台中的数据质量,提高后期对业务的服务水平。

42、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。



技术特征:

1.一种数据质量模型的构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,通过数据集成模块,获取开发生成的数据集,包括:

3.根据权利要求2所述的一种数据质量模型的构建方法,其特征在于,所述采集模式优选采用离线同步模式,全量采集每次开发生成的数据集,并实时更新传输至所述质量模型构建模块。

4.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,对开发生成的数据集进行特征工程处理,获得所述数据集的数据集基础特征,包括:

5.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,所述特征处理的方法,包括:

6.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,所述特征处理的方法,包括:

7.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,所述特征处理的方法,包括:

8.根据权利要求1所述的一种数据质量模型的构建方法,其特征在于,所述数据质量管理参数,包括:

9.一种实现权利要求1-8中任一项所述数据质量模型的构建方法的系统,其特征在于,包括:

10.一种电子设备,其特征在于,包括:


技术总结
本申请涉及一种数据质量模型的构建方法,能够通过全量更新每次开发生成的开发数据集,包括每次开发更新生成的数据流和工作流等数据集,并基于特征工程,对当前的数据集进行数据集基础特征的提取,并基于数据集基础特征进行对应开发属性的开发质量模型构建,通过管理参数配置生成与当前开发属性相匹配的数据质量模型,能够实时对当前开发数据流或者工作流的开发文件进行对应属性的开发质量审核,基于数据集进行表级及字段级的校验规则设置,提供自定义质量规则的功能,并支持定时检测并产出数据质量报告。因此,能够实时对开发数据进行质量检测,以保证数据开发平台中的数据质量,提高后期对业务的服务水平。

技术研发人员:张进,李迪砺,石凯,严林刚
受保护的技术使用者:杭州观远数据有限公司
技术研发日:
技术公布日:2024/2/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1