基于大数据任务的数据治理方法、装置、设备及存储介质与流程

文档序号:35855361发布日期:2023-10-26 00:24阅读:47来源:国知局
基于大数据任务的数据治理方法、装置、设备及存储介质与流程

本发明涉及数据治理,尤其涉及一种基于大数据任务的数据治理方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、随着互联网医疗业务的发展,医疗系统中开始涌入越来越多的医疗数据,这也逐渐拖慢了医疗系统的响应效率,为了提高系统的整体运行效率,需要对医疗系统的进行数据治理。

2、现有的数据治理技术多为基于数据治理平台的数据治理方法,即通过引入数据清理平台,对数据资产进行全局梳理和治理,实际应用中,基于数据治理平台的数据治理方法从梳理到部署应用,涉及面较广,落地实时周期长,同时产品引入的人力、硬件成本投入较高,且缺少可持续性,可能导致进行数据治理时的效率较低。


技术实现思路

1、本发明提供一种基于大数据任务的数据治理方法、装置及计算机可读存储介质,其主要目的在于解决进行数据治理时的效率较低的问题。

2、为实现上述目的,本发明提供的一种基于大数据任务的数据治理方法,包括:

3、对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从所述数据资产清单中提取出任务资源清单和表资源清单;

4、依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单;

5、从所述任务治理清单中提取出任务治理属性集,根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集;

6、从所述表治理清单中提取出表治理属性集,根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集;

7、将所述治理表单集和所述治理任务集汇集成治理资产集,为所述治理资产集配置治理脚本,得到持续治理资产集,结束数据治理。

8、可选地,所述对医疗系统中所有数据资产进行数据监控,得到数据资产清单,包括:

9、逐个选取所述医疗系统中的数据资产作为目标数据资产,将所述目标数据资产对应的任务作为目标资产任务,将所述目标数据资产对应的表单作为目标资产表单;

10、对所述目标资产任务进行性能监控,得到目标任务数据,将所有的目标任务数据汇集成任务资源清单;

11、对所述目标资产表格进行容量监控,得到目标表数据,将所有的目标表数据汇集成表资源清单;

12、将所述任务资源清单和所述表资源清单汇集成数据资产清单。

13、可选地,所述依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,包括:

14、对所述任务资源清单进行cpu耗时检测,得到cpu超时任务清单;

15、对所述任务资源清单进行调度耗时检测,得到调度超时任务清单;

16、对所述任务资源清单进行读取容量检测,得到读取超量任务清单;

17、对所述任务资源清单进行作业数量检测,得到作业超量任务清单;

18、将所述cpu超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单汇集成任务治理清单。

19、可选地,所述依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单,包括:

20、对所述表资源清单进行存储容量检测,得到存储超量表清单;

21、对所述表资源清单进行调用次数检测,得到调度静止表清单;

22、对所述表资源清单进行更新次数检测,得到更新静止表清单;

23、对所述表资源清单进行下游血缘检测,得到下游停用表清单;

24、将所述存储超量表清单、所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单汇集成表治理清单。

25、可选地,所述根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集,包括:

26、利用所述任务治理属性集分别从所述任务治理清单中提取出所述cpu超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单;

27、对所述读取超量任务清单中的各个任务进行压缩调参,得到治理读取超量任务集;

28、对所述作业超量任务清单中的各个任务进行join调参,得到治理作业超量任务集;

29、将所述cpu超时任务清单以及所述调度超时任务清单汇集成超时任务清单;

30、对所述超时任务清单中的各个任务进行刷新调参,得到治理超时任务集;

31、将所述治理读取超量任务集、所述治理作业超量任务集以及所述治理超时任务集汇集成治理任务集。

32、可选地,所述对所述超时任务清单中的各个任务进行刷新调参,得到治理超时任务集,包括:

33、逐个选取所述超时任务清单中的任务作为目标超时任务,判断所述目标超时任务的刷新方式是否为全量刷新;

34、若否,则将所述目标超时任务作为目标治理超时任务添加至预设的治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤;

35、若是,则对所述目标超时任务进行上游溯源,得到上游数据,将所述目标超时任务的业务场景作为目标应用场景;

36、将所述上游数据和所述目标应用场景汇集成目标任务场景,判断所述目标任务场景是否存在历史更新场景;

37、若否,则将所述目标超时任务的查询方式改为增量查询,得到目标治理超时任务,将所述目标治理超时任务添加至所述治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤;

38、若是,则根据所述目标任务场景生成所述目标超时任务的最长刷新周期;

39、根据所述最长刷新周期为所述目标超时任务配置全量刷新时间,得到目标治理超时任务,将所述目标治理超时任务添加至所述治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤。

40、可选地,所述根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集,包括:

41、利用所述表治理属性集分别从所述表治理清单中提取出所述存储超量表清单、所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单;

42、将所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单汇集成停用表清单,对所述停用表清单中的各个表单进行删除操作,得到清理表单集;

43、对所述存储超量表清单中的各个表单进行分区操作,得到分区表单集;

44、将所述分区表单集以及所述清理表单集汇集成治理表单集。

45、为了解决上述问题,本发明还提供一种基于大数据任务的数据治理装置,所述装置包括:

46、数据梳理模块,用于对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从所述数据资产清单中提取出任务资源清单和表资源清单;

47、任务检测模块,用于依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单;

48、表单检测模块,用于从所述任务治理清单中提取出任务治理属性集,根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集;

49、数据治理模块,用于从所述表治理清单中提取出表治理属性集,根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集;

50、持续治理模块,用于将所述治理表单集和所述治理任务集汇集成治理资产集,为所述治理资产集配置治理脚本,得到持续治理资产集,结束数据治理。

51、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

52、至少一个处理器;以及,

53、与所述至少一个处理器通信连接的存储器;其中,

54、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于大数据任务的数据治理方法。

55、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于大数据任务的数据治理方法。

56、本发明实施例通过对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从所述数据资产清单中提取出任务资源清单和表资源清单,可以对医疗系统的所有数据资产进行盘点,保障系统数据治理的覆盖范围,通过依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,可以检测出医疗系统中高耗时、高耗能以及低能效的任务,通过依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单,可以检测出医疗系统中高负载或长时间未操作的表单,方便对任务和表单的治理,通过从所述任务治理清单中提取出任务治理属性集,根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集,可以对医疗系统中的耗时较长的任务或效率较差的任务针对性的治理,提升任务的执行效率。

57、通过从所述表治理清单中提取出表治理属性集,根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集,可以将所述医疗系统中长期停用的僵尸表单进行清理,并对过大的表单进行分区操作,从而提高系统表单的检索效率和系统的存储效率,通过将所述治理表单集和所述治理任务集汇集成治理资产集,为所述治理资产集配置治理脚本,得到持续治理资产集,结束数据治理,可以实现自动化的数据治理,保证后续数据增长后的可持续数据治理效果,提高了医疗系统的运行效率,提高数据治理的效率。因此本发明提出的基于大数据任务的数据治理方法、装置、电子设备及计算机可读存储介质,可以解决进行数据治理时的效率较低的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1