基于SparkSQL任务的处理方法、装置、电子设备以及存储介质与流程

文档序号:37231126发布日期:2024-03-05 15:42阅读:62来源:国知局

本发明涉及数据处理,尤其涉及一种基于sparksql任务的处理方法、装置、电子设备以及存储介质。


背景技术:

1、目前现有的技术通常是对大数据分布式框架spark进行处理,并没有针对sparksql语句运行情况进行监控和诊断的方法,且对spark进行处理是通过在spark的应用中添加预先编写好的监控代码和sparkapplication一起启动和运行,即通过侵入式的方式进行应用监控。该方法通过线程级别的数据交互实现任务监控,占用了spark应用的运行资源,并且该监控代码的逻辑、运行效率也会对spark任务运行质量产生一定影响,如果监控程序出现异常或者程序中断将直接对spark任务产生致命影响。


技术实现思路

1、本发明提供了一种基于sparksql任务的处理方法、装置、电子设备以及存储介质,以解决当监控程序出现异常或程序中断时对spark产生影响的问题。

2、根据本发明的一方面,提供了一种基于sparksql任务的处理方法,包括:

3、获取目标任务的信息列表,所述目标任务为在运行过程中出现故障的sparksql任务,所述目标任务的信息列表中至少包括:job数量、job状态、job运行时长、stage数量、stage状态、stage运行时长、task数量、task运行状态、task运行时长、query语句信息、操作、运行状态、运行时长及shuffle资源读取;

4、根据所述目标任务的信息列表从分布式资源管理系统中确定与所述目标任务的信息列表对应的目标任务对象信息,所述目标任务对象信息为目标任务运行时产生的状态信息;

5、根据所述目标任务对象信息确定目标解决策略,所述目标解决策略为能够处理目标任务的处理方案;

6、根据所述目标解决策略对目标任务进行处理。

7、根据本发明的另一方面,提供了一种基于sparksql任务的处理装置,包括:

8、信息列表获取模块,用于获取目标任务的信息列表,所述目标任务为在运行过程中出现故障的sparksql任务,所述目标任务的信息列表中至少包括:job数量、job状态、job运行时长、stage数量、stage状态、stage运行时长、task数量、task运行状态、task运行时长、query语句信息、操作、运行状态、运行时长及shuffle资源读取;

9、任务对象信息确定模块,用于根据所述目标任务的信息列表从分布式资源管理系统中确定与所述目标任务的信息列表对应的目标任务对象信息,所述目标任务对象信息为目标任务运行时产生的状态信息;

10、解决策略确定模块,用于根据所述目标任务对象信息确定目标解决策略,所述目标解决策略为能够处理目标任务的处理方案;

11、处理模块,用于根据所述目标解决策略对目标任务进行处理。

12、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于sparksql任务的处理方法。

16、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于sparksql任务的处理方法。

17、本发明实施例的技术方案,根据目标任务对象信息匹配对应的目标解决策略,根据目标解决策略对目标任务进行处理。该方法能够实现sparksql语句级别的自动监测和诊断,并根据诊断结果对sparksql语句进行处理,能够满足更复杂、更高效的异常情况的分析和诊断。

18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种基于sparksql任务的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,获取目标任务的信息列表,包括:

3.根据权利要求1所述的方法,其特征在于,根据所述目标任务的信息列表从分布式资源管理系统中确定与所述目标任务的信息列表对应的目标任务对象信息,包括:

4.根据权利要求1所述的方法,其特征在于,根据所述目标任务对象信息确定目标解决策略,包括:

5.根据权利要求1所述的方法,其特征在于,根据所述目标解决策略对所述目标任务进行处理,包括:

6.根据权利要求5所述的方法,其特征在于,根据所述匹配信息对所述目标任务进行处理后,包括:

7.一种基于sparksql任务的处理装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,任务对象信息确定模块,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的基于sparksql任务的处理方法。


技术总结
本发明公开了一种基于SparkSQL任务的处理方法、装置、电子设备以及存储介质。该方法包括:获取目标任务的信息列表;根据目标任务的信息列表从分布式资源管理系统中确定与目标任务的信息列表对应的目标任务对象信息;根据目标任务对象信息确定目标解决策略;根据目标解决策略对目标任务进行处理。该方法能够实现SparkSQL语句级别的自动监测和诊断,并根据诊断结果对SparkSQL语句进行处理,能够满足更复杂、更高效的异常情况的分析和诊断。

技术研发人员:徐航,曹轶,杨明
受保护的技术使用者:中国农业银行股份有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!