一种大数据集群的运行维护方法和系统与流程

文档序号:24160880发布日期:2021-03-05 16:40阅读:来源:国知局

技术特征:
1.一种大数据集群的运行维护方法,其特征在于,所述方法包括:针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;根据所述修复指令以及修复策略对所述程序错误进行修复。2.根据权利要求1所述方法,其特征在于,设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整,包括:第一步、设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;第二步、以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;第三步、根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;第四步、以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;第五步、重复第三步至第四步的内容,不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。3.根据权利要求2所述方法,其特征在于,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。4.根据权利要求1所述方法,其特征在于,利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计,包括:
当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;根据所述错误日志确定所述错误类型;将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;将所述统计结果发送至大数据集群的运行维护终端进行记录。5.根据权利要求4所述方法,其特征在于,将所述统计结果发送至大数据集群的运行维护终端进行记录,包括:所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。6.一种大数据集群的运行维护系统,其特征在于,所述系统包括:采集模块,用于针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;设置模块,用于设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;判断模块,用于利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;生成模块,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;修复模块,用于根据所述修复指令以及修复策略对所述程序错误进行修复。7.根据权利要求6所述系统,其特征在于,所述设置模块包括:初始值设置模块,用于设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;扫描模块一,用于以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;用于根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;自适应调整模块,用于以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
8.根据权利要求7所述系统,其特征在于,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。9.根据权利要求6所述系统,其特征在于,所述判断模块包括:锁定模块,用于当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;类型确定模块,用于根据所述错误日志确定所述错误类型;标记模块,用于将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;统计模块,用于将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;记录模块,用于将所述统计结果发送至大数据集群的运行维护终端进行记录。10.根据权利要求9所述系统,其特征在于,所述记录模块包括:比较模块,用于控制所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:示警模块,用于当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1