一种大数据集群的运行维护方法和系统与流程

文档序号:24160880发布日期:2021-03-05 16:40阅读:133来源:国知局
一种大数据集群的运行维护方法和系统与流程

[0001]
本发明提出了一种大数据集群的运行维护方法和系统,属于运维技术领域。


背景技术:

[0002]
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据处理依赖众多服务,如hdfs(分布式文件系统)、yarn(资源管理系统)、spark(分布式内存计算框架)、hbase(分布式面向列的数据库)、hive(基于hadoop的数据仓库工具)等等。由于网络震荡、电压不稳、资源抢占、误操作等原因都可能造成某些组件挂掉,需要维护人员定期巡检平台运行情况,发现异常需要排除程序错误后启动挂掉的服务,如果启动不及时可能会出现业务数据积压,甚至影响业务的运行,给大数据平台稳定运行带来了极大挑战。而且由于大数据平台使用地点较多,出现重复性程序错误概率较大,因此运维人员需要做大量重复性劳动。还有一些大数据平台由于权限的限制,不允许远程操作,给运维人员巡检及程序错误修复带来极大不便。


技术实现要素:

[0003]
本发明提供了一种大数据集群的运行维护方法和系统,用以解决现有大数据集群的运行维护效率较低、维护力度较差的问题,所采取的技术方案如下:
[0004]
一种大数据集群的运行维护方法,所述方法包括:
[0005]
针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;
[0006]
设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;
[0007]
利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;
[0008]
根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
[0009]
根据所述修复指令以及修复策略对所述程序错误进行修复。
[0010]
进一步地,设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整,包括:
[0011]
第一步、设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0012]
第二步、以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;
[0013]
第三步、根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信
息执行大数据集群中的被测组件的各进程的扫描;
[0014]
第四步、以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0015]
第五步、重复第三步至第四步的内容,不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
[0016]
进一步地,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:
[0017][0018]
其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。
[0019]
进一步地,利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计,包括:
[0020]
当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;
[0021]
根据所述错误日志确定所述错误类型;
[0022]
将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;
[0023]
将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;
[0024]
将所述统计结果发送至大数据集群的运行维护终端进行记录。
[0025]
进一步地,将所述统计结果发送至大数据集群的运行维护终端进行记录,包括:
[0026]
所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:
[0027]
当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
[0028]
一种大数据集群的运行维护系统,所述系统包括:
[0029]
采集模块,用于针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;
[0030]
设置模块,用于设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;
[0031]
判断模块,用于利用所述进程运行信息扫描所述大数据集群中的被测组件的各进
程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;
[0032]
生成模块,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
[0033]
修复模块,用于根据所述修复指令以及修复策略对所述程序错误进行修复。
[0034]
进一步地,所述设置模块包括:
[0035]
初始值设置模块,用于设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0036]
扫描模块一,用于以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;用于根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0037]
自适应调整模块,用于以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
[0038]
进一步地,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:
[0039][0040]
其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。
[0041]
进一步地,所述判断模块包括:
[0042]
锁定模块,用于当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;
[0043]
类型确定模块,用于根据所述错误日志确定所述错误类型;
[0044]
标记模块,用于将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;
[0045]
统计模块,用于将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;
[0046]
记录模块,用于将所述统计结果发送至大数据集群的运行维护终端进行记录。
[0047]
进一步地,所述记录模块包括:
[0048]
比较模块,用于控制所述运行维护终端在接收到所述统计结果之后,将所述统计
结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:
[0049]
示警模块,用于当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
[0050]
本发明有益效果:
[0051]
本发明提出的一种大数据集群的运行维护方法和系统,能够有效提高数据的运行维护效率和运行维护力度。通过进程运行信息扫描时间间隔的设置和自适应调整能够有效提高数据集群的扫描和数据采集频率与大数据集群的运行实际情况的匹配度,使运维过程中的数据采集频率根据大数据集群的运行实际情况进行随时调节,进而使整体大数据集群的运行维护过程根据大数据集群实际运行情况的变化而进行调整,有效提高大数据集群运行维护过程的运维效率和力度,同时,通过整体大数据集群的运行维护过程根据大数据集群实际运行情况变化进行调整,能够实现运维资源的合理调节运用,降低运维资源的浪费。
附图说明
[0052]
图1为本发明所述方法的流程图;
[0053]
图2为本发明所述系统的结构框图。
具体实施方式
[0054]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0055]
本发明实施例提出的一种大数据集群的运行维护方法,如图1所示,所述方法包括:
[0056]
s1、针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;
[0057]
s2、设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;
[0058]
s3、利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;
[0059]
s4、根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
[0060]
s5、根据所述修复指令以及修复策略对所述程序错误进行修复。
[0061]
上述技术方案的效果为:能够有效提高数据的运行维护效率和运行维护力度。通过进程运行信息扫描时间间隔的设置和自适应调整能够有效提高数据集群的扫描和数据采集频率与大数据集群的运行实际情况的匹配度,使运维过程中的数据采集频率根据大数据集群的运行实际情况进行随时调节,进而使整体大数据集群的运行维护过程根据大数据集群实际运行情况的变化而进行调整,有效提高大数据集群运行维护过程的运维效率和力度,同时,通过整体大数据集群的运行维护过程根据大数据集群实际运行情况变化进行调整,能够实现运维资源的合理调节运用,降低运维资源的浪费。
[0062]
本发明的一个实施例,设置进程运行信息扫描时间间隔初始值,并根据进行运行
信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整,包括:
[0063]
第一步、设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0064]
第二步、以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;
[0065]
第三步、根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0066]
第四步、以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0067]
第五步、重复第三步至第四步的内容,不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
[0068]
其中,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:
[0069][0070]
其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。
[0071]
上述技术方案的效果为:通过进程运行信息扫描时间间隔的设置和自适应调整能够有效提高数据集群的扫描和数据采集频率与大数据集群的运行实际情况的匹配度,使运维过程中的数据采集频率根据大数据集群的运行实际情况进行随时调节,进而使整体大数据集群的运行维护过程根据大数据集群实际运行情况的变化而进行调整,有效提高大数据集群运行维护过程的运维效率和力度,并且,通过整体大数据集群的运行维护过程根据大数据集群实际运行情况变化进行调整,能够实现运维资源的合理调节运用,降低运维资源的浪费。
[0072]
同时,由于大数据集群的各被测设备在运行过程中,其每个时间段由执行任务的数量和单个任务的数据量的不同,导致其进程数量也有所不同,进而导致针对进程的扫描时间也有所不同,因此,扫描时间的变化间接体现了各被测设备在运行过程执行任务的任务量;通过上述公式进行进程运行信息扫描时间间隔的自适应调整,能够极大程度上提高进程运行信息扫描时间间隔与大数据集群运行和程序出错率的实际情况的匹配度。使整体运维运行情况与大数据集群的各被测设备的实际运行情况实现高度匹配。
[0073]
本发明的一个实施例,利用所述进程运行信息扫描所述大数据集群中的被测组件
的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计,包括:
[0074]
s301、当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;
[0075]
s302、根据所述错误日志确定所述错误类型;
[0076]
s303、将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;
[0077]
s304、将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;
[0078]
s305、将所述统计结果发送至大数据集群的运行维护终端进行记录。
[0079]
将所述统计结果发送至大数据集群的运行维护终端进行记录,包括:
[0080]
s3051、所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:其中,错误阈值包括错误标记次数指标和错误类型个数指标;
[0081]
s3052、当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
[0082]
上述技术方案的效果为:通过错误记录统计和统计结果与错误阈值之间的比较以及示警,能够有效提高数据的运行维护效率和运行维护力度。
[0083]
本发明实施例提出了一种大数据集群的运行维护系统,如图2所示,所述系统包括:
[0084]
采集模块,用于针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;
[0085]
设置模块,用于设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;
[0086]
判断模块,用于利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;
[0087]
生成模块,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
[0088]
修复模块,用于根据所述修复指令以及修复策略对所述程序错误进行修复。
[0089]
上述技术方案的工作原理为:首先,通过采集模块针对大数据集群中的进程信息进行采集,获得大数据集群中的各组件的进程运行信息;然后,利用设置模块设置进程运行信息扫描时间间隔初始值,并根据进行运行信息扫描情况对所述进程运行信息扫描时间间隔进行自适应调整;随后,通过判断模块利用所述进程运行信息扫描所述大数据集群中的被测组件的各进程中是否存在程序错误;若存在程序错误,则提取所述程序错误对应的错误类型,并进行出错统计;之后,采用生成模块根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;最后,通过修复模块根据所述修复指令以及修复策略对所述程序错误进行修复。
[0090]
上述技术方案的效果为:能够有效提高数据的运行维护效率和运行维护力度。通过进程运行信息扫描时间间隔的设置和自适应调整能够有效提高数据集群的扫描和数据采集频率与大数据集群的运行实际情况的匹配度,使运维过程中的数据采集频率根据大数据集群的运行实际情况进行随时调节,进而使整体大数据集群的运行维护过程根据大数据集群实际运行情况的变化而进行调整,有效提高大数据集群运行维护过程的运维效率和力度,同时,通过整体大数据集群的运行维护过程根据大数据集群实际运行情况变化进行调整,能够实现运维资源的合理调节运用,降低运维资源的浪费。
[0091]
本发明的一个实施例,所述设置模块包括:
[0092]
初始值设置模块,用于设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0093]
扫描模块一,用于以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;用于根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;
[0094]
自适应调整模块,用于以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
[0095]
其中,通过如下公式对所述进程运行信息扫描时间间隔进行自适应调整:
[0096][0097]
其中,t
i+1
表示表示第i+1次自适应调整之后的信息扫描时间间隔,i=1,2,3
……
n,n表示信息扫描时间间隔自适应调整总次数,i=1时,t1表示进程运行信息扫描时间间隔初始值;n表示连续三次扫描中,扫描的进程数;nc表示连续三次扫描中,获得的程序出错数量;t
i
表示第i次自适应调整之后的信息扫描时间间隔;t
max
表示三次扫描中单次进行进程扫描所用时间的最大值;t
min
三次扫描中单次进行进程扫描所用时间的最小值。
[0098]
上述技术方案的工作原理为:首先,通过初始值设置模块设置进程运行信息扫描时间间隔初始值,根据所述扫描时间间隔初始值利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;然后,利用扫描模块一以进程运行信息扫描时间间隔初始值为基础,进行连续三个进程运行信息扫描时间间隔的进程扫描,即三次进程扫描;在完成三次进程扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程运行信息扫描时间间隔进行调整,获得自适应调整后的进程运行信息扫描时间间隔;用于根据自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;最后,通过自适应调整模块以自适应调整后的进程运行信息扫描时间间隔连续进行三次扫描之后,根据单次扫描所用时间和进程中的程序出错数量对所述进程
运行信息扫描时间间隔进行调整,获得再次自适应调整后的进程运行信息扫描时间间隔;并根据再次自适应调整后的进程运行信息扫描时间间隔,利用所述进程运行信息执行大数据集群中的被测组件的各进程的扫描;不断调整进程运行信息扫描时间间隔,利用不断调整后的进程运行信息扫描时间间隔进行大数据集群中的被测组件的各进程的扫描。
[0099]
上述技术方案的效果为:通过进程运行信息扫描时间间隔的设置和自适应调整能够有效提高数据集群的扫描和数据采集频率与大数据集群的运行实际情况的匹配度,使运维过程中的数据采集频率根据大数据集群的运行实际情况进行随时调节,进而使整体大数据集群的运行维护过程根据大数据集群实际运行情况的变化而进行调整,有效提高大数据集群运行维护过程的运维效率和力度,并且,通过整体大数据集群的运行维护过程根据大数据集群实际运行情况变化进行调整,能够实现运维资源的合理调节运用,降低运维资源的浪费。
[0100]
同时,由于大数据集群的各被测设备在运行过程中,其每个时间段由执行任务的数量和单个任务的数据量的不同,导致其进程数量也有所不同,进而导致针对进程的扫描时间也有所不同,因此,扫描时间的变化间接体现了各被测设备在运行过程执行任务的任务量;通过上述公式进行进程运行信息扫描时间间隔的自适应调整,能够极大程度上提高进程运行信息扫描时间间隔与大数据集群运行和程序出错率的实际情况的匹配度。使整体运维运行情况与大数据集群的各被测设备的实际运行情况实现高度匹配。
[0101]
本发明的一个实施例,所述判断模块包括:
[0102]
锁定模块,用于当检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;
[0103]
类型确定模块,用于根据所述错误日志确定所述错误类型;
[0104]
标记模块,用于将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;
[0105]
统计模块,用于将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;
[0106]
记录模块,用于将所述统计结果发送至大数据集群的运行维护终端进行记录。
[0107]
所述记录模块包括:
[0108]
比较模块,用于控制所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:
[0109]
示警模块,用于当各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
[0110]
上述技术方案的工作原理为:首先,通过锁定模块在检测到所述被测组件的进程出现程序错误时,根据所述程序错误锁定程序错误触发点对应的错误日志;然后,通过类型确定模块根据所述错误日志确定所述错误类型;随后,利用标记模块将出现程序错误的进程进行一次出错标记,并对进程的程序错误的所述错误类型进行归类;之后,采用统计模块将被测组件的所述进程的出错标记次数和所述进程出现的各类错误类型进行统计,获得统计结果;最后,采用记录模块将所述统计结果发送至大数据集群的运行维护终端进行记录。
[0111]
所述记录模块的运行过程为:
[0112]
首先,通过比较模块控制所述运行维护终端在接收到所述统计结果之后,将所述统计结果与运行维护终端中预设的各被测组件对应的错误阈值进行比较:然后,利用示警模块在各被测组件的统计结果中的出错标记次数和错误类型中任意一项超过错误阈值中的错误标记次数指标和错误类型个数指标时,所述运行维护终端进行报警提示。
[0113]
上述技术方案的效果为:上述技术方案的效果为:通过错误记录统计和统计结果与错误阈值之间的比较以及示警,能够有效提高数据的运行维护效率和运行维护力度。
[0114]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1