一种信息系统故障自动恢复的方法及系统的制作方法_2

文档序号:9787308阅读:来源:国知局
051] 请参考图1,图1为本发明实施例所提供的信息系统故障自动恢复的方法的流程 图;该方法可以包括:
[0052] S100、获取信息系统的监控状态指标的数值;
[0053]其中,典型的信息系统架构包括服务器、数据库、中间件、负载均衡软硬件设备等 组成。请参考图2,负载均衡是外部访问系统的入口,分发外部访问到不同的应用服务器,应 用服务器访问数据库服务器对业务数据进行操作。
[0054]为了对信息系统的故障信息进行自动处理,因此,需要了解信息系统常见的故障 情况,并对其进行分类总结。为便于分析信息系统典型的故障情况,对某数据中心近期信息 系统运行中出现的典型问题和故障进行统计分析。从比例上看,信息系统中间件服务不可 用、磁盘存储空间不足、数据库表空间不足、服务器性能不足、硬件故障是信息系统运维中 比较典型的问题,占日常处理问题总量的80%以上。根据运维工作经验,上述问题和故障都 有明显的特征和典型的处理方法,因此可以总结和完善信息系统问题处理过程和规则,结 合监控记录的系统运行状态,形成运维知识库。最终,通过运维知识库,指导故障的自动恢 复。
[0055] 为了能够准确的确定信息系统的故障,要获取能够表征上述问题的状态指标。根 据信息系统可能会产生的故障信息确定需要进行监控的状态指标,并获取这些状态指标的 监控数值,这里的监控可以是实时进行的,也可以根据信息系统的忙闲段分配不同的监控 频率,还可以统一按照一个监控频率进行状态指标的监控。因此,监控频率根据实际情况进 行确定,这里并不对监控频率进行限定。
[0056] 根据对信息系统的监控,可以获取信息系统的运行状态、业务情况、系统压力等状 态指标。
[0057] S110、将各个所述监控状态指标的数值与对应的预定状态指标范围进行比较,并 根据比较结果确定告警信息;
[0058]其中,将监控获取的状态指标的数值与各个指标预定的正常数值范围进行比较, 若在正常范围内,则证明该指标正常,若不在正常范围内,则证明该指标不正常;将不正常 的状态指标作为告警信息。并将该告警信息通知给信息系统的自动处理过程。具体过程如 下述步骤所示。
[0059] S120、根据所述告警信息,选择对应的BP神经网络状态分析程序对所述告警信息 进tx状态评估;
[0060]其中,根据告警信息,选择对应的BP神经网络状态分析程序对告警信息进行状态 评估;告警信息一般情况下是存储空间不足,服务器硬件故障,业务超载,数据库不响应,数 据库性能不足等。具体信息系统的典型问题及分析技术情况如表一所示:
[0061 ]表1典型问题及分析技术情况
[0064]其中,该方法采用BP神经网络进行信息系统的状态评估和容量预测。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误 差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学 习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。 它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的 误差平方和最小。
[0065]假设有P个训练样本,既有P个输入输出对(Ip,Tp),p = 1,2,…P。其中,输入向量为: Ip=(ipi, · · ·,ipm)T,目标输出向量为Tp=(tpi, · · ·,tpn)T,网络输出向量(理论上):
[0066] Op= (opl, . . . ,〇pn)T (I)
[0067]记Wlj为从输入向量的第j(j = l, . . . ,m)个到输出向量的第i(i = l, . . . ,η)个分量 的权重。通常理论值与实际值有一定误差,网络学习则是指不断地把与比较,并根据极小原 则修改参数使误差平方和达最小:
[0069] De Ita学习原则:
[0070] 记Δ Wij表示递推一次的修改量,则有:
[0073] 5pi = tpi-〇pi (5)
[0074] q成为学习效率。
[0075] 注:由(1)式可知,第i个神经元的输出为:
[0077]特别当f为线性函数时,
[0079]按照上面描述的神经网络,设其中每个神经元都是线性的,取训练指标为:
[0082]时,求E的最小值的梯度最速下降法就是Delta学习规则。
[0083]状态评估方法根据评估对象选择不同的状态量,通过获得相关的告警信息数据, 可以实现对服务器、数据库、中间件进行运行状态评估。下面以数据库状态评价为例,说明 状态分析的过程。数据库状态主要评价内容及指标如表2所示。
[0084]表2数据库状态评价指标
[0086] 下面以数据库表空间是否需要扩容为例,训练神经网络对数据库表空间是否需要 扩容进行判断。假设。1、1 [)2、1[)3、1[)4、^分别代表数据库表空间状态的5个指标,分别是表空 间大小、使用率、已用空间、剩余空间、日增长量。收集某数据库表空间历史指标数据及是否 需要扩容类型151组,其中100组数据用于训练神经网络,51组数据用于测试神经网络对数 据库表空间状态估计结果。选择带隐含层的神经网络,隐含层单元个数为5,基于R语言的测 试验证代码如下:
[0087] ideal<-class.ind(space$Label)
[0088] spaceANN〈_nnet(space[trainIndex,-8],ideal[trainIndex,],size = 5, softmax = TRUE)
[0089] testLabeI〈-predict(spaceANN,space[testIndex,_8],type = "class")
[0090] my_table<-table(space[testIndex,]$LabeI,testLabeI)
[0091 ] test_error<-1-sum(diag(my_table))/sum(my_table)
[0092] 根据试验结果,在51组测试数据中神经网络对50组进行了正确的分类,I组数据分 类错误,正确率为98.03%,满足系统对信息系统状态进行评估的实际需要。
[0093]另外,容量预测也是数据中心运维故障问题处理中一项基础性工作,本方法采用 BP神经网络进行容量的预测。本例选择数据库表空间周增长数据进行下一周数据增长情况 的学习和预测,采用BP神经网络对80%的数据进行学习,剩余20%的数据进行验证,并与 AR頂A回归算法进行了比较。从实验结果来看如表3,BP神经网络算法预测效果优于AR頂A回 归分析方法。采用神经网络进行系统状态平台和容量预测,克服了根据单一阈值进行故障 或问题处理的传统方法的局限性,状态分析和问题处理的准确性更高。
[0094]表3容量空间预测试验结果
[0096]在实际运用中可以根据信息系统进行自动恢复的效果对各个BP神经网络状态分 析程序进行优化,以保证自动恢复的准确性和可靠性。可选的,根据所述告警信息,选择对 应的BP神经网络状态分析程序对所述告警信息进行状态评估,可以包括:
[0097]根据所述告警信息,判断所述告警信息是否属于知识库范围;
[0098] 若属于,则选择与所述告警信息对应的BP神经网络状态分析程序对所述告警信息 进行状态评估。
[0099] 其中,由于不是所有的故障信息全部都可以进行自动恢复,随着技术的发展,自动 恢复的
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1