一种信息系统故障自动恢复的方法及系统的制作方法_2

文档序号：9787308阅读：来源：国知局

051] 请参考图1，图1为本发明实施例所提供的信息系统故障自动恢复的方法的流程图；该方法可以包括：
[0052] S100、获取信息系统的监控状态指标的数值；
[0053]其中，典型的信息系统架构包括服务器、数据库、中间件、负载均衡软硬件设备等组成。请参考图2,负载均衡是外部访问系统的入口，分发外部访问到不同的应用服务器，应用服务器访问数据库服务器对业务数据进行操作。
[0054]为了对信息系统的故障信息进行自动处理，因此，需要了解信息系统常见的故障情况，并对其进行分类总结。为便于分析信息系统典型的故障情况，对某数据中心近期信息系统运行中出现的典型问题和故障进行统计分析。从比例上看，信息系统中间件服务不可用、磁盘存储空间不足、数据库表空间不足、服务器性能不足、硬件故障是信息系统运维中比较典型的问题，占日常处理问题总量的80%以上。根据运维工作经验，上述问题和故障都有明显的特征和典型的处理方法，因此可以总结和完善信息系统问题处理过程和规则，结合监控记录的系统运行状态，形成运维知识库。最终，通过运维知识库，指导故障的自动恢复。
[0055] 为了能够准确的确定信息系统的故障，要获取能够表征上述问题的状态指标。根据信息系统可能会产生的故障信息确定需要进行监控的状态指标，并获取这些状态指标的监控数值，这里的监控可以是实时进行的，也可以根据信息系统的忙闲段分配不同的监控频率，还可以统一按照一个监控频率进行状态指标的监控。因此，监控频率根据实际情况进行确定，这里并不对监控频率进行限定。
[0056] 根据对信息系统的监控，可以获取信息系统的运行状态、业务情况、系统压力等状态指标。
[0057] S110、将各个所述监控状态指标的数值与对应的预定状态指标范围进行比较，并根据比较结果确定告警信息；
[0058]其中，将监控获取的状态指标的数值与各个指标预定的正常数值范围进行比较，若在正常范围内，则证明该指标正常，若不在正常范围内，则证明该指标不正常;将不正常的状态指标作为告警信息。并将该告警信息通知给信息系统的自动处理过程。具体过程如下述步骤所示。
[0059] S120、根据所述告警信息，选择对应的BP神经网络状态分析程序对所述告警信息进tx状态评估；
[0060]其中，根据告警信息，选择对应的BP神经网络状态分析程序对告警信息进行状态评估;告警信息一般情况下是存储空间不足，服务器硬件故障，业务超载，数据库不响应，数据库性能不足等。具体信息系统的典型问题及分析技术情况如表一所示：
[0061 ]表1典型问题及分析技术情况
[0064]其中，该方法采用BP神经网络进行信息系统的状态评估和容量预测。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。
[0065]假设有P个训练样本，既有P个输入输出对(Ip，Tp)，p = 1，2，…P。其中，输入向量为： Ip=(ipi, · · ·，ipm)T，目标输出向量为Tp=(tpi, · · ·，tpn)T，网络输出向量(理论上）：
[0066] Op= (opl, . . . ,〇pn)T (I)
[0067]记Wlj为从输入向量的第j(j = l, . . . ,m)个到输出向量的第i(i = l, . . . ,η)个分量的权重。通常理论值与实际值有一定误差，网络学习则是指不断地把与比较，并根据极小原则修改参数使误差平方和达最小：
[0069] De Ita学习原则：
[0070] 记Δ Wij表示递推一次的修改量，则有：
[0073] 5pi = tpi-〇pi (5)
[0074] q成为学习效率。
[0075] 注：由（1)式可知，第i个神经元的输出为：
[0077]特别当f为线性函数时，
[0079]按照上面描述的神经网络，设其中每个神经元都是线性的，取训练指标为：
[0082]时，求E的最小值的梯度最速下降法就是Delta学习规则。
[0083]状态评估方法根据评估对象选择不同的状态量，通过获得相关的告警信息数据，可以实现对服务器、数据库、中间件进行运行状态评估。下面以数据库状态评价为例，说明状态分析的过程。数据库状态主要评价内容及指标如表2所示。
[0084]表2数据库状态评价指标
[0086] 下面以数据库表空间是否需要扩容为例，训练神经网络对数据库表空间是否需要扩容进行判断。假设。1、1 [)2、1[)3、1[)4、^分别代表数据库表空间状态的5个指标，分别是表空间大小、使用率、已用空间、剩余空间、日增长量。收集某数据库表空间历史指标数据及是否需要扩容类型151组，其中100组数据用于训练神经网络，51组数据用于测试神经网络对数据库表空间状态估计结果。选择带隐含层的神经网络，隐含层单元个数为5,基于R语言的测试验证代码如下：
[0087] ideal<-class.ind(space$Label)
[0088] spaceANN〈_nnet(space[trainIndex，-8]，ideal[trainIndex，]，size = 5， softmax = TRUE)
[0089] testLabeI〈-predict(spaceANN,space[testIndex,_8]，type = "class")
[0090] my_table<-table(space[testIndex,]$LabeI,testLabeI)
[0091 ] test_error<-1-sum(diag(my_table))/sum(my_table)
[0092] 根据试验结果，在51组测试数据中神经网络对50组进行了正确的分类，I组数据分类错误，正确率为98.03%，满足系统对信息系统状态进行评估的实际需要。
[0093]另外，容量预测也是数据中心运维故障问题处理中一项基础性工作，本方法采用 BP神经网络进行容量的预测。本例选择数据库表空间周增长数据进行下一周数据增长情况的学习和预测，采用BP神经网络对80%的数据进行学习，剩余20%的数据进行验证，并与 AR頂A回归算法进行了比较。从实验结果来看如表3，BP神经网络算法预测效果优于AR頂A回归分析方法。采用神经网络进行系统状态平台和容量预测，克服了根据单一阈值进行故障或问题处理的传统方法的局限性，状态分析和问题处理的准确性更高。
[0094]表3容量空间预测试验结果
[0096]在实际运用中可以根据信息系统进行自动恢复的效果对各个BP神经网络状态分析程序进行优化，以保证自动恢复的准确性和可靠性。可选的，根据所述告警信息，选择对应的BP神经网络状态分析程序对所述告警信息进行状态评估，可以包括：
[0097]根据所述告警信息，判断所述告警信息是否属于知识库范围；
[0098] 若属于，则选择与所述告警信息对应的BP神经网络状态分析程序对所述告警信息进行状态评估。
[0099] 其中，由于不是所有的故障信息全部都可以进行自动恢复，随着技术的发展，自动恢复的

完整全部详细技术资料下载

当前第2页1 2 3 4