一种自适应磁盘阵列故障预测方法及系统的制作方法

文档序号:6340340阅读:313来源:国知局
专利名称:一种自适应磁盘阵列故障预测方法及系统的制作方法
技术领域
本发明涉及计算机网络管理技术领域,具体涉及一种磁盘阵列故障预测系统的实 现方法和装置。
背景技术
随着大型计算机信息系统的不断投入使用,海量数据存储系统获得了越来越广泛 的应用,其中最重要的是磁盘阵列系统(RAID,RedundantArray of Independent Disks)。 RAID最初是由加利福尼亚大学伯克利分校的D. A. Patterson教授在其论文中提出来的,作 为一种数据保存手段,它的作用是提供专用服务器中接入多个磁盘(专指硬盘)时,以磁盘 阵列方式组成一个超大容量、响应速度快、可靠性高的存储子系统。通过数据分块技术和冗余机制,磁盘阵列系统具备了一定的数据可靠性保障,但 这种保障机制是有限的具体到某一业务系统的磁盘阵列,往往使用质量一致性相近的相 同型号和批次的磁盘,在长期使用之后,当一块磁盘出现故障时,其它磁盘出现故障的可能 性也就很大,如果短时间内多块磁盘连续发生故障,则依靠磁盘阵列系统自身的可靠性机 制无法恢复数据。由于磁盘阵列上往往存储着非常重要的业务数据,一旦出现不可恢复的灾难性故 障,将会造成难以估量的损失。目前磁盘阵列运行在线监控系统,往往只能对已经发生的磁 盘阵列故障进行检测和告警,更进一步,人们希望能够对磁盘阵列系统可能发生的故障进 行预测。申请号200510088506. 3的中国专利“磁盘装置的故障预测方法及使用该方法的磁 盘装置”以及申请号200710004243. 2的中国专利“预测存储设备故障的装置、系统和方法” 分别对此进行了阐述。在传统的磁盘故障预测方法中,主要是通过实时采集磁盘系统的故 障监控指标,并通过与预设的预测故障指标阈值进行比较,当实时采集的指标超过预测故 障指标阈值时,通过一定的分析计算后进行判别处理。传统的磁盘阵列故障预测方法主要 存在如下问题(1)参数采集方式缺乏自适应性。往往只是对固定的几个故障预测参数进行采集 和计算,所以只能针对特定的磁盘阵列系统进行信息采集和故障预测。对于采集参数多采集周期短的系统,往往影响系统性能。而对于采集参数少的系 统,故障预测的准确性又受到影响。缺乏对故障告警时间的提前预测。往往是在检测到故障参数超过阈值时发出告 警,而对于何时故障参数将会超过阈值并没有任何的预测或者预测精度差,而当故障参数 超过阈值时很可能离磁盘出现实际故障的时间已经很短,不利于备品备件的提前准备。

发明内容
本发明针对上述问题,提出一种自适应磁盘阵列故障预测系统,可以根据磁盘阵 列的历史运行数据推断磁盘阵列所处的健康状况,进而根据磁盘阵列的健康状况自适应的 调节故障检测参数的数量和检测周期,达到对磁盘阵列故障预测的自适应粒度调节,从而更加高效更加可靠的保护磁盘数据。为了实现上述目的,本发明所描述的自适应磁盘阵列故障预测方法,包括如下主 要步骤按照粗参数粒度、粗时间粒度策略采集一段时间内的磁盘阵列的健康和性能指标 参数并建立每个指标参数的历史数据库;每个指标参数的历史数据库建立后,对每一个新 采集到的指标参数,根据其历史数据通过人工神经网络方法训练一参数预测网络;并利用 训练好的参数预测网络对磁盘阵列的健康和性能指标参数进行初次预测;将初次预测的结 果与一定参数粒度、一定时间粒度所对应的一参考阈值进行比较,按照给定的计算模型进 行计算和分析,如果判断出磁盘阵列未来一段时间内健康状态良好,则可以继续按照该参 数粒度、时间粒度策略实施预测;如果判断出未来一段时间内磁盘阵列健康状态将要开始 恶化,则增加检测参数的粒度并缩短预测故障的时间粒度,以得到磁盘阵列系统更精确的 故障预测信息;再对增加检测参数并缩短预测故障的时间粒度后的每一个新采集到的指标 参数,根据其历史数据通过人工神经网络方法重新训练参数预测网络,并利用训练好的新 的参数预测网络对磁盘阵列的健康和性能指标参数进行预测,得到预测结果;将再次的预测结果与对应增加的检测参数粒度以及缩短的时间粒度的第二参考 阈值进行比较,按照给定的计算模型进行计算和分析,如果判断出磁盘阵列未来一段时间 内健康状态良好,则可以保持当前的检测参数和时间粒度实施预测;反之,如果判断出磁盘 阵列系统即将发生故障时,则产生报警信息,通知相关人员或者外部系统进行处理。前述增加检测参数粒度并缩短时间粒度的第二次预测可以有多次,如果在多次预 测中的任意一次判断出磁盘阵列未来一段时间内健康状态良好,则可以保持当前的检测参 数和时间粒度实施预测;如果判断出未来一段时间内磁盘阵列健康状态将要进一步恶化, 则进一步增加检测参数至细参数粒度并缩短预测故障的时间粒度至细时间粒度,以得到磁 盘阵列系统更精确的健康信息;直至判断出磁盘阵列系统即将发生故障时,则产生报警信 息,通知相关人员或者外部系统进行处理。本发明所述的磁盘阵列系统健康和性能参数,至少包括磁盘数据读取速度、磁盘 数据写入速度、磁盘数据读写速度、错误读取率、启动/停止次数、重新分配扇区数、旋转重 试次数、磁盘校准重试次数、ULTRA DMA奇偶校验错误率、多区域错误率等。本发明的方法所述的检测参数粒度和检测时间粒度,可以由系统管理人员通过系 统进行人工配置得到。一般情况下初始的参数粒度可选3 5个主要的检测参数,中间的 参数粒度增加为6 9个检测参数,最终的参数粒度增加为10 15个检测参数;初始的时 间粒度可选为1个月,中间的时间粒度选为1周,最终的时间粒度可选为1天。实际的策略 配置应根据系统的实际情况灵活掌握。当然,本领域一般技术人员应当理解,这些示例性数 值并非意在限定本发明的保护范围。本发明所述的自适应磁盘阵列故障预测系统,与外部系统磁盘阵列系统和告警系 统分别相连。故障预测系统定期采集磁盘阵列的健康和性能参数,通过系统内部的参数预 测和综合分析,在预测出磁盘阵列故障时向外部告警系统发出告警信号,由外部告警系统 进行进一步的处理。磁盘阵列故障预测系统自身包含有下述功能模块信息采集模块定期采集磁盘阵列的健康和性能参数信息,通过数据的规整转化, 装载进统一的信息对象数据结构,方便后续处理。自适应配置模块根据目前所执行的采集策略以及对磁盘阵列健康状态的预测结果,自适应的决定是否更换所执行的采集策略。具体的说,即是否由第一套策略上升为第二 套策略,或者是否由第二套策略上升为第三套策略。数据存储模块负责将系统内各种数据存储进相应的数据库中,主要的数据包括 系统定时采集的磁盘阵列健康和性能参数,承担参数预测工作的人工神经网络的各种网络 参数,以及各种健康和性能参数的预测故障参考阈值等。自适应指标预测模块根据系统所确定的采集策略,利用最近一段时间的历史数 据自适应的构建针对不同参数指标的多个故障预测神经网络。首先建立神经网络,然后通 过统计一段时间内系统的历史健康和性能指标参数,输入神经网络以训练神经网络的权 值,达到训练结束条件后,就得到了针对某一指标的训练好的神经网络。对于训练好的神经 网络,输入实时采集的前段时间的参数后,输出得到下一时间单位的参数预测值。参考故障阈值模块读取磁盘阵列系统健康和性能参数的阈值,系统管理员可以 通过手工重新设置各参数的阈值。分析决策模块对自适应指标预测模块输出的参数预测值进行分析,根据所监控 磁盘阵列的型号以及相关参数故障阈值信息,基于系统的计算模型进行综合的分析计算, 得出所监控磁盘阵列系统的健康状态,并根据系统所采用的监控策略决策下一步的操作。用户管理模块负责对系统各级用户的增加、删除、授权以及用户的认证,只有经 过授权的用户合法用户才能查阅所监控的磁盘阵列对象健康状态信息。用户的角色至少包 括系统管理员和普通用户两级,用户需提交的信息包括但不限于姓名、部门、职位、电子邮 箱、移动电话、办公电话等。用户界面模块是用户与系统进行交互的界面,系统管理人员通过系统展示模块 进行系统配置和系统管理。系统展示模块通过各种报表、折线图、拓扑图等形式展示系统当 前及未来一段时间内全局的健康状态信息及磁盘阵列健康状态的发展趋势等。采用上述技术方案,本发明有益的技术效果在于通过建立针对磁盘阵列系统的 故障预测系统,可以根据磁盘阵列的健康和性能参数的历史数据推断其未来的参数指标, 从而对磁盘阵列系统可能发生的故障进行提前预测。由于采用了一系列自适应的技术,既 能够保证系统的性能,又能较好的保证系统的故障预测精度,从而有效的保护磁盘阵列系 统上所存储的数据。


下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明自适应磁盘阵列故障预测方法及系统实施例的结构框图;图2是本发明自适应磁盘阵列故障预测方法及系统中用于参数预测的人工神经 网络的网络拓扑图;图3是本发明自适应磁盘阵列故障预测方法及系统中故障预测方法的流程图。
具体实施例方式如图1所示,是本发明自适应磁盘阵列故障预测系统实施例的结构框图。根据该 框图,本发明一种具体实施方式
中的自适应磁盘阵列故障预测系统12需要通过互联网络 与磁盘阵列系统11以及外部告警系统13进行连接。磁盘阵列故障预测系统12实现磁盘
6阵列故障的分析和预测功能,该系统包括信息采集模块121、自适应配置模块122、数据存 储模块123、自适应指标预测模块124、参考故障阈值模块125、分析决策模块126、用户管理 模块127以及用户界面模块128。信息采集模块121提供对于磁盘阵列系统运行期间健康和性能参数的采集功能。 信息采集模块121接收来自自适应配置模块122的配置策略信息,并按照设定的配置策略 对磁盘阵列系统11进行信息采集,采集的信息经规格化后交由数据存储模块123进行处理。自适应配置模块122的功能是确定磁盘阵列系统的信息采集策略。自适应配置模 块122接收来自用户界面模块128的用户输入配置信息,以及来自分析决策模块126的磁 盘阵列预测健康状态信息,判断是维持本级策略还是升级到更高一级策略,并依此向信息 采集模块121发出控制指令。 数据存储模块123用于存储系统内的重要数据。数据存储模块接收来自信息采集 模块121提供的磁盘阵列健康和性能参数信息,接收来自参考故障阈值模块125提供的磁 盘阵列及与其故障相关的健康和性能参数阈值信息,接收来自用户管理模块127提供的用 户、用户组及权限信息,以及来自用户界面模块128的其它系统信息并存储在数据库中,供 自适应指标预测模块124、分析决策模块126以及用户界面模块1 使用。自适应指标预测模块IM用于构建针对各参数的基于人工神经网络的预测系统 并进行参数值的预测。自适应指标预测模块1 接收来自数据存储模块123的神经网络配 置信息以及磁盘阵列参数历史数据用于训练针对该参数的故障预测网络,接收实时采集的 数据对未来的参数值进行预测。自适应指标预测模块1 输出预测结果给分析决策模块 126进行磁盘阵列故障预测,同时将预测结果输出给数据存储模块123进行存储。参考故障阈值模块125接收来自用户界面模块128的故障阈值查询和配置信息, 并输出给数据存储模块123进行存储。参考故障阈值模块125输出故障参数参考阈值给分 析决策模块126进行计算分析。分析决策模块1 提供对于磁盘阵列未来健康状态信息的计算和分析,并决定是 否产生告警信息。分析决策模块1 接收来自自适应指标预测模块1 的参数预测信息和 参考故障阈值模块125的参数故障阈值信息,按照给定的计算模型进行计算分析后,给出 在当前策略下,磁盘阵列系统在未来一段时间内运行健康状态的信息。分析决策模块126 输出分析结果到自适应配置模块122,在预测出磁盘阵列的故障后,输出告警信息到用户界 面模块128,同时输出告警信息到外部告警系统13。用户管理模块127提供对于用户和用户组的增加、删除、认证、授权和访问控制等 功能。用户管理单元127接收用户的操作指令,并通过用户界面单元1 展示相应的操作结果。用户界面模块1 提供用户与磁盘阵列故障预测系统之间的交互界面,并提供磁 盘阵列故障预测状态的集中展示界面。用户界面模块1 接收来自用户的命令输入,并输 出给用户管理模块127、参考故障阈值模块125、自适应指标预测模块124、自适应配置模块 122以及数据存储模块123以用于系统的配置。用户界面模块1 接收来自数据存储模块 123的数据信息,根据用户的查询请求,生成相应的统计报表和图形展示给用户。本发明所描述的自适应磁盘阵列故障预测方法,包括如下主要步骤
按照粗参数粒度、粗时间粒度策略采集磁盘阵列的健康和性能指标参数并作为历 史数据进行存储;对每一个采集到的指标参数,根据其历史数据通过人工神经网络方法训练一参数 预测网络;利用训练好的参数预测网络对磁盘阵列的健康和性能指标参数进行预测;将预测结果与粗参数粒度、粗时间粒度所对应的第一参考阈值进行比较,按照给 定的计算模型进行计算和分析,如果判断出磁盘阵列未来一段时间内健康状态良好,则可 以继续按照粗参数粒度、粗时间粒度策略实施预测;反之,如果判断出未来一段时间内磁盘 阵列健康状态将要开始恶化,则增加检测参数至中参数粒度并缩短预测故障的时间粒度至 中时间粒度,以得到磁盘阵列系统更精确的故障预测信息;对增加检测参数并缩短预测故障的时间粒度后的每一个新采集到的指标参数,根 据其历史数据通过人工神经网络方法重新训练参数预测网络;利用训练好的新的参数预测 网络对磁盘阵列的健康和性能指标参数进行预测;将预测结果与对应中参数粒度以及中时间粒度的第二参考阈值进行比较,按照给 定的计算模型进行计算和分析,如果判断出磁盘阵列未来一段时间内健康状态良好,则可 以保持当前的检测参数和时间粒度实施预测;反之,如果判断出未来一段时间内磁盘阵列 健康状态将要进一步恶化,则进一步增加检测参数至细参数粒度并缩短预测故障的时间粒 度至细时间粒度,以得到磁盘阵列系统更精确的健康信息;对每一个增加检测参数并缩短预测故障的时间粒度后采集到的指标参数,根据其 历史数据通过人工神经网络方法训练参数预测网络;利用训练好的参数预测网络对磁盘阵 列的健康和性能指标参数进行预测;将预测结果与第三参考阈值进行比较,按照给定的计算模型分析计算磁盘阵列系 统所处的健康状态。当细粒度的检测和故障预测显示磁盘阵列系统即将发生故障时,则产 生报警信息,通知相关人员或者外部系统进行处理。本发明所述的磁盘阵列系统健康和性能参数,至少包括磁盘数据读取速度、磁盘 数据写入速度、磁盘数据读写速度、错误读取率、启动/停止次数、重新分配扇区数、旋转重 试次数、磁盘校准重试次数、ULTRA DMA奇偶校验错误率、多区域错误率等。在本发明所述的磁盘阵列故障预测实现方法中,所指的给定的计算模型其具体计 算方法如下,这里设故障预测系统采集的磁盘阵列参数为Ai (i = 1,…,n),对于参数Ai (i =1,…,η),其对应的阈值分别为Ti (i = 1,…,n),实际检测值为Vi(i = 1,…,η):对于参数Ai (i = 1,...,11),计算参数距离比率0丨=油8(作丨-11)/11),其中油8() 表示取绝对值函数。距离比率表示磁盘参数实际测量值距离参数故障预测阈值的远近,越 小则距离越近;计算包含所有检测参数信息的总距离比率D = (Dl+…+Dn)/η。比较总距离比率D与参考总距离比率阈值Τ,(Τ为按照策略人为设定的值),如果 D > Τ,则磁盘阵列处于健康状态,如果D ≤ Τ,则启动下一套策略或发出故障预警信号。对 于不同的操作策略,T的取值不相同,一般情况下,对于初始的参数粒度和时间粒度,可以取 T = O. 2,对于中间的参数粒度和时间粒度,可以取T = O. 1,对于最终的参数粒度和时间粒 度,可以取T = 0. 05。在本发明所述的磁盘阵列故障预测方法中,所涉及到利用人工神经网络的方法进行故障预测网络的构建。基本思想是通过神经网络BP学习算法(误差反向传播算法)来 刻画磁盘阵列健康性能参数的变化趋势,从而对参数作出预测,最后再根据综合各种参数 的预测值,对磁盘阵列可能的故障进行预测。BP学习算法是一种有监督的学习过程,它是根 据给定的(输入,输出)样本对来进行学习,并通过调整网络连接权来体现学习的效果。就 整个神经网络来说,它有两种状态第一是学习阶段先将学习样本对的输入加在网络的输入端,沿着前向(即输入 层一输出层)在各层神经元按输入和激励函数的方式产生输出。然后将输出层神经元的实 际输出值和期望输出值之差逆向(即输出层一输入层)传播到各层神经元,并根据误差的 大小和符号相应地调整各连接权值。此过程一直进行到神经网络权连接方式能够给定输入 样本条件下以一定精度产生给定输出结果为止,即认为学习阶段结束;第二是工作阶段当待测样本输入到已学习好的神经网络输入端时,根据类似输 入产生类似输出的原则,神经网络按内插或外延的方式在输出端生成所求的解答来。如图2所示,神经网络纵向分层,将神经网络第k层第i元素的输入和记为々,输出
记为Olc .将第k-1层i元素向第k层j元素的连接权值记为^fi设神经元激励函数为f,
9
这里f可选择常用的神经元激励函数,如S形函数。则神经元激励函数根据神经元的输入 计算产生神经元的输出,即有Of =/(/f)其中
权利要求
1.一种自适应磁盘阵列故障预测方法,其特征在于包括如下主要步骤按照粗参数粒度、粗时间粒度策略采集一段时间内的磁盘阵列的健康和性能指标参数 并建立每个指标参数的历史数据库;每个指标参数的历史数据库建立后,对每一个新采集到的指标参数,根据其历史数据 通过人工神经网络方法训练一参数预测网络;并利用训练好的参数预测网络对磁盘阵列的 健康和性能指标参数进行初次预测;将初次预测的结果与一定参数粒度、一定时间粒度所对应的一参考阈值进行比较,按 照给定的计算模型进行计算和分析,如果判断出磁盘阵列未来一段时间内健康状态良好, 则可以继续按照该参数粒度、时间粒度策略实施预测;如果判断出未来一段时间内磁盘阵 列健康状态将要开始恶化,则增加检测参数的粒度并缩短预测故障的时间粒度,以得到磁 盘阵列系统更精确的故障预测信息;再对增加检测参数并缩短预测故障的时间粒度后的每一个新采集到的指标参数,根据 其历史数据通过人工神经网络方法重新训练参数预测网络,并利用训练好的新的参数预测 网络对磁盘阵列的健康和性能指标参数进行预测,得到预测结果;将再次的预测结果与对应增加的检测参数粒度以及缩短的时间粒度的第二参考阈值 进行比较,按照给定的计算模型进行计算和分析,如果判断出磁盘阵列未来一段时间内健 康状态良好,则可以保持当前的检测参数和时间粒度实施预测;反之,如果判断出磁盘阵列 系统即将发生故障时,则产生报警信息,通知相关人员或者外部系统进行处理。
2.根据权利要求1所述的自适应磁盘阵列故障预测方法,其特征在于前述增加检测参数粒度并缩短时间粒度的第二次预测可以有多次,如果在多次预测中 的任意一次判断出磁盘阵列未来一段时间内健康状态良好,则可以保持当前的检测参数和 时间粒度实施预测;如果判断出未来一段时间内磁盘阵列健康状态将要进一步恶化,则进 一步增加检测参数至细参数粒度并缩短预测故障的时间粒度至细时间粒度,以得到磁盘阵 列系统更精确的健康信息;直至判断出磁盘阵列系统即将发生故障时,则产生报警信息,通 知相关人员或者外部系统进行处理。
3.根据权利要求1所述的自适应磁盘阵列故障预测方法,其特征在于所述的磁盘阵 列系统健康和性能参数,至少包括磁盘数据读取速度、磁盘数据写入速度、磁盘数据读写 速度、错误读取率、启动/停止次数、重新分配扇区数、旋转重试次数、磁盘校准重试次数、 ULTRA DMA奇偶校验错误率、多区域错误率等。
4.根据权利要求1所述的自适应磁盘阵列故障预测方法,其特征在于所述的检测参 数粒度和检测时间粒度,可以由系统管理人员通过系统进行人工配置得到。
5.一种自适应磁盘阵列故障预测系统,与外部系统磁盘阵列系统和告警系统分别相 连,故障预测系统定期采集磁盘阵列的健康和性能参数,通过系统内部的参数预测和综合 分析,在预测出磁盘阵列故障时向外部告警系统发出告警信号,由外部告警系统进行进一 步的处理;该磁盘阵列故障预测系统包括信息采集模块定期采集磁盘阵列的健康和性能参数信息,通过数据的规整转化,装载 进统一的信息对象数据结构,方便后续处理;自适应配置模块根据目前所执行的采集策略以及对磁盘阵列健康状态的预测结果, 自适应的决定是否更换所执行的采集策略;数据存储模块负责将系统内各种数据存入相应的数据库中; 自适应指标预测模块根据系统所确定的采集策略,利用最近一段时间的历史数据自 适应的构建针对不同参数指标的多个故障预测神经网络;其中首先建立神经网络,然后通 过统计一段时间内系统的历史健康和性能指标参数,输入神经网络以训练神经网络的权 值,达到训练结束条件后,就得到了针对某一指标的训练好的神经网络;对于训练好的神经 网络,输入实时采集的前段时间的参数后,输出得到下一时间单位的参数预测值; 参考故障阈值模块读取磁盘阵列系统健康和性能参数的阈值; 分析决策模块对自适应指标预测模块输出的参数预测值进行分析,根据所监控磁盘 阵列的型号以及相关参数故障阈值信息,基于系统的计算模型进行综合的分析计算,得出 所监控磁盘阵列系统的健康状态,并根据系统所采用的监控策略决策下一步的操作;用户管理模块负责对系统各级用户的增加、删除、授权以及用户的认证,只有经过授 权的用户合法用户才能查阅所监控的磁盘阵列对象健康状态信息;以及,用户界面模块是用户与系统进行交互的界面,系统管理人员通过系统展示模块进行 系统配置和系统管理;系统展示模块通过各种报表、折线图、拓扑图等形式展示系统当前及 未来一段时间内全局的健康状态信息及磁盘阵列健康状态的发展趋势等。
全文摘要
本发明公开了一种自适应磁盘阵列故障预测方法及系统,所述方法基于反向传播神经网络,通过神经网络具有的自学习机制,通过对能够表征磁盘阵列健康状态的参数的历史数据的搜集,通过逼近的方法总结出能够表征该参数随时间变化的规律,从而对该参数值进行预测。本方法共设置了第一、第二、第三由低到高的三套参数采集策略,参数个数逐渐递增而时间粒度逐渐递减,并提出了一种根据预测参数值和参数故障阈值的计算磁盘阵列健康状况的通用计算模型,从而能够有效预测磁盘阵列故障情况。自适应磁盘阵列故障预测系统包括信息采集模块、自适应配置模块、数据存储模块、自适应指标预测模块、参考故障阈值模块、分析决策模块、用户管理模块和用户界面模块。
文档编号G06N3/08GK102129397SQ20101061119
公开日2011年7月20日 申请日期2010年12月29日 优先权日2010年12月29日
发明者戚建淮, 王明文 申请人:深圳市永达电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1