关联故障的预测方法和系统的制作方法

文档序号:10654420阅读:828来源:国知局
关联故障的预测方法和系统的制作方法
【专利摘要】本发明涉及一种关联故障的预测方法和系统,其中关联故障的预测方法包括以下步骤:获取分布式计算系统的历史故障信息,并根据历史故障信息得到故障信息样本库;获取故障信息样本库中的有效故障信息,并对有效故障信息进行时间离散化处理,得到样本数据矩阵;根据样本数据矩阵,得到分布式计算系统的当前概率共享风险组结构;获取实时采集到的分布式计算系统的当前故障样本信息;根据当前概率共享风险组结构和当前故障样本信息,对分布式计算系统进行故障预测。本发明可以全面准确的描述关联故障的多样性和传播性特征,提升预测精度,有效提高预测方法执行效率,方便在线故障的部署和实施,对于提升分布式计算系统的可用性和可靠性具有重要意义。
【专利说明】
关联故障的预测方法和系统
技术领域
[0001] 本发明设及分布式计算系统领域,特别是设及分布式计算系统中的一种关联故障 的预测方法和系统。
【背景技术】
[0002] 分布式计算系统由多个异构的、互连的计算单元(CE:Computing Elements)组成, 且运些系统通常承载着大量并行的、协作式的应用。然而,随着计算单元规模的增加、计算 单元同其他系统组件间交互的复杂化W及系统承载应用的多样化,分布式计算系统更容易 发生故障和异常。运些故障具有时间关联性和空间关联性。运种关联故障会导致系统中其 他计算单元发生异常,甚至影响整个分布式计算系统的可用性。故障预测可W在无需了解 底层根故障的前提下对故障进行预测,是一种有效的故障容忍机制。如何准确预测分布式 计算系统中的关联故障已经成为目前亟待解决的问题。
[0003] 目前,故障预测方法主要分为两类:基于监控的故障预测和基于追踪的故障预测。 基于监控的故障预测将故障视作对正常行为的偏差,通过函数近似、系统建模、模式识别、 分类等技术进行预测。基于追踪的预测对已发生故障进行分析,通过评估下次故障发生时 间的概率分布或构建故障关联性模型,进而预测未来故障的发生。
[0004] 在实现过程中,发明人发现传统技术中至少存在如下问题:分布式计算系统中的 故障关联性表现为故障多样性关联和故障传播性关联,具体表现为由同一个底层根故障引 起的故障实例可能同时发生在系统中的多个计算单元上,且发生在某个计算单元上的故障 可能引起其他计算单元相继发生故障。然而,基于监控的故障预测方法中,很难通过函数近 似等方法完全且准确的描述运种关联关系。同时,由于系统中的计算单元通常是异构的、分 层的,并承载着不同的应用。因此,基于追踪的故障预测方法中,对系统故障进行统一的概 率分布建模也是不合适的,无法有效的实现故障的准确预测。

【发明内容】

[0005] 基于此,有必要针对传统技术无法准确有效的对分布式计算系统中的关联故障进 行预测的问题,提供一种关联故障的预测方法和系统。
[0006] 为了实现上述目的,本发明技术方案的实施例为:
[0007] -方面,提供了一种关联故障的预测方法,包括W下步骤:
[000引获取分布式计算系统的历史故障信息,并根据历史故障信息得到故障信息样本 库;
[0009] 获取故障信息样本库中的有效故障信息,并对有效故障信息进行时间离散化处 理,得到样本数据矩阵;有效故障信息为呈现关联性的故障信息;
[0010] 根据样本数据矩阵,得到分布式计算系统的当前概率共享风险组结构;
[0011] 获取实时采集到的分布式计算系统的当前故障样本信息;
[0012] 根据当前概率共享风险组结构和当前故障样本信息,对分布式计算系统进行故障 预测。
[0013] 另一方面,提供了一种关联故障的预测系统,包括:
[0014] 故障样本库获取单元,用于获取分布式计算系统的历史故障信息,并根据历史故 障信息得到故障信息样本库;
[0015] 样本数据矩阵获取单元,用于获取故障信息样本库中的有效故障信息,并对有效 故障信息进行时间离散化处理,得到样本数据矩阵;有效故障信息为呈现关联性的故障信 息;
[0016] 概率共享风险组结构获取单元,用于根据样本数据矩阵,得到分布式计算系统的 当前概率共享风险组结构;
[0017] 采集信息单元,用于获取实时采集到的分布式计算系统的当前故障样本信息;
[0018] 故障检测单元,用于根据当前概率共享风险组结构和当前故障样本信息,对分布 式计算系统进行故障预测。
[0019] 上述技术方案具有如下有益效果:
[0020] 本发明关联故障预测方法和系统,可W包括概率共享风险组挖掘阶段和故障预测 阶段两部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联故障模式,通过 将贝叶斯网络和状态空间模型相结合,形成可W用来描述关联故障的特征的概率共享风险 组结构的模型,使得本发明可W全面准确的描述关联故障的多样性和传播性特征,在故障 预测中对于提升预测精度具有重要作用。此外,采用的关联规则挖掘技术可W通过一种并 行的方式执行,运种方法可W有效提高预测方法执行效率,方便在线故障的部署和实施。故 障预测阶段基于生成的概率共享风险组结构,通过一种关联故障预测方法来评估未来故障 发生的概率。运种预测方便后续其他故障容忍技术的及时实施,对于提升分布式计算系统 的可用性和可靠性具有重要意义。
【附图说明】
[0021] 图1为本发明关联故障的预测方法实施例1的流程示意图;
[0022] 图2为本发明关联故障的预测方法实施例1中概率共享风险组结构的挖掘过程的 流程示意图;
[0023] 图3为本发明关联故障的预测方法实施例1中故障预测的流程示意图;
[0024] 图4为本发明关联故障的预测方法实施例1中概率共享风险组结构的生成过程的 流程示意图;
[0025] 图5为本发明关联故障的预测方法实施例1中故障预测具体步骤流程示意图;
[0026] 图6为本发明关联故障的预测方法一具体实施例中在预设时隙内发生故障数的统 计示意图;
[0027] 图7为本发明关联故障的预测方法一具体实施例中概率共享风险组结构的示意 图;
[0028] 图8为本发明关联故障的预测方法一具体实施例中不同故障触发阔值设定下的故 障预测性能的示意图;
[0029] 图9为本发明关联故障的预测方法一具体实施例中针对不同类型故障的预测效果 的示意图;
[0030] 图10为本发明关联故障的预测系统实施例1的结构示意图。
【具体实施方式】
[0031] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中 给出了本发明的首选实施例。但是,本发明可W W许多不同的形式来实现,并不限于本文所 描述的实施例。相反地,提供运些实施例的目的是使对本发明的公开内容更加透彻全面。
[0032] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的 技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具 体的实施例的目的,不是旨在于限制本发明。本文所使用的术语"及/或"包括一个或多个相 关的所列项目的任意的和所有的组合。
[0033] 为了解决传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的 问题,首先对本发明技术方案设及的相关技术术语W及应用场景给予详细说明;本发明中 设及到的"故障"可W指由硬件或软件缺陷、设计错误、环境不稳定或操作失误引起的服务 或计算节点的不可用。本发明主要关注故障停止类(faU-stop)故障,即服务器(或计算节 点)发生故障后不可恢复。本发明待解决问题的模型的描述如下:
[0034] 假设一个分布式计算系统由异构的计算单元组成,同时系统承载多个并行应用和 协作式应用,且应用和计算单元呈现多对多的关系。具体而言,系统中每个应用可能运行于 多个计算单元上,同时每个计算单元可能承载着多个应用。假设分布式计算系统的配置信 息和服务拓扑信息是动态变化的、不可知的。
[0035] 通常,一个包含有n个计算单元的分布式系统可W抽象成一个无向连接图G= (V, E),其中G表示分布式计算系统中包含的n个计算单元及它们之间的互联关系,V = (CEi,......,CEn),即V是分布式计算系统中包含的n个计算单元的集合,具体而言元素 CEi表 示分布式计算系统中的第i个计算单元;E C V X V是分布式计算系统中的通信链路集合, 表示分布式系统中各计算单元间的连接关系。
[0036] 为了方便问题的描述和解决,将时间离散化为小的间隔,用时隙来衡量时间窗。定 义时隙为一个小的时间间隔,期间只允许一个故障事件发生在一个计算单元上。假设计算 单元C&在时隙t的状态为:
[0037]
[0038] 那么,分布式计算系统在时隙t的状态可W表达为
, 系统X(t)表示分布式计算系统在时隙t的状态,通过描述系统中包含的n个计算单元是否发 生故障来表示,r表示n维实数集合。
[0039] 分布式计算系统中,若时隙t发生故障I,受此影响未来可能多个计算单元相继发 生故障。因此,可W将计算单元集合V分成两部分:'^和'^,^表示受I影响共享通用故障 风险的计算单元集合,即可称节点集合Vft为一个共享风险组(SRG: Shared Risk Group); 表示其他没有受到故障It影响的计算单元集合。
[0040]其中,引入共享风险组的概念用来描述分布式计算系统中的关联故障,可W认为 共享一个通用故障风险的一组计算单元,可能受到一个通用底层根故障影响而同时或相继 发生故障。定义概率共享风险组(PSRG = Probabilistic化ared Risk Group)为发生一个共 享风险组故障时,W-定概率发生故障的计算单元集合。
[0041 ]本发明关联故障的预测方法实施例1:
[0042] 为了解决传统技术无法准确有效的对分布式计算系统中的关联故障进行预测的 问题,本发明提供了一种关联故障的预测方法实施例1;图1为本发明关联故障的预测方法 实施例1的流程示意图;如图1所示,可W包括W下步骤:
[0043] 步骤SllO:获取分布式计算系统的历史故障信息,并根据历史故障信息得到故障 信息样本库;
[0044] 步骤S120:获取故障信息样本库中的有效故障信息,并对有效故障信息进行时间 离散化处理,得到样本数据矩阵;有效故障信息为呈现关联性的故障信息;
[0045] 步骤S130:根据样本数据矩阵,得到分布式计算系统的当前概率共享风险组结构;
[0046] 步骤S140:获取实时采集到的分布式计算系统的当前故障样本信息;
[0047] 步骤S150:根据当前概率共享风险组结构和当前故障样本信息,对分布式计算系 统进行故障预测。
[0048] 具体而言,本发明的技术方案可W包括概率共享风险组的挖掘过程和故障预测两 个过程,具体可分别参考图2和图3的流程示意图;本发明实施例中的有效故障信息可W是 历史故障信息的一个子集;因为本发明针对的是关联性故障预测,因而对本发明而言有效 故障信息指的是呈现关联性的故障信息。
[0049] 在一个示例中,确定历史故障信息中的有效故障信息可W通过一种粗粒度的判定 方法来实现:可W通过检查分布式计算系统中计算单元的投入工作时间来进行判断故障信 息是否有效;具体而言,从系统中大部分计算单元投入工作的时间点开始的故障信息认定 为有效故障信息。通常情况下,历史故障信息都是有效故障信息。具体有效故障信息的提取 实例可参见本发明关联故障的预测方法一具体实施例中的故障数据预处理部分。
[0050] 在一个具体的实施例中,图2为本发明关联故障的预测方法实施例1中概率共享风 险组结构的挖掘过程的流程示意图;如图2所示,步骤S130可W包括:
[0051] 确定分布式计算系统中是否存在概率共享风险组结构;
[0052] 若存在,根据样本数据矩阵对概率共享风险组结构进行信息更新,得到当前概率 共享风险组结构;
[0053] 若不存在,根据样本数据矩阵生成当前概率共享风险组结构。
[0054] 具体而言,如图2所示,概率共享风险组结构的挖掘过程可W包括W下步骤:
[0055] 步骤S210:开始执行关联故障预测流程。
[0056] 获取分布式计算系统的历史故障信息,生成故障信息样本库。
[0057] 步骤S220:历史故障信息预处理。
[0058] 在一个具体的实施例中,步骤S120可W包括:根据预设的时隙和有效故障信息中 样本数据,对有效故障信息进行压缩和离散化,得到样本数据矩阵;预设的时隙为最小的平 均故障间隔时间。
[0059] 具体而言,即可W提取故障信息样本库中的有效故障信息,然后将运些有效故障 信息进行时间离散化处理(即根据样本数据的具体情况,定义合适的时间间隔为时隙,从而 压缩并离散化故障信息),进而生成样本数据矩阵D。
[0060] 步骤S230:判断分布式计算系统当前是否存在概率共享风险组结构(SPSRG: Structure of Probabilistic Shared Risk Groups)。
[0061] 通过判断是否存在概率共享风险组结构来决定后续的操作。具体而言,若已经存 在,后续可通过对样本数据矩阵D的分析挖掘进行概率共享风险组结构信息的更新;否则, 可基于样本数据矩阵D生成一个概率共享风险组结构。关于概率共享风险组结构的相关定 义描述如下:
[0062] 1、给定一个包含有n个元素的集合S= (Si,S2,…,Sn),定义函数parent(S)返回集 合(或序列)S的父集合(或序列);其中,由于上述定义是针对集合或序列的操作,因此对具 体的元素 n的类型可不做限定。
[0063] 2、给定一个矩阵D,定义函数col_index(c,D)按照行顺序依次返回条件C作用于D 后所得结果的列序号;定义函数count(c,D)返回D中满足条件C的元素频度(或计数次数); 函数block(c,D)返回D中满足条件C的子集。其中,函数block(c,D)满足交换律,即block (ci,block(C2,D)) = block(C2,block(ci,D))。
[0064] 3、定义概率共享风险组结构包含节点和边,其中每个节点代表组成一个共享风险 组的计算单元集合。沿着概率共享风险组结构到下游低层节点,每个节点包含的元素个数 逐渐增加。每个节点通过加权边同一个或多个下游节点相连,表示一种可能的转移。运种转 移意味着,基于一个特定概率共享风险组结构节点所代表的共享风险组故障,可能触发新 的计算单元发生故障(即向该节点表示的共享风险组中加入了新的元素)。概率共享风险组 结构中包含的节点、边和终端路径定义如下:
[0065] 节点:如Nj = Qi,…,Ik),其中包含的每个元素 Ik(l《k《K),其中,Ik表示节点集合 Nj中的第j个元素,对应于分布式计算系统中的某个计算单元,需满足:
[0066]
[0067] 节点的表示Ii,…,Ik共享一个通用故障风险并组成一个共享风险组。特别地,定义 顶层节点Root为一个空集。此外,针对节点Nj,其子节点为:
[006引 Child(Nj) = IqUNj)
[0069] 其中新加入的元素 Iq必须是没有出现在的及其祖先节点中的新元素。因此,节点Nj 的子节点个数为n-1 Nj I。
[0070] 边:和边相关联的权重记录着连接节点的统计信息。给定一个连接节点Ni和的的边 eij,其中Ni是的的父节点并且Iq = N广Ni是N冲的新增元素。那么,和eu相关联的权重包括: i)P( Iq I Ni),即Iq同Ni的关联强度,表示向给定共享风险组Ni插入新元素 Iq的概率;ii)P (Nj),即Nj的频度;iii)occurence(Nj),即Nj的计算次数。
[0071] 终端分支:表示一条从根节点Root到一个终端节点的路径。通常一个终端分支代 表一个代评估的备选概率共享风险组。
[0072] 步骤S240:生成概率共享风险组结构并输出。
[0073] 在一个示例中,概率共享风险组结构的生成可W如图4所示,图4为本发明关联故 障的预测方法实施例1中概率共享风险组结构的生成过程的流程示意图;如图4,可W包括 W下步骤:
[0074] 步骤S410:初始化。
[0075] 在进行概率共享风险组结构挖掘之前,对后续用到的参数,包括所有备选数据集 CanD、概率共享风险组结构SPSRG和SPSRG指针CiirrentNode,进行初始化。具体初始化过程 为:
[0076] l)CanD^{D};
[0077] 2) SPSRG^ (Root);
[0078] 3)currentNode^Root ;
[0079] 步骤S420:权重信息统计计算。具体计算可W采用如下方法实现;
[0080] 针对化nD中的每个元素 CDi,对包含的每个计算单元进行信息统计计算,具体过程 为:
[0081 ] 1)计数每个计算单元的发生次数:Ci = ki,C2,???),其中集合中的元素取值为Ck = count (Ik = 1,CDi);其中,Ck是集合Ci = ,C2,? ? ?)中包含元素的通用表达,是元素 Cl,C2的代 表。
[0082] 2)计算权重信息:
[0083]
[0084] 步骤S430:生成新节点和关联的边;
[0085] 针对CDi中的每个元素 Ik生成新节点和关联的边,具体可W采用如下方法实现:
[00化]1)生成新节点:Nk= Ik U CiirrentNode;
[0087] 2)生成CiirrentNode和Nk间的边,相关的权重分别为:P(Ik,CiirrentNode),P(Ik currentNode)和 occurence(Nk) = ck。
[0088] 步骤S440:更新备选数据集,具体可W采用如下方法实现:
[0089] 1)将当前处理的元素 CDi从备选数据集CanD中移除;
[0090] 2)2)向备选数据集中添加新元素:block(Ik=l,CDi)和 block(Ik = 0,CDi)。
[0091] 步骤S450:更新指针;
[0092] 本步骤更新指向 SPSRG 的指针 currentNode:州 rrentNode^Nk。
[0093] 步骤S460:判断备选数据集是否为空。
[0094] 判断更新后的CanD是否为空,若不为空则继续后续概率共享风险组结构的挖掘, 返回步骤S420;否则终止,进入步骤S470。
[00M] 步骤S470:输出,即输出生成概率共享风险组结构SPSRG。
[0096] 步骤S250:更新概率共享风险组结构并输出。
[0097] 当获取了新的样本数据Dnew(本发明的方法是实时在线的,概率共享风险组结构是 利用历史收集的系统故障信息进行生成的;但是系统故障数据的采集是持续进行的,因此, 当有新的没有被用于概率共享风险组结构生成的系统故障信息到达时,需要更新现有的已 经生成的概率共享风险组结构。而Dnew是通过处理运些实时采集的系统故障信息获得的样 本数据。所谓的"新的"是相较于样本故障矩阵D中的数据而言的)时,需要据此更新已经生 成的概率共享风险组结构。类似于概率共享风险组结构的生成,更新过程的步骤如图4,具 体的差异体如下:
[0098] (1)初始化。概率共享风险组结构的更新过程中,需要对参数化nD和CiirrentNode 进行初始化,其中化nD户{Dnew}。
[0099] (2)权重信息统计计算。差异体现在:
[0100] 1)针对CanD中的每个元素 CD^^Pdate,分别计数包含的每个计算单元的发生次数
,进而将每个计算单元总的计数次数Cl更新为:
[0101] 2)因此,权重信息更新为:
[0102]
[0103] (3)将"生成新节点和关联的边"调整为"更新结构中相关的边",即利用前面步骤 计算出的统计信息更新CiirrentNode同其子节点间边的权重。
[0104] 在一个具体示例中,为了提高本发明提出方法的高效性,本发明提出的概率共享 风险组挖掘过程可W通过Map-Reduce(并行化计算里面的专业术语:映射-规约)实现并行 化,可W减少计算时间,进而更加适用于分布式计算系统中的大规模数据并行计算。
[0105] 概率共享风险组挖掘的并行化的具体过程为:i)数据预处理和分割;ii)Map过程; iii)Reduce过程。具体而言,主程序控制并行化的主流程。首先,主程序将样本数据矩阵D分 成N个子矩阵,并将运些子矩阵分发给每个计算节点进行挖掘分析。然后,每个计算节点上 的Map函数基于接收的子矩阵,按照上面描述的方法(步骤S210-步骤S260)计算并生成子概 率共享风险组结构。最后,Reduce过程运些子概率共享风险组结构和并称为一个完整的概 率共享风险组结构。
[0106] 此后进入故障预测流程。在一个具体的实施例中,图3为本发明关联故障的预测方 法实施例1中故障预测的流程示意图,如图3所示,步骤S150可W包括W下步骤:
[0107] 获取当前故障样本信息的故障序列;
[0108] 获取当前概率共享风险组结构的节点;
[0109] 对故障序列和节点进行匹配,并在匹配成功时,根据各匹配成功的节点的相关边 的权重信息,对分布式计算系统进行故障预测。
[0110] 在一个具体的实施例中,上述根据各匹配成功的节点的相关边的权重信息,对分 布式计算系统进行故障预测的步骤可W包括:
[0111] 分别对各匹配成功的节点对应的计算单元进行处理,获取计算单元的故障触发概 率.
[0112] 在故障触发概率大于预设的故障触发阔值时,生成故障预警,并输出故障预测的 结果。
[0113] 具体而言,如图3所示,故障预测流程可W包括如下步骤:
[0114] 步骤S310:分布式计算系统的实时故障信息采集输入。
[0115] 此步骤接收系统中实时采集的当前故障样本信息Dt,后续的故障预测将基于Dt进 行。
[0116] 其中,当前故障样本信息Dt和前步骤获得最新的概率共享风险组结构(即当前概 率共享风险组结构)一起用于故障预测。具体而言,可W用Dt的故障序列(步骤S320)和概率 共享风险组结构中的节点进行匹配,匹配成功W后,W匹配的节点为依据,根据概率共享风 险组结构中和节点相关边的权重信息,进行故障预测(步骤S330)。
[0117] 当前故障样本信息Dt是距离当前时刻t之前T个时隙内采集到的系统故障信息,采 集时间段为[t-T,t),用于提取故障序列进而进行后续的故障预测;而样本数据矩阵D是用 于生成概率共享风险组结的故障数据集,可能包括从系统故障数据监控开始到概率共享风 险组结构生成运段时间内的全部故障数据,因而一般采集时效更久。值得说明的是,Dt积累 一定时间W后,会作为新的样本数据Dnew用于概率共享风险组结构的更新。
[0118] 步骤S320:故障序列提取;
[0119] 从输入的Dt中提取故障序列化ilS,具体为:
[0120] FailS = col_index(DT= 1 ,Dx)
[0121] 其中,col_index是定义的一个操作函数。
[0122] 步骤S330:故障预测;
[0123] 该步骤中,基于故障序列化ilSW及最新的概率共享风险组结构,评估相关计算单 元发生故障的概率。具体的故障预测过程可W如图5所示,图5为本发明关联故障的预测方 法实施例1中故障预测具体步骤流程示意图;可W包括W下步骤:
[0124] 步骤S510:故障序列匹配:将故障序列化ilS同概率共享风险组结构中的节点进行 匹配,匹配过程中优先匹配结构中的底层节点。因此化ilS可W表示为一组所有可能匹配成 功的节点集,记为NSf。
[0125] 步骤S520:故障概率计算;
[0126] 针对NSf中代表的每个计算单元,分别计算运个计算单元触发其他计算单元发生 故障的概率。概率表达式为:
[0127]
[012引其中,Si, J表示概率共享风险组结构中从节点NSf到MT的第i个路径上的第j个节 点;i和j用于指示具体的路径序号和节点序号;Ni^是概率共享风险组结构中的节点集Ncan中 的一个元素,含义是Nf所代表的计算单元可能同时受到一个共享风险组故障的影响而发 生故障。
[0129] (1;
,且Nean为概率共享风险组结构中的节点集,表示 节点中的元素可能同时受到一个共享风险组故障的影响而同时或相继发生故障。因此, Pr(NfINSf)表示给定故障NSf,其触发由Nf所表示的共享风险组发生故障的概率。
[0130] (2)参数化thNum表示概率共享风险组结构中,从匹配节点NSf到共享风险组Nf的 所有路径数;参数化thLen是对应路径的长度。
[0131] (3)pr(si,j一si,j+l)=P(Ik|si,j),其中si,j一si,j+l表示路径中的一段链路。其中,pr 是概率(probability)的简化,其具体含义如上述公式所示,左侧pr(si,j 一 Si, j+i)表示在概 率共享任务组结构中,节点Sio和节点Si, W之间边的支持度权重;P的含义同样是概率,是数 学中的通用表达法,具体P(Iklsij)的含义是已知Si, J发生故障,Ik未来发生故障的概率;在 本发明的各实施例中,运两个概率的取值是相等的。Ik是新加入到Si, W中的元素,即Ik = Si, j+1-Si, j O
[0132] (4)路径上的每段链路必须满足默认的两个约束,W减少大量不必要的概率计算。 运两个约束为:i)条目Ik必须是满足最小支持度阔值的频繁项;ii)条目Ik同其父节点Si, J的 关联强度必须满足最小置信度阔值。
[0133] 步骤S530:故障概率分析比较:将Pr(NfINSf)同系统设定的故障触发阔值比较, 若高于设定的阔值,则预测- NSf中包含的计算单元将会发生故障;否则不产生故障预 警。
[0134] 步骤S340:输出故障预测结果。
[0135] 本发明的实施例利用概率共享风险组建模关联故障模式,同时将贝叶斯网络和状 态空间模型相结合,提出了一种命名为概率共享风险组结构的模型来描述关联故障的特 征;利用一种关联规则挖掘技术并采用一种并行的方式,统计并分析故障样本数据信息并 生成概率共享风险组结构,进而表征故障的同步发生。提出一种关性故障预测方法,该方法 利用生成的概率共享风险组结构,评估故障发生时受到影响的计算单元发生故障的概率, 用于指导后续其他故障容忍技术的展开。
[0136] 具体而言,本发明提出了一种基于概率共享风险组(PSRG = Probabilistic化ared Risk Group)和数据挖掘的关联故障预测方法。运是一种基于追踪的故障预测,通过数据挖 掘技术对已发生故障数据进行分析并生成故障关联性规则,同时利用概率共享风险组来描 述运种规则,进而实现对关联故障的预测。运种方法主要着重于两方面:一是故障关联规则 的发现和描述;二是实时的、并行的故障预测。运种方法是一种在线的、并行的、准确性较高 的关联故障预测方法。
[0137] 本发明关联故障的预测方法一具体实施例:
[0138] 为了进一步阐述本发明的技术方案,特W美国洛斯阿拉莫斯国家实验室提供的故 障信息数据集为例,说明本发明的实现流程:
[0139] (一)故障数据预处理
[0140] 本发明可W采用美国洛斯阿拉莫斯国家实验室提供的故障信息数据集进行所提 方法效果的验证。该故障信息数据集包含了监控期间系统发生的所有故障信息条目,本部 分选定系统A(包含5个系统节点的集群系统)和系统B(包含16个节点的分布式高性能系统) 进行相关验证。
[0141] 上述系统的基本信息如表格1所示,系统A在监控期间(1998.2-2005.9)共产生了 564个故障纪录。而本发明关注于系统关联故障的预测,因此我们提取2002.12到2004.9的 故障数据用于后续实验,因为在此期间系统A中所有节点的故障信息都有记录。运样经过处 理用于实验的有效故障条目是163条。同样对系统B进行上述处理后,产生了 1192条有效故 障条目。
[0142] 表格-1系统信息总览
[0143]
[0144] 本发明将故障分成3类:硬件(原因引起的)故障、软件(原因引起的)故障和其他故 障(包括设施故障、网络故障、人为原因引起的故障及其他未知原因的故障)。用于实验的故 障数据中,每类故障所占比例如下表格2所示。
[0145] 表格-2实验中每种故障类型所占比例 「01461
[0147] 值得注意的是,本发明中所提方法的输入是一个二元矩阵D,因此需要将获得的故 障数据进行离散化处理,即将时间离散化为小的时间间隔。具体到本实例中,定义最小的平 均故障间隔时间(TBF:time between failures)为一个时隙,运样可W生成矩阵D作为预测 方法的输入样本。下图6为实例中各系统在有效运行时间内每个时隙内发生的故障数统计。 图6为本发明关联故障的预测方法一具体实施例中在预设时隙内发生故障数的统计示意 图;图6表明,一个时隙内可能发生多个故障,且不同时隙下故障发生数呈现波动。运说明样 本数据中的故障实例呈现了时间和空间关联性。
[0148] (二)共享风险组挖掘
[0149] 本发明基于采集的故障样本数据进行共享风险组挖掘,进而分别针对系统A和B生 成概率共享风险组结构。其中,系统A对应的概率共享风险组结构如下图7所示,图7为本发 明关联故障的预测方法一具体实施例中概率共享风险组结构的示意图;图7中楠圆代表节 点表示可能的概率共享风险组,带箭头的边表示转移关系,边上的权重用于衡量对应转移 的可能性。
[0150] (立)故障预测
[0151] 按照给定的实时故障样本数据,提取故障序列后基于生成的概率共享风险组结构 进行故障概率评估。图8和图9呈现了本发明提出方法针对系统A、B的预测性能。图8为本发 明关联故障的预测方法一具体实施例中不同故障触发阔值设定下的故障预测性能的示意 图;其中,图8呈现了不同故障触发阔值设定下的故障预测性能,图8中描述了设定故障触发 阔值分别为最小相关权重、权重算数平均值、权重几何平均值W及权重中位值时,故障预测 方法获得的准确度(Precision)、真正率(Recall)、误判率(Fpr)和调和参数(F-measure)。 图9为本发明关联故障的预测方法一具体实施例中针对不同类型故障的预测效果的示意 图;图9呈现了本发明提出的故障预测方法针对不同类型故障(包括硬件故障化ardware 化;[lures),软件故障(Software化;[lures)和其他故障(Other化;[lures))的预测效果。
[0152] 表格3总结了本发明所提方法在最佳状态下获得的性能参数统计。
[0153] 表格-3预测性能统计
[0154]
[0155] 由此可W看出,本发明提出的关联故障预测方法能够准确的预测中分布式计算系 统中的关联故障。
[0156] 本发明提出的关联故障预测方法,性能高效;该方法可包括概率共享风险组挖掘 阶段和故障预测阶段两部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联 故障模式,通过将贝叶斯网络和状态空间模型相结合,形成一种命名为概率共享风险组结 构的模型来描述关联故障的特征。运种模型可W全面准确的描述关联故障的多样性和传播 性特征,运在故障预测中对于提升预测精度具有重要作用。此外,采用的关联规则挖掘技术 可W通过一种并行的方式执行,运种方法可W提高预测方法执行效率,方便在线故障的部 署和实施。故障预测阶段基于生成的概率共享风险组结构,通过一种关联故障预测方法来 评估未来故障发生的概率。运种预测方便后续其他故障容忍技术的及时实施,对于提升系 统的可用性和可靠性具有重要意义。
[0157] 本发明关联故障的预测系统实施例1:
[0158] 基于上述方法的技术思想,同时为了解决传统技术无法准确有效的对分布式计算 系统中的关联故障进行预测的问题,本发明还提供了一种关联故障的预测系统实施例1;图 10为本发明关联故障的预测系统实施例1的结构示意图,如图10所示,可W包括:
[0159] 故障样本库获取单元10,用于获取分布式计算系统的历史故障信息,并根据历史 故障信息得到故障信息样本库;
[0160] 样本数据矩阵获取单元20,用于获取故障信息样本库中的有效故障信息,并对有 效故障信息进行时间离散化处理,得到样本数据矩阵;有效故障信息为呈现关联性的故障 f目息;
[0161] 概率共享风险组结构获取单元30,用于根据样本数据矩阵,得到分布式计算系统 的当前概率共享风险组结构;
[0162] 采集信息单元40,用于获取实时采集到的分布式计算系统的当前故障样本信息;
[0163] 故障检测单元50,用于根据当前概率共享风险组结构和当前故障样本信息,对分 布式计算系统进行故障预测。
[0164] 在一个具体的实施例中,概率共享风险组结构获取单元30可W包括:
[0165] 判断模块32,用于确定分布式计算系统中是否存在概率共享风险组结构;
[0166] 信息更新模块34,用于在判断模块的判断结果为是时,根据样本数据矩阵对概率 共享风险组结构进行信息更新,得到当前概率共享风险组结构;
[0167] 概率共享风险组结构生成模块36,用于在判断模块的判断结果为否时,根据样本 数据矩阵生成当前概率共享风险组结构。
[0168] 在一个具体的实施例中,故障检测单元50可W包括:
[0169] 故障序列获取模块52,用于获取当前故障样本信息的故障序列;
[0170] 节点获取模块54,用于获取当前概率共享风险组结构的节点;
[0171] 匹配预测模块56,用于对故障序列和节点进行匹配,并在匹配成功时,根据各匹配 成功的节点的相关边的权重信息,对分布式计算系统进行故障预测。
[0172] 在一个具体的实施例中,匹配预测模块56可W包括:
[0173] 处理模块562,用于分别对各匹配成功的节点对应的计算单元进行处理,获取计算 单元的故障触发概率;
[0174] 预警输出模块568,用于在故障触发概率大于预设的故障触发阔值时,生成故障预 警,并输出故障预测的结果。
[0175] 在一个具体的实施例中,样本数据矩阵获取单元20可W包括:
[0176] 数据离散模块22,用于根据预设的时隙和有效故障信息中样本数据,对有效故障 信息进行压缩和离散化,得到样本数据矩阵;预设的时隙为最小的平均故障间隔时间。
[0177] 本发明关联故障预测系统,可W包括概率共享风险组挖掘阶段和故障预测阶段两 部分。其中概率共享风险组挖掘阶段利用概率共享风险组建模关联故障模式,通过将贝叶 斯网络和状态空间模型相结合,形成一种命名为概率共享风险组结构的模型来描述关联故 障的特征。运种模型可W全面准确的描述关联故障的多样性和传播性特征,运在故障预测 中对于提升预测精度具有重要作用。此外,采用的关联规则挖掘技术可W通过一种并行的 方式执行,可W有效提高预测方法执行效率,方便在线故障的部署和实施。故障预测阶段基 于生成的概率共享风险组结构,通过一种关联故障预测方法来评估未来故障发生的概率。 运种预测方便后续其他故障容忍技术的及时实施,对于提升分布式计算系统的可用性和可 靠性具有重要意义。
[0178] W上所述实施例的各技术特征可W进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要运些技术特征的组合不存 在矛盾,都应当认为是本说明书记载的范围。
[0179] W上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来 说,在不脱离本发明构思的前提下,还可W做出若干变形和改进,运些都属于本发明的保护 范围。因此,本发明专利的保护范围应W所附权利要求为准。
【主权项】
1. 一种关联故障的预测方法,其特征在于,包括以下步骤: 获取分布式计算系统的历史故障信息,并根据所述历史故障信息得到故障信息样本 库; 获取所述故障信息样本库中的有效故障信息,并对所述有效故障信息进行时间离散化 处理,得到样本数据矩阵;所述有效故障信息为呈现关联性的故障信息; 根据所述样本数据矩阵,得到所述分布式计算系统的当前概率共享风险组结构; 获取实时采集到的所述分布式计算系统的当前故障样本信息; 根据所述当前概率共享风险组结构和所述当前故障样本信息,对所述分布式计算系统 进行故障预测。2. 根据权利要求1所述的关联故障的预测方法,其特征在于,根据所述样本数据矩阵, 得到所述分布式计算系统的当前概率共享风险组结构的步骤包括: 确定所述分布式计算系统中是否存在概率共享风险组结构; 若存在,根据所述样本数据矩阵对所述概率共享风险组结构进行信息更新,得到所述 当前概率共享风险组结构; 若不存在,根据所述样本数据矩阵生成所述当前概率共享风险组结构。3. 根据权利要求1所述的关联故障的预测方法,其特征在于,根据所述当前概率共享风 险组结构和所述当前故障样本信息,对所述分布式计算系统进行故障预测的步骤包括: 获取所述当前故障样本信息的故障序列; 获取所述当前概率共享风险组结构的节点; 对所述故障序列和所述节点进行匹配,并在所述匹配成功时,根据各匹配成功的节点 的相关边的权重信息,对所述分布式计算系统进行故障预测。4. 根据权利要求3所述的关联故障的预测方法,其特征在于,根据各匹配成功的节点的 相关边的权重信息,对所述分布式计算系统进行故障预测的步骤包括: 分别对各所述匹配成功的节点对应的计算单元进行处理,获取计算单元的故障触发概 率; 在所述故障触发概率大于预设的故障触发阈值时,生成故障预警,并输出故障预测的 结果。5. 根据权利要求1至4任意一项所述的关联故障的预测方法,其特征在于,对所述有效 故障信息进行时间离散化处理,得到样本数据矩阵的步骤包括: 根据预设的时隙和所述有效故障信息中样本数据,对所述有效故障信息进行压缩和离 散化,得到所述样本数据矩阵;所述预设的时隙为最小的平均故障间隔时间。6. -种关联故障的预测系统,其特征在于,包括: 故障样本库获取单元,用于获取分布式计算系统的历史故障信息,并根据所述历史故 障信息得到故障信息样本库; 样本数据矩阵获取单元,用于获取所述故障信息样本库中的有效故障信息,并对所述 有效故障信息进行时间离散化处理,得到样本数据矩阵;所述有效故障信息为呈现关联性 的故障信息; 概率共享风险组结构获取单元,用于根据所述样本数据矩阵,得到所述分布式计算系 统的当前概率共享风险组结构; 采集信息单元,用于获取实时采集到的所述分布式计算系统的当前故障样本信息; 故障检测单元,用于根据所述当前概率共享风险组结构和所述当前故障样本信息,对 所述分布式计算系统进行故障预测。7. 根据权利要求6所述的关联故障的预测系统,其特征在于,所述概率共享风险组结构 获取单元包括: 判断模块,用于确定所述分布式计算系统中是否存在概率共享风险组结构; 信息更新模块,用于在所述判断模块的判断结果为是时,根据所述样本数据矩阵对所 述概率共享风险组结构进行信息更新,得到所述当前概率共享风险组结构; 概率共享风险组结构生成模块,用于在所述判断模块的判断结果为否时,根据所述样 本数据矩阵生成所述当前概率共享风险组结构。8. 根据权利要求6所述的关联故障的预测系统,其特征在于,所述故障检测单元包括: 故障序列获取模块,用于获取所述当前故障样本信息的故障序列; 节点获取模块,用于获取所述当前概率共享风险组结构的节点; 匹配预测模块,用于对所述故障序列和所述节点进行匹配,并在所述匹配成功时,根据 各匹配成功的节点的相关边的权重信息,对所述分布式计算系统进行故障预测。9. 根据权利要求8所述的关联故障的预测系统,其特征在于,所述匹配预测模块包括: 处理模块,用于分别对各所述匹配成功的节点对应的计算单元进行处理,获取计算单 元的故障触发概率; 预警输出模块,用于在所述故障触发概率大于预设的故障触发阈值时,生成故障预警, 并输出故障预测的结果。10. 根据权利要求6至9任意一项所述的关联故障的预测系统,其特征在于,所述样本数 据矩阵获取单元包括: 数据离散模块,用于根据预设的时隙和所述有效故障信息中样本数据,对所述有效故 障信息进行压缩和离散化,得到所述样本数据矩阵;所述预设的时隙为最小的平均故障间 隔时间。
【文档编号】G06F11/30GK106021062SQ201610298092
【公开日】2016年10月12日
【申请日】2016年5月6日
【发明人】付博, 冯伯庚, 蒋芳玉, 李红伟
【申请人】广东电网有限责任公司珠海供电局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1