一种资产故障识别方法与流程

文档序号:19880036发布日期:2020-02-08 06:55阅读:252来源:国知局
一种资产故障识别方法与流程

本发明涉及资产管理技术领域,尤其涉及一种资产故障识别方法。



背景技术:

信息基础设施资产包括通用存储设备、网络和通信设备等。目前,随着信息化技术的发展,信息基础设施应用于业务之中,为业务提供支撑和辅助。信息基础设施的正常运行是保证组织业务可持续运行的重要保障。

在传统的信息基础设施管理中,需要工作人员根据工作经验定期对信息基础设施进行排查,通过对信息基础设施进行实地检测,从而确认设施的运行状态,确定信息基础设施的故障类型,维修或者更换发生故障的设施。由于基础设施数量众多,分布广泛。现有技术方案工作人员无法快速准确判别故障设备以及故障类型,大大降低了工作效率。



技术实现要素:

本申请供了一种资产故障识别方法,解决了现有技术方案中工作人员无法快速准确判别资产设备中的故障设备以及故障样本的不足的问题。

本申请提供的一种资产故障识别方法,包括以下步骤:

步骤s1:基板管理控制器监控并采集被管理的资产运行信息数据;

步骤s2:带外管理系统通过运维数据网络从基板管理控制器中获取被管理的资产运行信息数据;

步骤s3:带外管理系统将获取的被管理的资产运行信息数据进行标注形成标签数据;

步骤s4:对标签数据进行数据预处理操作,将经过预处理操作的标签数据作为训练数据;

步骤s5:构建基于代价敏感学习的分类模型,将训练数据输入到分类模型中进行训练,得到训练好的基于代价敏感学习的分类模型,将经过预处理后的实时数据输入到训练好的基于代价敏感学习分类模型中,得到被管理的资产为故障设备的预测概率;

步骤s6:将预测概率与预设阈值相比较,根据比较结果判断该被管理资产为故障设备还是正常设备;

步骤s7:带外管理系统输出最终的判定结果。

优选的,采用带外管理接口技术构建运维数据网络,采用b/s框架搭建带外管理系统。

优选的,所述的带外管理系统通过使用智能型平台管理接口规范中规定的指令,接收基板管理控制器的数据并在系统事件日志中对采集到的数据进行保存。

优选的,在步骤s2中,所述的被管理的资产运行信息数据包括温度、电压、风扇转速、电源状态、cpu、内存利用率以及故障资产运行信息数据,所述的故障资产运行信息数据包括实际故障资产运行信息数据与人工模拟故障资产运行信息数据。

优选的,在步骤s3中,对资产运行信息数据进行人工标注,将实际故障资产运行信息数据与人工模拟故障资产运行信息数据都标注为故障设备,其他资产运行信息数据标注为正常设备。

优选的,在步骤s4中,对训练数据进行预处理的过程包括数据清洗、数据变换以及数据标准化;所述的数据清洗用于剔除异常数据;所述数据变换通过对长尾分布数据进行对数转换,使其符合正态分布,满足线性模型的假设条件;所述的数据标准化通过对数值型特征进行无量纲化处理,缩小特征值之间的大小差异,避免较大数量级数据对较小数量级的数据造成干扰。

优选的,数据变换过程中,通过数据探索分析,将长尾分布特征进行对数变换,具体计算过程为:

a'=log(a);

其中,a为长尾分布特征,a'为长尾分布特征a经过对数变换后的结果;

对数据进行标准化的计算公式为:

其中,x为某一列特征的值,μ表示特征x的均值,σ表示特征x的标准差;

特征值x按均值μ中心化后,再按标准差σ进行缩放后,特征值x会服从均值为0,方差为1的正态分布。

优选的,在步骤s5中,基于代价敏感学习的分类模型的目标函数为:

其中,c0和c1分别为正常设备和故障设备误分类的惩罚因子;l(yi,fθ(xi))为损失函数;yi表示第i个设备的真实标签类别;fθ(xi)为基于代价敏感学习的分类模型的预测函数;θ表示预测函数fθ(xi)的参数;xi表示第i个设备的特征数据,λr(θ)为正则化项,表示对复杂模型的惩罚;λ≥0为正则化系数,用以权衡经验风险和模型复杂度;r(θ)为模型复杂度。

计算被管理资产为故障设备的预测概率的计算公式为:

p(xi)=fθ(xi);

优选的,在步骤s5中,对实时数据进行预处理的过程包括数据变换以及数据标准化两个步骤。

优选的,在步骤s6中,若预测概率大于阈值,则将该被管理资产判定为故障设备,若预测概率小于阈值,则将该被管理资产判定为正常设备;将被管理资产为故障设备的预测概率与阈值相比较的具体公式如下:

其中,f表示设备故障,t表示设备正常,y(xi)表示第i个设备的预测结果,只取故障设备和正常设备两种结果;p(xi)表示第i个设备的预测概率;α为阈值。

从以上技术方案可以看出,本申请具有以下优点:

本申请通过在被管理资产上安装基板管理控制器,并且通过构建运维数据网络以及带外管理系统来获取基板管理控制器上的所采集到的被管理的资产运行信息数据,再将被管理的资产运行信息数据进行标注以及预处理,将经过预处理后的被管理的资产运行信息数据输入到构建好的基于代价敏感学习的分类模型之中,从而输出该资产为设备故障的预测概率,将预测概率与设定好的阈值相比较从而来判别该资产是否为故障设备。

本技术方案通过采集被管理的资产运行信息数据,基于采集到的数据自动的对被管理的资产进行检测,判别资产是否为故障资产,解决了现有技术需要人工进行检测的不足,极大的节省了时间成本以及人力成本,大大提高了工作效率;

上述技术方案中的另一个技术方案具有如下优点:通过使用带外管理接口技术对被管理资产上安装的信息基础设施的运行状态信息数据进行采集实现资产信息化管理,提高资产管理效率,并且在对资产进行判别的过程中使用了基于代价敏感学习的分类模型,能够有效地解决类别不平衡问题,准确地将故障设备识别出来。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明提供的一种资产故障识别方法的一个实施例的流程图;

图2为本发明提供的一种资产故障识别方法的一个实施例的结构框架图。

具体实施方式

本发明实施例提供了一种资产故障识别方法,用于解决现有技术中在对信息基础设施的管理过程中需要人工定期对信息基础设施进行排查的不足,为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1以及图2,图1为本发明实施例提供的一种资产故障识别方法的流程图。图2为本发明实施例提供的一种资产故障识别方法的结构框架图。

本实施例提供的一种资产故障识别方法,如图1所示,包括以下步骤:

步骤s1:如图2所示,在被管理的资产中安装基板管理控制器(baseboardmanagementcontroller,bmc),基板管理控制器负责监控并采集被管理的资产运行信息数据;

步骤s2:采用带外管理接口技术(intelligentplatformmanagementinterface,ipmi)构建运维数据网络以及带外管理系统;带外管理系统通过运维数据网络访问被管理资产的基板管理控制器,从基板管理控制器中采集被管理的资产运行信息数据;带外管理系统通过独立于业务数据之外的专用运维数据网络通道对资产设备进行集中化管理,通过基板管理控制器实现在运资产设备与带外管理系统之间的连接,通过搭建与业务数据网分离的运维数据网,传送控制信息和数据信息,对被管理资产的各项物理指标进行数据采集,再传送给带外管理系统,并执行来自带外管理系统的各种控制指令,实现被管理资产设备的自动发现和运行状态监控。

步骤s3:带外管理系统将采集到的被管理的资产运行信息数据进行标注形成标签数据;

步骤s4:对标签数据进行数据预处理操作,将经过预处理的标签数据作为训练数据;

步骤s5:构建基于代价敏感学习的分类模型,将训练数据输入到基于代价敏感学习的分类模型中进行训练,得到训练好的基于代价敏感学习的分类模型,再将经过预处理后的实时数据输入到训练好的基于代价敏感学习的分类模型中,得到被管理的资产为故障设备的概率;

步骤s6:在带外管理系统中设置阈值,将被管理资产为故障设备的预测概率与阈值相比较,若预测概率大于阈值,则将该被管理资产判定为故障设备,若预测概率小于阈值,则将该被管理资产判定为正常设备;

步骤s7:带外管理系统输出最终的判定结果。

作为一个优选的实施例,在步骤s2中,采用带外管理接口技术构建运维数据网络,采用b/s框架搭建带外管理系统,带外管理系统通过远程访问被管理资产的基板管理控制器,实现资产自动发现、运行状态监测;

作为一个优选的实施例,带外管理系统通过使用智能型平台管理接口规范中规定的指令,接收基板管理控制器的数据并在系统事件日志中对采集到的数据进行保存。

作为一个优选的实施例,在步骤s2中,被管理的资产运行信息数据包括温度、电压、风扇转速、电源状态、cpu、内存利用率以及故障资产运行信息数据,故障资产运行信息数据包括实际故障资产运行信息数据与人工模拟故障资产运行信息数据。

作为一个优选的实施例,在步骤s3中,对资产运行信息数据进行人工标注,将实际故障资产运行信息数据与人工模拟故障资产运行信息数据都标注为故障设备,其他资产运行信息数据标注为正常设备;实际情况中,故障设备数量较少,正常设备数量较多,因此标注为故障设备的数量少,标注为正常设备的数量多,解决了在实际情况中类别不平衡的问题。

作为一个优选的实施例,在步骤s4中,对数据预处理的过程包括数据清洗、数据变换以及数据标准化;数据清洗将特征值不符合业务常识的数据剔除,以及将含有大量空值的特征剔除,减少噪声、缺失值等数据对模型造成的影响;所述数据变换通过对长尾分布数据进行对数转换,使其符合正态分布,满足线性模型的假设条件;数据标准化通过对数值型特征进行无量纲化处理,缩小特征值之间的大小差异,避免较大数量级数据对较小数量级的数据造成干扰。

作为一个优选的实施例,数据变换过程中,通过数据探索分析,将长尾分布特征进行对数变换,具体计算过程为:

a'=log(a);

其中,a为长尾分布特征,a'为长尾分布特征a经过对数变换后的结果;

对数据进行标准化的计算公式为:

其中,x为某一列特征的值,μ表示特征x的均值,σ表示特征x的标准差;

特征值x按均值μ中心化后,再按标准差σ进行缩放后,特征值x会服从均值为0,方差为1的正态分布。

作为一个优选的实施例,在步骤s5中,基于代价敏感学习的分类模型的目标函数为:

其中,c0和c1分别为正常设备和故障设备误分类的惩罚因子;l(yi,fθ(xi))为损失函数,比如对数损失函数(logarithmiclossfunction)或者合页损失函数(hingelossfunction);yi表示第i个设备的真实标签类别;fθ(xi)为基于代价敏感学习的分类模型的预测函数;θ表示预测函数fθ(xi)的参数;xi表示第i个设备的特征数据,λr(θ)为正则化项,表示对复杂模型的惩罚;λ≥0为正则化系数,用以权衡经验风险和模型复杂度;r(θ)为模型复杂度,比如l1范数或者l2范数。

作为一个优选的实施例,在步骤s5中,计算被管理资产为故障设备的预测概率p(xi)的计算公式为:

p(xi)=fθ(xi);

作为一个优选的实施例,在步骤s6中,将被管理资产为故障设备的预测概率与阈值相比较的具体公式如下:

其中,f表示设备故障,t表示设备正常,y(xi)表示第i个设备的预测结果,只取故障设备和正常设备两种结果;p(xi)表示第i个设备的预测概率;α为阈值。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1