基于知识数据的半监督核判别分析故障诊断方法与流程

文档序号:11518634阅读:210来源:国知局
基于知识数据的半监督核判别分析故障诊断方法与流程

本发明属于故障检测与诊断技术领域,具体涉及一种基于知识数据的半监督核判别分析故障诊断方法。



背景技术:

线性判别分析方法(lda)是一种常用的线性数据分类方法,主要应用于数据降维和对线性数据的分类过程,利用类间离散度、类内离散度,最优分类函数的广义特征值分解,寻求样本的最佳分类效果。

lda与主元分析法(pca)都是降维技术,但存在本质的区别,lda是监督类型的数据降维方法,而pca是无监督类型的数据降维。元分析法(pca)主要用于数据降维后,寻求数据多个维度的多个主要变化方向,这些变化方向反映数据的主要信息,即用低维数据特征来代表高维数据特征。pca方法不考虑样本类别信息,是把所有原数据映射到体现整体样本方差变化比较大的方向上。而lda方法主要作用是降维分类,则考虑了数据的类别信息,即以一个类别的样本为一个单位进行统计,降维过程中区分开每类的类别信息,pca是不区分每类的类别信息的。

电熔镁炉属于埋弧电弧炉设备,如图1所示,主要包括电熔镁炉本体,主电路设备和控制设备三部分。其中,电熔镁炉的本体主要由炉体、电极夹持器、电极升降机构等组成。炉体由炉壳和炉底钢板组成,炉壳一般为圆形,稍有锥形,为便于熔砣脱壳,在炉壳壁上焊有吊环。电极夹持器能够夹持电极,便于电缆传输电流。在熔炼过程中,随着炉料的熔化,炉池液位会不断上涨,操作工人要随时升降电极达到调整电弧长度的目的。电极升降机构可使电极沿导轨上下垂直移动,减少电极晃动的情况,保持炉内热功率分配平衡,从而降低漏炉事故的发生。变压器和断网属于主电路设备,而在炉子边设有控制室,控制电极升降。炉下设有移动小车,作用是将熔化完成的熔块移到固定工位,冷却出炉。

应用pca方法,如图2所示,数据应该映射到方差最大的方向,即y轴方向,但是如果映射到y轴方向,两个不同类别的数据将完全混合在一起,很难区分开,所以使用pca算法进行降维后再进行分类的效果会非常差。但是使用lda算法,数据会映射到x轴方向,两个类别样本很清晰的分开了。

lda方法是在降维投影过程中会考虑到数据的类别信息,给定两个类别样本,我们希望找到一个向量w,当数据映射到w的方向上时,来自两个类的数据尽可能的分开,同一个类内的数据尽可能的紧凑。数据的映射公式为:y=wtx,其中y是数据y到w上的投影,因而也是一个高维到1维的维度归约,即一个w为一个维度方向,得到该维度样本值。

对于半监督线性判别分析,进行样本分类的建模阶段,很容易获取大量未分类的数据,而带标记类别的数据不是很容易获取,或者是需要花费很大时间才能获取到。半监督学习一般分为两个方面,即半监督的分类问题和半监督的聚类问题。前者利用大量非标签的数据辅助监督的学习,后者则是利用少部分标签的数据辅助非监督的学习。

半监督的聚类方法大致分为以下三类:基于限制的方法,该类算法在聚类过程中,利用标签的数据来引导聚类过程,最终得到一个恰当的分割结果,具体的做法是:修改聚类的目标函数以满足给定的限制,在聚类过程中遵循限制条件,利用标签数据初始化聚类参数并在聚类过程中约束数据的划分;

基于距离测度函数学习的方法,聚类算法必须基于某一距离测度函数进行聚类,在该方法中所使用的距离测度函数是通过对标签数据学习所得到的距离测度函数,其具体的方法有:利用标签数据基于图的最短路方法而得到的欧氏距离,利用标签数据基于凸的优化方法而得到的马氏距离等;

集成上述两种思想的聚类方法,bllenko等人基于k-mean算法将上述两种思想集成于一个框架之下,上述的三大类方法,一般来说,都是基于层次的聚类算法或基于划分的聚类算法。

lda方法的假设和局限性,lda至多可生成c-1维子空间,lda降维后的维度区间在[1,c-1],与原始特征数n无关,对于二值分类,最多投影到1维;

lda不适合对非高斯分布样本进行降维,fisherlda对数据的分布做了一些很强的假设,如每个类别的数据都是高斯分布,各个类的协方差相等,虽然这些强假设很可能在实际数据中并不满足,但是fisherlda已经被证明是非常有效地降维算法,其中的原因是线性模型对于噪音的鲁棒性比较好,不容易过拟合,缺点是模型简单,表达能力不强,为了增强fisherlda算法的非线性表达能力,可以引入核函数;

lda在样本分类信息依赖方差而不是均值时,效果不好;

lda可能过度拟合数据,准确的估计数据的散布矩阵是非常重要的,很可能会有较大的偏置。往往在样本数据比较少(相对于维数来说)时会产生较大的变异性。



技术实现要素:

针对现有技术的不足,本发明提出一种基于知识数据的半监督核判别分析故障诊断方法。

本发明的技术方案是:

一种基于知识数据的半监督核判别分析故障诊断方法,包括以下步骤:

步骤1:采集电熔煤炉熔炼过程历史工况数据,并对历史工况数据进行预处理,得到样本数据集x={x1,x2,...,xn}∈rm,其中,包括:l组标记样本类别的样本数据和n-l组未标记样本类别的样本数据,m为数据维数;

步骤2:将样本数据集x映射到特征空间,得到历史工况数据的特征空间数据集xφ=[φ(x1),φ(x2),...,φ(xl),φ(xl+1),...,φ(xn)];

步骤3:根据历史工况数据的特征空间数据集xφ建立基于知识数据的半监督核判别分析故障诊断模型;

步骤3.1:对历史工况数据的特征空间数据集xφ=[φ(x1),φ(x2),...,φ(xl),φ(xl+1),...,φ(xn)]进行投影,得到特征空间数据集投影矩阵w及投影矩阵的线性表出系数矩阵a;

步骤3.2:根据特征空间数据集中标记样本类别的样本数据确定标记样本数据的类间离散度矩阵以及标记样本数据的类内离散度矩阵

步骤3.3:根据特征空间数据集投影矩阵w及投影矩阵的线性表出系数矩阵a构建基于先验知识的类间流形项p(a)和基于先验知识的类内流形项q(a);

步骤3.4:根据标记样本数据的类间离散度矩阵标记样本数据的类内离散度矩阵基于先验知识的类间流形项p(a)和基于先验知识的类内流形项q(a)建立样本数据最优分类函数f(a);

步骤3.5:设定λ为特征值,采用广义特征值分解法求解样本数据最优分类函数f(a),得到从大到小排列的d个特征值和对应的特征向量,将求解的d个特征向量依次排列作为投影矩阵的线性表出系数矩阵a=(a1,a2,...,ad),从而确定特征空间数据集投影矩阵w=xφa;

步骤3.6:根据确定的特征空间数据集投影矩阵w计算各类样本数据在特征空间数据集投影矩阵w上投影的样本数据均值和各类样本数据在特征空间数据集投影矩阵w上投影的样本数据的方差

步骤3.7:根据各类样本数据在特征空间数据集投影矩阵w上投影的样本数据均值和各类样本数据在特征空间数据集投影矩阵w上投影的样本数据的方差建立bayes分类器,即得到基于知识数据的半监督核判别分析故障诊断模型;

步骤4:实时采集电熔镁炉熔炼过程的测试数据xnew∈rm,采用基于知识数据的半监督核判别分析故障诊断模型对测试样本数据xnew∈rm进行故障类型诊断;

步骤4.1:实时采集电熔镁炉熔炼过程的测试数据xnew∈rm

步骤4.2:将测试数据xnew映射到特征空间,得到特征空间数据φ(xnew);

步骤4.3:确定特征空间数据φ(xnew)经投影矩阵w的投影值ynew=wtφ(xnew);

步骤4.4:将特征空间数据φ(xnew)经投影矩阵w的投影值ynew作为基于知识数据的半监督核判别分析故障诊断模型的输入,将最大输出值对应的类别k的样本类型作为该测试数据的故障类型。

所述样本数据最优分类函数f(a)如下所示:

其中,a为投影矩阵的线性表出系数矩阵a中的系数,α,β,η∈[0,1]为权重系数,kl为记样本类别的历史工况数据的核函数,k为核函数,1=[1,1,...,1]t是l×l的矩阵,j(k)是元素为的lk×lk矩阵,lk为标记的第k类的样本数据数目,k∈(1,2,...,c),c为标记样本类别总数,i为n×n单位矩阵,lp=dp-mpmp为样本数据间的相似度连接矩阵,为mp的第i行u列个元素,xi为标记样本数据,xu为未标记样本数据,d(xi,xu)为xi与xu间的流形距离,np(xi)为与标记样本数据xi不同类别的g近邻样本数据点构成的异类点流形邻域,i∈(1,2,...,l),u∈(l+1,l+2,...,n),lq=dq-mqmq为样本类内的相似度连接矩阵,为mq的第i行u列个元素,nq(xi)为与标记样本数据xi同类别的g近邻点构成的同类点流形邻域。

所述基于知识数据的半监督核判别分析故障诊断模型gfk(φ(xi))如下所示:

其中,p(k)为属于第k类样本数据的先验概率。

本发明的有益效果:

本发明提出一种基于知识数据的半监督核判别分析故障诊断方法,即在样本类别硬划分基础上进行改进,利用知识经验对类内离散度和类间离散度进行改进。在标记样本周围进行人工选择,根据近邻测度的相似度和不相似度定义本类的相似度知识流形项,和异类不相似度知识流形项,充分挖掘和利用标记样本和未标记样本特征信息建立故障诊断模型。同时在最后分类阶段,对分类器进行了改进,提高了分类的精度,同时对样本的错分率及样本分离度等验证标准都有所改进。

附图说明

图1为电熔镁炉结构示意图;

其中,1为变压器,2为短网,3为电极夹持器,4为电极,5为炉壳,6为车体,7为电弧,8为炉料,9为控制器;

图2为pca方法的分类效果示意图;

图3为本发明具体实施方式中基于知识数据的半监督核判别分析故障诊断方法的流程图;

图4为本发明具体实施方式中电熔镁炉训练样本三维分布图;

图5为本发明具体实施方式中参数为α=0.43、β=0.38、τ=0.909、σ=0.13时历史工况数据降维后在各投影方向上的效果图;

其中,(a)为历史工况数据训练样本三维分布图;

(b)为历史工况数据测试样本三维分布图;

(c)为历史工况数据训练样本在第一二维方向上的投影图;

(d)为历史工况数据测试样本在第一二维方向上的投影图;

(e)为历史工况数据中训练样本和测试样本在第一二维方向上的投影图像;

(f)为历史工况数据训练样本均值在第一二维方向上的投影。

具体实施方式

考虑到实际工业生产过程中变量之间通常呈现非线性关系,本发明在传统方法的基础上,进一步分析了故障数据与正常数据的关系,进而提取出与故障相关的故障特征方向。提出了基于知识数据的半监督核判别分析故障诊断方法,利用本发明提出的方法对电熔镁熔炼过程的故障进行检测及故障诊断可以验证所提方法的有效性。

电熔镁砂是一种广泛应用于化学、航天、冶金等领域的重要耐火材料,电熔镁炉是用于生产电熔镁砂的主要设备之一。电熔镁炉是一种以电弧为热源的熔炼炉,它的热量集中,有利于熔炼电熔镁砂。电熔镁炉的整体设备组成主要包括:变压器、电路短网、电极、电极升降装置以及炉体等。炉边设有控制室,可控制电极升降。

电熔镁炉通过电极引入大电流形成弧光产生高温来完成熔炼过程。目前我国多数电熔镁炉冶炼过程自动化程度还比较低,往往导致故障频繁和异常情况时有发生,其中由于电极执行器故障等原因导致电极距离电熔镁炉的炉壁过近,使得炉温异常,可以导致电熔镁炉的炉体熔化,熔炉一旦发生将会导致大量的财产损失以及危害人身安全。另外,由于炉体固定,执行器异常等原因导致电极长时间位置不变造成炉温不均,造成距离电极附近温度高,而距离电极远的区域温度低,一旦电极附近区域温度过高,容易造成“烧飞”炉料;而远离电极的区域温度过低形成死料区,这将严重影响产品产量和质量。这就需要及时地检测过程中异常和故障,因此,对电熔镁炉工作过程进行过程监测是十分必要和有意义的。

下面结合附图对本发明具体实施方式加以详细说明。

一种基于知识数据的半监督核判别分析故障诊断方法,如图3所示,包括以下步骤:

步骤1:采集电熔煤炉熔炼过程历史工况数据,并对历史工况数据进行预处理,得到样本数据集x={x1,x2,...,xn}∈rm,其中,包括:l组标记样本类别的样本数据和n-l组未标记样本类别的样本数据,m为数据维数。

本实施方式中,历史工况数据是熔炼阶段20个批次中的采样,随机取3个批次中的3类数据,包括喷炉故障数据类、漏炉故障数据类和正常数据类。历史工况数据随机分为两个集合,对应训练数据集合和测试数据集合,训练数据集合每类100个数据点,测试数据集合每类100个数据点。采用交叉验证方式来进行试验,并且重复试验500次。采用随机方式为每类选取训练和测试集合中的数据,电熔煤炉熔炼过程历史工况数据如表1所示。

表1电熔煤炉熔炼过程历史工况数据

由于采样是整个熔炼过程中的20个批次中的采样,所以对应的故障数据具有一定的流形特征,验证本发明方法的有效性。其余剩余1000个数据为未标记数据,测试样本每类各100个。每个采样包括3个电极电流值,即数据维数m为3。

标记的标签集合为l={1,2,...,c},c为标记样本类别总数,3类对应标签矩阵l=[1,2,3]。

步骤2:将样本数据集x映射到特征空间,得到历史工况数据的特征空间数据集xφ=[φ(x1),φ(x2),...,φ(xl),φ(xl+1),...,φ(xn)]。

本实施方式中,采用的核函数k如式(1)所示:

其中,τ、σ为参数,错分类率是不同的,为了最大程度将不同类分开,相同类聚合,要对参数进行调节,经过多次尝试和调优,得到最佳分类效果的参数值为τ=0.909和σ=0.13。xi,xi′∈x。

步骤3:根据历史工况数据的特征空间数据集xφ建立基于知识数据的半监督核判别分析故障诊断模型。

步骤3.1:对历史工况数据的特征空间数据集xφ=[φ(x1),φ(x2),...,φ(xl),φ(xl+1),...,φ(xn)]进行投影,得到特征空间数据集投影矩阵w及投影矩阵的线性表出系数矩阵a。

本实施方式中,历史工况数据映射到特征空间的映射一般是很难直接给出的,由于核函数的出现,可以不必找到具体的映射,而是找到投影矩阵w=[w1,w2,...,wd]的一种组合形式即可。由于任意特征空间内的投影矩阵w∈rm×d都可以由映射到特征空间内的数据组合得到,即投影矩阵w的列向量wj∈rm可由特征空间样本φ(xi)组成,故存在一组系数矩阵a=[a1,a2,...ad],其中wj∈rm,wj∈rm的个数为降维后的数据维度d。

特征空间数据集投影矩阵w的表示形式如式(2)所示:

其中,w=[w1,w2,...,wd],a=[a1,a2,...ad],本实施方式中,d=3。

步骤3.2:根据特征空间数据集中标记样本类别的样本数据确定标记样本数据的类间离散度矩阵以及标记样本数据的类内离散度矩阵

本实施方式中,标记样本数据的类间离散度矩阵如式(3)所示:

其中,lk为标记的第k类的样本数据数目,k∈(1,2,...,c),总的标记样本数目为φ(xi)(k)为第k类的特征空间数据,为标记样本的特征空间数据集,1=[1,1,...,1]t是l×l的矩阵,j(k)是元素为的lk×lk矩阵。

标记样本数据的类内离散度矩阵如式(4)所示:

其中,i为n×n单位矩阵。

步骤3.3:根据特征空间数据集投影矩阵w及投影矩阵的线性表出系数矩阵a构建基于先验知识的类间流形项p(a)和基于先验知识的类内流形项q(a)。

本实施方式中,基于先验知识的类间流形项p(a)如式(5)所示:

其中,a为投影矩阵的线性表出系数矩阵a中的系数,k为核函数,lp=dp-mpmp为样本数据间的相似度连接矩阵,为mp的第i行u列个元素,xi为标记样本数据,xu为未标记样本数据,d(xi,xu)为xi与xu间的流形距离,i∈(1,2,...,l),u∈(l+1,l+2,...,n),np(xi)为与标记样本数据xi不同类别的g近邻样本数据点构成的异类点流形邻域。

基于先验知识的类内流形项q(a)如式(6)所示:

其中,lq=dq-mqmq为样本类内的相似度连接矩阵,为mq的第i行u列个元素,nq(xi)为与标记样本数据xi同类别的g近邻点构成的同类点流形邻域。

步骤3.4:根据标记样本数据的类间离散度矩阵标记样本数据的类内离散度矩阵基于先验知识的类间流形项p(a)和基于先验知识的类内流形项q(a)建立样本数据最优分类函数f(a)。

本实施方式中,为了在特征空间找到使样本最大化类间矩和最小化类内间距的投影矩阵,设定最优分类函数f(a)如式(7)所示:

由于利用了基于先验知识的未标记样本的特征信息,所以在最优分类函数中加入基于先验知识的类间流形项p(a)和基于先验知识的类内流形项q(a),同时考虑到由于样本数目较小时,在求解过程中分母项矩阵可能奇异,为保证其可逆,我们在上述公式中加入正则项ηatia,η∈[0,1],i为n×n单位矩阵,则改进后的最优分类函数f(a)如式(8)所示:

其中,α,β,η∈[0,1]为权重系数,kl为标记样本类别的历史工况数据的核函数,α用于调整未标记样本对标记样本类间离散度作用,本例中取值0.43,β用于调整未标记样本对标记样本类内离散度的作用,本例中取值0.38。

步骤3.5:设定λ为特征值,采用广义特征值分解法求解样本数据最优分类函数f(a),得到从大到小排列的d个特征值和对应的特征向量,将求解的d个特征向量依次排列作为投影矩阵的线性表出系数矩阵a=(a1,a2,...,ad),从而确定特征空间数据集投影矩阵w=xφa。

本实施方式中,设定λ为特征值,将公式(8)转换为公式(9)形式:

其中,得到从大到小排列的d=3个特征值和对应的特征向量,取前3个特征向量依次排列得到线性组合系数矩阵a=(a1,a2,a3),从而确定特征空间数据集投影矩阵w=xφa。

步骤3.6:根据确定的特征空间数据集投影矩阵w计算各类样本数据在特征空间数据集投影矩阵w上投影的样本数据均值和各类样本数据在特征空间数据集投影矩阵w上投影的样本数据的方差

本实施方式中,各类样本数据在特征空间数据集投影矩阵w上投影后的矩阵为y如式(10)所示:

y=wtxφ=(xφa)txφ=atxφtxφ=atk(10)

则第k类样本数据在特征空间数据集投影矩阵w上投影的样本数据均值如式(11)所示:

第k类样本数据在特征空间数据集投影矩阵w上投影的样本数据的方差如式(12)所示:

步骤3.7:根据各类样本数据在特征空间数据集投影矩阵w上投影的样本数据均值和各类样本数据在特征空间数据集投影矩阵w上投影的样本数据的方差建立bayes分类器,即得到基于知识数据的半监督核判别分析故障诊断模型。

本实施方式中,在核空间使用bayes函数如式(13)所示:

其中,为核空间第k类样本数据的均值,为核空间第k类样本数据的方差矩阵,p(k)为属于第k类样本数据的先验概率。

则降维后的bayes分类器,即基于知识数据的半监督核判别分析故障诊断模型gfk(φ(xi))如式(14)所示:

步骤4:实时采集电熔镁炉熔炼过程的测试数据xnew∈rm,采用基于知识数据的半监督核判别分析故障诊断模型对测试样本数据xnew∈rm进行故障类型诊断。

步骤4.1:实时采集电熔镁炉熔炼过程的测试数据xnew∈rm

步骤4.2:将测试数据xnew映射到特征空间,得到特征空间数据φ(xnew)。

步骤4.3:确定特征空间数据φ(xnew)经投影矩阵w的投影值ynew=wtφ(xnew)。

步骤4.4:将特征空间数据φ(xnew)经投影矩阵w的投影值ynew作为基于知识数据的半监督核判别分析故障诊断模型的输入,将最大输出值对应的类别k的样本类型作为该测试数据的故障类型。

本实施方式中,电熔镁炉训练样本在普通坐标下的三维分布如图4所示,由图可以看出,各类样本数据混杂在一起,无法找到某个平面轻易将样本进行分类。

各类训练样本和测试样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布如图5所示。

图5(a)为各类训练样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布。由图可以看出,三类样本经映射后类内间距相对类间间距足够小,各类样本聚集在一起,能够清晰地分为三类。

图5(b)为各类测试样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布。由图可以看出,三类样本经映射后类内间距相对类间间距足够小,各类样本聚集在一起,能够清晰地分为三类。

图5(c)为各类训练样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布,又在w1,w2方向上的投影。由图可以看出,三类样本经映射后聚集为三点,各类之间距离较大,能够清晰地进行分类。

图5(d)为各类测试样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布,又在w1,w2方向上的投影。由图可以看出,三类样本经映射后聚集为三个数据块,各类之间距离较大,能够清晰地进行分类。

图5(e)为各类训练样本和测试样本在经映射矩阵w降维后,在以w1,w2,w3为坐标轴的空间上的分布,又在w1,w2方向上的投影。由图可以看出,三类样本经映射后聚集为三个数据块,且各类的训练数据与测试数据均重合,各类之间距离较大,能够清晰地进行分类。

图5(f)为各类测试样本在经映射矩阵w降维后的均值,在以w1,w2,w3为坐标轴的空间上的分布,又在w1,w2方向上的投影。由图可以看出,各类的均值距离较远,区分明显,达到了很好的分类效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1