本发明涉及轴承特征数据分析技术领域,尤其涉及一种基于线性判别分析的轴承特征数据分析方法。
背景技术:
在轴承数据中,衡量轴承运行状态常采用以下六个指标,分别为:振动烈度,波形,脉冲,裕度,峰值,峭度指标。由于石化装备工作环境的恶劣性,采集到的数据较理想环境有很大的不确定性,另外,由于设备本身存在噪声以及人为操作误差等因素的存在,直接用数据进行故障诊断常会引起误判,甚至判别不出来。针对轴承原始特征数据中特征指标较多,样本数据量较大,对样本直接进行故障分类误差较大。
技术实现要素:
有鉴于此,本发明的目的是提供一种基于线性判别分析的轴承特征数据分析方法,解决了上述背景技术中提出的问题。
本发明通过以下技术手段达到上述技术目的:
一种基于线性判别分析的轴承特征数据分析方法,包括以下步骤:
步骤一,由轴承故障样本个数m和轴承故障指标个数n构建轴承故障数据矩阵xm×n,并定义其最佳投影向量为wt;
步骤二,定义每类故障样本的均值μi,并得出经投影后的向量,再引入散列矩阵si来衡量每个类里样本点之间的分布情况,进而得出类内样本散列值sw,对应的投影后得出每个类样本点相对于该类中心点
步骤三,以样本点较多的类别中的样本点个数ni为散列权重定义类间散列值sb,对应的得出投影后的类间散列度矩阵
步骤四,根据类内样本散列值sw和类间散列值sb定义最终衡量样本的度量公式j(w),对应的得出投影后的度量公式
步骤五,对
步骤六,通过将复合轴承故障数据经最佳降维投影向量wt降维后对轴承故障数据进行分析处理。
这样,将原始数据往最容易实现分类的方向上投影实现降维,通过轴承样本数据类内散列矩阵和类间散列矩阵共同确定投影方向,保证了投影方向的正确性。同时通过对轴承故障数据进行线性判别降维处理,在剔除大量误差信息的同时,确保能保留有效故障特征信息,同时降维方向为数据更易进行故障分类的投影方向,故能有效提高后期bp神经网络故障诊断的准确率。
进一步的,步骤一中xm×n为
x=(x(1),x(2),...,x(m))',
进一步的,步骤二中每类故障样本的均值μi为
所述经投影后的向量为
其中,其中ni表示属于第i类的样本数,wi表示第i类样本的投影向量;所述散列矩阵si为
其中ui为第i类样本的中心点;
则类内样本散列值sw为
其中c为该样本包含的所有类别数;
所述投影后得出每个类样本点相对于该类中心点
将
得到所有类的样本散列值投影
进一步的,步骤三中所述类间散列值sb为
得出投影后的类间散列度矩阵
其中
进一步的,步骤四中所述最终衡量样本的度量公式j(w)为
所述投影后的度量公式
进一步的,步骤五中对
z(w)=wtsbw-λ(wtsww-1)
sbw=λsww
sw-1sbw=λw
即得出w为sw-1sb的特征向量,最佳降维向量wt对应特征值最大的特征向量,则轴承故障数据矩阵xm×n经最佳降维向量wt投影后的向量y为
y=wtx。
本发明的有益效果:采用lda(线性判别分析法)进行复合故障数据的特征映射,线性判别分析既综合了复合故障指标间的类内距离,也考虑了不同复合故障类型间的类间距离,通过映射因子较好地减弱了复合故障指标间数据的耦合性,提高了不同复合故障数据类的区分度。
具体实施方式
实施例一种基于线性判别分析的轴承特征数据分析方法。
一种基于线性判别分析的轴承特征数据分析方法,包括以下步骤:
步骤一,由轴承故障样本个数m和轴承故障指标个数n构建轴承故障数据矩阵xm×n,并定义其最佳投影向量为wt;
步骤二,定义每类故障样本的均值μi,并得出经投影后的向量,再引入散列矩阵si来衡量每个类里样本点之间的分布情况,进而得出类内样本散列值sw,对应的投影后得出每个类样本点相对于该类中心点
步骤三,以样本点较多的类别中的样本点个数ni为散列权重定义类间散列值sb,对应的得出投影后的类间散列度矩阵
步骤四,根据类内样本散列值sw和类间散列值sb定义最终衡量样本的度量公式j(w),对应的得出投影后的度量公式
步骤五,对
步骤六,通过将复合轴承故障数据经最佳降维投影向量wt降维后对轴承故障数据进行分析处理。
这样,将原始数据往最容易实现分类的方向上投影实现降维,通过轴承样本数据类内散列矩阵和类间散列矩阵共同确定投影方向,保证了投影方向的正确性。同时通过对轴承故障数据进行线性判别降维处理,在剔除大量误差信息的同时,确保能保留有效故障特征信息,同时降维方向为数据更易进行故障分类的投影方向,故能有效提高后期bp神经网络故障诊断的准确率。
进一步的,步骤一中xm×n为
x=(x(1),x(2),...,x(m))',
进一步的,步骤二中每类故障样本的均值μi为
所述经投影后的向量为
其中,其中ni表示属于第i类的样本数,wi表示第i类样本的投影向量;所述散列矩阵si为
其中ui为第i类样本的中心点;
将si称为散列矩阵,散列矩阵si为一个协方差矩阵,该协方差矩阵反映了第i类所有样本点与该样本总体之间的关系,散列矩阵si的对角线元素是第i类所有样本点相对该类总体的方差(即分散度),非对角元素则是第i类样本所有样本点相对该类总体均值的协方差(即该类和总体样本的相关关联度)。
则类内样本散列值sw为
其中c为该样本包含的所有类别数;
所述投影后得出每个类样本点相对于该类中心点
将
得到所有类的样本散列值投影
综上,类内散列度代表各个类内部的散列矩阵之和,类内散列度元素值越大,表明该样本总体各个类内部样本点越分散,反之仍然成立。
进一步的,分析了所有类相对自己中心点的散列值的情况,还需要分析不同类之间的散列情况,考虑到存在某些类别样本点较多,故相应的类与类之间的散列情况较为紧密,故定义其散列权重为所属类的样本点个数ni,步骤三中所述类间散列值sb为
得出投影后的类间散列度矩阵
其中
进一步的,步骤四中所述最终衡量样本的度量公式j(w)为
所述投影后的度量公式
为了更好地区分各个类,对于上述两个式子,分子越大,分母越小,表示样本点相对越集中,越容易区分,因此求最佳的wt,即是求最大的
进一步的,步骤五中对
z(w)=wtsbw-λ(wtsww-1)
sbw=λsww
sw-1sbw=λw
即得出w为sw-1sb的特征向量,最佳降维向量wt对应特征值最大的特征向量;综上,基于线性判别分析降维的向量就可以确定了,最佳的降维向量对应特征值最大的特征向量,此时,降维后的样本点的分类性能最好。则轴承故障数据矩阵xm×n经最佳降维向量wt投影后的向量y为
y=wtx。
本发明的有益效果:采用lda(线性判别分析法)进行复合故障数据的特征映射,线性判别分析既综合了复合故障指标间的类内距离,也考虑了不同复合故障类型间的类间距离,通过映射因子较好地减弱了复合故障指标间数据的耦合性,提高了不同复合故障数据类的区分度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。