一种缺失数据的KNN区间型轴承故障诊断方法

文档序号:26835845发布日期:2021-10-02 09:36阅读:133来源:国知局

本发明涉及一种缺失数据的KNN区间型轴承故障诊断方法,属于不完整数据故障诊断领域。

背景技术

信息时代数据量激增,海量的数据潜藏着巨大的信息价值。聚类分析成为数据挖掘与分析的重要手段之一,在许多领域都是非常热门的话题。聚类分析的目的是捕捉数据集的内在结构,将类似的数据实例划分到称为簇的相同组中,不同的数据实例尽量分到不同的簇中,在没有先验知识的情况下能够自主的对数据进行分类,是最重要的无监督学习技术。但模糊C均值方法(FCM)处理数据集聚类时需要完整的数据集,对于含有缺失属性的不完整数据集不能直接聚类。而现实世界中,数据集缺失现象在工业、医学、商业和科学研究等诸多领域中普遍存在,表现为一个或多个数据属性的缺失,为数据聚类分析带来困难。如何充分挖掘不完整数据中的有效信息至关重要,要对不完整数据集进行高效的聚类分析是一个必须解决的难题,因此对不完整数据的故障诊断研究具有重要的实际意义。



技术实现要素:

为了解决上述存在的问题,本发明提供一种缺失数据的KNN区间型轴承故障诊断方法。

本发明的目的是通过以下技术方案实现的:一种缺失数据的KNN区间型轴承故障诊断方法,其步骤为:

一种缺失数据的KNN区间型模糊聚类方法,其特征在于,其步骤为:

1)信号采样:用加速度计收集轴承的振动数据,选取数字信号的采样频率为12000Hz的轴承数据;

2)降噪处理:采用小波阈值降噪法,对每层高频小波系数做阈值量化处理,通过极大极小准则阈值函数对轴承时域信号进行软阈值去噪处理;

3)特征选择:计算峭度指标,偏态指标,峰值指标,峰值等时域特征参数,将其作为时域特征向量;

4)轴承故障诊断:

4.1)确定最近邻样本:根据最近邻规则为不完整数据选取相应的近邻样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):

其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;

Ii表达式为式(2):

其中,n表示数据集中样本总数;

通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的近邻样本集,计算不完整数据样本和其最近邻样本之间相似度;

4.2)利用近邻样本属性确定缺失数据的填补区间,考虑近邻样本集属性分布提出新的区间填补公式:通过KNN选取的近邻样本边界值确定缺失数据属性的区间范围,以极值点作为填补区间的左右端点值;区间左端点与右端点如公式(4)与(5)所示:

上述基于KNN的区间构建,以近邻样本本身携带的数据信息构建区间宽度,只考虑极值信息,左端点为属性最小值,右端点为属性最大值,以属性边界确定填补区间大小,具有一定的局限性;缺失数据属性大小不仅与近邻样本边界值有关,样本分布特征对缺失属性填补也具有重要作用;缺失属性区间的构造方法影响区间型模糊C均值算法的聚类分析;样本与聚类中心的距离都是基于区间型数据进行计算,因此缺失数据区间大小将影响聚类结果;对缺失数据的区间估计越精准,对聚类分析越有利;为了进一步精确估计区间宽度,提出一种基于概率信息分布的KNN区间估计,在KNN构造的近邻样本空间上,构造基于缺失属性的KNN估计区间,引入到模糊C均值算法(FCM)的距离计算公式中,最后进行区间聚类分析;

假设存在属性缺失样本xk,属性j缺失;标准差反映估计误差,根据估计误差提出新的区间计算公式如(6)所示:

其中,

公式(7)中,μj为K近邻样本集的样本均值,t=1.64;

最终缺失属性区间下限为公式(10)所示:

属性区间上限为公式(11)所示:

其中,xi为缺失数据xk的近邻样本,q为近邻样本的数目;公式中包含缺失数据的属性信息,对于缺失比例较高的数据仍然具有适用性;从公式可以看出,统计学中的样本方差能够反应数据分布的离散性;对于填充数据构成的最近邻样本,样本集的离散性反映了全部样本远离数据集中心的距离,符合区间构造规则;

同时,将完整属性数据集转换为区间型数据集,与不完整数据集保持统一数据形式;不完整数据集转换为区间数据集规则为:

(1)假设存在完整属性xkj,则转换后的属性区间[x-,x+]=[xkj,xkj],转换后的属性区间上下限值相等,与完整属性值相等;

(2)按照上述缺失属性区间计算公式,得到缺失属性区间;

4.3)改进KNN估值区间的区间数据模糊C均值聚类:对区间型数据进行模糊聚类分析;

设属性维度为s区间数据集数据对于任意的j(1≤j≤s),区间型模糊C均值算法的目标函数公式为:

表示第i个聚类中心,为聚类中心矩阵,i=1,2,...,c,j=1,2,...,s;

利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:

若存在区间型数据样本在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,隶属度矩阵U(c×n)更新公式为:

否则:

4.4)利用改进KNN估值区间的区间型模糊C均值聚类对步骤4.2)中得到的区间型数据集进行聚类,得到聚类结果。

所述的步骤4.4)中,具体步骤如下:

4.4.1)构造对不完整数据样本的最近邻样本集:依据最近邻规则选择最近邻样本,确定最近邻样本数q,构建不完整数据的q个最近邻样本集;

4.4.2)输入样本归一化:将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别;

4.4.3)填补缺失属性:根据区间填补公式(6)确定缺失属性区间大小;

4.4.4)区间化数据集:根据区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵:

4.4.5)初始化区间型FCM算法参数:初始化隶属度矩阵,并对聚类类别数迭代次数G、终止阈值ε、模糊指标m进行设置;

4.4.6)按照公式(15)和公式(16)更新聚类中心矩阵:依据U(l-1)对聚类中心矩阵V(l)进行更新;

4.4.7)按照公式(17)和公式(18)更新隶属度矩阵:依据V(l)对隶属度矩阵U(l)进行更新;

4.4.8)算法条件判断:当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回6)。

本发明创造的有益效果为:本发明采用上述方案,通过相似度计算公式来计算待填补样本和其他样本之间的距离,利用构成的近邻样本相应位置属性的极值点作为不完整数据填补区间,为进一步减小区间化填补数据的误差,对区间大小进行优化。考虑近邻样本集属性分布提出新的区间填补公式,对缺失数据进行填补,形成完整的区间数据集。本发明在区间型数据集上进行故障诊断分析。

具体实施方式

一种缺失数据的KNN区间型轴承故障诊断方法,其步骤为:

1)信号采样:用加速度计收集轴承的振动数据,选取数字信号的采样频率为12000Hz的轴承数据。

2)降噪处理:采用小波阈值降噪法,对高频小波系数做阈值量化处理,通过极大极小准则阈值函数对轴承时域信号进行软阈值去噪处理。

3)特征选择:计算峭度指标,偏态指标,峰值指标,峰值等时域特征参数,将其作为时域特征向量。

4)轴承故障诊断:

4.1)确定最近邻样本:根据最近邻规则为不完整数据选取相应的近邻样本集。不完整数据样本集中的不完整数据样本xa与数据样本xb,存在缺失属性或者不存在缺失属性均可,相似性度量公式如公式(1):

其中,xia和xib分别是样本xa和样本xb的第i个属性;

Ii表达式为式(2):

n表示数据集中样本总数。

通过属性相关的相似度计算公式(1)和(2),可以得到不完整数据样本的最近邻样本,构成缺失数据的近邻样本集。具体的不完整数据样本和其最近邻样本之间相似度的计算过程为:假设有一个包含有5个数据属性值的不完整数据样本表示为xa=(5,?,?,3,?),其中“?”表示丢失的数据属性值,它的最近邻数据样本之一表示为xb=(5,8,?,2,6),其相似度的计算过程如式(3)所示:

4.2)利用近邻样本属性确定缺失数据的填补区间,考虑近邻样本集属性分布提出新的区间填补公式:通过KNN选取的近邻样本边界值确定缺失数据属性的区间范围,以极值点作为填补区间的左右端点值。区间左端点与右端点如公式(4)与(5)所示:

假设有一个数据x1=(?,0.24,0.39,0.61),第一个属性缺失,按照KNN选择规则,假设近邻样本选取数目为4,根据样本相似度计算公式,计算四个近邻样本分别为:x4=(0.48,0.23,0.43,0.62)、x5=(0.50,0.23,0.43,0.55)、x6=(0.52,0.22,0.41,0.57)、x10=(0.49,0.24,0.38,0.63)按照与的计算方法确定缺失属性左端点为0.48,右端点为0.52,因此得到区间数据为[0.48,0.52]。

上述基于KNN的区间构建,以近邻样本本身携带的数据信息构建区间宽度,只考虑极值信息,左端点为属性最小值,右端点为属性最大值,以属性边界确定填补区间大小,具有一定的局限性。缺失数据属性大小不仅与近邻样本边界值有关,样本分布特征对缺失属性填补也具有重要作用。缺失属性区间的构造方法影响区间型模糊C均值算法的聚类分析。样本与聚类中心的距离都是基于区间型数据进行计算,因此缺失数据区间大小将影响聚类结果。对缺失数据的区间估计越精准,对聚类分析越有利。为了进一步精确估计区间宽度,提出一种基于概率信息分布的KNN区间估计,在KNN构造的近邻样本空间上,构造基于缺失属性的KNN估计区间,引入到模糊C均值算法(FCM)的距离计算公式中,最后进行区间聚类分析。

假设存在属性缺失样本xk,属性j缺失。标准差反映估计误差,根据估计误差提出新的区间计算公式如(6)所示:

其中,

公式(7)中,μj为K近邻样本集的样本均值,t=1.64。

最终缺失属性区间下限为公式(10)所示:

属性区间上限为公式(11)所示:

其中,xi为缺失数据xk的近邻样本,q为近邻样本的数目。公式中包含缺失数据的属性信息,对于缺失比例较高的数据仍然具有适用性。从公式可以看出,统计学中的样本方差能够反应数据分布的离散性。对于填充数据构成的最近邻样本,样本集的离散性反映了全部样本远离数据集中心的距离,符合区间构造规则。

下面以一个具体实例详细计算一个缺失样本的区间填补过程。假设有一个数据x1=(?,0.24,0.39,0.61),第一个属性缺失,按照近邻样本选择规则,假设近邻样本选取数目为4,选取出四个近邻样本分别为:x4=(0.48,0.23,0.43,0.62)、x5=(0.50,0.23,0.43,0.55)、x6=(0.52,0.22,0.41,0.57)、x10=(0.49,0.24,0.38,0.63),根据区间填补公式计算得μ=0.4975,σ=0.0168,因此得到区间数据为[0.4883,0.5114]。

同时,将完整属性数据集转换为区间型数据集,与不完整数据集保持统一数据形式。不完整数据集转换为区间数据集规则为:

(1)假设存在完整属性xkj,则转换后的属性区间[x-,x+]=[xkj,xkj],转换后的属性区间上下限值相等,与完整属性值相等。

(2)按照上述缺失属性区间计算公式,得到缺失属性区间。

4.3)改进KNN估值区间的区间数据模糊C均值聚类:对区间型数据进行模糊聚类分析;

设属性维度为s区间数据集数据对于任意的j(1≤j≤s),区间型模糊C均值算法的目标函数公式为:

表示第i个聚类中心,为聚类中心矩阵,i=1,2,...,c,j=1,2,...,s;

利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:

若存在区间型数据样本在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,隶属度矩阵U(c×n)更新公式为:

否则:

4.4)利用改进KNN估值区间的区间型模糊C均值聚类对步骤4.2)中得到的区间型数据集进行聚类,得到聚类结果。具体步骤如下:

4.4.1)构造对不完整数据样本的最近邻样本集:依据最近邻规则选择最近邻样本,确定最近邻样本数q,构建不完整数据的q个最近邻样本集;

4.4.2)输入样本归一化:将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别;

4.4.3)填补缺失属性:根据区间填补公式(6)确定缺失属性区间大小;

4.4.4)区间化数据集:根据区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵;

4.4.5)初始化区间型FCM算法参数:初始化隶属度矩阵,并对聚类类别数迭代次数G、终止阈值ε、模糊指标m进行设置;

4.4.6)按照公式(15)和公式(16)更新聚类中心矩阵:依据U(l-1)对聚类中心矩阵V(l)进行更新;

4.4.7)按照公式(17)和公式(18)更新隶属度矩阵:依据V(l)对隶属度矩阵U(l)进行更新;

4.4.8)算法条件判断:当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回6)。

实施例1:

一、本发明方案的理论依据:

1、区间型模糊C均值

区间模糊C均值的数据均是区间表示。设属性维度为s区间数据集数据对于任意的j(1≤j≤s),区间型模糊C均值算法的目标函数公式为:

其中表示第i个聚类中心,为聚类中心矩阵,表示为i=1,2,...,c,j=1,2,...,s。

公式(19)达到极小值的条件为:

若存在区间型数据样本在某个聚类中心的区间值内,其隶属度设为1,反之则其隶属度为0不属于该类,公式为:

否则

2、K近邻方法(KNN,K Nearest Neighbors)

最近邻原则目前己经被广泛应用到缺失样本的填充问题当中。随着不断研究与发展,诸多学者将其应用在模糊聚类与缺失数据的填充领域。从现实规律出发,缺失属性值通常与它们相近位置的邻居点属性值相关联。近些年以来,K近邻(K-Nearest Neighbor,KNN)规则被越来越多的人用来处理缺失数据,通过引入缺失样本与邻域内数据之间的相似性,引导缺失属性填补。

3、近邻样本集的属性分布信息

假设存在属性缺失样本xk,属性j缺失。根据相似度计算公式选取出缺失属性近邻样本集,对缺失属性xjk的近邻样本集空间信息进行描述,其数字特征为公式(26)与(27)所示:

这里μjk,δjk2分别为均值与方差,q为近邻样本的数目。

μjk反映近邻样本分布的集中趋势;δjk2反映近邻样本空间分散性,δjk2越小代表近邻样本集分布越紧凑,估值区间宽度应越小,对缺失属性估值更精准。

二、本发明技术方案的实现过程:

1.信号采样:用加速度计收集轴承的振动数据,选取数字信号的采样频率为12000Hz的轴承数据;

2.降噪处理:采用小波阈值降噪法,对每层高频小波系数做阈值量化处理,通过极大极小准则阈值函数对轴承时域信号进行软阈值去噪处理;

3.特征选择:计算峭度指标,偏态指标,峰值指标,峰值等时域特征参数,将其作为时域特征向量;

4.轴承故障诊断:

4.1.确定最近邻样本:根据最近邻原则选取近邻样本,提出相似度计算公式计算缺失样本和其他样本之间的距离,根据样本数据之间得到的相似度距离来确定不完整样本的的q个近邻样本。对计算得到的距离进行从小到大的排序,距离最近的q个样本组成该待填补样本的邻域样本集;

4.2.利用近邻样本属性确定缺失数据的填补区间,考虑近邻样本集属性分布提出新的区间填补公式:通过KNN选取的近邻样本边界值确定缺失数据属性的区间范围,以极值点作为填补区间的左右端点值。考虑近邻样本的分布信息优化填补区间,将完整的数据区间化;

4.3.提出一种缺失数据的KNN区间型轴承故障诊断方法,对区间型数据进行模糊聚类分析;

4.4.缺失数据的KNN区间型轴承故障诊断方法与四种不完整数据聚类方法进行对比。方法评价标准选取平均聚类错分数、迭代次数和5种外部评价指标进行分析。

其中5种外部评价指标分别为:Rand Index,Adjusted Rand Index,Jaccard Coefficient,Minkowski Measure以及ΓStatistics。评价指标Minkowski Measure数值越小,聚类算法性能越好。其余4种评价指标数值越大,聚类算法性能越好。上述几种外部评价指标的公式如表1所示。

表1聚类的外部有效性评价指标公式

表1中,矩阵R代表数据样本的实际分类情况,Q代表聚类算法的模糊划分情况。R中在同一簇的样本对集合用V表示,R中不在同一簇的样本对集合用X表示,Q中在同一簇的样本对的模糊集合用Y表示,Q中不在同一簇的样本对的模糊集用Z表示。则上述公式中,a=|V∩Y|,b=|V∩Z|,c=|X∩Y|,d=|X∩Z|。

实验对比使用的轴承数据集:本发明使用凯斯西储大学轴承数据集中故障直径为0.007ft,数字信号采样频率为12000Hz的驱动轴承数据用于智能诊断,将四种负载0条件下的信号进行数据预处理,每种轴承状态各取50种。

取数据集在缺失比例5%,10%,15%和20%的十次均值。实验结果如下所示(其中最优结果为黑体标记,次优结果用下划线标记)。

表2平均聚类错分数

表3平均迭代次数

表4外部评价指标

表2记录本发明算法与四种改进算法在不同缺失率情况下运行的平均误分数指标。平均聚类错分数代表聚类分析结果的准确率,实验结果表明本发明算法对比四种改进算法聚类精度明显提高,有较好的聚类效果。随着缺失率的提高,本发明算法平均错分数对比其他算法更加稳定,有更高的鲁棒性。

除了聚类平均误差数,模糊聚类的外部评价指标对于聚类分析也具有重要的指导意义,能够衡量算法的聚类性能。从5种外部评价指标来看,本发明算法虽未在所有数据集四种缺失率下,取得全部最优结果,但在整体上聚类效果优于其他四种不完整数据算法,证明本发明算法在不完整数据聚类方面具有优越的性能。

表3记录本发明算法与其他算法的平均迭代次数。迭代次数可以衡量算法的收敛速度,以及是否可以收敛。从实验数据上看,本发明算法在整体上虽然没有全部取得最优的迭代次数,但算法均能收敛比较稳定。

本发明提出的算法对缺失数据属性在近邻样本空间上进行估值处理,利用KNN样本间的相似性,考虑样本属性分布提出新的区间填补公式对缺失属性进行区间数据填补,有较好的填充效果,对轴承的故障诊断具有积极意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1