一种基于自然近邻类的机械监测标签数据质量保障方法

文档序号:29809199发布日期:2022-04-27 02:22阅读:126来源:国知局
一种基于自然近邻类的机械监测标签数据质量保障方法

1.本发明涉及大数据处理与机械故障诊断技术领域,尤其是一种基于自然近邻类的机械监测标签数据质量保障方法。


背景技术:

2.机械状态监测已经进入大数据时代,同时也带来了巨大的机遇和挑战。现有技术利用大数据进行处理和挖掘,以准确识别机械状态或诊断故障。然而,大数据所具有的特殊属性,使得处理这些大数据进行故障诊断成为一个挑战。许多传统的故障诊断方法都是基于信号处理技术构建的,通常基于专家经验执行,因此不适合处理监测大数据。为了解决这一问题,基于深度学习方法的智能故障诊断技术越来越受到研究者的重视,以期更快速、更高效地处理海量数据。尽管这些智能故障诊断方法为处理高容量、高速度和低值密度的监测数据提供了一种有效的方法,但这些方法仍然存在许多关键和开放性问题,包括处理多种类和低质量的数据。由于环境干扰和数据采集设备故障,通常会产生质量较差的数据,因此这些数据与机械健康状况无关。基于这些低质量的数据进行训练,由基于机器学习的方法的“垃圾进,垃圾出”的特殊性质,可能得到不可靠的智能故障诊断模型。通过对低质量数据对机器学习性能的影响进行的大量研究,均发现分类精度随着训练数据质量的降低而降低。因此,基于这些不可靠的模型会得到错误的诊断结果。
3.为了解决这个问题,应该使用一些数据清理方法来检测和删除低质量的数据,以保证监测数据的质量。现有的低质量数据检测方法不能用于标签数据的质量保证,原因如下,首先,不同标签的数据之间存在差异,一个标签的数据可能被错误地从包含另一个标签的数据中检测为低质量数据。此外,当存在许多具有相似特征的低质量数据时,这些方法无法通过检测低质量数据进行故障识别。另外,在实际工程中,常见的标签未知的数据不能直接用于智能故障诊断建模,降低了数据质量。针对现有的低质量数据检测方法的缺点,并且在手动标记这些数据上花费了大量精力,本发明提出一种自动标记数据的方法。


技术实现要素:

4.本发明目的解决现有技术缺陷,采用自然近邻自动识别和标记技术,提高大数据自动检测数据质量和标签数据质量,进一步提高智能故障诊断建模和机械监测数据质量。
5.为解决上述技术问题,本发明所采用的技术方案是:
6.一种基于自然近邻类的机械监测标签数据质量保障方法,包括步骤如下:
7.s1:提取机械各标签数据的时域特征、频域统计特征,构建具有特征属性的数据对象集:
8.p{p1,p2,

pn};
9.s2:基于自然近邻思想,对于构建的数据对象集,通过搜索自然近邻信息构建互访问路径,形成近邻图,具体包括以下子步骤:
10.s21:设置初始化参数,使数据对象集内任意对象pi对应的自然邻居状态nb(pi)为
0;任意对象pi的k邻居集nk(pi)为空集;任意对象pi的互k近邻集mnk(pi)为空集;
11.s22:搜索k=1时,pi的k近邻并存入nk(pi),再搜索nk(pi)中对象pi的k近邻,若pi属于集合nk(pi),说明二者互为近邻,此时pi的自然邻居状态nb(pi)=1;
12.s23:将s22步骤的搜索过程看作一次迭代,将迭代停止条件设定为迭代前后两次拥有互近邻数增加值是否小于k,如小于k则停止迭代;如不小于k,则令k自增1后再次带入s22步骤进行迭代;
13.s24:当搜索停止时,数据对象集达到自然稳定状态,得到的k值即为自然特征值r,基于自然近邻关系构建出自然近邻图;
14.s3:根据步骤s2构建起的自然近邻图,通过自然近邻关系查询自然近邻类,确定同类对象,具体包括以下子步骤:
15.s31:通过查询v中顶点的自然近邻数,从大到小排序,查找出近邻数最多的顶点并将其记作为v;
16.s32:基于类的定义对步骤s31中指定的顶点进行查询,将v与v的自然近邻点nr(v)归为第一类,即c1,此时c1内除了v的点都与v存在边直接相连;
17.s33:自然近邻图的形成还包括间接连接的可达路径,所以进一步迭代查询c1内点的自然近邻点即nr(c1),直至迭代第m次与m-1次的c1元素个数之差为0为止,表示与v共自然近邻图域的顶点均已被搜索到;
18.s34:将c1元素从顶点集合v中全部去除,重复s31,s32,s33的查询过程,直至v变为空集为止;
19.s35:将构建的类集按照类数目由大到小重新排序,可获得新的数据类集:
20.c={c1,c2,

,cn}且|c1|≥|c2|≥

|cn|;
21.s4:为了描述不同类的质量高低,基于自然近邻类,在传统局部异常因子方法的基础上构建一种新的类局部异常因子算法,构建流程如下:
22.s41:对于数据类集c={c1,c2,

,cn}且|c1|≥|c2|≥

|cn|,从中选出高质量类,记为ch={c1,c2,

,c
l
},其他类称为可疑类,记为c
sus
={c
l+1
,c
l+2


,cn};
23.s42:计算高质量类内各个对象的局部异常因子值clof;
24.s43:通过计算类间距离评估可疑类与高质量类相似程度;
25.s44:借助可疑类与高质量类相似程度及已获得的高质量点异常程度,计算可疑类局部异常因子值clof

(c
l+q
),以此评估可疑类内点的异常程度;
26.s45:引入角度异常检测,进一步修正可疑类局部异常因子,防止部分正常数据误检测为异常,算得对象pw的角度离群系数abof(pw),pw∈d,求得修正后c
l+q
的类局部异常因子clof(c
l+q
);
27.s5:对低质量数据检测和未知标签进行识别,具体包括以下步骤:
28.s51:低质量数据的检测;由步骤s4获得的类局部异常因子包括高质量类和可疑类的clof,低质量数据的确定通过设定阈值λ进一步判断,若可疑类clof超过λ,则判定该类数据质量较低,否则说明该类数据属于高质量数据,从而将检测出的低质量数据剔除,提高标签数据准确性;
29.s52:由步骤s51针对低质量剔除后的标签数据,再次重构自然近邻图,该环节自然近邻搜索停止条件设定为前后两次互近邻对象不再增加为止;
30.s53:根据所形成的的自然近邻图,获得各高质量类,并判断监测数据的具体标签种类,有以下三种结果:
31.(1)若pi数据对象代表的故障标签为而pi∈cj,则类cj内所有数据对象的故障标签为
32.(2)若类cj内不存在已知标签数据对象,且类cj属于可疑类,则类cj与离其最近的高质量类故障标签类别相同;
33.(3)若以上两种结果都不发生,则判定类cj内所有数据对象的故障标签为新故障类别。
34.本发明技术方案的进一步改进在于:步骤s2中,自然近邻思想包括以下六个定义:
35.(1)自然稳定状态:搜索数据对象集中的k近邻,其中k依次取k=1,2,3,

,n直到所有对象都存在一个互近邻时,认为搜索达到自然稳定状态,即:
36.且i≠j使得pi∈nk(pj)∧pj∈nk(pi);
37.(2)自然特征值:搜索达到自然稳定状态时的k值便为自然特征值r,该值表示为:
38.(3)自然邻居:搜索达到自然稳定状态时,互为近邻也称为自然近邻,数据对象的pi的近邻集称为pi的自然邻居集nr(pi),该关系表达为:
[0039][0040]
(4)自然邻居状态:对于按照pi是否存在自然邻居,其自然邻居状态存在0和1两种状态,即:
[0041][0042]
(5)自然邻居数:自然邻居集元素的个数称为自然邻居数,即:
[0043][0044]
(6)自然邻域图:搜索达到自然稳定状态时,近邻关系构建而成的邻域图gn称为数据集p的自然邻域图,该图表达为:
[0045]gn
=(v,e),
[0046]
式中v和e分别代表图的顶点集{vi,i=1,2,

n}和边集{ej,j=1,2,

n},存在自然近邻关系的对象在自然近邻图上表现为存在边的连接关系,否则,不存在边的连接,任意两个顶点vi和vj,若存在一条边,则vi与vj存在如下自然近邻关系:
[0047][0048]
本发明技术方案的进一步改进在于:步骤s2中,迭代搜索方法的停止条件需满足下式:
[0049][0050]
本发明技术方案的进一步改进在于:步骤s3中,类的定义为若从自然近邻图中的顶点v1到顶点v2,存在对应的可达路径并记为e1→ei
→…
e2,则代表v1与v2间关系紧密,即顶点v1与v2为同一类,且称v1与v2共自然近邻图域,否则为不同类;对类的迭代查询的停止条件需满足下式:
[0051][0052]
本发明技术方案的进一步改进在于:步骤s4中,从数据类集c={c1,c2,

,cn}且|c1|≥|c2|≥

|cn|对高质量类ch的选择需通过以下方法进行:
[0053]
对于给定参数β,选出的高质量类ch需同时满足以下两个条件:
[0054]
(1)|c1|+|c2|+

+|c
l
|≥nβ;
[0055]
(2)|c1|+|c2|+

+|c
l-1
|≤nβ;
[0056]
式中:n为数据点总个数,β值取为90%,表示前l类中已经包括了90%监测数据,具有高度的聚集性,由此确定前l类为高质量标签数据类。
[0057]
本发明技术方案的进一步改进在于:步骤s4中,对高质量类clof的计算需通过下列表达式进行:
[0058][0059]
式中:分别代表cj类中对象pj的k的近邻且k为自然特征值、对象o的局部可达密度、以及对象pj的局部可达密度。
[0060]
本发明技术方案的进一步改进在于:步骤s4中,评估可疑类与高质量类间相似程度的类间距离定义为可疑类集c
sus
中某一类c
l+q
(1≤q≤n-l)到高质量集ch内类的最小距离,表达式为:
[0061][0062]
本发明技术方案的进一步改进在于:步骤s4中,可疑类局部异常因子值clof

(c
l+q
)的计算需通过下列表达式进行:
[0063][0064]
式中:pw为cm中点,且满足d(c
l+q
,pw)=d(c
l+q
,cm),m=arg min(d(c
l+q
,ci))。
[0065]
本发明技术方案的进一步改进在于:步骤s4中,引入角度异常检测对类局部异常因子进一步修正,所遵循的原理为:点簇内任意一点ow四面八方都存在着其他点,各点与其形成的角度变化范围比较大,簇边界点与周围点形成夹角变化范围要小于簇内点,而方差能够衡量随机变量的离散程度,夹角的离散程度便可以通过夹角的方差var(ow)来衡量,具体通过以下步骤进行:
[0066]
(1)对任意对象pw,pw∈d,该点与其周围任意两点p
x
、py且w≠x≠y形成夹角,大小用其余弦来衡量,表示为:
[0067][0068]
式中:表示两向量的点积,分别为向量和的模;离散型随机变量方差表示为:
[0069]
var(x)=e[(x-e[x])2]=e[x2]-e2[x],
[0070]
式中:x为随机变量,e[x]为随机变量x的期望;
[0071]
(2)采取距离权重因子化的夹角方差,获得对象pw的角度离群系数abof(pw):
[0072][0073]
(3)将abof归一化到[0,1]区间,若pw相对于高质量类cm离群程度较高,则abof(pw)的值越小,据此,得到修正后c
l+q
的类局部异常因子表达为:
[0074]
clof(c
l+q
)=clof

(c
l+q
)*exp(-abof(pw))。
[0075]
本发明技术方案的进一步改进在于:步骤5中,再次重构自然近邻图时的搜索停止条件应满足下式:
[0076][0077]
与现有技术相比,本发明提供一种基于自然近邻类的机械监测标签数据质量保障方法有益效果如下:
[0078]
1、本发明提出一种基于自然近邻类的机械监测标签数据质量保障方法,该方法用于机械监测标签数据的质量保障,该方法基于非参数算法构造的自然近邻图,能够建立标签数据不同样本之间的关系,通过这种关系,可以搜索不同的类,计算类局部离群因子来评估不同类的异常程度,将clof大于预定阈值的类检测为低质量数据,对清洗后的标签数据进行自然近邻图重构,基于该自然近邻图,可以检测错误标记的数据,并识别未标记数据的
标签,此外,它还可用于查找带有新类型的标签数据。
附图说明
[0079]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0080]
图1是本发明自然近邻类局部异常因子方法流程;
[0081]
图2是本发明自然近邻搜索流程;
[0082]
图3是本发明自然近邻类查询流程;
[0083]
图4是本发明基于角度的异常度量方法示意图;
[0084]
图5是根据实施例1的监测数据构建起的自然近邻图中前5类分布情况;
[0085]
图6是实施例1的全部数据的类自然近邻异常因子图示;
[0086]
图7是实施例1中清除低质量数据后重建的自然近邻图;
[0087]
图8是实施例1识别样本的故障类型图示。
具体实施方式
[0088]
为了自动检测低质量数据和标签数据以保证标签质量,提出了一种基于自然近邻的聚类局部异常因子检测方法(clof)。自然近邻背后的灵感来源于人类社会的友谊,即两个人只有都把对方视为真正的朋友,才能被视为真正的朋友。自然近邻的概念是,只有当任一点属于另一点的邻域时,两个点才能被视为自然近邻。基于这一思想,可以在不设置参数的情况下根据标签数据的条件搜索自然近邻。具体来说,如果某个标签的数据具有高密度,则这些数据的最近邻数将具有大值,而低密度的数据将具有小的最近邻数。该方法首先构造自然近邻图,基于自然近邻关系,可以构造出自然近邻图。其次,根据自然近邻图搜索自然邻居类。第三,计算不同类(包括高质量类和可疑类)的局部离群度。最后,根据这些聚类局部异常因子从各种标签数据中检测出低质量数据,然后根据已知标签数据与未知标签数据之间的自然近邻关系识别标签。
[0089]
如图1所示,一种基于自然近邻类的机械监测标签数据质量保障方法,包括自然近邻图构建、自然近邻类查询、自然近邻clof计算和标签识别,具体步骤如下:
[0090]
s1:提取机械各标签数据的时域特征、频域统计特征,构建具有特征属性的数据对象集:
[0091]
p{p1,p2,

pn};
[0092]
s2:基于自然近邻思想,有以下六个定义:
[0093]
(1)自然稳定状态:搜索数据对象集中的k近邻,其中k依次取k=1,2,3,

,n直到所有对象都存在一个互近邻时,认为搜索达到自然稳定状态,即:
[0094]
且i≠j使得pi∈nk(pj)∧pj∈nk(pi);
[0095]
(2)自然特征值:搜索达到自然稳定状态时的k值便为自然特征值r,该值表示为:
[0096]
[0097]
(3)自然邻居:搜索达到自然稳定状态时,互为近邻也称为自然近邻,数据对象的pi的近邻集称为pi的自然邻居集nr(pi),该关系表达为:
[0098][0099]
(4)自然邻居状态:对于按照pi是否存在自然邻居,其自然邻居状态存在0和1两种状态,即:
[0100][0101]
(5)自然邻居数:自然邻居集元素的个数称为自然邻居数,即:
[0102][0103]
(6)自然邻域图:搜索达到自然稳定状态时,近邻关系构建而成的邻域图gn称为数据集p的自然邻域图,该图表达为:
[0104]gn
=(v,e),
[0105]
式中,v和e分别代表图的顶点集{vi,i=1,2,

n}和边集{ej,j=1,2,

n},存在自然近邻关系的对象在自然近邻图上表现为存在边的连接关系,否则,不存在边的连接,任意两个顶点vi和vj,若存在一条边,则vi与vj存在如下自然近邻关系:
[0106][0107]
对于构建的数据对象集,通过搜索自然近邻信息构建互访问路径,形成近邻图,具体包括以下子步骤:
[0108]
s21:设置初始化参数,使数据对象集内任意对象pi对应的自然邻居状态nb(pi)为0;任意对象pi的k邻居集nk(pi)为空集;任意对象pi的互k近邻集mnk(pi)为空集;
[0109]
s22:搜索k=1时,pi的k近邻并存入nk(pi),再搜索nk(pi)中对象pi的k近邻,若pi属于集合nk(pi),说明二者互为近邻,此时pi的自然邻居状态nb(pi)=1;
[0110]
s23:将s22步骤的搜索过程看作一次迭代,将迭代停止条件设定为迭代前后两次拥有互近邻数增加值是否小于k,如小于k则停止迭代;如不小于k,则令k自增1后再次带入s22步骤进行迭代;
[0111]
s24:当搜索停止时,数据对象集达到自然稳定状态,得到的k值即为自然特征值r,基于自然近邻关系构建出自然近邻图;
[0112]
搜索自然近邻的迭代流程请参见图2;
[0113]
s3:根据步骤s2构建起的自然近邻图,通过自然近邻关系查询自然近邻类,确定同类对象,类的定义为若从自然近邻图中的顶点v1到顶点v2,存在对应的可达路径并记为e1→ei
→…
e2,则代表v1与v2间关系紧密,即顶点v1与v2为同一类,且称v1与v2共自然近邻图域,否则为不同类;具体包括以下子步骤:
[0114]
s31:通过查询v中顶点的自然近邻数,从大到小排序,查找出近邻数最多的顶点并将其记作为v;
[0115]
s32:基于步类的定义与步骤s32中指定的顶点进行查询,将v与v的自然近邻点nr
(v)归为第一类,即c1,此时c1内除了v的点都与v存在边直接相连;
[0116]
s33:自然近邻图的形成还包括间接连接的可达路径,所以进一步迭代查询c1内点的自然近邻点即nr(c1),直至迭代第m次与m-1次的c1元素个数之差为0为止,表示与v共自然近邻图域的顶点均已被搜索到;
[0117]
s34:将c1元素从顶点集合v中全部去除,重复s31,s32,s33的查询过程,直至v变为空集为止;
[0118]
s35:将构建的类集按照类数目由大到小重新排序,可获得新的数据类集:
[0119]
c={c1,c2,

,cn}且|c1|≥|c2|≥

|cn|;
[0120]
类的迭代查询流程请参见图3;
[0121]
s4:基于自然近邻类,在传统局部异常因子方法的基础上构建一种新的类局部异常因子算法,构建流程如下:
[0122]
s41:对于数据类集c={c1,c2,

,cn}且|c1|≥|c2|≥

|cn|,从中选出高质量类,记为ch={c1,c2,

,c
l
},其他类称为可疑类,记为c
sus
={c
l+1
,c
l+2


,cn};
[0123]
s42:计算高质量类内各个对象的局部异常因子值clof;
[0124][0125]
式中:分别代表cj类中对象pj的k的近邻且k为自然特征值、对象o的局部可达密度、以及对象pj的局部可达密度;
[0126]
s43:通过计算类间距离评估可疑类与高质量类相似程度;类间距离定义为可疑类集c
sus
中某一类到高质量集ch内类的最小距离,表达式为:
[0127][0128]
s44:借助可疑类与高质量类相似程度及已获得的高质量点异常程度,计算可疑类局部异常因子值以此评估可疑类内点的异常程度;可疑类局部异常因子值的计算需通过下列表达式进行:
[0129][0130]
式中:pw为cm中点,且满足中点,且满足
[0131]
s45:引入角度异常检测,进一步修正可疑类局部异常因子,防止部分正常数据误检测为异常,算得对象pw的角度离群系数abof(pw),pw∈d,求得修正后的类局部异常因子
[0132]
角度异常因子图示说明请参见图4;
[0133]
s5:对低质量数据检测和未知标签进行识别,具体包括以下三个步骤:
[0134]
s51:低质量数据的检测;由步骤s4获得的类局部异常因子包括高质量类和可疑类的clof,低质量数据的确定通过设定阈值λ进一步判断,若可疑类clof超过λ,则判定该类数据质量较低,否则说明该类数据属于高质量数据,从而将检测出的低质量数据剔除,提高标签数据准确性;
[0135]
s52:由步骤s51针对低质量剔除后的标签数据,再次重构自然近邻图,该环节自然近邻搜索停止条件设定为前后两次互近邻对象不再增加为止;
[0136]
s53:根据所形成的的自然近邻图,获得各高质量类,并判断监测数据的具体标签种类,有以下三种结果:
[0137]
(1)若pi数据对象代表的故障标签为而pi∈cj,则类cj内所有数据对象的故障标签为
[0138]
(2)若类cj内不存在已知标签数据对象,且类cj属于可疑类,则类cj与离其最近的高质量类故障标签类别相同;
[0139]
(3)若以上两种结果都不发生,则判定类cj内所有数据对象的故障标签为新故障类别。
[0140]
结合具体实施例和附图对本发明进一步详细说明:
[0141]
实施例1
[0142]
用齿轮的实验数据验证本发明提出方法的有效性。实验装置主要由一个电动机,一个滑轮,一个变速箱和一个磁粉制动器组成,电动机用于通过输送带为滑轮供电,滑轮通过轴连接到变速箱并驱动变速箱的小齿轮。变速箱有一对高速级齿轮,包括小齿轮(驱动)和车轮(驱动)。磁粉制动器用于提供调节负载。变速箱内安装振动加速度计,收集振动数据,加速度计采样频率为5.12khz。
[0143]
振动数据是在三种类型的故障下收集的,包括正常情况,车轮断齿,车轮点蚀,小齿轮磨损。总共收集了176个数据样本,每个条件有44个样本。从正常,小齿轮磨损和车轮点蚀三种情况中随机抽取10个样本,标记为相应的故障类型。其他包括正常,小齿轮磨损和车轮点蚀的34个样品以及整个车轮破损样品被认为是标签未知的样品。
[0144]
为了进一步保证这些数据的质量,进一步构建基于深度学习的模型,将所提出的方法应用于这些数据。构建起的自然近邻图请参见图5,其中使用主成分分析法获得的前三个特征分量用于表示x,y和z轴。然后查询自然近邻类,将类分别标记为c1至c
18
。包括c1,c2,c3,c4和c5在内的前五类请参见图5。如图5中所标注的c1,c2,c3和c4类被检测为高质量类,因为这四个类的总数超过样品总数的90%。其他类被认为是可疑类,可能存在较差质量。为了定量评估数据质量,计算样本点的clof值,其图示结果请参见图6。
[0145]
标记为c5至c
18
的类被检测为低质量数据并从整个数据样本中清除。之后,重建自然近邻图,重建起的自然近邻图请参见图7。与图5所示的结果相比,图7所示的重构自然近邻图不包含异常样本。但是,应该指出的是,仍然有大量标签未知的数据不能直接用于训练深度学习模型。因此,将进一步确定标记为故障类型的未知标签。可以根据自然近邻图构建的关系来识别样本的故障类型,最终识别结果请参见图8。
[0146]
以上步骤可以看出,提出方法不但考虑了低质量离群数据的识别和剔除,而且还
涵盖了标记未知标签数据的类型、对新故障标签数据进行初步判断等环节,能够克服三个方面因素导致的标签数据质量降低,进而保障标签数据质量。
[0147]
综上所述,为了提高标签数据的质量,本文提出了一种基于自然近邻类的机械监测标签数据质量保障方法,该方法主要包括四个阶段:自然邻谱构建、自然邻簇搜索、clof计算和标签识别。邻域谱能够建立不同数据样本之间的关系;根据关系搜索不同的聚类,clof能够评估这些聚类的质量程度;通过重新构建自然邻域图,对低质量的聚类进行清理,重建不同聚类之间的关系;通过在自然邻域图中搜索与数据相关的标记数据,可以确定未知数据的故障类型。对齿轮的实验结果表明,该方法能够有效地检测不同标签数据中的低质量数据,此外,该方法还可以对未知数据进行标记,从而提高了标记数据的质量。本方法对基于大数据处理的机械故障诊断及监测状态的标签识别质量具有重要意义。
[0148]
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明装置权利要求书确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1