一种故障数据标记方法及故障识别装置与流程

文档序号:20581431发布日期:2020-04-29 01:30阅读:507来源:国知局
一种故障数据标记方法及故障识别装置与流程

本发明涉及数据处理领域,特别涉及一种故障数据标记方法及故障识别装置。



背景技术:

有数据表明,除去飞行员人为操作失误导致的事故,有52%的飞行器硬件故障为飞行系统故障,而在飞行系统故障中有36%的故障为动力系统故障。航空发动机作为整个飞行系统的动力中心,有着构造复杂且工作环境恶劣的特点。如何保障其安全平稳的运行,是对航空发动机维修与保障技术一个挑战。航空发动机故障诊断技术可以对与发动机工作状态紧密相关的各种参数实施监测,判断或预报故障类型,在保障飞行安全的同时也可以提高维修效率。这些对于航空工业以及航空运输业都有着重大意义和深远影响。

随着数据挖掘与处理技术的日渐成熟,机载监控设备以及地面嵌入式子系统的日渐完善,基于信息融合技术的航空发动机故障诊断方法也随之兴起并被广泛应用在航空发动机故障诊断领域。一篇于2015年发表于“自动化仪表”第36卷第1期的名称为“航空发动机气路改进神经网络故障诊断研究”的文章,应用改进型的bp神经网络对航空发动机气路数据进行了分析与研究;一篇于2017年发表于“推进技术”第38卷第5期的名称为“基于监督流形学习的航空发动机振动故障诊断方法”的文章,在应用流形学习对航空发动机进行故障提取后,应用带有rbf核的支持向量机以及k-近邻分类器对特征数据进行分类处理;一篇于2017年发表于“推进技术”第38卷第11期的名称为“应用深度核极限学习机的航空发动机部件故障诊断”的文章,提出了应用深度核极限学习机的航空发动机部件故障诊断技术。这些技术的诞生及应用对航空发动机故障诊断技术有着很高的应用价值。然而,这些基于有监督学习发展出来的航空发动机故障诊断技术都需要大量而准确的有标记数据对故障诊断模型进行训练后才能精准的完成故障诊断任务。因此,如何对未知的航空发动机数据进行数据标注,使其成为能够为故障诊断模型提供数据支持的训练数据集是一个十分值得研究的课题。

随着数据记录及存储技术的发展,各行各业包括航空工业及航空运输业所产生的数据呈爆炸性增长,传统的人工数据标注方法已经无法满足行业需求。聚类算法作为一种无监督学习的算法,可以不经过训练,直接从数据的内部结构入手,对未标记的数据集进行分类与标记。一篇于2015年发表于“计算机工程与设计”的名称为“基于聚类和拟合的qar数据离群点检测算法”的文章,在航空发动机故障诊断领域,提出了一种基于k-means与最小二乘法的航空发动机qar数据离群点研究;一篇于2014年发表于“振动与冲击”第33卷第1期的名称为“基于相似性传播聚类的航空发动机突发故障诊断”的文章,将相似性传播聚类算法应用于航空发动机突发故障诊断;一篇于2015年发表于“南昌航空大学”的名称为“基于网格细化小波聚类的航空发动机转子系统故障诊断》应用基于网格细化小波聚类算法对航空发动机转子系统进行了故障分类。

当前故障数据进行分析的聚类算法均需要在分类之前确定待分类数据集中簇类别数或是簇类别数的大概范围,对于簇类别数未知的数据集分类能力有限,因此无法对簇类别数未知的故障数据集进行标记。



技术实现要素:

有鉴于此,本发明提供了一种故障数据标记方法及故障识别装置,本发明的技术方案如下:

第一方面,本发明提供了一种故障数据标记方法,包括如下步骤:

步骤1:获取未标记的故障数据集;

步骤2:确定截断距离;

步骤3:求出故障数据集中每一个数据点的局部密度ρ和距离δ;

步骤4:绘制出故障数据集的聚类中心决策图;

步骤5:优化故障数据集的聚类中心决策图,确认最终的簇类别数及聚类中心;

步骤6:人工研判每个聚类中心所属的故障类别;

步骤7:对故障数据集进行聚类,标记每一个数据点,最终形成带标签的故障数据集。

根据本发明实施例的一种具体实现方式,所述步骤1包括如下步骤:

步骤1.1:获取未标记的故障数据集;

步骤1.2:选取典型参数,建立故障模型;

步骤1.3:故障类别分类。

根据本发明实施例的一种具体实现方式,所述步骤2采用dpca算法确定截断距离的方法:选取截断距离,使得平均每个数据点,在以截断距离为半径的邻域内,数据点的个数不超过总数据点数的2%。

根据本发明实施例的一种具体实现方式,所述步骤3应用共享邻域算法对dpca中求局部密度ρ和距离δ的方法优化后的求解方式为:

其中:

wij:第i个数据点与第j个数据点的相似度;

dcut:截断距离;

cnn(si,sj):第i个数据点与第j个数据点在以dcut为半径的邻域的交集中数据点的个数;

si:第i个数据点;

sj:第j个数据点。

根据本发明实施例的一种具体实现方式,所述步骤4绘制故障数据集的聚类中心决策图的方法为:以局部密度ρ为横轴,距离δ为纵轴画出聚类中心决策图。

根据本发明实施例的一种具体实现方式,所述步骤5,应用bic选择准则对dpca算法画出的故障数据决策图进行优化,bic选择准则的计算公式为:bic=kln(n)-2ln(l),其中k为簇类别数,n为数据集中数据点总数量,l为似然函数。

根据本发明实施例的一种具体实现方式,所述的bic选择准则,分别计算k取不同值时的bic值,选取bic值最小时k的取值作为最终的簇类别数。

根据本发明实施例的一种具体实现方式,所述步骤6,参照步骤1.3故障类别分类,对每个聚类中心进行人工研判,判断每个聚类中心所属的故障类别。

根据本发明实施例的一种具体实现方式,所述步骤7,以步骤5中确定的聚类中心点及簇类别数为基础,应用dpca算法中的数据聚类方法对故障数据集进行聚类,并以步骤6中的人工研判结果为依据对每一个数据点进行标记,最终形成带标签的故障数据集。

第二方面,本发明提供了一种故障识别装置,利用故障数据标记方法进行故障识别。

根据本发明实施例的一种具体实现方式,所述故障识别装置包括:

获取模块,用于未标记的故障数据集;

第一计算模块,用于对未标记的故障数据集进行聚类计算,确认最终的簇类别数及聚类中心;

判断模块,用于人工研判每个聚类中心所属的故障类别;

第二计算模块,用于对人工研判后的故障数据集进行聚类,标记每一个数据点,最终形成带标签的故障数据集;

输出模块,用于输出故障识别结果。

本发明提出一种故障数据标记方法及故障识别装置,算法过程应用共享邻域(sharedneighborhood)算法优化dpca中求局部密度ρ和距离δ的方法,避免误识别,提高了聚类算法的准确性,应用bic准则优化了dpca算法画出的故障数据决策图,自动确定未知数据集中簇类别数,解决了当前聚类算法无法对簇类别数未知的故障数据集进行标记的问题。

附图说明

图1为本发明提供的一种故障数据标记方法示意图;

图2为航空发动机气路部件故障的危害列表示意图;

图3为航空发动机气路部件故障数据示意图;

图4为dpca算法流程示意图;

图5为簇类别数选择缺陷示意图;

图6为标准高斯函数核产生的误识别状况示意图;

图7为dpca算法的聚类中心选择原理示意图;

图8为聚合(aggregation)数据集的聚类中心决策图及聚类结果示意图;

图9为航空发动机气路故障数据决策图绘制结果示意图;

图10为航空发动机气路故障数据簇类别数bic选择结果;

图11为航空发动机气路故障数据聚类结果二维效果图;

图12为三种不同算法聚类准确率统计对比示意图;

图13为本发明提供的一种故障识别装置示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

实施例一

本公开提供一种故障数据标记方法,自动确定未知数据集中簇类别数的聚类算法用于故障数据的标记,解决当前聚类算法无法对簇类别数未知的故障数据集进行标记的问题。

参见图1,本公开实施例提供的一种故障数据标记方法,包括如下步骤:

步骤1:获取未标记的故障数据集;

本公开实施例提供的故障数据标记方法,应用于多种设备包括飞机、汽车等。首先要获取设备未标记的故障数据集。

本公开以航空发动机常见气路故障数据标记为例具体实施。

具体实施时,根据航空发动机qar参数以及性能参数的关系,选取了八个典型的气路部件性能参数用来建立航空发动机故障模型。这八个参数包括cw1(风扇流量)、etlp(风扇折合效率)、cw2(压气机流量)、ethp(压气机折合效率)、cw3(高压涡轮流量)、ethe(高压涡轮折合效率)、cw4(低压涡轮流量)、etlt(低压涡轮折合效率);这八个性能参数对应了八个典型的qar参数,分别为n1(低压转子转速)、n2(高压转子转速)、p1(风扇出口压力)、p2(压气机出口压力)、pl(低压涡轮出口压力)。ph(高压涡轮出口压力、tl(低压涡轮出口温度)、th(高压涡轮出口温度)。将航空发动机分为四种故障类型,分别为风扇故障、压气机故障、低压涡轮故障以及高压涡轮故障;各部件损伤带来的危害如图2所示。

本发明的实施例中,选取了仿真数据共1000组,其中无故障发动机数据、风扇故障数据、压气机故障数据、高压涡轮故障数据、低压涡轮故障数据每种类型200组,用以验本发明的准确率,数据情况如图3所示。

步骤2:用dpca算法中确定截断距离dcut的方法确定截断距离;

本发明实施中,采用了dpca算法。dpca(desitypeaksclusteringalgorithm)是alexrodriguez和alessandrolaio于2014年在science上发表的《clusteringbyfastsearchandfindofdensitypeaks》文章中提到的一种聚类算法。dpca算法流程如图4所示。根据dpca算法,在一个未知数据集当中,该数据集所包含的每一个簇的聚类中心点都有着以下两个特性:聚类中心点的局部密度(即其某邻域内点的数量)高于其它非聚类中心点的局部密度;不同簇的聚类中心点之间距离更大。筛选数据集聚类中心点的方法:选取截断距离dcut,使得平均每个数据点在以dcut为半径的邻域内数据点的个数不超过总数据点数的2%。

步骤3:应用共享邻域算法对dpca中求局部密度ρ和距离δ的方法进行优化,并以此方法求出故障数据集中每一个数据点的局部密度ρ和距离δ;

本实施例采用的dpca算法中求局部密度ρ方法:根据计算出的截断距离dcut逐个计算数据集中每个数据点的局部密度ρ。

其中:

dcut:截断距离;

ρi:局部密度,含义为每个点在以截断距离dcut为半径的邻域内所含数据点的个数;

si:数据集中第i个数据点

cnn(si):si在某一邻域内点的数量;

dij:第i个数据点与第j个数据点之间的距离。

本实施例采用的dpca算法中定义距离δ的方法:如果数据点拥有数据集合中最大的局部密度,则距离δ为其余所有数据点中,与距离最远的数据点,到该数据点的距离δ=max{dij};如果数据点不是数据集中局部密度最大的点,则距离δ为:数据集中所有局部密度大于该数据点的点中,与该点距离最近的点,到该数据点的距离其中r为数据集s中局部密度大于si的点的集合。

本实施例采用的dpca算法中用于决策聚类中心的值为离散值,容易产生不同点拥有相同的值的情况,导致计算得到的聚类中心点多于实际聚类中心点的情况。聚合(aggregation)数据集的聚类中心决策出现如图5所示的簇类别数选择缺陷,根据dpca算法原理,虚线框中的10个点都有可能是聚类中心点,而实际聚类中心点只有7个。为避免出现不同数据点ρ值和δ值相同的情况,dpca算法的提出者应用高斯核来计算数据点之间的相似度对dpca算法做出了改进,以给出准确的簇的数量。以相似度做为度量单位来ρ值和δ值,ρ值计算公式如公式所示。δ值的计算方法也做相应更改:如果数据点si拥有数据集合中最大的局部密度,则δ=max{wij}为其余所有数据点中,与si距离最远的数据点到si的距离;如果数据点不是数据集中局部密度最大的点,则其中r为数据集s中局部密度大于si的点的集合。但是在两个簇之间距离较近时容易出现如图6(标准高斯函数核产生的误识别状况)所示的误识别情况(图中两个圆弧为两个不同的簇)。

本发明实施例,应用共享邻域算法对dpca中求局部密度ρ和距离δ的方法进行优化,以避免误识别。共享邻域(sharedneighborhood)为2011年zhang,x.,li,j.,yu,h.《localdensityadaptivesimilaritymeasurementforspectralclustering》提出的概念,共享邻域算法的核心思想是:如果两个数据点属于同一个簇,那么与这两个点都临近的数据点会较多;如果两个数据点属于不同的簇,那么与这两个点都临近的数据点会比较少。基于这一概念优化后的高斯核函数计算方法为:在以这种算法求解相似度的时候,当dij≥2σ时,也就是si,sj两个点的σ邻域没有交集的情况下是普通的高斯核函数;而当两个数据点的σ邻域有交集,并且dij=dik<2σ时,只要cnn(si,sj)与cnn(si,sk)不同,则wij≠wik,从而避免了两个簇距离较近时出现的误识别情况。

其中:

si,sj为数据集中的数据点;

dij为点si与点sj之间的距离;

σ为规定好的邻域;

wij为点si与点sj的相似度;

cnn(si,sj)为点si的σ邻域与点sj的σ邻域的交集中数据点的个数;

dik为点si与点sk之间的距离;

cnn(si,sk)为点si的σ邻域与点sk的σ邻域的交集中数据点的个数。

应用共享邻域算法优化的dpca后的密度ρ和距离δ的求解公式为:

距离δ的求解方式虽然没有改变,但由于δ的求值是以ρ为基础的,因此局部密度ρ的求解方式被优化后,距离δ也就得到了相应的优化。

步骤4:根据dpca算法中的聚类中心决策图绘制原理绘制出故障数据集的聚类中心决策图;

本公开实施例中,dpca算法的聚类中心选择原理示意如图7,以ρ为横轴δ为纵轴画出聚类中心决策图,左侧为原始数据图,右侧为聚类中心点决策图。按照判别原则,聚类中心点的ρ值和δ值都比较大,如图7中的点1和点10所示。聚类中心点确定之后,对所有的非聚类中心点进行分类,数据点所属的簇为局部密度大于该点的点集中与其距离最近的点所属的簇。不断的进行迭代,直至所有点被分类完毕。图8为聚合(aggregation)数据集的聚类中心决策图及聚类结果示意图。聚合(aggregation)数据集是uci数据集中用于验证聚类算法性能的复杂数据集,该数据集包含七个簇,且簇的形状不规则,上述特性与故障数据特性相符。因此选取该数据集用于本发明算法性能改进及算法性能验证工作。

本发明实施例,应用dpca算法对故障数据集进行决策图绘制,绘制结果,航空发动机气路故障数据决策图绘制结果如图9所示

步骤5:应用bic选择准则对dpca算法画出的故障数据决策图进行优化,确认最终的簇类别数及聚类中心;

在原始dpca算法中,根据决策图凭借肉眼观察来对数据集的聚类中心以及簇类别数进行人工筛选。然而出现如图5所示簇类别数选择缺陷的情况,单纯的人工选择容易出现误判,给聚类结果造成很大的影响。bic准则(bayesianinformationcriterion)是一种基于贝叶斯方法的模型选择准则,可以辅助确定判断簇类别数量。bic选择准则的计算公式为:bic=kln(n)-2ln(l),其中k为簇类别数,n为数据集中数据点总数量,l为似然函数;分别计算k取不同值时的bic值,选取bic值最小时k的取值作为最终的簇类别数。

本发明实施例,根据bdca聚类算法判断准则,图9中方框内的点都有可能为聚类中心点,取k值为1~6,应用bic准则进行判断,航空发动机气路故障数据簇类别数bic选择结果如图10所示。

本发明实施例,在步骤5对dpca聚类算法应用bic准则进行了优化,在步骤3中对dpca聚类算法应用共享邻域(sharedneighborhood)算法进行了优化,故此本发明的算法命名为b-s-dpca聚类算法。

步骤6:参照步骤1.3故障类别分类,对每个聚类中心进行人工研判,判断每个聚类中心所属的故障类别;

步骤7:以步骤5中确定的聚类中心点及簇类别数为基础,应用dpca算法中的数据聚类方法对故障数据集进行聚类,并以步骤6中的人工研判结果为依据对每一个数据点进行标记,最终形成带标签的故障数据集。

本发明实施例,根据确定下来的簇类别数对航空发动机故障数据进行标记,聚类结果在二维空间的效果图如图11所示。

本发明实施例,对比了本发明故障数据标记方法的算法b-s-dpca算法与k-means聚类算法、小波聚类算法的聚类结果,以验证本发明实施的有效性。b-s-dpca算法与其它算法性能比较结果如图12所示。

本发明实施例中对比的k-means聚类算法:是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。

本发明实施例中对比的小波聚类算法:对原始待分析的数据集先量化到特征空间中,对特征空间实施小波变换,在小波变换后的空间内寻找连接在一起的部分,即为聚类,并为每个聚类添加标签,然后通过算法提供的映射表确定原始数据集中各数据点所说的聚类,形成简化的数据集。

通过观察三种聚类算法的聚类结果准确率可以发现,k-means聚类算法在准确设定k值的前提下有着较高的准确率,一旦k值设定不准确,聚类结果将发生很大偏差。但是在真实应用场景场景中往往无法事先获取k值;小波聚类不需要准确预设k值,但是初始k值偏差过大会导致聚类结果的不准确;b-s-dpca算法可以自动确定数据集中的簇类别数k不需要预先设定,相比其它两种算法有更好的实用性。

本公开故障数据标记方法同样适用于除航空发动机之外的其他设备,算法及步骤相同。

实施例二

本发明的实施例二提供了一种故障识别模型,利用实施例一所述的故障数据标记方法进行故障识别。

故障识别装置如图13所示,包括:

获取模块,用于未标记的故障数据集;

第一计算模块,用于对未标记的故障数据集进行聚类计算,确认最终的簇类别数及聚类中心;

判断模块,用于人工研判每个聚类中心所属的故障类别;

第二计算模块,用于对人工研判后的故障数据集进行聚类,标记每一个数据点,最终形成带标签的故障数据集;

输出模块,用于输出故障识别结果。

以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1