基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法与流程

文档序号:17697056发布日期:2019-05-17 21:40阅读:426来源:国知局
基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法与流程

本发明涉及一种航空发动机寿命预测方法,特别是涉及一种基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法。



背景技术:

发动机是航空器中结构最为精密复杂的子系统,为航空器提供飞行所需的动力,对安全性和可靠性要求极为苛刻。发动机在极端使用环境下长时连续工作过程中,其性能不可避免地产生退化,极易引发各类故障,威胁系统安全。以健康评估和故障预测为核心的phm技术,是实现航空发动机预测维护和保障发动机运行可靠性的关键,已成为航空领域的关注焦点。近几年来,由于大数据分析技术、云计算技术及人工智能技术的推动,工业4.0及中国制造2025等概念的提出,使得航空发动机运行期间的观测数据,已成为发动机检测故障、预测故障发展趋势以及最终剩余使用寿命的高价值资源。相对于基于模型的寿命预测方法,数据驱动的方法不需要发动机退化过程的精确解析模型,通过对观测数据直接处理与分析,挖掘出数据背后隐藏的发动机健康状态和寿命信息,为故障预测与维护决策提供可靠信息。

现有数据驱动的寿命预测方法又可细分为三类:单变量方法,直接方法和多变量方法。单变量方法首先建立一个综合健康度指标(shi),利用事先设定的失效阈值确定系统的rul。shi构建和阈值确定这两个步骤极度依赖于应用对象的领域知识,是这类方法在实际应用中的掣肘问题。直接方法则是通过将当前样本与数据库中的历史样本进行相似度匹配,寻找出最为相似的样本作为参照进行rul预测。这类方法在样本充足完备的条件下,具有良好的性能和普适性。多变量方法不需要构建shi,也不需要大量历史样本,直接利用设备运行数据,提取和系统健康状态退化相关的特征量,通过聚类方法对设备健康状态的特征量进行分类,进而获知设备所处的健康阶段信息,动态设定设备的失效阈值,再进行rul预测。该方法可克服单变量方法和直接方法的不足或约束,近年来颇受phm领域的关注。然而,现有的多变量方法需要事先设定健康状态的类别个数,而且需要假定所有样本的初始都处于健康状态,也难以基于现实中发动机传感器采集的无标签、不均衡且初值不确定的数据来做出预测。



技术实现要素:

发明目的:本发明要解决的技术问题是提供一种基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法,在现有航空发动机观测数据存在无标签、不均衡、初值不确定性问题的情况下,解决了现有的多变量方法不能基于上述观测数据进行很好预测的不足,能够在缺少先验知识情况下,实现航空发动机不同健康阶段的维持时间和rul预测,为航空发动机后续不同健康阶段的维修决策提供技术参考。

技术方案:本发明所述的基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法,包括以下步骤:

(1)根据定义的相关性指标和趋势性指标,对发动机性能退化数据集x(i×j×k)进行特征选择,其中,i为相似发动机样本个数,j为每个发动机样本中各传感器输出的观测变量个数,ki为每个发动机样本的观测数据个数,i=1,2,...,i;

(2)根据步骤(1)的特征选择结果,将发动机样本中观测变量个数由j个减少为f个,得到代表发动机性能退化数据集的三维矩阵x(i×f×k);

(3)将三维矩阵x(i×f×k)按变量按f方向展开为一个二维数据集x(z×f)(z=k1+k2+...+ki),利用量子聚类理论得到二维数据集x(z×f)的势能分布,确定所述发动机性能退化数据集的类别数量c,根据类别数量c利用模糊聚类理论得到发动机性能退化数据集的健康度标签tag;

(4)将步骤(3)中所述的二维数据集x(z×f)和健康标签tag中前90%的样本作为训练集、后10%的样本作为验证集,训练多变量深度森林分类器,若验证的集中分类准确率均大于90%,则保留所训练的多变量深度森林模型后结束训练,否则重新训练,直到满足条件为止;

(5)分别针对步骤(3)所述的二维数据集x(z×f)中每个特征变量f进行lstm网络训练。最终可以得到f个lstm时间序列预测模型,本步骤可以与步骤(4)先后进行或者同时进行;

(6)利用步骤(5)中的f个lstm时间序列预测模型,分别预测不同观测变量的变化趋势,将各变化趋势输入到步骤(3)中训练好的多变量深度森林模型中,得到测试数据集以及预测值的健康状态,根据不同健康状态对应的时间和预测开始,计算得到发动机不同健康阶段的维持时间和rul。

进一步的,步骤(1)中的特征选择过程为:

(1)建立相关性指标corr(i,j)和趋势性指标tre(j)如下:

其中,

其中,j(ki)为发动机样本i的第j个观测变量,corr(i,j)是特征序列j(ki)与其序列长度k=1,2,3,...ki的斯皮尔曼相关系数,r2(j(ki))为秩次的差值的平方;

(2)分别计算发动机各观测变量与其运行周期的相关性指标corr(i,j),并计算各变量的趋势性指标tre(j);

(3)如果第j个观测变量同时满足|corr(i,j)|≥0.5和tre(j)==0or1这两个条件,则此观测变量被选择保留下来。

进一步的,步骤(3)中确定类别数量c的方法为:

(1)建立势能函数u(x):

其中,e是hamilton算子的特征值,e=d/2,d为hamilton算子可能的最小特征值,可以用样本的数据维数来表示,ψ为带有parzen窗的高斯核函数估计波函数,σ为波函数宽度调节参数;

(2)通过判断势能函数的局部极小值点,极小值点的数量即为类别数量c。

进一步的,步骤(4)中所述的多变量深度森林分类器参数为:

n_cascaderf=2,

n_cascaderftree=101,

cascade_test_size=0.2,

tolance=0,

其中,n_cascaderf代表每层完全随机森林或随机森林中的数量,n_cascaderftree代表每层中单个完全随机森林或随机森林包含的完全随机决策树或随机决策树的数量,

cascade_test_size代表验证样本所占训练样本的比例,tolance代表级联层扩展的精度差。

为了对预测结果进行评分,还包括对预测结果评分的方法,评分s表达式为:

其中,n是测试样本个数,是预测的rul,trul是真实的rul,a1和a2为设定的整数值,当-a1≤d<a2时,视为及时预测,当d<-a1时,视为超前预测,当d≥a2时,视为滞后预测。

进一步的,a1=10,a2=13。

有益效果:本方法能够很好的处理观测数据存在的无标签、不均衡和初值不确定的问题,不需要融合发动机多源数据来构建shi,同时也不依赖先验知识设定发动机失效阈值,能够动态设定发动机的失效阈值,除了预测出发动机最终的rul,还能够提供发动机维持在不同健康阶段的时间,同时给出不同时刻健康阶段的概率值。

附图说明

图1是本方法整体流程图;

图2是训练数据集发动机1中传感器1、2和7变化情况及平滑示意图;

图3是为传感器1、4、9和13在训练集不同发动机样本中的相关性指标示意图;

图4是基于深度森林的健康评估框架示意图;

图5是深度森林的概率结果示意图;

图6是利用深度森林健康评估模型得到的发动机样本94和99训练结果示意图;

图7是基本的lstm时间序列预测模型框架示意图;

图8是lstm不同阶段方向传播误差示意图;

图9是利用lstm时间序列预测模型预测得到的测试集中发动机1各传感器变化趋势示意图;

图10是利用深度森林健康评估模型得到的测试集中发动机1的健康状态示意图;

图11是利用本发明方法得到的测试集样本rul与真实rul对比示意图。

具体实施方式

本实施例采用nasa预测故障预测研究公开的民用涡轮发动机全寿命周期数据集,选用其中的fd001数据集。该数据集模拟了航空发动机高压压气机性能退化引起的航空发动机寿命终止情况,数据集中包括了训练数据、测试数据和测试数据的rul。数据集包括了21个传感器测量变量,包括了温度、压力、转速等多源数据类型,具体传感器符号、描述和单位如表1所示。此外,数据集中包含有噪声并且每个发动机样本的初始健康状态是不确定性的。

表1航空发动机传感器变量描述

本方法的整体流程如图1所示,具体实施步骤如下:

步骤1、航空发动机多源数据的特征选择:根据表1,发动机性能退化数据集可具体描述为x(i×21×k)。为了筛选能够较好刻画发动机退化的特征变量,定义相关性指标corr(i,j)和趋势性指标tre(j)如下:

其中,j(ki)是发动机样本i的第j个观测变量;corr(i,j)是特征序列j(ki)与其序列长度k=1,2,3,...ki的斯皮尔曼相关系数;r2(j(ki))代表秩次的差值的平方。

图2所示的是训练数据集发动机1中传感器1、2和7变化情况及平滑情况,代表发动机退化数据集存在的3种情况:恒定不变、上升趋势和下降趋势。

利用公式(1)分别计算发动机各传感器变量与其运行周期的相关性指标。然后,再利用公式(2)计算各变量的单调性指标。若发动机观测变量j满足|corr(i,j)|≥0.5和tre(j)==0or1这两个条件,则观测变量j被筛选保留下来。

如图3所示,传感器1相关性指标一直为0,此观测变量被剔除;传感器4相关性指标一直为正且都大于0.5,与运行周期呈正相关,满足单调性,故最终被保留下来;传感器9相关性指标在不同发动机样本中正负不定,不满足单调性,此观测变量被剔除;传感器13相关性指标在部分的发动机样本中值小于0.5,不满足设定的阈值,此观测变量被剔除。

根据上述分析,最终编号为4、7、11、12、15、20和21的观测变量被保留下来。此时x(i×21×k)变为x(i×f×k),其中f=7即x(i×7×k)。

步骤2、基于量子模糊聚类的健康标签定义:将x(i×f×k)按观测变量f方向展开为二维数据x(z×f)={x1,x2,...,xz}t(xz={xz1,xz2,...,xzf}),利用带有parzen窗的高斯核函数估计波函数ψ,得到势能函数u(x):

其中,e是hamilton算子的特征值,e=d/2,其中d为hamilton算子可能的最小特征值,可以用样本的数据维数来表示;σ为波函数宽度调节参数。

通过判断势能函数的局部极小值点,得到发动机观测数据的类别数量c=4。

根据得到的类别数c,利用模糊聚类理论将分类问题看成目标函数l的极值求解问题:

其中,b是模糊系数;μc(xz)是xz对类别c的隶属程度;mc是类别的中心值。

求解上述极值问题,先构造拉格朗日函数,令l对mc和μc(yz)的偏导为0,可以得到mc和μc(xz)的迭代公式:

利用mc和μc(xz)的迭代公式,直到目标函数收敛,可以得到发动机训练样本的健康标签tag。其中,tag=1,2,3or4分别代表发动机处于“正常”、“轻微损伤”、“严重损伤”和“失效”4个不同的健康阶段。

步骤3:基于深度森林的健康评估模型:将二维数据集x(z×f)合健康标签tag导入matlab2018b中,同时调用anaconda3环境下的深度深林程序,训练深度森林的健康评估模型参数。如图4所示,深度森林在每一层中包括了两个完随机全森林,即图中实线部分,和两个随机森林,即图中虚线部分,可以根据结果精度自动扩展级联层数。

如图5所示,每个完随机全森林和随机森林中的决策树可以在特征空间中不断划分子空间,并且每个子空间打上标签,在叶节点能够得到训练样本中不同类别的概率分布。最后,在每个森林中通过对所有决策树的各类比例取平均,输出整个森林中各类的比例,即类别的概率,用此概率来刻画预测过程中存在的不确定。

将步骤1保留下的二维数据x(z×f)和步骤2得到的健康标签tag中前90%的样本作为训练集,后10%的样本作为验证集,训练多变量深度森林分类器。若基于深度森林的健康评估模型得到的样本健康标签值与健康标签tag相比较,其准确率均大于90%,则保留深度森林模型。否则,重新训练,直到满足要求为主。

深度森林分类器对超参数调节不敏感,其主要参数设置如下:

其中,n_cascaderf代表每层完全随机森林或随机森林中的数量;n_cascaderftree代表每层中单个完全随机森林或随机森林包含的完全随机决策树或随机决策树的数量;cascade_test_size代表验证样本所占训练样本的比例大小;tolance代表级联层扩展的精度差。

基于深度森林的发动机样本94和99的离线训练结果如图6所示,样本94和99的初始健康状态分别是“轻微损伤”和“正常”,两个样本初始状态不确定成功被解决。

步骤4:基于lstm的时间序列预测模型:在步骤3进行的同时,进行步骤4。在matlab2018环境下,分别针对输入的二维数据集x(z×f)中每个特征变量f进行lstm网络训练,得到lstm网络模型参数(权值矩阵和偏置向量)。

如图7所示,lstm网络首先利用遗忘门选择性地摒弃前面一些冗余序列信息,然后利用输入门和输入节点选择性记录新序列信息,最后利用输出门输出预测序列信息。基于lstm的时间训练预测模型基本公式如下:

ft=σ(wf·[ht-1,xt]+bf)(8)

it=σ(wi·[ht-1,xt]+bi)(9)

ot=σ(wo·[ht-1,xt]+bo)(12)

ht=ot*tanh(ct)(13)

其中,ft为遗忘门的输出,it和为输入门的输出,ct为状态更新的输出,ot和ht为输出门的输出,σ是符号函数,wf,wi,wc和wo权值矩阵,bf,bi,bc和bo是偏置向量。

在lstm网络训练过程中,利用adam方法确保网络快速收敛,同时利用l2正则化方法防止过拟合。

图8所示是lstm不同阶段方向传播误差,设定其中et是在t时刻的误差,依照图8中①到④可以得到权值矩阵更新的公式:

最终可以得到f个lstm时间序列预测模型。

步骤5、航空发动机寿命预测:然后利用步骤4中的f个lstm时间序列预测模型,分别预测测试集中每个发动机样本保留下来的变量的变化趋势。

图9所示的是利用lstm时间序列预测模型,预测得到的测试集中发动机1各传感器变化趋势,其他样本预测过程与样本1一致。将预测得到的发动机各传感器变化趋势,输入步骤3中得到的多变量深度森林健康评估模型,得到测试数据集以及预测值的健康状态。

图10所示的是利用深度森林健康评估模型得到的测试集中发动机1的健康状态,可以得到发动机1开始处于“正常”阶段,发动机1从第31个运行周期以后开始进行预测,在“正常”阶段将维持31个运行周期。然后进入“轻微损伤”阶段,在此阶段将维持59个运行周期。再进入“严重损伤”阶段,在此阶段将维持24个运行周期。最后到达“失效”阶段,测试集发动机1预测的rul是121个运行周期。

本发明可以预测得到发动机不同健康阶段的维持时间和rul,其他样本预测过程与样本1一致。

对预测的评分s可以参照下面的公式:

其中,n是测试样本个数;(是预测的rul,trul是真实的rul);a1=10;a2=13。当-10≤d<13时,视为及时预测;当d<-10时,视为超前预测;当d≥13时,视为滞后预测。

本实施例对测试样本的预测结果如图11所示,预测误差范围是[-41,36],及时预测、超前预测和滞后预测个数分别为71、24和5,总得分为402。本实施例的结果验证了方法有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1