基于改进DBSCAN算法的航空发动机泵调系统异常检测方法与流程

文档序号:23897142发布日期:2021-02-09 12:35阅读:69来源:国知局
基于改进DBSCAN算法的航空发动机泵调系统异常检测方法与流程
基于改进dbscan算法的航空发动机泵调系统异常检测方法
技术领域
[0001]
本发明针对航空发动机泵调系统,利用基于密度的聚类算法(density-based spatial clustering of applications with noise,简称dbscan)与动态时间规整(dynamic time warping,简称dtw)相结合的方法,对泵调系统起动过程进行异常检测,切实提高泵调系统的健康监测能力。


背景技术:

[0002]
航空发动机作为一种复杂的气动热力学系统,监控其工作状态和性能参数变化趋势,及时有效地规避故障,对于保证和提高发动机工作的安全性和可靠性有着重要意义。发动机数据是规避故障的基础,然而随着系统可靠性的逐渐提高,发动机故障数据在较短时间内难以获得,故传统针对故障数据的监测方法不再适用。同时,数据库、传感器技术、数据采集方法等的应用为发动机健康监测提供了大量的发动机状态数据,基于该状态数据对发动机各个部件及其故障进行可靠性分析和监测已成为趋势。
[0003]
飞机发动机的泵调系统是数控系统的组成部分之一,也是故障频发的部件之一,其中泵调包括油源部件、电液转换装置、燃油切断模块、保护模块、监控模块等。国内针对发动机泵调系统故障研究相对较少,针对发动机整机及其他部附件的研究较多,这些研究取得的成果对泵调系统的健康监测有一定的参考价值。例如,tao等针对航空发动机传感器故障检测方法的适用范围缺乏量化数据问题,对基于卡尔曼滤波和基于自适应滑模观测器的故障检测方法适用性进行了对比分析。wang等对燃油系统典型故障进行了特征分析,并提供了处理这些故障的应急措施。cui等通过提出的小波包能量比与极限学习机相结合的方法对航空发动机燃油泵进行故障诊断,证明了该方法的有效性。
[0004]
由于泵调系统没有实现自动监控,因此在航线上常发生突发故障,目前航空公司关于泵调系统的维修主要是利用可视化工具对泵调系统性能参数可视化,技术人员观并分析参数变化曲线,依据经验确定范围边界或阈值,一旦数据超限则停下来维修。这种事后维修,无法有效地健康监测甚至故障预测。此外,发动机泵调系统在起动过程中的参数变化受到环境因素(如噪声、温度、压力)等的影响较大,使用由经验确定的阈值往往会导致较多的误报或漏报。针对这种现象,提出一种基于机器学习的泵调系统异常检测算法,即基于密度的无监督聚类算法dbscan和动态时间规整距离相结合的算法。
[0005]
基于聚类的异常检测方法假设聚类结构能通过样本分布的紧密程度确定。聚类后某些簇的数据量会比其他簇要少得多,而且这些簇里的特征值(比如均值、方差等)和其它簇之间的差异也很大,则这些簇里的对象通常被识别为异常对象。dbscan是一种著名的聚类算法,通过样本分布的紧密程度自动划分聚类簇,自提出以来被广泛应用于各领域。例如,在2020年,qi等为探究基于眼动数据的管制雷达目标标定方法,提出基于k-最邻近算法和变密度阈值设定法,从自适应选取邻域值和变密度阈值设计两方面对dbscan算法进行改进,验证了算法的适用性。在2015年,huang等提出了一类具有自适应参数的改进dbscan聚类算法,并应用于发现证券市场中关联基金账户所组成的信息群落。针对传统算法中半径
参数ε敏感度高,对于多层密度数据集难以选择全局参数而导致聚类结果差等缺点进行了改进。在2020年,guo等针对传统dbscan算法对高维数据集聚类效果不佳且参数的选取敏感问题,提出一种基于相似性度量的gs-dbscan算法。该算法构造了测地距离和共享最近邻的数据点之间的相似度矩阵,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况,还可以通过分析数据的分布特征来自适应确定eps和minpts参数。在2008年,luo等人提出一种基于kmeans-dbscan融合聚类的轴承异常升温诊断模型。首先将轴承异常升温的诊断转化为多组关联序列中少数持续离群子序列的检测问题,再根据温度序列特征空间分布位置和局部密度差异性,通过kmeans-dbscan融合聚类分离出离群子序列,并实现了dbscan邻域判别阈值参数的自适应选取,验证了该算法的适用性。关于dbscan算法的改进主要有三个方面:参数的自适应选取、结合其他算法综合聚类、相似性度量方法替代欧式距离。前两个方面研究较多,在距离度量方面的改进研究相对较少。由于泵调系统起动过程中关系型特征的表现形式为时间序列,因此选用专门处理时间序列问题的动态时间规整方法计算时间序列之间的距离,替代dbscan算法中的欧式距离,更能反映泵调系统关系型特征之间的关系。


技术实现要素:

[0006]
发明目的:
[0007]
为突破当前泵调系统在突发故障检测领域的问题局限,本发明明确了基于大量发动机状态数据的泵调系统起动过程异常检测的技术需求,为实现泵调系统健康监测自适应,提出了一种基于dtw距离的dbscan算法,在分析泵调系统的关系型特征上有着较大的优势,同时也为泵调系统特征趋势分析提供了解决思路。
[0008]
技术方案:
[0009]
一种基于改进dbscan算法的航空发动机泵调系统异常检测方法,包括如下步骤:
[0010]
步骤1:对所给泵调系统起动过程中的特征参数进行特征提取,得到时间序列形式的特征矩阵;
[0011]
步骤2:对所述特征矩阵进行归一化,作为基于dtw距离的dbscan算法的输入,同时给定dbscan算法所需的参数;
[0012]
步骤3:调用基于dtw距离的dbscan算法对归一化后的特征矩阵进行聚类处理,得到聚类结果;
[0013]
步骤4:不属于任何一个聚类簇的样本为异常数据,其余为健康数据,给出异常数据的编号,对应得到该异常数据的发生时间,并保存健康数据为历史特征数据;
[0014]
步骤5:对于新架次的所述特征参数,重复步骤1到步骤4,若该架次特征参数为健康数据,则给出判断并更新历史特征数据;若该架次为故障数据,则给出故障判断。
[0015]
进一步的,步骤1中航空发动机泵调系统在起动过程中的特征参数包括:起动时间、点火时间、起动过程高压涡轮出口温度极大值、转子转速、油针位置、油针控制精度、指令燃油流量。其中转子转速与油针位置的关系,以及转子转速与油针控制精度之间的关系为主要研究对象,该关系型特征数据形式表现为时间序列,故在dbscan算法中引入dtw计算时间序列之间的距离。
[0016]
进一步的,步骤2中,dbscan算法参数的定义如下:
[0017]
1)ε-邻域:对归一化后的特征矩阵中的元素x
j
,其ε-邻域包含归一化后的特征矩阵内的元素构成的样本集d中与x
j
的距离不大于所选用度量距离的阈值ε的样本,即:
[0018]
n
ε
(x
j
)={x
i
∈d|dist(x
i
,x
j
)≤ε}
ꢀꢀ
(1)
[0019]
2)核心对象:若x
j
的ε-邻域内至少包含minpts个样本,即||n
ε
(x
j
)||≥minpts,则x
j
是一个核心对象。
[0020]
上述两个参数需经过反复调试进行确定。实际案例中,ε的范围为[1,1.5],minpts的范围为[3,5]。
[0021]
进一步的,步骤3中,动态时间规整的过程如下:
[0022]
从步骤1得到的特征矩阵中任意选取两行作为时间序列s和q:
[0023]
s=s1,s2,s3,

,s
i
,

,s
n
ꢀꢀ
(2)
[0024]
q=q1,q2,q3,

,q
j
,

,q
l
ꢀꢀ
(3)
[0025]
其中,n和l分别是s和q的长度,代价矩阵dist
n
×
l
是一个n
×
l的矩阵,其中的每个元素dist(i,j)表示s
i
和q
j
之间的局部距离;
[0026][0027]
dtw距离旨在找到一条规整路径w=(w1,w2,

,w
k
)w=(w1,w2,

,w
k
),其中k代表路径的长度,使得沿着这条规整路径的局部距离之和最小;
[0028][0029]
其中,δ(w
k
)=dist(i
k
,j
k
)表示两个匹配点s
ik
和q
jk
之间的局部距离,该问题通过动态规划解决;假设累计距离矩阵cost
n
×
l
也是一个n
×
l的矩阵,其中的每个元素cost(i,j)通过下面的递推关系得到,
[0030]
cost(i,j)=dist(i,j)+min{cost(i-1,j),cost(i,j-1),cost(i-1,j-1)}
ꢀꢀ
(6)
[0031]
其中,1≤i≤n,且1≤j≤l,cost
n
×
l
的初始状态为cost(0,0)=0,cost(i,0)=∞,cost(0,j)=∞;最终,s和q之间的dtw距离为cost(n,l)。
[0032]
值得注意的是,上述公式虽然是针对一维时间序列的,但是仍然可以推广到多维时间序列,只需要将局部距离的计算做相应修改即可。
[0033]
进一步的,步骤3中,结合dtw距离的dbscan算法流程如下:
[0034]
输入:样本集d=(x1,x2,

,x
m
),邻域参数ε,minpts,样本距离度量方式为dtw距离,m为样本集d中样本个数;
[0035]
输出:簇划分c;
[0036]
1)初始化核心对象集合ψ,聚类簇个数e=0,未访问样本集合ο和簇划分c;
[0037]
2)对于i=1,2,

,m:
[0038]
a.计算样本间的dtw距离,找到样本x
i
的子样本集合n
ε
(x
i
);
[0039]
b.如果子样本集中样本个数满足|n
ε
(x
i
)|≥minpts,则将样本x
i
加入核心对象样本集合:ψ=ψ∪{x
i
};
[0040]
3)若ψ为空集则算法结束,否则转入步骤4;
[0041]
4)从ψ中随机选择一个核心对象o,初始化当前簇核心对象队列ψ
cur
={o},初始化类别序号k=k+1,初始化当前簇样本集合c
k
={o},更新未访问样本集合o=o-{o};
[0042]
5)若当前簇核心对象队列ψ
cur
=φ,φ代表空集,则当前聚类簇生成完毕,更新簇
划分c={c1,c2,

,c
k
},更新核心对象集合ψ=ψ-c
k
,转入步骤3,否则更新核心对象集合ψ=ψ-c
k

[0043]
6)转入步骤4,重复更新过程;
[0044]
输出结果为:簇划分c={c1,c2,

,c
k
}。
[0045]
有益效果:
[0046]
该基于dtw距离的dbscan算法能够自动检测出泵调系统特征数据中较为异常的数据,实现泵调系统自动报故,同时从动态时间规整计算得到的时间序列的距离可以分析出泵调系统突发故障时伴随剧烈波动的关键性参数。
附图说明
[0047]
图1为第一台泵的转速与油针控制精度特征关系图;
[0048]
图2为第一台泵的转速与油针位置特征关系图;
[0049]
图3为第二台泵的转速与油针控制精度特征关系图;
[0050]
图4为第二台泵的转速与油针位置特征关系图;
[0051]
图5为对于第一台泵的数据的基于正态分布的异常检测算法结果图;
[0052]
图6为对于第二台泵的数据的基于正态分布的异常检测算法结果图;
[0053]
图7为本发明流程图。
具体实施例
[0054]
在航空发动机泵调系统发生故障时,伴随着泵调性能参数产生剧烈的波动,表现在曲线上就是那些明显异常于曲线趋势的那些数据线。这就需要算法能够自动识别出这些异常曲线,从而得到异常发生的具体时间,同时算法无法提起预知数据的类型,以及数据的分布结构,即无监督聚类。基于这样的问题,本发明提出基于dtw距离的dbscan算法,算法的输入就是特征矩阵,输出就是划分簇,不需要指定分类簇的个数,又能自动探究数据的密度分布。
[0055]
在实验过程中,首先从所给发参数据中提取实验所需的泵调系统起动过程的特征参数,得到算法输入的特征矩阵。将特征矩阵归一化后,调用基于dtw距离的dbscan算法,得到聚类结果,依据结果得到标记为异常的数据信息。
[0056]
具体步骤如下:
[0057]
步骤1:选择泵调系统起动过程的特征参数,并进行特征提取,主要包括:
[0058]
1)起动过程参数:依据特征的贡献程度,选择起动过程中特征参数,包括起动时间,点火时间,转子转速,起动过程高压涡轮出口温度极大值。
[0059]
2)泵调自身参数:选择与油针相关的关系型特征量,包括油针位置,油针控制精度,以及其他相关量如燃油温度等。
[0060]
3)特征提取:从发参数据中提取所需的泵调系统起动过程中的特征参数,对于关系型特征以2%转速为间隔进行线性插值(数据降维),最终得到特征矩阵。
[0061]
步骤2:将步骤1中得到的特征矩阵归一化,带入到基于dtw距离的dbscan算法中,作为算法的输入,同时给定算法参数(ε,minpts)。
[0062]
步骤3:调用算法,得到算法的输出簇划分c,确认标记为异常的数据样本以及异常
数据发生对应的时间,并将历史特征数据记录下来。
[0063]
步骤4:对于新架次的数据,重复步骤1到步骤3,若该架次数据为异常,则给出判断;若该架次数据为正常数据,则更新历史特征数据,同时给出判断。
[0064]
本实施例实施选择了两台泵的飞行数据,图1和图2为第一台泵的关系型特征曲线,即转速与油针控制精度特征关系图和转速与油针位置特征关系图。同理,图3和图4为第二台泵的关系型特征曲线。分析图1,10%转速之前得曲线体现出泵调的一种设计方式,油针控制精度基本不变,在10%转速之后,除较为异常的两条曲线外,油针控制精度控制在0到5%之间,且呈现出两个通道的数据簇。分析图2,由于发动机转速较低时,热能与机械能的转换效率较低,加速性较差,故在转速10%到30%之间采取固定的供油方式,此后供油量迅速增加,充分提升转速。此外,除了两条异常的数据线外,整体仍旧呈现出两个通道的数据簇。图3和图4的整体趋势与图1和图2基本一致,且存在5条异常曲线。
[0065]
将传统的基于正态分布的异常检测算法与基于dtw距离的dbscan算法进行对比分析,分别对两台泵的数据进行异常检测。基于正态分布的异常检测算法,也称为均值方差算法,主要依据是“μ
±
3σ”法则。其中,基于正态分布的异常检测算法的结果如图5和图6所示,对于第一台泵的数据,该算法识别出一条异常数据;对于第二台泵的数据,该算法同样识别出一条异常数据(说明:图中绿色的线代表σ,红色的线代表3σ,偏差值大于3σ的数据判定为异常数据)。基于dtw距离的dbscan算法的聚类结果如表1和表2所示(误报率:误报成故障的样本个数占健康样本总个数的比重;漏报率:漏报的故障样本数占故障样本总个数的比重)。可见,基于dtw距离的dbscan算法明显在误报率和漏报率上优于传统的均值方差算法,证明了该算法的适用性。
[0066]
表1基于第一台泵的数据的算法结果对比
[0067][0068]
表2基于第二台泵的数据的算法结果对比
[0069]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1