一种基于民航维修质量评估和异构集成学习的敏感性分析方法与流程

文档序号:16471229发布日期:2019-01-02 23:07阅读:217来源:国知局
一种基于民航维修质量评估和异构集成学习的敏感性分析方法与流程
本发明涉及一种基于民航维修质量评估和异构集成学习的敏感性分析方法,其属于航空公司维修领域,以及整体维修安全性能调控问题研究领域。
背景技术
:随着我国民航业的快速发展以及航空公司和旅客对航班正常率要求的不断提高,维修安全的重要性不言而喻。根据近20年的事故调查数据统计,维修差错导致的航空事故增加了4个百分点。飞机维修是飞机安全运行的重要保障之一。在适航管理的推动下,我国民航维修领域在应用系统工程的理论和方法的基础上得到了不断的发展,维修单位逐渐建立起工程管理、质量管理、维修生产管理体系。在系统安全和维修质量的管理中,需要对各个系统的安全状况进行严格的监控和评估,以便管理者掌握安全状况和维修质量趋势,及时发布预防措施和指令,实现“预防为主”的安全管理目标。因此,需要利用安全系统工程的原理和方法来识别和评价民航维修系统中存在的风险,对不同程度的影响安全的因素进行识别并进行危险或危害程度的评价。目前民航维修行业相应的安全和质量指标大多停留在孤立的、间隙化的分析上。目前对维修质量状况的评估主要以事后评价为主,大多立足于事后的整改上,缺乏前瞻性的预测分析,对未来的预测通常是依赖于个人的经验。因此,对各个指标的敏感性进行分析以确定具体指标对系统整体维修安全状况的影响程度是非常重要的。传统的敏感性分析的具体实现方法有很多,包括统计回归、层次分析、模糊综合评价、神经网络等等。其中,层次分析法和经典的回归方法对模型属性较多或系统非线性的情况预测精度不够,而模糊评价会因为信息相关造成的重复性问题而变得棘手。神经网络方法用人工神经元模拟数据间的非线性关系并建立网络结构,通过不断调节网络内部节点之间相互连接的权值从而对训练样本集进行学习。由于安全方面的数据很难直接获取,通常是以收集历史安全数据为基础,通过安全评价体系得到最终的系统安全评价结果。维修系统中很容易找到大量无标记样本,这些样本数据仅记录了一些指标属性而无法直观地得出安全系统的安全状况。对安全状况进行具体定量计算能得到最终的有标记样本一方面计算成本较大,另一方面也存在准确性的问题,因此并不合适。通过维修系统中获取少量的有标记样本和大量的无标记样本,这些原始数据通过半监督的学习方法来进行训练较为合适,面对无标记样本的大量引入时,半监督学习能取得较好的效果。目前的半监督回归主要有基于差异的方法和基于流形的方法,后者参数设置较为复杂,并且缺少指导性选择参数的方法,因此提出了基于半监督的异构集成学习的敏感性分析方法。技术实现要素:本发明是为了解决上述现有技术存在的问题而提供。本发明所采用的技术方案有:一种基于民航维修质量评估和异构集成学习的敏感性分析方法,包括如下步骤:(1)数据分析处理:最大最小化方法,多因素一元方差分析;(2)半监督异构集成学习机训练并回归:半监督集成学习,使用少量无标记样本进行初始训练,再投入无标记样本,以异构集成的结果为期望来调整初始基学习机,直到误差不再变小;(3)敏感性分析:方差分解法,运用训练好的异构集成扩大有标记样本,计算各输入的主效应指标以及全效应指标;(4)实例分析:通过某航空公司近几年维修安全数据的分析,对整体安全性能较低的月份进行敏感性调控,最终达到安全标准。进一步地,步骤(1)包括如下:(1)显著变量选取:采用多因素一元方差分析法计算每个变量的影响效应,然后进行显著性检验,比较p值,其越小说明影响因素越大,然后保留影响因素较大的变量;(2)数据标准化:采用最大最小归一化方法分别对训练集和测试集进行归一化处理,使得各个指标的数据范围缩放到[0,1]之间,表达式见式(1)。其中,x和y分别为归一化前后的值,xmin和xmax分别是训练集的最小值和最大值。进一步地,步骤(2)结构如图,具体如下:(1)基学习机选取基学习机有三种,分别为支持向量机,极限学习机以及三重训练学习器,将训练数据集划分为不同的部分,并以相同的不平衡比例进行学习,来保持数据的原始分布不变,然后对数据进行重抽样,也就是自助法,为每个基学习机都构造一个具有相同规模但不同的训练样本的训练集;(2)半监督异构集成学习机训练与回归步骤1:先使用少量重抽样过的有标记样本对三种基学习机进行初始训练,得到初始基学习机,如n维的数据如果划分为k个m维的子集,最多有t种,取n个基学习机,则所有学习机都不同的概率为p,为了保证基学习机的多样性,需要使p大于70%。步骤2:使用有标记样本和无标记样本作为输入,通过bagging抽样方法从有标记样本中抽取多组训练集,使用不同的训练集对每组基学习机分别进行训练;训练后将两组基学习机同时认证的结果加入到已标记样本,通过更新后的已标记样本训练新的基学习机。步骤3:使用大量的无标记样本用得到的三种半监督基学习机进行集成预测,最后按照式4进行集成,然后将集成后的预测结果当做期望输出,对初始基学习机重新进行训练,采用式5有动量的梯度下降法调整初始学习机的各项参数。其中αm是第m个基学习机的权值,fm(y)为第m个基学习机输出预测结果ωij(t+1)=ωij(t)+η[(1-α)d(t)+αd(t+1)](5)其中αm是第m个基学习机的权值,fm(y)为第m个基学习机输出预测结果,d(t)表示t时刻的负梯度,η为学习速率,0<α<1,表示动量因子;步骤4:每隔一段时间按式6计算半监督基学习机错误率e,当半监督基学习机错误率不再减小时停止调整,得到异构集成学习机。其中gh(xj)是半监督基学习机的输出,gens(xj)代表集成学习机的输出结果,n代表半监督基学习机的数量;步骤5:利用得到的回归器对大量无标记样本进行预测,加入进l中得到大量有输入的输出。进一步地,步骤(3)包括如下过程:通过训练好的异构集成学习机,假设输入和输入满足一定的函数关系y=f(x)=f(x1,x2,…,xn),其中xi(i=1,2,…n)服从某分布且相互独立,v(y|xi)为x取xi的条件方差,其与v(y)之间的差异即该因素的影响程度,取不同值时,通过求均值来获取其期望e(v(y|xi))。根据数理统计方法,方差分解为:v(y)=e(v(y|xi))+v(e(y|xi))(7)主效应指标指变量单独的影响程度,取值在0-1之间,定义为:将输入变量分为xi和x-i两种情况,x-i表示除xi外其余变量取值完全相同的情况,如果输入参数的全效应指标很小,则说明该变量主效应很小,而且该变量与其变量的交互效应也很小,两者之间的差值体现了变量与其它变量的相互交叉作用对方差的贡献程度大小,其定义为:具体计算方式如下,假设系统有p个指标,计算敏感性指标时,随机抽取2n组样本数据,分为数量相同的两组,则样本数据中第i条数据可以分别表示为(xi1,xi2,…,xip)、(xi1′,xi2′,…,xip′),根据训练好的异构集成学习机,得到系统的输出相应值f(xi1,xi2,…,xip)、f(xi1′,xi2′,…,xip′),需要对第r个指标进行分析时,可以交换两组数据之间第r个输入值,得到(xi1,…xi(r-1),xir′,xi(r+1),…,xip)和(xi1′,…xi(r-1)′,xir,xi(r+1)′,…,xip′)。定义则由定义式(8)(9)可以推出:本发明具有如下有益效果:本发明基于民航维修质量评估和异构集成学习的敏感性分析方法,用于确定系统可靠性的主要影响因素,并为航空公司提供安全管理决策依据。本发明是利用半监督学习方法,利用大量无标记样本和少量有标记样本来确定安全管理指标与安全状况的定量关系。在半监督学习的背景下,本发明采用基于多重学习机的异构集成学习机方法进行整体维修安全质量的回归计算,得到大量安全状况指标对应整体维修安全质量的值,然后通过由方差分解法,计算指标的主效应指数与全效应指数,从而进行敏感性分析,以此方法计算各个时期的敏感性系数,得到敏感性变化趋势图,从而对未来的变化趋势进行预测,以此对不同的安全状况指标采取不同的调控手段,从而降低调控成本达到调控整体航空维修安全质量目的。附图说明:图1为半监督集成训练示意图。图2为航空维修整体维修安全状况指标。图3为贝叶斯网络图。图4为学习机最终预测错误率。图5为整体安全值变化趋势。图6为各指标主效应指数。图7为各指标全效应指数。图8为各指标敏感性。具体实施方式:下面结合附图对本发明作进一步的说明。(一)数据处理:(1)显著变量选取:航空维修的质量指标体系反映了航空维修管理的内在要求,为控制和检查维修工作提供一种判定标准,以利于全面掌握维修工程的情况,进行定性或定量分析,正确指导维修按计划实施。涉及到整体维修安全性能的指标可见表1,可见变量数量接近二十个,如果全部当做输入变量则将严重拉长训练器的学习以及回归时间,而且敏感性也将会难以计算,我们需要利用有限的已标记样本减少输入变量。首先采用多因素一元方差分析法计算个变量的影响效应,然后进行显著性检验,比较p值,其越小说明影响因素越大,然后保留影响因素较大的变量。表1整体维修安全性能影响因素(2)数据标准化:由于输入变量的量纲不一致,很有可能对最终的研究结果造成影响,本专利采用最大最小归一化方法分别对训练集和测试集进行归一化处理,使得各个指标的数据范围缩放到[0,1]之间,表达式见式(1)。其中,x和y分别为归一化前后的值,xmin和xmax分别是训练集的最小值和最大值。(二)半监督异构集成学习机训练并回归(1)基学习机选取集成学习需要选择合适的基学习机,包括基学习机的种类与数量,否则集成后分辨精度未必会提高。基学习机有三种,分别为支持向量机,极限学习机以及三重训练学习器。集成学习对学习机的差异性有要求,为增加差异性,将训练数据集划分为不同的部分,并以相同的不平衡比例进行学习,来保持数据的原始分布不变,然后对数据进行重抽样,也就是自助法(bootstrap),如此一来,为每个基学习机都构造了一个具有相同规模但不同的训练样本的训练集。比如,将数据s分为三部分s1,s2和s3,我们得到的训练集就是{s1,s2},{s1,s3}和{s2,s3}。(2)半监督异构集成学习机训练与回归步骤1:先使用少量重抽样过的有标记样本对三种基学习机进行初始训练,得到初始基学习机,如n维的数据如果划分为k个m维的子集,最多有t种,取n个基学习机,则所有学习机都不同的概率为p,为了保证基学习机的多样性,需要使p大于70%。步骤2:使用有标记样本和无标记样本作为输入,通过bagging抽样方法从有标记样本中抽取多组训练集,使用不同的训练集对每组基学习机分别进行训练;训练后将两组基学习机同时认证的结果加入到已标记样本,通过更新后的已标记样本训练新的基学习机。步骤3:使用大量的无标记样本用得到的三种半监督基学习机进行集成预测,最后按照式4进行集成,然后将集成后的预测结果当做期望输出,对初始基学习机重新进行训练,采用式5有动量的梯度下降法调整初始学习机的各项参数。其中αm是第m个基学习机的权值,fm(y)为第m个基学习机输出预测结果ωij(t+1)=ωij(t)+η[(1-α)d(t)+αd(t+1)](5)其中αm是第m个基学习机的权值,fm(y)为第m个基学习机输出预测结果,d(t)表示t时刻的负梯度,η为学习速率,0<α<1,表示动量因子;步骤4:每隔一段时间按式6计算半监督基学习机错误率e,当半监督基学习机错误率不再减小时停止调整,得到异构集成学习机。其中gh(xj)是半监督基学习机的输出,gens(xj)代表集成学习机的输出结果,n代表半监督基学习机的数量;步骤5:利用得到的回归器对大量无标记样本进行预测,加入进l中得到大量有输入的输出。(三)敏感性分析方差分解法是一种常用的全局敏感性分析方法,核心是利用分解方差的方法,将系统分解成单个参数以及参数间相互组合的函数,计算单个参数和参数组合的方差对总方差的影响,从而对参数对响应值影响的重要程度以及参数之间交互影响的程度进行分析。通过训练好的异构集成学习机,假设输入和输入满足一定的函数关系y=f(x)=f(x1,x2,…,xn),其中xi(i=1,2,…n)服从某分布且相互独立。v(y|xi)为x取xi的条件方差,其与v(y)之间的差异即该因素的影响程度,取不同值时,通过求均值来获取其期望e(v(y|xi))。根据数理统计方法,方差分解为:v(y)=e(v(y|xi))+v(e(y|xi))(7)主效应指标指变量单独的影响程度,取值在0-1之间,主效应指数越大,说明该变量对系统输出的影响越大,可以定义为:全效应指标指该变量与其他变量相互作用带来的影响,将输入变量分为xi和x-i两种情况,x-i表示除xi外其余变量取值完全相同的情况。如果输入参数的全效应指标很小,则说明该变量主效应很小,而且该变量与其变量的交互效应也很小,两者之间的差值体现了变量与其它变量的相互交叉作用对方差的贡献程度大小,其定义为:具体计算方式如下,假设系统有p个指标,计算敏感性指标时,随机抽取2n组样本数据,分为数量相同的两组,则样本数据中第i条数据可以分别表示为(xi1,xi2,…,xip)、(xi1′,xi2′,…,xip′)。根据训练好的异构集成学习机,可以得到系统的输出相应值f(xi1,xi2,…,xip)、f(xi1′,xi2′,…,xip′),需要对第r个指标进行分析时,可以交换两组数据之间第r个输入值,得到(xi1,…xi(r-1),xir′,xi(r+1),…,xip)和(xi1′,…xi(r-1)′,xir,xi(r+1)′,…,xip′)。定义则由定义式(8)(9)可以推出:实例分析实例数据以某航空公司“安全状况和维修质量管理评估系统”项目中2009年至2017年的维修系统安全运行数据作为样本。数据标准化的实现依据matlab中zscore函数,消除输入变量的量级影响。航空维修的质量指标体系反映了航空维修管理的内在要求,为控制和检查维修工作提供一种判定标准,以利于全面掌握维修工程的情况,进行定性或定量分析,正确指导维修按计划实施。影响安全性能的因素在表1中可见达到十九个之多,根据指标选取的原则,多因素一元方差分析的实现依靠matlab的anovan函数,利用少量有标记样本数据,计算各指标显著性检验的p值,其结果可见表2:表2影响因素显著性检验结果符号表示p值g0.02a0.058k0.02b0.06l0.02c0.08m0.01d0.10n0.09e0.01o0.06f0.01p0.05g0.01q0.06h0.01r0.07i0.01s0.09当p值小于0.05时,说明变量对于结果具有很大的影响度,根据检验结果选取了图2的航空维修安全运行评价指标体系中的九个指标,这些指标分别为e、f、g、h、i、j、k、l、m。确定输入变量为e到m,输出为航空维修安全性能。使用genie做出的航空维修安全的贝叶斯网络图,如图3,每个节点的条件概率表以及先验概率由航空公司2009-2016年一到十二月的统计数据获得,输入各指标的状态值,由此得到2009-2016年各月对应的整体维修安全值,作为已标记样本。读取2009-2016年的无标记样本,结合已标记样本数据对学习机进行训练。使用2017年的数据进行测试分析。步骤如下:1:首先将每个输入指标的状态分为三个等级,通过bagging抽样方法从有标记样本中抽取多组训练集,使用不同的训练集对每组基学习机分别进行训练;2:将两组同类初始基学习机同时认证的结果加入到已标记样本,通过更新后的已标记样本训练半监督基学习机;3:使用三类半监督基学习机进行集成预测,将集成后的预测结果当做期望输出,对初始基学习机重新进行训练,调整初始基学习机的各项参数;4:每隔一段时间测试学习机的预测错误率,具体变化可见图4,经由一万次迭代过后,可见学习机的错误率在训练时不断降低直到趋于稳定,说明回归效果已经达到最优,同时异构集成学习机的最优性能要高于基学习机4个百分点以上,且降低到了10%以下,完全证明了其预测优势;5:通过得到的异构集成学习机对2017年的数据进行回归预测,得到2017年每个月整体维修安全值,如图5。当系统的安全指标出现下降时,需要考虑指标的敏感性来对指标进行调控,根据历史数据,以0.80作为安全的警戒值,则从图5中可以看出2017年8月的值需要进行改进,通过八月份的指标数值,按照方差分解法计算敏感性指标。图6和图7为两个敏感性指标的计算结果,各个指标的主效应敏感性从大到小排序应为:e、h、g、f、i、k、l、m、j,而全效应指数排序为:h、g、e、f、l、i、k、m、j,多数指标的两个指数相差较小,说明计算结果较为准确,其中e指标和l指标的两个指数相差较大,说明两者与其他指标的交互方面对最终输出存在一定影响,即两者与其他指标的交互影响较大。对敏感性度较高的指标做相应调整,以求用最小的调整换取最大的效益。从敏感性计算结果中可以看出,全效应敏感性较高的前4个指标均来自维修状况这一部分,说明人工维修对于安全的影响程度要大于航空器自身状态。以上一节中的敏感性指标排序进行依次组合调整,(1)单指标调整:e指标的good概率提高1%后,安全值由0.793变化到0.7986;(2)两指标调整:再由h指标调整good的概率提高1%,安全值变化到0.8029;(3)三指标调整:调整g指标调整good的概率提高1%,安全值变化到0.8051;(4)四指标调整:继续f指标的good概率,安全值变化到0.8063;(5)全指标调整:继续按照如上方法调整i,k,l,安全值稳定在0.8065附近。可以看出,经过eh2个指标的调整后,安全系数已经达到所需的0.80的安全警戒值下限,而后续对其他指标进行相同额度的调控,安全系数则趋于0.8065且速度放缓,如图8所示,每个指标的敏感性解释了整体安全值增长的速率,这说明调控达到了一个瓶颈,最初调整指标系数时,安全系数增长较快,后期调整指标时,安全系数增长较慢且趋于平缓。这种情况下想要继续提高安全系数,则需要重新对敏感性系数较高的指标进行更大的调控。按照此次计算结果,此月对安全子系统进行改进的建议是对严重维修差错万事率,机务故障报告率进行相应的改进,以求安全系数达到可以接受的范围。以上的计算是基于总体数据的计算,得到的是总体周期内各个指标的敏感性,而根据不同时间段的航空公司相关数据,采用该方法,同样可以计算该在各个时期各个指标的敏感性系数,从而得到指标敏感性的变化趋势,最终来分析在未来时间段应该注重的改进指标以及可以适当减小关注程度的指标。对图6和图7中几个较高的指标进行敏感性分析。e、f、h这个三个指标随着时间的变化敏感性越来越小。这是由于随着安全管理体系在航空公司维修系统中逐渐落实,严重维修万时差错率、一般维修万时差错率以及事故征候万时率对安全的影响越来越不灵敏。而相应的,另外的六个指标灵敏度呈现出缓慢的上升趋势。从图中指标的变化趋势可以看出,在未来的某些时间段,可能存在不同指标之间的排序会发生变化,航空公司应该加强对指标g的管理控制,而逐步减少对e、h、f的调控。针对不同时间的数据对指标的敏感性进行阶段性的趋势分析也很有必要。综上所述,本专利将基于半监督的异构集成训练方法应用于航空公司维修安全质量管理体系,采用异构集成作为回归器对无标记样本进行训练,建立了安全状况和指标之间的因果关联。该算法结合实际数据,使用了基于不同基学习机进行集成学习,在一定程度上增加数据集的多样性,也能得到更加准确的训练效果。然后借助方差分解法计算各指标的单独敏感性和全局敏感性并进行敏感性分析以及调控措施分析。研究结果表明该方法可用于确定系统可靠性的主要影响因素并为航空公司提供安全管理决策依据,可以提高大量无标记样本的可利用性,对提升航空维修系统安全质量管理的能力,以及推动民航业的健康发展具有重要意义,今后的研究在考虑敏感性的同时可能也需要考虑系统改进的维修成本等内容,进行进一步的综合分析。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下还可以作出若干改进,这些改进也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1