一种基于海量运行数据的在线故障诊断方法

文档序号:10570190阅读:175来源:国知局
一种基于海量运行数据的在线故障诊断方法
【专利摘要】本发明提供一种基于海量运行数据的在线故障诊断方法,首先确定故障诊断模型样本参数,获取稳态样本数据,并剔除冗余样本数据;然后利用优选样本训练故障诊断模型;最后在实时诊断过程中,对监测数据进行标准化处理,并对处理后的数据流进行非稳态数据剔除,利用训练好的故障诊断模型对稳态数据进行传感器故障诊断,非稳态数据不作为判定传感器故障的依据,若稳态数据样本中出现故障数据,则故障诊断模型发出报警并进行故障处理。本发明在训练诊断模型的过程中进行样本优选,在实时诊断的过程中进行数据过滤,降低了故障诊断模型的误诊率,提高了故障诊断模型的可靠性、确诊率和容错力,进一步提高了在线监测精度。
【专利说明】
一种基于海量运行数据的在线故障诊断方法
技术领域
[0001] 本发明涉及在线故障诊断技术领域,具体涉及一种基于海量运行数据的在线故障 诊断方法。
【背景技术】
[0002] 机器学习 (Machine Learning)是从已知样本数据或信息中通过挖掘、归纳、演绎、 类比等方法获取知识的手段和机制,它是继专家系统之后人工智能应用的又一重要研究领 域,并引起广泛关注。机器学习的目的就是根据设计的某种方法或算法,对事先给定的训练 样本进行学习,然后求取对某系统输入输出之间依赖关系的估计,并使该估计能够较好的 对未知输出做出尽可能准确的预测或对其性质进行判断。
[0003] 故障诊断不但是海量数据挖掘领域中的重要研究内容,在热工过程海量实时数据 流处理中也是需要重点解决的问题。热工过程底层传感器通常工作在高温高压的复杂环境 下,一旦测量传感器发生故障,必将造成系统相关计算分析错误,轻则是控制系统性能下 降,重则有可能导致严重的事故,造成重大的经济损失,因此有必要对传感器测量数据的准 确性进行实时验证,并对诊断出故障的传感器进行故障分类及故障值重构;此外,除了保证 测量数据的准确之外,还要对热工过程各部件的运行状态进行实时监测及诊断。美国国家 统计局曾做过统计:1980年美国用于设备的检修的费用为2460亿美元,而采用状态监测与 故障诊断技术后,该项费用减少了 1/3,合计约750亿美元;英国国有化企业在釆用状态监测 和故障诊断技术之后,每年检修费用从35亿英镑锐减少到20亿英镑。可见,釆用故障检测和 故障诊断技术可以大量减少事故发生率,节省维修费用,减少大量的直接和间接经济损失。 基于数据驱动的人工智能技术是解决这一问题的有效方法,也是该领域的一个研究热点。
[0004] 目前,研究者们对人工智能建模技术作了大量的研究,提出了多种改进算法,在一 定程度上能够提高模型的学习能力。然而,人工智能模型的性能与训练样本的选取密切相 关,样本集是否具有代表性,决定了模型的学习效果。如果样本集中的某个参数与其他参数 数据相关性差,那么所建立的模型仅限于拟合有限训练样本间的关系,具有较差的泛化能 力,无法满足实时诊断的要求,某些参数由于测量环境差或者目前的技术无法准确测量,导 致测量值波动较大或与真实值偏离较大,即使与其他参数具有一定的机理关系,也无法从 过程测量数据中识别出来,如果这些参数的历史测量数据参与模型建立,可能会降低诊断 模型的精确度,还有基于过程数据的诊断模型一般通过机理关系确定模型参数,然而各类 传感器之间存在差异,某些传感器由于测量环境恶劣或者测量技术无法满足测量要求,使 得测量数据于真实值之间存在较大误差,导致这些参数的过程测量数据丧失了他们固有的 机理关系,因此有必要对参数间的关系进行数据检验;另外,样本中存在的非稳态数据和冗 余数据也会破坏诊断模型的精度,降低模型的学习能力和泛化能力,原始历史数据集中存 在大量非稳态数据,由于测量延迟或过度期间中的工况波动,使得这些数据无法准确反映 参数间的机理关系,还有稳态样本数据中存在大量的冗余数据,一方面增加了模型训练过 程中计算量,降低了网络模型的计算速度,另一方面可能造成样本数据不平衡。此外,实时 诊断过程中的非稳态数据不确定因素较多,很难保证变量间的关系符合严格的数学模型, 将发生大量的误诊情况,严重影响了模型的有效性,因此,如何从海量数据中选取合适的样 本对提高机器学习模型的实用性具有重要意义。

【发明内容】

[0005] 发明目的:为了克服现有技术中存在的不足,本发明提供了一种基于海量运行数 据的在线故障诊断方法,考虑了模型训练过程中的样本选择问题和在线诊断过程的数据过 滤问题,提高了诊断模型的可靠性。
[0006] 技术方案:本发明提供的基于海量运行数据的在线故障诊断方法,包括如下步骤:
[0007] (1)优选样本:确定故障诊断模型样本参数,获取稳态样本数据,并剔除冗余样本 数据;
[0008] (2)训练故障诊断模型:利用优选样本训练故障诊断模型;
[0009] (3)故障诊断:实时监测过程数据,进行标准化处理,并对处理后的数据流进行非 稳态数据剔除,利用训练好的故障诊断模型对稳态数据进行传感器故障诊断,非稳态数据 不作为判定传感器故障的依据。
[0010] 某些参数由于测量环境差或者目前的技术无法准确测量,导致测量值波动较大或 与真实值偏离较大,即使与其他参数具有一定机理关系,也无法从过程测量数据中识别出 来,如果这些参数的历史测量数据参与模型建立,可能会降低诊断模型的精确度。因此,本 发明在模型建立前对参数进行相关性分析,确保参数历史测量数据之间具有一定的相关 性。样本参数确定的具体方法为:
[0011] (la)获取初始诊断模型样本参数集合P:P= {pi,p2, ? ? ?,pn},pi= {pil, Pi2,* ? ?jim},其中,。1£?,1={1,2,...,]1}表示参数编号,11表示参数个数,1]1表示对应参 数的样本个数;
[0012] (lb)对初始诊断模型参数之间进行相关性分析,得到各参数与其他参数之间的相 关系数: rn ^ ?*' r\n
[0013] f1 % y y . y .n\ -nl
[0014] 其中,rij表示参数?1与参数w之间的相关系数,所采用的相关性分析方法为:PCA、 KPCA或信息熵相关性分析方法;
[0015] (lc)设定相关系数容忍度rtcll,计算各参数与其他参数之间相关系数大于r tcll的个 数供得到.9* =他,色): r n I1 r">r,〇l
[0016] 5,;.= Cl) ' [0 ^ < r,oJ
[0017] 奶=IXGW) (2)
[0018] 其中,灼€切,1 = {1,2,...,11}表示参数编号;
[0019] (Id)设定最小容忍个数l选取與大于最小容忍个数G的参数作为最终诊断模型参 数,最终诊断模型参数集合为? ?,pl/l},L为最终诊断模型参数个数。
[0020] 原始历史数据集中存在大量非稳态数据,由于测量延迟或过渡期间中的工况波 动,使得这些数据无法准确反映参数间的机理关系。因此本发明利用稳态判定方法获取最 终诊断模型参数对应的历史样本数据各时间段内的稳态因子,设定稳态容忍度,剔除稳态 因子小于所述稳态容忍度的数据,得到各时间段的稳态数据;所采用的稳态判别方法为:数 理统计方法、字符串解析方法或信息熵方法。
[0021] 训练样本在保证包含参数间绝大部分信息的前提下,应尽量减少样本数量,一方 面能够减少冗余信息,提高学习效率,满足在线学习的要求,另一方面可以减少样本间的不 平衡,避免对某些样本的过学习。因此本发明采用数据约简技术剔除样本数据中的冗余数 据;所述采用的数据约简技术为:聚类方法、压缩最近邻方法或信息熵方法。
[0022] 为了保证实时数据与诊断模型的有效融合,实际监测过程中与样本优选过程中筛 选出相同稳态质量的数据。
[0023] 有益效果:本发明提出的方法与现有技术比较,具有的优点是:
[0024] 1、在利用故障诊断模型对数据流进行实时诊断之前,选取与诊断对象具有机理关 系的诊断模型参数,再利用历史测量数据对这些参数进行相关性分析,从而选取了一组相 关性较大的参数作为诊断模型参数,确保诊断模型的有效性和稳定性;采用稳态判定方法 和数据约简技术从海量历史数据中选取稳定性高、相关性低、分布均匀的数据集作为模型 训练样本,降低了故障诊断模型的误诊率、提高了故障诊断模型的可靠性,进一步提高了故 障诊断模型的在线监测精度。
[0025] 2、在实时诊断过程中加入数据过滤,利用稳态判定策略剔除实时数据中的非稳态 数据,将稳态数据通过所述故障诊断模型进行实时故障诊断,提高了模型的确诊率和容错 力。
【附图说明】
[0026] 图1是本发明基于海量运行数据的在线故障诊断方法的流程图;
[0027]图2是原始样本稳态监测结果;
[0028] 图3是机组发电负荷稳态监测结果;
[0029] 图4是参数M2和M8稳态过滤前后样本对比图;
[0030] 图5是不同压缩比样本学习效率对比图。
【具体实施方式】
[0031] 下面结合实施例对本发明作更进一步的说明。
[0032] 如图1所示,基于海量数据的在线故障诊断方法包括如下步骤:首先确定故障诊断 模型样本参数,获取稳态样本数据,并剔除冗余样本数据;然后利用优选样本训练故障诊断 模型;最后在实时诊断过程中,对监测数据进行标准化处理,并对处理后的数据流进行非稳 态数据剔除,利用训练好的故障诊断模型对稳态数据进行传感器故障诊断,非稳态数据不 作为判定传感器故障的依据,若稳态数据样本中出现故障数据,则故障诊断模型发出报警 并进行故障处理。
[0033] 整个在线诊断过程包括模型训练模块和在线稳态监测模块,其中模型训练模块包 括样本变量选取模块、稳态数据识别模块、海量数据约简模块。
[0034]下面以某600MW电厂SCR脱硝系统A侧反应器为例来介绍本发明提供的在线故障诊 断方法的具体实施步骤。
[0035]选取表1所示的8个测点作为原始样本参数。从SIS系统PI实时数据库中采集所选 参数在2014年12月1日至2015年1月1日之间的历史数据,其采样间隔时间为60s,选用每10 分钟内10次采样结果的平均值作为一组样本数据,共采集44632组进行研究。(注:可通过应 用程序利用PI数据库提供的API函数快速读取历史数据。)
[0036]表1测点清单
[0038] 样本变量选取模块。本算例采用关联信息熵技术分析各参数之间的相关性,设定 相关系数容忍度rtol = 0.5和最小容忍个数6 = 3,得到相关系数矩阵: "1 0.8158 0.7575 0:.1097 0.7671 0.8192 0.481,7 0,7049" 0.8158 1 0.7413 0..11Q2 0.8259 6.8114 0.4793 0.6617 0.7575 0.7413 1 0.11 0.725 0.7697 0.4588 0,7447 0,1097 0.1102 0.11 1 0,108 0.1114 0.II42 0,1133
[0039] R = 0.7671 0.8259 0.725 0.108 1 0.7663 0.504 0.6495, 0.8192 0.8114 0,7697 0.1114 0.7663 1 0.4667 0.7055 0.4817 0.4793 0.4588 0.1142 0.504 0.4667 1 0:.4672 _0.7049 0.6617 0.7447 0.1133 0.6495 0.7055 0.4672 1
[0040] 可见,容限内的各参数个数为:
[0041 ] <9= !f).6.6.0.7.7J.7| .
[0042]根据容限内参数个数与最小容忍个数的比较结果,剔除第四、第七个参数,选择其 他六个参数作为本算例诊断模型的训练参数。
[0043]训练参数原始样本数据进入稳态数据识别模块。采用一种基于统计理论的稳态判 定方法,通过两种不同方法计算出同一数据集的方差值,获取两个方差值的比率得到F检验 结果,并以此作为样本的稳态依据。设定稳态容限,识别各样本稳定状态,并剔除非稳态数 据。
[0044]本算例采用MATLAB软件平台,计算在不同稳态容限&ri下脱硝系统的历史样本稳 态监测结果,对44632组数据样本的计算时间为5.325s,结果如图2所示,图2是原始样本稳 态监测结果(1表示稳态,0表示非稳态);以机组负荷为例,图3为该参数在某一时间段的历 史曲线及对应的稳态判定结果,可见,该算例的稳态判定结果能准确地反映历史数据的波 动状况。综上所述,该稳态监测方法能够准确、有效、快速地辨识出热工过程海量数据中的 稳态数据。
[0045] 低稳态容忍度输出高质量稳态样本,同时也降低了稳态样本的在原始样本中的比 率,见表2。为了保证实时数据与诊断模型的有效融合,在实际监测过程中需要筛选出相同 稳态质量的数据,因此稳态容忍度也会影响实际应用过程中的诊断周期。由表2可知,低稳 态容忍度将增大模型的诊断周期,降低模型诊断的时效性。因此,确定稳态容忍度需要综合 考虑样本的稳态质量和在线诊断周期。
[0046] 表2不同容限下历史样本稳态监测结果
[0048]图4为参数M2和M8稳态过滤前后样本对比图,即历史样本在稳态检测前后反应器 入口 NOx浓度和尿素流量的样本对比。一方面,随着稳态容忍度降低,稳态数据不断减少,例 如当SCTi = 1时稳态数据只有52个,占所有样本数量的0.13 % ;另一方面,随着稳态容忍度降 低,数据带周边的样本不断被剔除,保留着数据带中心的样本,这些样本能够更加清晰地呈 现出两参数之间的机理关系。在采样周期为1分钟的情况下,几分钟的诊断周期能够满足现 场的实际要求。因此,本算例选取稳态容忍度S CT1 = 1.4,将6500组输出样本作为稳态样本。 [0049]稳态数据进入海量数据约简模块。采用聚类及压缩最近邻的方法对稳态样本进行 数据约简,减少样本集中的冗余数据,能够较好地权衡信息与数据量之间的关系,保证约简 过程不会丢掉具有重要的物理特征的数据集,进一步提高诊断模型的学习速率和泛化能 力。
[0050] 为确定合适样本数量,本算例基于MATLAB平台,采用神经网络技术(本算例采用 ITNN神经网络)分别对1%,5%,10%,20%,40%,60%,80%,100%压缩比的样本进行训 练,考察各模型的学习效率,模型精度以及泛化能力。
[0051] 神经网络的学习效率与初始化随机权重值有关,因此本算例对各压缩比模型分别 进行10次模拟训练,每次训练采用相同的预设精度,用10次模型训练的平均学习时间来考 察各压缩比下模型的学习效率,由于40%,60%,80%,100%压缩比下的样本无法完成训 练,因此只考察其它4组模型;另外,从6500组稳态样本中随机选取1000组样本作为模型的 测试样本,采用平均相对误差4、平均绝对误差尾和最大相对误差E max来综合考察模型精 度,结果如表3所示。
[0052]表3四种压缩比样本模型的学习时间及误差分析结果
[0054] 从模型精度上看,四个模型都能够准确地估计出各变量的真值,具有较强的泛化 能力。从学习效率上看,如图5所示,1%压缩比的模型明显优于其他模型,因此本算例采用 1%压缩比的65个样本作为诊断模型的训练样本。可见,采用本发明策略能够成功地从海量 数据中挑选出少量具有代表性的高质量样本,所建立模型亦可保证较高的学习效率和准确 性。
[0055] 采集实时数据进入在线稳态监测模块,首先采用步骤1中的稳态判定方法对过程 数据进行实时监测,然后对稳态数据进行传感器故障诊断,非稳态数据不作为判定传感器 故障的依据。为验证在线稳态监测模块的必要性和有效性,本算例随机采集1〇〇〇组非稳态 数据作为模型测试样本,以发电功率为例,测试结果如表4所示。
[0056] 表4发电功率稳态与非稳态样本测试结果对比
[0058]可见,非稳态样本中存在较多的不确定因素,很难保证变量间关系符合严格的数 学模型。若设定10MW为故障阈值,那么1000个非稳态样本中会出现52次误报警,严重影响诊 断模型的准确性。采用本发明在线稳态监测方法,可以有效降低诊断模型误诊率,保障诊断 模型可靠性。
[0059]以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的技术人员来 说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为 本发明的保护范围。
【主权项】
1. 一种基于海量运行数据的在线故障诊断方法,其特征在于,包括如下步骤: (1) 优选样本:确定故障诊断模型样本参数,获取稳态样本数据,并剔除冗余样本数据; (2) 训练故障诊断模型:利用优选样本训练故障诊断模型; (3) 故障诊断:实时监测过程数据,进行标准化处理,并对处理后的数据流进行非稳态 数据剔除,利用训练好的故障诊断模型对稳态数据进行传感器故障诊断,非稳态数据不作 为判定传感器故障的依据。2. 根据权利要求1所述的基于海量运行数据的在线故障诊断方法,其特征在于,所述步 骤1确定故障诊断模型样本参数的具体方法为: (la) 获取初始诊断模型样本参数集合Ρ:Ρ={ρι,ρ2, · · ·,pn},pi={pii,pi2, · · ·, Pim},其中,Piep,i = {l,2,...,n}表示参数编号,η表示参数个数,m表示对应参数的样本个 数; (lb) 对初始诊断模型参数之间进行相关性分析,得到各参数与其他参数之间的相关系 数:其中,rij表示参数pi与参数pj之间的相关系数; (1(3)设定相关系数容忍度^。1,计算各参数与其他参数之间相关系数大于^。1的个数%, 得至 =其中,e= {i,2,· . ·,n}表示参数编号; (Id)设定最小容忍个数ζ,选取A大于最小容忍个数ζ的参数作为最终诊断模型参数,最 终诊断模型参数集合为:为最终诊断模型参数个数。3. 根据权利要求1所述的基于海量运行数据的在线故障诊断方法,其特征在于,所述步 骤1获取稳态样本数据的具体方法为:利用稳态判定方法获取最终诊断模型参数对应的历 史样本数据各时间段内的稳态因子,设定稳态容忍度,剔除稳态因子小于所述稳态容忍度 的数据,得到各时间段的稳态数据。4. 根据权利要求3所述的基于海量运行数据的在线故障诊断方法,其特征在于,所采用 的稳态判别方法为:数理统计方法、字符串解析方法或信息熵方法。5. 根据权利要求1所述的基于海量运行数据的在线故障诊断方法,其特征在于,所述步 骤1采用数据约简技术剔除样本数据中的冗余数据。6. 根据权利要求5所述的基于海量运行数据的在线故障诊断方法,其特征在于,所述采 用的数据约简技术为:聚类方法、压缩最近邻方法或信息熵方法。7. 根据权利要求1所述的基于海量运行数据的在线故障诊断方法,其特征在于,所述步 骤3与步骤1筛选出相同稳态质量的数据。
【文档编号】G06F17/50GK105930629SQ201610551765
【公开日】2016年9月7日
【申请日】2016年7月13日
【发明人】江晓明, 司风琪, 任少君, 王虎, 张捷
【申请人】大唐南京环保科技有限责任公司, 东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1