基于多元时间序列分析和分层概率校准的风电机组故障诊断方法

文档序号:37357699发布日期:2024-03-22 10:11阅读:17来源:国知局
基于多元时间序列分析和分层概率校准的风电机组故障诊断方法

本发明属于风电机组的故障诊断领域,具体涉及一种基于多元时间序列分析和分层概率校准的风电机组故障诊断方法。


背景技术:

1、当前的风电机组大多安装在交通不便的偏远地区或海上,受恶劣的运行环境和复杂运行公开的影响,风电机组机制的故障率往往要高于传统的火电和水电机组,影响风电机组的发电效率的同时也会增加风电场的运维成本。因此,有必要采取可靠的方法准确且及时的辨识风电机组的故障,从而减少停机维护时间。

2、当前的风电场大多配置了数据采集与监视控制系统(supervisory control anddata acquisition,scada)来实时监测风电机组的运行状态,这为基于数据驱动的风电机组故障诊断提供了丰富的数据资源。相比基于物理模型和信号处理的风电机组故障诊断方法,数据驱动法以机器学习和深度学习来实现对故障的诊断,具有普适性好,准确率高且无需额外的投资的特点,具有广泛的应用前景。然而,当前基于数据驱动的风电机组的故障诊断方法大多是从数据关联性角度挖掘变量之间的映射关系来辨识故障类型,大多数方法忽略了风电机组状态监测量内在的时间序列属性。即便有一些方法从时间序列角度考虑了变量内在的短时相依关系,如循环神经网络、长短期记忆网络(long short-term network,lstm)等,也仅仅只考虑了单一变量在时间轴上的短时相依关系,而忽略了同一时间断面上多个时间序列变量之间的关联关系,这使得一些有效的信息未能被充分挖掘。

3、除此之外,当前主流的基于分类算法的故障诊断方法大多通过模型输出的概率值大小来判断故障类型。但数据采集时的测量误差、风速随机变化和其它不确定环境因素的影响,scada系统采集数据的质量往往难以保证,这都会严重影响模型对故障的诊断可靠性。

4、此外,风电机组的故障属于小概率偶发事件,相关故障样本的数量往往有限,而且存在严重的不平衡,这使得训练的故障诊断模型的性能难以满足要求。虽然一些学者提出通过数据的重采样来缓解训练数据的不平衡性,但此类方法大多针单一故障诊断展开,在风电机组的多类故障诊断上中的准确性仍有待提升。


技术实现思路

1、针对上述风电机组故障诊断中面临的难题,本发明以风电机组的scada数据为基础,提出了一种基于多元时间序列分析和分层概率校准的风电机组故障诊断方法,该方法能够充分融合多元源信息来提升故障诊断的准确性和可靠性。

2、本发明采取的技术方案为:

3、基于多元时间序列分析和分层概率校准的风电机组故障诊断方法,包括以下步骤:

4、步骤一:分析风电机组scada数据特征,对风电机组scada数据进行预处理,基于时间序列的矩阵轮廓分析法,构建含二级分类标签的多元时间序列样本集合;

5、步骤二:采用堆叠lstm模型设计了适用于多元时间序列样本集合的故障诊断模型,在对多元时间序列样本总体进行故障诊断同时对其内部各时刻样本状态进行初步诊断;

6、步骤三:采用分层故障概率修正策略融合多元信息对各时刻样本属于不同故障类型的概率进行修正,并选择修正后最大概率值对应的类作为最终的故障诊断结果。

7、所述步骤一包括以下步骤:

8、步骤1.1:对风电机组scada数据进行预处理,以消除数据中的异常值和缺失值;

9、步骤1.2:结合风电机组scada数据和风电机组的故障日志,对预处理后的每个时刻的scada采样数据进行标签设置;其中,故障日志中没有记录的时刻表示运行正常,用整数0作为标签;故障日志中记录其它故障分别用不同的整数作为标签,则对应的样本标签集合为y=[0,1,2…,k],k为故障类别数。

10、步骤1.3:由于风电机组的的scada系统通常采集了上百个监测量,但并不是所有的量都对故障诊断有意义,因此,需要将领域知识与相关性分析法相结合,来选择强相关的监测量作为特征变量,从而在尽可能保留有效信息的同时减少待分析数据的量,并基于所选择的强相关的监测量作为构造多元时间序列分析样本集合的基础变量,具体如下:

11、采用pearson相关性分析来选择特征变量,其公式如下:

12、

13、式中:a和b分别代表待选变量和目标变量集合;ai分bi分别表示a和b中的第i个元素;μa和μb分别为两个特征子集的均值;pr表示两个特征子集的pearson相关系数;pr的值反映了两个特征子集的相关程度,其取值范围为[-1,1],值为正表示正相关,为负表示负相关,为0表示不相关;其绝对值接近1表示两个特征子集的相关性越强。

14、步骤1.4:采用式(2)所示的最大值最小值缩放对所选择的各类监测变量,包括风速、风向、各类转速、各类温度监测量、电气监测量以及输出功率等,进行标准化处理;

15、

16、式(2)中:x为待处理数据,x*为处理后的数据,xmax和xmin分别为该变量监测数据的最大和最小值。

17、步骤1.5:基于选择的特征变量数据,采用窗口宽度固定的滑动窗口以一定的步长进行采样,获取包含多个连续时刻的多元时间序列数据矩阵xi;进一步,以xi中各时刻的对应的标签构造标签矢量yi作为xi的一级标签,并通过对yi内的标签做“或”运算得到xi的二级标签,则新构建的多元时间序列样本集形式如下:

18、

19、

20、式(3)中:d表示所选择特征变量的个数;l表示采样窗口的长度;n表示总的多元时间序列样本个数;

21、矢量yi中元素取值为[0,1,2…,k]中的一个,其中0,1,2…m表示根据故障日志设置的标签,0表示无故障k表示第k类故障的标签。fi为多元故障样本的二级标签,其值为0表示滑窗采样的时段内不存在故障,1表示滑窗采样的时段内存在故障。i表示构造的第i个多元时间序列矩阵样本。

22、为便于与区分,将原始的scada系统每个时刻采样数据成为一个scada样本,每个scada样本中包含了同一个时刻由不同传感器采集的多个监测量的值,并对应一个一级标签。而每一个多元时间序列样本,内部包含了l个scada样本及其标签,以及对应的二级标签。

23、步骤1.6:将构建好的多元时间序列按一定的比例分为训练集、验证集和测试集,其中,训练集用于模型的训练与参数的调优,验证集则用于对训练模型的性能评估,测试集中则包含有已知故障类型的若干样本,用于模型的实际效果验证。

24、所述步骤1.1中,采用3δ准则来初步辨识各类监测量中因采样异常而产生的异常值,并通过插值法对原始数据中的异常值和缺失值进行替换和补充。

25、3δ准则是一种统计学中用于检测异常值的方法,它也被称为拉依达准则。该准则假设数据服从正态分布,由于标准正态分布数据分布在(μ-3σ,μ+3σ)区间内的概率为99.74%,超出这个范围的可能性仅占不到0.3%。因此,3δ准则认为如果某个数据的取值超出了(μ-3σ,μ+3σ)区间,就可以认为该数据存在异常值,需要进行检查和处理。其中μ表示这组数据的平均值,σ为标准差,反映了数据的离散程度。

26、插值法是一种常用的数值分析方法,用于在已知数据点的情况下,通过构造插值函数来估计未知点的函数值。常用的插值方法包括拉格朗日插值法、牛顿插值法等。本发明采用常用的拉格朗日插值法来处理异常值和缺失值。其原理如下:

27、假设已知n个数据点(x1,y1),(x2,y2),…,(xn,yn),要求在这些数据点上构造一个n-1次多项式p(x),使得p(xi)=yi(i=1,2,…,n)。则p(x)的拉格朗日插值公式为:

28、

29、其中,yi表示第i个数据点的函数值;xi表示第i个数据点的自变量值;公式中的∏符号表示对所有j≠i的j进行乘积运算。通过对异常值和缺失值的处理可以提高数据的质量,有助于提高后续训练模型的性能。

30、所述步骤二包括以下步骤:

31、步骤2.1:以堆叠lstm模型为基础,挖掘多个时段的时间序列数据与故障之间的相依关系,堆叠lstm模型输入为以多元时间序列样本中的数据矩阵xi作为输入,以一级标签矢量yi和二级标签fi分别为输出训练模型。其中,一级标签对应的损失函数为多元交叉熵损失函数lm,二级标签fi对应的损失函数为二值交叉熵损失函数lb,对应的表达式分别如式(5)、式(6)所示:

32、

33、

34、式(5)、式(6)中:nv表示的含义多元时间序列样本的个数;l表示每个多元时间序列样本包含的scada样本数量,上标c表示对应的分类标签为c;k表示一级标签内所包含的标签总数,下标i表示第i个多元时间序列样本,下标t表示每一多元时间序列样本中由scada系统采集的第t个时刻的样本,即每个样本对应唯一的t。这样标记的原因是利用滑动窗口采样构造多元时间序列样本时,同一个时刻的scada样本可能会被分到不同的多元时间序列样本中,但通过唯一的时间戳t仍然可以准确锁定该样本。

35、表示第i个多元时间序列样本中第t个scada样本的标签是否为c。表示模型对于第i个多元时间序列样本中第t个scada样本的标签分类为c的概率。log()为对数计算。yi和pi分别表示以二级标签分类时,第i个样本的标签为正及其对应的概率;

36、堆叠lstm模型网络是一种深度学习模型,用于处理时间序列数据学习,它通过对多个lstm层的叠加来提升模型对数据的挖掘能力。堆叠网络原理图结构分别如图3所示,其中,进行顶层故障诊断的堆叠lstm模型用于对多元时间序列样本的整体故障概率进行初步预测;而用于内部故障概率诊断的堆叠lstm模型则用于预测多元时间序列样本内部各时刻样本的故障概率。这两个堆叠lstm模型堆叠的层数分别为n1和n2,其取值需要根据两个模型实际性能确定。

37、步骤2.2:采用网格搜索法和相应的评估指标对堆叠lstm模型的参数进行寻优。评估指标包括基于多元时间序列样本的准确率指标afir、所有多元时间序列样本内各时刻样本的平均诊断准确率指标asec、平均误检率指标fnr、平均误报率指标fpr;

38、

39、

40、

41、

42、式中:l表示构造多元时间序列样本时滑动窗口的长度,其中包含了l个scada系统采集的原始样本;ntp为多元时间序列样本正常类被识别为正常类的数量;ntn为多元时间序列样本中故障类被识别为故障类的数量;表示第i个多元时间序列样本内部所有时刻样本中的故障类被错误的识别为正常类的个数;示第i个多元时间序列样本内部所有时刻样本中的正常类被错误的识别为故障类的个数;

43、上述指标中:afir表示堆叠lstm模型对多元时间序列样本总体的分类准确性;asec表示模型对多元时间序列样本内部所有时刻样本分类的准确性;平均误检率指标fnr用于反映模型对各时刻故障诊断的漏报情况;平均误报率指标fpr用于反映模型对各时刻故障诊断的虚报情况。

44、所述步骤三包括以下步骤:

45、步骤3.1:将多元时间样本的全局故障概率pi作为顶层先验信息,对个体故障概率的值进行纠偏,从而消除个体极端情况对诊断结果的影响;采用经验加权法对的值进行一次修正:

46、

47、式(11)中:为第i个多元时间序列样本内处于第t个时刻属于第c类故障概率经过第一次修正后的结果;ω为概率融合权值,ω的取值大小反映了模型对个体预测结果的置信度;为服从多元时间序列全局样本故障条件下,各类故障概率的期望值;表示取中概率值最大的上标c,即将时刻t样本故障分类概率最大值与全局样本故障概率值保持一致。

48、利用顶层概率进行一次纠偏后的t时刻样本故障分类概率为分别表示经过一次纠偏后,第i个多元时间序列样本内部在t时刻采样的样本属于的故障(0,1,2,…k)的概率。修正后的概率值考虑了多元时间样本的全局信息统计分布。

49、步骤3.2:基于统计推理的故障概率估计方法,包括以下步骤:

50、步骤3.2.1:直接基于预处理后的训练数据,即按原始时间序列顺序排列的scada采样数据,按类别分别构建的k个不同的训练集dc,c=0,1,2,…k,数据集的前d列表示不同的监测变量,最后一列为对应的故障样本标签;由于每种类型的样本数量不一定相同,因此d0~dk矩阵的行数不一样,如式(12)所示:d0和dc的下标l和m分别表示正常类型样本有l个,而第c类故障样本有m个;

51、

52、式(12)中:表示第c类故障的第m个样本中的第d个监测变量的标准化处理后的值。步骤3.2.2:采用非参数的核密度估计算法对不同故障类型的历史数据进行学习,挖掘各类监测数据与不同故障标签之间的条件相依关系,得到各类故障的条件概率密度函数fc(x),则在给定新的样本条件下,分别表示t时刻经由scada系统采集的d个不同的监测变量。利用不同fc(x)能够估计该样本属于不同类型故障的概率,其概率表示为:

53、

54、式(13)中:表示在给定输入时刻t所对应的监测量xt情况下,利用c类故障的条件概率密度函数fc(x)估计其属于c类故障的概率;m为训练样本的数量;h是一个超参数,称之为带宽或者窗口;d表示监测变量的个数;φ(x)为高斯核函数;dc表示的第c类故障所有样本数据构建的训练集;hd表示的含义d个h相乘;xt表示给定的t时刻的输入条件矢量,xi表示的dc中第i个时刻采集的条件矢量。

55、在相同的输入条件基于不同故障类型的概率密度函数分别进行估计,能够得到分属于不同故障的概率分别表示第t个时刻的样本基于核密度估计分别属于第0,1,2,…,k的概率。qt是利用训练样本空间中各类故障的所有样本进行估计的,其估计结果中包含了各类故障样本真实的分布信息和每个样本的个体化信息,因此能够利用该故障概率作为底层先验概率进一步对pt,i进行修正。

56、步骤3.3:基于贝叶斯定理的故障概率校准,在基础上以各类故障的条件核密度估计结果qt作为底层先验概率,对t时刻样本属于不同故障的概率进行二次修正,具体方法为:

57、

58、式(14)中:为第i个多元时间序列样本内处于第t个时刻属于第c类故障经过二次修正的后验概率;为基于不同核密度估计得到的t时刻样本属于c故障的底层先验概率;当得到了t时刻样本属于每类的后验概率集合后,分别表示第t个时刻的样本经过二次修正后分别属于第0,1,2,…,k的概率。最后,选择其中概率值最大者作为诊断的故障类型,相应可靠性概率为

59、本发明一种基于多元时间序列分析和分层概率校准的风电机组故障诊断方法,技术效果如下:

60、1)本发明提供的基于时间序列的矩阵轮廓分析法,构建了含二级标签的多元时间序列样本,能够有效能够缓解原始数据中噪声和缺失值等对模型训练的影响。

61、2)本发明利用多元时间序列样本训练的堆叠lstm模型,不仅能够有效学习数据内部的短时相依关系,同时也能提取不同变量在相同时间断面的关联关系,有效提升了对数据内部信息的挖掘深度。

62、3)本发明提出了结合贝叶斯理论的分层故障概率修正策略,可充分融合多元源信息来提升故障诊断的准确性和可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1