基于特征分组和分布维度均衡化的风电机组故障诊断方法

文档序号:28161765发布日期:2021-12-24 20:18阅读:57来源:国知局
基于特征分组和分布维度均衡化的风电机组故障诊断方法

1.本发明涉及风电机组故障诊断技术,尤其涉及一种基于特征分组和分布维度均衡化的风电机组故障诊断方法。


背景技术:

2.风力机主要由齿轮箱、发电机、主轴承、偏航系统、叶片和塔架等关键部件组成。为了实现风电机组运行的可靠性和稳定性,scada(supervisory control and dataacquisition)系统被用来主要收集风力机的运行数据和工作状态,它包含了从风力机测量到的数十或数百个信号,如风速、温度、转速等。这些数据已广泛应用于风力机故障诊断中。近年来,风力机scada数据的故障诊断多使用基于数据驱动的方法,常用方法有深度学习方法和聚类方法。但是,基于机器学习或深度学习的方法存在着过度拟合和耗时的问题。
3.聚类方法一般采用基于距离的度量方式来进行数据的诊断,可以有效地解决算法过拟合和计算耗时的问题。该类方法具有较好的自学习能力,不需要为系统建立详细的网络模型。监视系统所需的知识来自于收集的归档数据,通过对正常数据进行处理和训练,自动生成健康监测知识库,且其形成的知识库也很容易更新。同时,基于距离的聚类方法可以通过快速计算来监控系统性能和检测异常行为,而不需要过多的计算机资源。
4.虽然基于距离的聚类方法解决了深度学习模型的过拟合和耗时的问题,但也存在一些不足。首先它无法精确定位到具体的故障。其次,对于scada这样具有多维特性的数据,不同故障模式之间的特征参数并不完全相同,如何选取故障的特征参数也是急需解决的问题。第三,该方法的距离计算普遍采用简单的欧氏距离,没有考虑数据分布存在维度不均衡的问题。综合考虑深度学习和聚类算法的问题,本发明在基于距离的聚类方法的思想基础上,提出了基于特征分组和分布维度均衡化的故障诊断方法。


技术实现要素:

5.本发明为了解决风电机组精准故障诊断的需求,提出了基于特征分组和分布维度均衡化的风电机组故障诊断方法。
6.基于特征分组和分布维度均衡化的风电机组故障诊断方法采用离线学习模型参数、在线执行故障诊断的算法框架。诊断算法的离线学习部分主要由数据预处理、特征提取、合成少数过采样(smote)、模型训练四个模块组成,在线分析部分主要由故障诊断模块组成。方法利用已积累的历史运行数据,离线学习基于马哈拉诺比斯距离和约翰逊变换的概率分布模型,在风电机组运行时在线进行故障诊断。
7.数据预处理模块主要包括数据清洗、数据结构标准化、数据标定以及数据归一化四个部分:所述的数据清洗负责删除原始数据文件里面的无效数据,包括停机数据和有缺失项数据;所述的数据结构标准化负责将可能的异构原始数据统一转换为相同的数据格式,方便后续步骤执行;所述的数据标定是根据故障数据和其对应的故障标号对每个原始数据进行数据标定;所述的数据归一化负责将不同尺度的多元参数都去中心化和归一化。
8.特征提取部分采用改进的relief算法进行特征分组。算法通过赋予特征权重的方式,依据事先设置的阈值,对特征进行筛选。同时,特征分组是针对不同部件的典型故障进行最优特征选取,所以需针对所有重要部件的典型故障模式分别执行算法。
9.合成少数过采样模块主要包括少数类确定、计算k近邻样本集、选择近邻样本和生成新样本四个部分:所述的少数类确定将已标定的数据群中的故障类数据分隔开;所述的k近邻样本集对每个少数类样本生成k近邻的样本集;所述的选择近邻样本负责从生成的近邻样本集中选择一个近邻样本代表;所述的生成新样本负责产生新的少数类样本。
10.模型训练模块主要包括马氏距离计算和度量正态化:所述的马氏距离计算负责对所提取的特征数据依次计算其到中心数据的马氏距离;所述的度量正态化负责将非正态分布的度量转换为正态分布度量。
11.故障诊断部分主要包括模型加载、异常检测、模型更新和故障概率计算:所述的模型加载负责加载离线时训练完成的概率模型;所述的异常检测负责将实时数据输入到正常概率模型内进而输出异常与否;所述的模型更新包括诊断结果先验和模型参数更新;所述的诊断结果先验负责将诊断结果的正常数据进行缓存;所述的模型参数更新负责根据先验对模型参数进行动态微调;所述的故障概率计算负责将异常数据分别输入到不同故障模式概率模型内,并输出对应的概率。
12.本发明的优势在于:
13.1)所建立的数据的分布模型采用了异常数据发生不同故障的概率值作为诊断依据,相较于一般不具备概率表达能力的复杂神经网络模型,解决了网络模型过拟合的常见问题。
14.2)由于风力机的不同故障模式影响的主要参数存在差异,相较于采用所有参数进行诊断,通过relief算法对参数组进行特征提取,其诊断效果要更加具有针对性。
15.3)采用了基于距离聚类的思路,相较于深度学习方法,可以节省较多的计算资源。
16.4)相较于欧氏距离度量,所采用的马哈拉诺比斯距离度量充分考虑了将数据分布存在维度间的不均衡,更加符合问题场景。
附图说明
17.图1为本发明提供的故障诊断算法框架图;
18.图2为本发明提供的数据预处理流程图;
19.图3为本发明提供的合成少数过采样伪代码图;
20.图4为本发明提供的特征提取流程图;
21.图5为本发明提供的马氏距离计算流程图;
22.图6为本发明提供的度量正态化流程图;
具体实施方式
23.下面结合附图对本发明提供的风电机组故障诊断算法及其实现方法进行详细说明。
24.本发明提供了一种基于特征分组和分布维度均衡化的风电机组故障诊断方法,所述的故障诊断算法框架图如附图1所示。故障诊断方法分为离线学习和在线诊断两个部分,
离线学习部分由历史数据加载、数据预处理、特征提取、合成少数过采样、模型训练和模型导出等部分组成;在线诊断部分主要由系统实时数据获取、数据处理、特征提取、异常检测、模型动态更新和故障诊断等部分组成。具体的实施步骤为:
25.1)数据预处理本发明过程中使用的数据预处理技术流程图如附图2所示。数据清洗:由于风力机在每次故障之后都会停机修理一段时间,在这段时间内的数据特点是有功功率和无功功率都为0,且电机扭矩也为零等,可以根据这些特征对数据进行筛选。而且状态检测系统的误差可能导致有些项的数据没能记录上,导致数据存在缺失项,这些数据也是干扰数据,需要删除。数据结构标准化:经过清理后的数据,还需要进行数据结构的标准化判断,对外部数据进行格式统一后,转换为可实际使用的内部数据。算法实现采用python编程语言,采取统一使用 python列表数据格式;数据标定:内部数据首先需要进行数据标定,来区分正常数据和不同故障模式影响下的异常数据;数据归一化:然后为了消除多元参数不同尺度和单位上的差异,对内部数据进行数据归一化。
26.2)特征提取
27.本发明所述的特征提取的流程图如附图3所示。对于风力机的不同故障模式,受到影响的主要参数不尽相同。相较于采用所有参数进行诊断,通过相关性分析对参数组进行特征提取,其诊断效果要更加具有针对性。本发明采用改进的relief算法进行特征分组,算法通过赋予特征权重的方式,依据事先设置的阈值,对特征进行筛选。算法的具体步骤如下:
28.step1:置零所有特征权重,并设置候选特征集为空集。
29.step2:设定样本抽样次数m,执行以下步骤直到抽样次数达到设定值:
30.step2

1:随机选择当前故障模式数据集中的一个样本r;
31.step2

2:从当前故障模式数据集中选出样本r的最近邻样本h,从其他数据中选出最近邻样本m;
32.step2

3:对于每一维特征a,根据样本r,h,m进行如下公式进行权重更新:
33.w(a)=w(a)

diff(a,r,h)2/m+diff(a,r,m)2/m
34.step3:根据预先设定的权重阈值,筛选最终权重值大于阈值的特征,并添加到候选特征集中。
35.3)故障数据过采样
36.本发明所述的合成少数过采样技术的算法伪代码如附图4所示。风力机系统在进行性能测试过程中,故障发生频率很低,导致可用的故障数据很少,数据大部分是正常数据,这种现象称为数据不平衡现象,也称作数据倾斜。本发明采用对样本比例较少的故障数据进行过采样。smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。算法流程如下:
37.step1:对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻样本集。
38.step2:根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为
39.step3:对于每一个随机选出的近邻分别与原样本按照如下的公式构建新的样
本:
[0040][0041]
4)距离度量计算
[0042]
本发明所述的马氏距离度量计算过程流程图如附图5所示。建立马氏距离之前已将参数组合与故障模式形成对应,因此计算样本到某故障模式的马氏距离时并不是利用所有维度的参数,而是与该故障模式相关性最大的某些参数。对于某一个含有m维参数的故障数据集 {x1,x2,...,x
n
},故障数据样本量为n,其均值向量标准差σ、协方差矩阵s、皮尔逊相关系数矩阵p,对于第i个待检测数据,其马氏距离计算如下:
[0043][0044][0045]
其中,是z
i
的转置向量,p
‑1是相关系数矩阵p的逆矩阵。马氏距离的计算是建立在总体样本的基础上的,这一点可以从协方差矩阵的解释中得出:如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的。风力机多种故障模式可以认为对应着不同的总体,这使得马氏距离比一般的欧氏距离更适合用来作为度量尺标。
[0046]
5)度量正态化
[0047]
本发明提供的度量正态化过程的流程图如附图6所示。原始马氏距离数据是非正态分布的,这使得对马氏距离进行统计特性分析难度增加。本发明提出数据正态化方法,从而借助正态分布良好性质区分正常和异常数据。正态分布只依赖于数据集的两个特征——样本的均值和方差,这种统计特性简化了对其进行统计特性分析。为此,本发明使用了约翰逊分布的三个分布族,这三个分布族公式如表1所示。为了用约翰逊分布拟合一组非正态数据,需要从表1中选择最优分布,并应用百分位数方法估计相应变换的未知参数。在如何选择适当的变换上,首先在[0.25,1.25]范围上通过运用anderson

darling测试来选取最优的标准正态变量值z;其次计算标准正态分布在

3z,

z,z,3z处的概率密度函数,作为后续计算的百分位数;然后寻找原始数据中对应百分位数的值作为x(1),x(2),x(3),x(4);最后根据图中公式计算 qr值,通过qr值来选择分布变换函数。具体的参数计算公式如表2所示。
[0048]
6)故障概率计算
[0049]
本发明提供的故障概率计算首先对实时数据进行步骤1)的预处理,然后通过正常数据分布判读是否有异常发生,若无异常,则将该数据作为正常数据对正常数据分布相关参数进行调整;若有异常,则分别通过4)~5)训练的故障数据分布计算各故障发生概率,向相关操作人员反馈。
[0050]
表1与约翰逊系统相关的转换
[0051][0052]
表2约翰逊分布族参数计算公式
[0053]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1