一种风电机组运行数据中健康状态特征的提取方法与流程

文档序号:36727664发布日期:2024-01-16 12:35阅读:21来源:国知局
一种风电机组运行数据中健康状态特征的提取方法与流程

本发明涉及风电数据处理和特征提取,具体涉及一种风电机组运行数据中健康状态特征的提取方法。


背景技术:

1、风电机组通常安装偏远地区,其运行条件恶劣。为了更好的监测风电机组的运行状态和降低运维成本,通常安装scada系统。该系统通过大量传感器实时采集大量数据,回传到集控中心服务器。利用scada数据进行状态评估和健康管理是行业关注的重要问题。

2、scada数据中包含环境数据如风速、风向和温度等,同时包含风电机组运行状态数据如电机转速、温度、发电机电流等,这些数据为实时运行数据,并不能直接反映风电机组健康状态。同时因为环境、电网和设备或传感器故障等方面因素的影响,scada数据包含大量噪声数据。利用scada数据进行分析,需要首先对数据进行处理,并提取其中可以反映风电机组和关键部件的数据特征,这是进行后续健康评估、故障预测和优化运维的基础。


技术实现思路

1、鉴于此,提出一种风电机组运行数据中健康状态特征的提取方法,来提取运行数据中的健康特征。

2、具体方案如下:

3、一种风电机组运行数据中健康状态特征的提取方法,

4、s1):数据清洗:风电机组通过scada系统将数据传输到数据库中,利用ss-ar模型进行清洗、修正;

5、s2):去除冗余特征:利用进化算法、k均值聚类方法与堆叠自编码网络去除冗余特征;

6、s3):特征选择:利用cklp算法进行特征选择。

7、所述数据清洗包括如下步骤:

8、s11):利用super smoother算法识别异常数据,选取大小为w的滑动窗口,所述滑动窗口中包含的数据为h,h={h1,h2,…,hn},

9、找出满足所示期望偏差最小的平滑预测值g;

10、s12):对原始记录数据值h进行局部线性回归估计,以h的数值hi为基点,计算hi和平滑值gi的交叉验证误差;通过优化窗口宽度j调节hi平滑程度,选择最优的平滑带宽控制hi的平滑度;

11、平滑值计算公式为:

12、所述交叉验证误差计算公式为:

13、s13):计算gi与hi差值得到偶然误差,计算窗口内所有数据误差群的均值和标准差,并进行标准化处理,依据3σ原理,将(μ-3σ,μ+3σ)区间外的数值定位异常值,将异常值放入异常数据集;

14、s14):生成异常数据修正集;

15、对于异常数据rj,设异常值为l,

16、令

17、求解得到l的原始解l1和l2,且设定l1<l2;

18、对于异常数据rj,必然有rj≤l1或rj>l2;

19、当rj≤l1时,数据rj的候选值取l1,当rj>l2时,数据rj的候选值取l2;

20、将所有异常数据替换为候选数据,得到候选数据集γ';

21、s15):迭代优化异常数据;

22、若候选数据集中有c个正常数据,则使用更新候选数据得到最终修复值;其中,为修复后的数据,c是常量,φk为ar模型参数,εi为白噪声点;

23、若候选数据集中有c个数据不全为正常数据,则对i-c至i-1个数据利用对异常数据进行更新得到修复后的数据其中,k、c为利用数学统计估算得到的值。

24、所述进化算法为多种群协同进化算法,多种群协同进化算法将进化过程划分为全局探索和加速收敛两阶段;

25、在全局探索阶段,根据新个体的适应值判断是否保留该精英个体,如果新个体的适应值比现有pareto非支配解的适应值高则保留,否则直接放弃;

26、在收敛阶段,采用种群合并策略,逐渐淘汰较差的子种群,将优良个体并入到更优种群之中,加入惩罚机制,对进化停滞的种群,将进化停滞的种群的个体迁移向到其他种群,增强其他种群的探索能力。

27、在全局探索阶段,采用多种群搜索策略,利用k-means聚类算法将种群分为多个不同的子种群,子种群采用相同的进化策略搜集适应性好的个体。

28、多种群协同进化算法的适应度函数定义两个目标,即堆叠自编码器的降维率最大和堆叠自编码器的复现精度最高;

29、堆叠自编码器的降维率最大为f1=max(r(pop));

30、堆叠自编码器的复现精度最高为f2=max(m(pop));其中,pop为进化种群的个体;

31、将目标函数归一化处理后构造适应度函数:

32、

33、f适适应度函数,α、β为缩放系数。

34、k均值聚类方法为,在k均值聚类分群的目标函数种,加入特征权值w’,获取新的均值聚类函数,并计算特征权值的值wξ,将所述特征权值的值wξ与特征权值阈值进行比较,若则为冗余特征,进行剔除,否则,则进行保留;

35、所述均值聚类函数为

36、

37、其中,θ为ωξ的系数,

38、u(o*p)为均值聚类的分割矩阵,根据聚类目标函数计算得到,

39、uρ,ξ是u中的元素,uρ,ξ=1表示第ρ个数据特征属于ξ类,

40、约束条件为,用以约束每个数据智能归属一类;

41、d(xρ,ξ,zυ,ξ)表示两个数据ρ和υ之间的距离d(xρ,ξ,zυ,ξ)=(xρ,ξ-zυ,ξ)2。

42、堆叠自编码网络为五层sae结构,第二层sae的维度最小,且第二层sae既是编码器的输出,也是第四层sae编码器的输入,第五层利用softmax层进行特征分类;

43、在特征重构过程中,去除冗余后的特征表示为向量xt=[x1,…xn]t,由于中间隐含层的激活函数为mish函数,则堆叠自编码sae中各隐含层的输出可表示为:

44、

45、其中,

46、为sae编码器第一层的输入;

47、为sae编码器第q层的输出;

48、为编码器sae第q层的权值与阈值;

49、mish为编码器sae第q层的激活函数;

50、sae编码器最后一层的输出即为重构后的特征,即:

51、

52、sae损失函数定义为:

53、

54、其中,

55、j(b,b,x,y)=||x-y||2b,b为网络参数;γ为样本总数;λ为权重衰减系数;δ为网络总层数;sl为第l层神经元总节点数;

56、sae编码器的各层初始参数b,b可通过预训练确定后再通过微调对参数进行优化,在进行参数微调时,以sae损失函数为目标函数,将参数的更新转化为函数优化问题,采用梯度下降法更新参数b和b。

57、特征选择包括如下步骤,

58、s31):构建样本的最邻近图

59、对于样本ψ=(ψ1,ψ2,…ψo),定义从原始空间到高维核空间的非线性映射φ,根据核再生理论,当两个样本ψτ,ψπ,τ≠π接近时,即φ(xτ)与φ(xπ)为近邻,则与也是近邻,可以取ψτ的k邻近点,建立最近邻图;

60、s32):设定目标函数j(α)

61、引入核矩阵k=(k(τ,π))=φ(ψτ)tφ(ψπ),

62、令局部结构保持投影算法的目标函数为jl(α),改进核化多流形判别投影算法的目标函数为jg(α),则clkp算法的目标函数定义为:

63、

64、s33):求解基矢量a

65、将目标函数j(α)转化为求解广义特征值;令atklka=c≠0,采用拉格朗日乘子法,定义基矢量a的拉格朗日函数l(a,λ),对拉格朗日函数l(a,λ)求偏导数并令其偏导数为0,求解该方程的前r个最大的特征值即可以求得基矢量矩阵a=(α1,…,αr);

66、s34):特征获取

67、根据基矢量a的值,利用y=ak和y=akt分别计算高维数据集或者新样本数据的r维投影,进而提取出最优表征健康状态的低维敏感特征矢量。

68、本发明公开了一种风电机组运行数据中健康状态特征的提取方法,包括数据清洗、去除冗余和特征选择,利用进化算法和堆栈自编码网络,构建一种多层次无监督特征提取模型提取设备的健康特征,有效识别数据中的噪声特征,去除冗余特征,挖掘出健康状态预测所需要的有价值特征。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1