面向长尾分布的生成式联邦学习故障诊断方法

文档序号:37541609发布日期:2024-04-08 13:41阅读:12来源:国知局
面向长尾分布的生成式联邦学习故障诊断方法

本发明涉及旋转机械设备故障诊断领域,尤其涉及面向长尾分布的生成式联邦学习故障诊断方法。


背景技术:

1、随着云计算、物联网等技术的发展以及机器学习、深度学习等理论的完善,受益于深度学习系统,故障诊断与预测性维护领域也逐渐向着智能化方向演进,并发展出成熟完整的智能故障诊断领域。针对旋转机械装备开展智能故障诊断研究,对于提高机械装备生产效率、降低维护成本、提高设备安全性,为了有效利用分散在各处的数据,一种很自然的想法是集成多方数据,组成一个共享的大规模数据集并以此训练深度网络模型,通过增大数据规模进而提升模型性能。联邦学习允许多方在不泄露本地原始数据的前提下进行协同合作,共同训练一个良好的网络模型并共享模型结果,既满足了数据隐私保护的要求,又能获得性能更优的模型。

2、在深度学习领域,训练数据的类别不平衡,即数据中存在部分标签类别数据多而部分标签类别数据少的现象,称为数据的长尾分布现象。长尾分布问题将使得训练的模型对数据多的类别更加侧重,对数据少的类别有所忽视,这会对模型的分类准确率产生负面影响。在故障诊断领域,由于机械设备大多数时候工作在正常状况,只有少数情况下才会产生故障状态,因此采集到的数据也往往是正常样本占据数据集的很大比例,这导致多方数据联合下的联邦学习故障诊断领域出现数据长尾分布的现象更加常见。长尾分布问题很大程度上制约了联邦学习的性能,阻碍了联邦学习的落地应用。

3、中国发明专利cn115438714a中公开的“分簇式联邦学习驱动的机械故障诊断方法、装置及介质”,该发明对于各个客户端自身训练数据中正常情况样本与故障样本数量上的巨大差异未作考虑,也存在长尾分布问题,诊断结果精度较低。


技术实现思路

1、为了一定程度上解决训练数据长尾分布现象对模型训练产生的不利影响,本发明提供一种基于二元损失的生成式联邦学习故障诊断方法(binary-loss generation-federated learning,bg-fl),通过引入生成平衡特征的思想,设计一种二元损失函数驱动的平衡特征生成方法用以训练类别无偏的分类器,有效解决联邦学习场景下的数据长尾分布的问题。

2、为了实现本发明目的,本发明提供的一种面向长尾分布的生成式联邦学习故障诊断方法,包括以下步骤:

3、在中心服务器上构建自注意网络故障诊断模型,确定联邦学习过程中的超参数,将故障诊断模型的参数和超参数发送给所有的参与方,参与方下载参数和超参数后初始化、进行分类器梯度计算后优化本地自注意网络故障诊断模型,并将本地模型参数与分类器梯度上传至中心服务器;

4、中心服务器对分类器梯度与模型参数进行聚合,之后中心服务器执行二元优化平衡特征与全局分类器,得到更新平衡特征f和全局分类器的二元损失,并优化特征提取器聚合参数uagg和全局分类器参数v;

5、参与方下载服务器迭代后的全局分类器与取均值后的特征提取器参数更新本地的分类器与特征提取器并作为下一次的迭代起点;

6、中心服务器与参与方通讯次数达到预设迭代次数时,完成模型训练,此时,中心服务器得到最后的稳定情况下的客户端模型参数和特征表示向量。将训练后的自注意网络故障诊断模型用于故障诊断。

7、进一步地,在预处理阶段,参与方与服务器端交互获得模型和训练超参数,模型参数包括特征提取器参数uagg和全局分类器参数,训练超参数包括全局迭代次数,局部迭代次数、局部学习率等。

8、正常样本与故障样本的数据量失衡是一种十分常见的数据采集问题,表现为正常样本多而故障样本少的数据长尾分布现象,如图2所示。当不同参与方协作训练时,其独立采集的数据集将使得正常样本的数量更多。因此,假设参与方数据来源为相同设备、相同工况,主要研究不同程度的正常样本与故障样本数量不平衡因素对联邦学习故障诊断模型的影响。

9、进一步地,联合训练时,假设有n个参与方,每个参与方持有数据集,每个参与方的数据集包含两个部分,一部分用来参与协作训练的训练集ditrain,对应的标签类别为citrain,每个类别的样本数为同样,另一部分用来评估模型性能的测试集ditest,对应的标签类别为citest,每个类别的样本数为

10、进一步地,本发明的方法可理解为在联邦学习故障诊断模型基础上增加了计算分类器梯度与执行二元优化平衡特征与全局分类器这两个步骤。

11、进一步地,参与方本地故障诊断模型包括特征提取模块与分类器模块。其中特征提取模块包括信号编码模块和自注意力编码模块(特征提取器),分类模块包括全连接层和一层softmax层,诊断模型示意图如图1所示。

12、信号编码模块利用位置编码和块编码将一维数据转换为适合自注意力机制处理的序列形式。根据给定的样本长度,将数据划分为各个定长样本,记为x,结合对应的样本数据健康状态得到样本数据x的标签y,从而得到一个样本对(x,y)。再将样本划分为定长的段,样本长度一般为1028,段长则选择合适长度如:4,8,16等。为了获取更多可用信息高维特征表示原始样本,并增加额外的可学习的位置向量来编码段与段之间的位置关系,且位置向量与段向量的维度保持一致。数据样本x经过位置编码和段编码后得到位置向量和段向量,通过加和操作得到的结果,称为token,由此得到样本新的表示形式{t0,t1...tn}。其中t0代表着第一个样本x0经过位置编码和段编码后得到的位置向量和段向量加和后的结果,可以理解为样本x0经处理后的新形式。

13、自注意力模块接收token形式的样本数据后,计算注意力分数重构数据,并对重构数据进行变换。在重构数据过程中,首先输入数据tokens矩阵经过三个不同的线性变换作用得到三个矩阵,分别是查询矩阵(query,q),键矩阵(key,k)和值矩阵(value,v),然后将查询矩阵q与键矩阵k做矩阵乘法,得到相关性分数矩阵。该矩阵经过softmax归一化处理后,得到注意力分数矩阵,即其他token相对于目标token的权重分数矩阵。最后,注意力分数矩阵与值矩阵做矩阵乘法,得到原始tokens经过自注意力操作提取tokens特征信息后的新形式。

14、在分类器模块中先使用全连接层进行数据故障类别映射,如图3所示。使用全连接层进行函数变换可以使模型学习到更多信息,全连接层总共包含两层,其中第一层参数为token维度的2倍或4倍,第二层等于token维度用以还原数据的维度,以保持token的维度一致性。输入层神经元个数为token维度大小,输出层神经元个数等于数据集的标签类别数c。经过全连接层作用后得到样本属于某一类别的分数后输入softmax层,归一化为对应的概率大小,并以最大概率的类别作为样本的预测故障类别,如式所示。

15、

16、式中,x’为经过全连接层作用后得到样本,yl为样本x’所属可能的类别,输入p(yl|x')为将x’归类为类别yl的概率值,h(x',yl)为全连接输出层的第l个神经元值。

17、进一步地,本发明所解决的数据长尾分布的不平衡程度度量方式大致可以分为指数型与比例型,其中指数型数据长尾分布的不平衡程度由不平衡因子(imbalance factor,if)控制,if值越大,不同类别的样本数差异越大。比例型数据长尾分布的不平衡程度由比例因子(ratio factor,ra)决定。

18、指数型长尾分布以正常样本数为基准,故障类别样本数按if值呈指数递减变化,如式所示。

19、

20、式中,nc为类别c的样本数,nnormal为正常状态样本数,c为数据集的类别总数。一般地,正常类别的样本标签值设为0。

21、类似地,比例性长尾分布如式所示。

22、

23、进一步地,所述分类器梯度计算以参与方k为例,如图4步骤1所示,其梯度计算方式如式所示。

24、

25、式中,表示从参与方k数据集中的类别c数据中有放回地抽取p个样本,xj,yj分别表示平衡特征矩阵子集与其各自标签,l函数表示损失函数,为交叉熵损失函数。此式旨在计算分类器在类别c样本子集下的梯度。对参与方所有类别执行相同操作后得到不同类别下分类器梯度的集合在此过程中,模型参数仅用来计算分类器梯度而不进行参数优化。

26、进一步地,所述本地模型优化指利用梯度下降的方法,下载特征提取器聚合参数uagg和全局分类器参数v后优化本地网络,如式所示。

27、

28、式中,wir+1为参与方i在第r次优化中的模型参数,η1为参与方学习率,d为本地数据集,w为本地模型中特征提取器参数ui与分类器vi参数集合。

29、进一步地,所述方法与传统联邦学习(fl)不同的是,服务器需要维护一个全局分类器以及一个随机初始化的平衡特征矩阵,其中全局分类器结构与本地模型的分类器结构一致,而平衡特征矩阵f包含数据类别数、单类别样本数与特征维度三个参数,可以认为平衡特征矩阵f是由样本数量平衡的数据特征组成的矩阵。

30、进一步地,所述方法中分类器梯度与模型参数聚合阶段对分类器梯度矩阵按类别平均化处理,模型参数矩阵则是直接平均化处理,如式所示。

31、

32、

33、式中ui为参与方i的特征提取器参数,uagg为聚合后全局特征提取器参数,为参与方i的c类分类器的分类器梯度,为全局真实梯度参数。

34、进一步地,所述方法中二元损失优化平衡特征f与全局分类器步骤,首先计算平衡特征的交叉熵损失,如式所示。

35、

36、式中,m为平衡特征集合的总数量,v为全局分类器,celoss为计算的交叉熵损失。在此过程中,保留全局分类器梯度gglobal。

37、随后,计算分类器梯度与真实梯度矩阵差异的余弦损失。如式所示。

38、

39、式中,gglobal为全局分类器梯度,gagg为真实类别梯度,使用余弦相似度能够很好的度量高维空间量之间的相似性。

40、结合交叉熵损失和余弦损失,得到更新平衡特征f和全局分类器的二元损失,如式所示。

41、loss=αcosineloss+(1-α)celoss

42、式中α为平衡因子,第一项cosineloss损失表示平衡特征下的全局分类器梯度与平均类别梯度的余弦相似度损失。celoss表示平衡特征的交叉熵损失,反映了分类器正确判断特征类别的能力,损失越大,说明分类器无法正确判断样本的真实类别。

43、进一步地,所述方法依据二元损失函数的优化方向,平衡特征f和全局分类器参数v将被优化更新,余弦相似度损失将控制全局分类器的梯度向接近于真实数据的平均梯度方向优化,交叉熵损失将使得全局分类器的参数具有正确的分类能力。

44、进一步地,所述方法在实际优化过程中,借鉴gan的优化思路,平衡特征f与全局分类器采用交替优化的方式,服务器迭代一轮过程中,,平衡特征首先更新e1轮,然后全局分类分类器优化e2轮,在服务器迭代平衡特征f和全局分类器e轮后,得到优化后全局分类器和平衡特征。最后,参与方下载服务器迭代后的全局分类器与取均值后的特征提取器参数更新本地的分类器与特征提取器并作为下一次的迭代起点。重复此训练过程直到达到最大全局迭代次数。

45、与现有技术相比,本发明的有益效果是:

46、(1)本发明采用联邦学习故障诊断既可以充分保护各个参与方对于本地数据的隐私需求,又能解决模型训练面临的“数据孤岛”问题。基于“数据不动模型动”的思想,在一次次中心服务器与各个参与方的参数交互聚合迭代中完善模型参数与超参数,最终搭建出精准度高的诊断模型。

47、(2)本发明将自注意力模型运用于各个参与方诊断模型的特征提取器模块中,使得参与方的本地网络以更好的捕捉多方数据特征,有效提升了诊断模型的性能。

48、(3)本发明提出了一种新颖的面向长尾分布的生成式联邦学习故障诊断方法,从生成平衡特征的角度出发,利用全局分类器优化梯度与真实类别梯度的余弦损失结合平衡特征的交叉熵损失组成的二元损失,联合优化生成一组平衡的类别特征以及无偏分类器,引入的生成方法有效解决了联邦学习场景下的数据类别不平衡问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1