一种在智能电厂中基于联邦学习提升火灾检测效果的方法与流程

文档序号:24531158发布日期:2021-04-02 10:10阅读:155来源:国知局
一种在智能电厂中基于联邦学习提升火灾检测效果的方法与流程

本发明属于工业物联网提升联邦学习训练技术领域,特别涉及一种在一种在智能电厂中基于联邦学习提升火灾检测效果的方法。



背景技术:

随着社会对清洁能源需求的不断增加,清洁能源的产业不断扩大,清洁能源特别是光伏产业规模在近年得到迅速增长。一些负责分布式新能源项目的投资、建设和运营工作的公司管理着多个分布式光伏电站,分布在国家的各个角落。公司建设有生产运营中心,对所有的分布式电站进行集中运行管理。

同时光伏发电系统主要由光伏组件、控制器、逆变器、蓄电池及其他配件组成。随着光伏电站运行时间的增加,配件和线路逐渐老化,光伏板上热斑产生的概率不断增加。这不仅会降低光伏电站的发电效率,也可能导致火灾,带来巨大的经济损失。由于每个电厂都有各自数据,电厂之间的数据往往都各自存储,各自定义。每个电厂的数据就像一个个孤岛一样无法(或者极其困难)和其他电厂数据进行连接互动。我们把这样的情况称为数据孤岛。简单说就是数据间缺乏关联性,数据库彼此无法兼容。在这种情况下,可以使多个智能电厂基于联邦学习进行火灾检测,并采用异步联邦学习框架对训练效果进行优化。

尽管目前可以通过使用数字孪生体(digitaltwins,dts)来提高智能电厂中物理设备信息的实时性和可靠性。然而,dts是由数据驱动的,其决策必定会需要各种设备上的大量数据去支持。在现实中,由于竞争、隐私以及安全的问题,几乎不可能将分散在各个设备上的数据进行集中。因此,在智能电厂中,存在有着隐私保护,成本价格和数据安全等等问题。

当涉及到隐私保护、监管需求、数据竖井、成本价格和连接可靠性等问题时,通过在智能电厂中使用联邦学习可以保护隐私,降低通信成本。在隐私保护方面,现有的工作主要是应用同态加密和差分隐私等技术设计高安全保障的联邦学习算法模型。但是,安全性的提升伴随着系统成本的增长,加密、噪声等操作同时也会影响模型的学习效率。yunlonglu等人改进后的异步模式的学习框架虽然加速了学习的收敛速度,但由于这种框架面向点对点的通信场景,会给系统带来很大的通信负担。同时,已有的联邦学习工作主要集中在更新体系结构,聚合策略和频率聚合三方面上。在更新体系架构方面,已有的算法大多采用同步架构。然而,同步架构并不适用于节点资源是异构的情况。



技术实现要素:

本发明的目的在于提供一种在智能电厂中基于联邦学习提升火灾检测效果的方法,以解决上述问题。

为实现上述目的,本发明采用以下技术方案:

一种在智能电厂中基于联邦学习提升火灾检测效果的方法,包括以下步骤:

步骤1,在给定资源预算的时变通信环境中得到局部更新和全局参数聚合,建立聚合频率问题模型,对其进行简化;

步骤2,通过使用深度强化学习来解决本地频率更新的问题,dt通过与环境交互学习模型;将优化后的问题制定为mdp模型,其中包括系统状态s(t),动作空间a(t),策略p,奖励函数r和下一状态s(t+1);

步骤3,基于dqn的聚合频率优化算法解决mdp问题;

步骤4,基于dqn的异步联邦学习,通过聚类对具有不同计算能力的节点进行分类,并为每个聚类配置相应的管理者,使每个聚类能够以不同的本地聚合频率自主训练;对于集群,通过基于dqn的自适应聚合频率校准算法获得聚合频率;

进一步的,步骤1具体包括:

聚合频率问题p1表述为:

其中wk表示第k个全局聚合之后的全局参数,f(wk)是第k次全局聚合后的损失值,{a0,a1,...,ak}是一组本地更新频率的策略,ai指示第i次全局更新所需的本地更新数量;条件(1a)表示现有资源的既定预算,β表示整个学习过程中资源消耗率的上限;通过信任聚合来校准由于dt在节点计算能力中的映射偏差而导致的计算能耗ecmp的偏差;

经过k轮全局聚合,简化p1和长期资源预算约束,训练的损失值写为:

其中最优训练结果就是:

基于lyapunov优化,将长期资源预算划分为每个时隙的可用资源预算,通过建立动态资源短缺队列,实现了p1的简化;资源短缺队列的长度被定义为所使用的资源和可用资源之间的差异;资源总量的限制是rm,第k次聚合中可用的资源是βrm/k;资源短缺队列的表示如下:

q(i+1)=max{q(i)+(aiecmp+ecom)-βrm/k,0}(4)

其中,(aiecmp+ecom)-βrm/k是第k个聚合中资源的偏差;从而,原始问题p1转化为以下问题p2:

其中v和q(i)是与性能提升难度和资源消耗队列有关的权重参数,v随着训练回合的增加而增加。

进一步的,公式(1)和条件(1a)中,损失值f(wk)和计算能耗ecmp分别包含训练状态和计算能力f(i),由dt对其进行估计,确保能够掌握整个联邦学习的关键状态。

进一步的,步骤2具体包括:

系统状态:系统状态描述每个节点的特征和训练状态,包括所有节点的当前训练状态资源短缺队列q(i)的当前状态和每个节点τ(t)的神经网络隐藏层输出的verage值,即,

动作空间:该动作集定义为向量表示需要离散化的本地更新的数量;由于决策基于特定时间t,用ai代替

奖励函数:目标是确定本地更新和全局参数聚合之间的最佳权衡,以最小化损失函数,奖励函数与总体损失函数的下降程度和资源短缺队列的状态有关;其评估函数:

r=[vf(wi-1)-f(wi)]-q(i)(aiecmp+ecom)(7)

下一状态:当前状态s(t)由dt实时映射提供,下一个状态s(t+1)是dt对dqn模型在现实运行后状态的预测,表示为s(t+1)=s(t)+p(s(t))。

进一步的,步骤3具体包括:

训练完成后,将拟定的频率决策部署到管理人上,并根据设备的dt进行自适应聚合频率校准;首先,dt提供训练节点和信道状态,作为训练后dqn的输入;然后通过评估网络得到输出动作的概率分布,并根据贪心策略找到合适的动作作为执行动作;最后在联邦学习中执行选定的动作,并将得到的环境反馈值存储在状态数组,以方便进行再训练。

进一步的,步骤4具体包括:

步骤一:节点聚类;首先使用k-means聚类算法,根据数据大小和计算能力对节点进行分类,并分配相应的管理者以形成本地训练集群;

步骤二:决定聚合频率;每个集群通过运行簇内聚合频率决策算法获得相应的全局聚合频率;使用本轮本地更新所需的最大时间tm作为基准,并指定其他簇的训练时间不能超过αtm,其中α是0到1之间的公差因子;随着全局聚合次数的增加,容忍因子α增加,全局聚合对学习效率的影响减弱;

步骤三:本地聚合;根据dqn给定的频率完成本地训练后,每个集群的管理人使用信任加权聚合策略对节点上传的参数进行本地聚合;具体来说,管理人需要检索更新后的信用值并评估不同节点的重要性;同时让映射偏差变小,让学习质量高的节点上传的参数在局部聚合中占较大的权重,进而提高了模型的准确性和收敛效率;

步骤四:全局聚合;最后,时间加权聚合用于聚合全局参数;到达全局聚合时间,管理人就将参数与时间版本信息一起上传,并且所选择的管理员执行全局聚合如下:

其中nc是管理员的数量,是集群j的聚合参数,e是用来描述时间效应的自然对数,timestampk是对应于的最新参数的时间戳,也就是说轮数。

与现有技术相比,本发明有以下技术效果:

本发明通过结合dts和深度q网络(deepqnetwork,dqn)来自适应地降低能耗,同时设计一个异步联邦学习框架消除流浪者效应,并应用于基于联邦学习提升智能电厂的火灾检测效果。

第一,dt可以做到精确建模和同步更新,进而加强智能电厂的智能性。同时dt也可以通过软件定义并在数字空间中创造虚拟对象,根据虚拟对象的状态和功能在物理空间中准确地映射出实体,有助于帮助决策和执行。最后,dt会将设备的运行状态和行为实时映射到数字世界,从而提高学习模型的可靠性和准确性。

第二,联邦学习不需要共享数据就可以在本地实现模型训练,不仅可以满足智能电厂中所要求的的隐私性和安全性,而且可以降低通信的成本价格。

第三,基于dqn开发全局聚合频率的自适应校准,可以在给定的资源预算下将联邦学习的损失最小化,从而在实时变化的通信环境中实现计算能量与通信能量之间的动态权衡。

第四,提出异步联邦学习框架进一步适应异构工业物联网,并通过适当的时间加权集群间聚合策略,一方面可以消除集群节点的流浪者效应,另一方面可以提高学习效率。

附图说明

图1为异构智能电厂场景中用于联邦学习的dt。

图2为智能电厂的系统结构。

图3为本发明中损失值的趋势。

图4比较了在存在dt偏差和校准dt偏差后可以达到的联邦学习精度。

图5为本发明中完成联邦学习所需的聚合总数,以及当信道状态更改时处于良好信道状态的聚合数目。

图6比较了在不同信道状态下dqn训练期间联邦学习所消耗的能量。

图7为本发明中在不同聚类情况下通过联邦学习获得的准确性的变化。

图8为本发明中在不同聚类情况下联邦学习达到预设精度所需的时间。

图9比较了基于dqn的联邦学习与固定频率联邦学习的准确性。

具体实施方式

以下结合附图对本发明进一步说明:

一种在智能电厂中基于联邦学习提升火灾检测效果的方法,智能电厂中的dts,包括,

一个工业设备的dt由其所属的服务器建立,收集和处理当前设备的物理状态,以数字形式动态呈现设备的历史和当前行为。

在时间t内,校准映射值和实际值偏差后的训练节点i的dti(t)可以表示为:

其中是节点i的训练参数,是节点i的训练状态,fi(t)是节点i的计算能力,表示cpu的频率偏差,ei(t)表示能源损耗。

智能电厂中的联邦学习,包括,

联邦学习中首先要广播初始化任务并初始化全局模型w0,每个电厂的服务器即为一个训练节点。然后,在接收到w0之后,训练节点i使用其数据di更新模型参数以找到最小化损失函数的最优参数

其中t表示当前的迭代索引,表示运行数据di估计值和真值之间的差异,{xi,yi}是训练数据样本。

智能电厂场景中基于dt误差的信任聚合,包括,

通过引入了学习质量和交互记录,让高信誉节点上传的参数在聚合中有更大的权重。将时间段t内管理节点i的j的置信度表示为

其中,表示dt偏差,表示根据设备信誉得出的学习质量,是i做出良好交互的数量,是上传懒惰数据等恶意操作的数量。

把对节点j的信誉值表示为:

其中ι∈[0,1]是影响信誉的不确定性的系数,表示分组传输的失败概率。

联邦学习中的能耗模型,包括,

训练节点之间并不存在信道干扰,当收集到训练节点的梯度并进行聚合以后,将全局模型更新广播给全部的节点。训练节点i执行聚合所消耗的资源表示为:

其中,li,c表示训练节点i在子信道c上分配的时间,w是子信道的带宽,pi,c表示训练节点i在子信道c上传输速率的上限,i是噪声功率,ncom是消耗资源的标准化因素。

智能电厂中的dqn和dt技术的应用,包括,

为了解决马尔可夫决策过程(markovdecisionprocess,mdp)问题,可以使用了基于dqn的优化算法。如图1所示,dt将智能电厂中的物理对象实时映射成虚拟对象,从而形成数字镜像。同时,drl和设备的dt进行合作以确保全局聚合频率决策的实施。联邦学习模块会根据训练后的模型和节点的dt状态做出频率决策。通过dt,可以用较低的成本获得与实际环境相同的训练成果。

训练步骤:当使用dqn实现全局聚合频率的自适应校准时,首先将初始训练样本分配给训练节点,同时,并为目标网和评估网设置初始参数以保持其一致性。状态数组由初始资源值和每个节点训练后得到的损失值组成。在每次迭代中,需要判断状态数组是否已满。若状态数组已满,则根据贪心策略决定下一步动作。接下来,当前状态、选择的动作、奖励和下一个状态被记录在状态数组中。然后,从状态数组中采样来训练目标网络,该目标网络通过在状态数组中以批次的形式随机采样几个样本来随机破坏状态之间的相关性。通过提取状态,根据损失函数评估网络参数的更新如下:

f(wi)=es,a[yi-o(s,a;wi)2](6)

其中o(s,a;wi)代表当前网络评估网络的输出,yi是根据目标网络中的参数计算的q的目标值,与当前网络结构中的参数无关。根据以下公式计算q目标值:

其中{s′,a′}是来自状态数组中的样本,o(s′,a′,wi-1)代表目标网络的输出。这样,整个目标函数可以通过随机梯度下降法进行优化:

经过一定次数的迭代后,需要将评估网络参数复制到目标网络中。即以时间间隔更新损失和目标网,实时更新状态数组。重复上述步骤,直至损耗值达到预设值。

系统模型主要有智能电厂的dt,智能电厂上的联邦学习,智能电厂场景中基于dt误差的信任聚合,以及联邦学习中的能耗模型四个部分。如图1所示,在智能电厂中引入了三层异构网络,该网络由服务器,工业设备和工业设备的dt组成。通过无线通信链路将通信和计算资源有限的设备连接到服务器上,其中dts是映射设备物理状态并实时更新的模型。在智能电厂中,工业设备(如挖掘机、传感器、监视器等)需要协作完成基于联邦学习的生产任务。如图1所示,带有传感器的挖掘机收集大量的生产数据,并且处于实时监控环境中,通过负责人之间的协作执行联邦学习和智能分析,进而为质量控制和预测性维护做出更好的决策。

a.提出问题与问题简化

该发明的目的是在给定资源预算的时变通信环境中得到局部更新和全局参数聚合间的最佳的权衡,以最小化损失函数。聚合频率问题p1可以表述为:

其中wk表示第k个全局聚合之后的全局参数,f(wk)是第k次全局聚合后的损失值,{a0,a1,...,ak}是一组本地更新频率的策略,ai指示第i次全局更新所需的本地更新数量。条件(1a)表示现有资源的既定预算,β表示整个学习过程中资源消耗率的上限。公式(1)和条件(1a)中,损失值f(wk)和计算能耗ecmp分别包含训练状态和计算能力f(i)由dt对其进行估计,确保能够掌握整个联邦学习的关键状态。通过信任聚合来校准由于dt在节点计算能力中的映射偏差而导致的计算能耗ecmp的偏差。

p1求解的难度受限于长期资源预算。一方面,当前消耗的资源数量必将影响到未来可用的资源数量,另一方面,p1的非线性特征导致求解的复杂度随着联邦学习轮次的增加而呈指数增长。因此,有必要简化p1和长期资源预算约束。经过k轮全局聚合,训练的损失值可以写为:

其中最优训练结果就是:

基于lyapunov优化,可以将长期资源预算划分为每个时隙的可用资源预算,通过建立动态资源短缺队列,实现了p1的简化。资源短缺队列的长度被定义为所使用的资源和可用资源之间的差异。资源总量的限制是rm,第k次聚合中可用的资源是βrm/k。资源短缺队列的表示如下:

q(i+1)=max{q(i)+(aiecmp+ecom)-βrm/k,0}(4)

其中,(aiecmp+ecom)-βrm/k是第k个聚合中资源的偏差。从而,原始问题p1可以转化为以下问题p2:

其中v和q(i)是与性能提升难度和资源消耗队列有关的权重参数。应注意的是,联邦学习的准确性可以在训练开始时轻松提高,而在后期提高准确性则代价很高。因此,v随着训练回合的增加而增加。

b.mdp模型

通过使用深度强化学习(deepreinforcementlearning,drl)来解决本地频率更新的问题,dt通过与环境交互学习模型,而无需预先训练数据和模型假设。将优化后问题制定为一种mdp模型,其中包括系统状态s(t),动作空间a(t),策略p,奖励函数r和下一状态s(t+1).参数的详细说明如下:

系统状态系统状态描述每个节点的特征和训练状态,包括所有节点的当前训练状态资源短缺队列q(i)的当前状态和每个节点τ(t)的神经网络隐藏层输出的verage值,即,

动作空间该动作集定义为向量表示需要离散化的本地更新的数量。由于决策基于特定时间t,可以用ai代替

奖励函数目标是确定本地更新和全局参数聚合之间的最佳权衡,以最小化损失函数,奖励函数与总体损失函数的下降程度和资源短缺队列的状态有关。其评估函数:

r=[vf(wi-1)-f(wi)]-q(i)(aiecmp+ecom)(7)

下一状态当前状态s(t)由dt实时映射提供,下一个状态s(t+1)是dt对dqn模型在现实运行后状态的预测,可以表示为s(t+1)=s(t)+p(s(t))。

c.基于dqn的聚合频率优化算法

为了解决mdp问题,可以使用了基于dqn的优化算法。

运行步骤:训练完成后,将拟定的频率决策部署到管理人上,并根据设备的dt进行自适应聚合频率校准。首先,dt提供训练节点和信道状态,作为训练后dqn的输入。然后通过评估网络得到输出动作的概率分布,并根据贪心策略找到合适的动作作为执行动作。最后在联邦学习中执行选定的动作,并将得到的环境反馈值存储在状态数组,以方便进行再训练。

d.基于dqn的异步联邦学习

在智能电厂中,设备在可用数据大小和资源计算能力两方面高度异构,单轮训练速度会受到最慢节点的限制,因此提出了一个异步联邦学习框架。基本思想是通过聚类对具有不同计算能力的节点进行分类,并为每个聚类配置相应的管理者,使每个聚类能够以不同的本地聚合频率自主训练。对于集群,可通过基于dqn的自适应聚合频率校准算法获得聚合频率。具体的异步联邦学习过程如下:

步骤一:节点聚类。首先使用k-means聚类算法,根据数据大小和计算能力对节点进行分类,并分配相应的管理者以形成本地训练集群。这样保证了同一集群中每个节点的执行时间是相似的,同时各个节点之间不会互相拖拉。

步骤二:决定聚合频率。每个集群通过运行簇内聚合频率决策算法获得相应的全局聚合频率。为了将频率与节点的计算能力相匹配,使用本轮本地更新所需的最大时间tm作为基准,并指定其他簇的训练时间不能超过αtm,其中α是0到1之间的公差因子。随着全局聚合次数的增加,容忍因子α增加,全局聚合对学习效率的影响减弱。

步骤三:本地聚合。根据dqn给定的频率完成本地训练后,每个集群的管理人使用信任加权聚合策略对节点上传的参数进行本地聚合。具体来说,管理人需要检索更新后的信用值并评估不同节点的重要性。同时让映射偏差变小,让学习质量高的节点上传的参数在局部聚合中占较大的权重,进而提高了模型的准确性和收敛效率。

步骤四:全局聚合。最后,时间加权聚合用于聚合全局参数。为了基于时间效应区分每个局部模型对聚合操作的贡献,同时提高聚合操作的有效性,一旦到达全局聚合时间,管理人就将参数与时间版本信息一起上传,并且所选择的管理员执行全局聚合如下:

其中nc是管理员的数量,是集群j的聚合参数,e是用来描述时间效应的自然对数,timestampk是对应于的最新参数的时间戳,也就是说轮数。

通过提出的具有信任机制的异构框架,消除了流浪者效应,有效规避了恶意节点攻击,提高了收敛速度和学习质量。

基于上述的内容,可以通过实验去将基于dqn和dt的联邦学习的效果与传统联邦学习的效果进行对比,进而得到结论。

首先假设智能电厂中的设备需要相互识别,并基于联邦学习合作执行生产任务。基于公开可用的大图像数据集mnist,同时在pytorch中实现异步联邦学习和dqn,就可以将所提出的方案应用于实际的对象分类任务中。dqn由两个相同的神经网络初始化,其中每个网络的大小为48×200×10,由三个完全连接的层依次部署完成。为了说明该方案的性能,选择了固定聚合频率方案作为基准方案。

图3描绘了损失值的趋势,从中可以看到在经过大约1200轮训练后损失值已经稳定下来,并且收敛到更好的结果。因此,经过训练后的dqn具有良好的收敛性能,更适用于异构场景。

图4比较了未校准dt偏差和校准dt偏差可以达到的联邦学习精度。通过信任加权聚合策略校准的具有dt偏差的联邦学习比具有dt偏差的联邦学习有着更高的准确性,并且当这两种算法均未收敛时,经过校准偏差的联邦学习也更好。此外,也可以观察到具有dt偏差的dqn无法收敛。

图5显示完成联邦学习所需的聚合数目,以及当信道状态更改时处于良好信道状态的聚合数目。可以看到随着良好信道状态的分布增加,处于良好信道状态的聚合数目增加。由于dqn学习发现更少的聚合时间所带来的好处更大,因此几乎所有聚合都在5个回合内完成。这表明,通过持续学习,dqn可以智能地避免在恶劣的信道条件下执行聚合。

图6比较了在不同信道状态下dqn训练期间联邦学习所消耗的能量,其中能量消耗包括本地训练期间的计算资源和聚合期间的通信资源。可以看出,能耗随着信道质量的提高而降低,这主要是由于信道质量较差时,聚合消耗了更多的通信资源。通过dqn训练,三个通道状态下的能耗都降低了。这是由于dqn可以自适应地校准聚合时间,当在信道质量相对较差时,联邦学习就会去选择本地训练,而不去使用长时间延迟和高能耗的聚合。

图7描述了在不同聚类情况下通过联邦学习获得的准确性的变化。可以看出,集群越多,训练可以同时达到的精度越高,这是因为集群可以通过不同的本地聚合时间去有效地利用异构节点的计算能力。

图8描述了在不同聚类情况下联邦学习达到预设精度所需的时间。随着簇数的增加,达到相同精度所需的训练时间减少。与图6类似,也是因为集群有效地利用了异构节点的计算能力进行聚类,以使不同聚类的局部聚合时序不同。随着簇数的增加,可以更有效地缓解流浪者效应,这自然缩短了联邦学习所需的时间。另外,当预设精度达到90%或更高时,相同精度的提高将花费更多的时间。

图9比较了基于dqn的联邦学习与固定频率联邦学习的准确性。从训练过程中能够发现dqn可以通过学习超过了固定频率的精度值。这是因为全局聚合对联邦学习准确性的增益是非线性的,并且固定频率方案可能会错过最佳聚合机会。所以提出来的方案最终实现的联邦学习的准确性要高于固定频率方案,这符合dqn最大化最终增益的目标。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1