用于电网安全态势感知的无人机巡检方法、终端设备

文档序号:33640364发布日期:2023-03-29 01:53阅读:42来源:国知局
用于电网安全态势感知的无人机巡检方法、终端设备

1.本发明涉及智能电网检测技术领域,特别是一种用于电网安全态势感知的无人机巡检方法、终端设备。


背景技术:

2.电网由各电压等级输配电线路与变电站组成,是保障现代社会正常运转的重要能源设施。电网安全态势感知是指通过获取并分析与电网运行密切相关的各类信息,掌握电网实时安全状态并预测未来安全趋势,从而辅助制定电网安全风险应对策略。作为实现远距离电能传输与通信的物理载体,输电线路是电网中地理分布最广且空间跨度与占地面积最大的部分,其运行状况对电网安全稳定具有直接重大影响。因此,获取输电线路状态信息是电网安全态势感知的关键性基础环节。为实现该环节,需利用电力巡检无人机对输电线路进行巡检。无人机按照地面遥控指令执行巡检任务,可通过多种机载检测设备高效准确锁定输电线路中存在的故障与隐患。与人工巡检相比,无人机巡检可适应复杂恶劣自然环境,技术经济优势十分显著。
3.总体而言,无人机巡检在电网安全态势感知中具有良好应用前景,但其也有不足之处:无人机在巡检过程中一旦发现可能存在故障或隐患的关键点,需靠近该点进行深入检查。在近距离巡检模式下,无人机受气流扰动等随机因素干扰,飞行位置与姿态极易发生偏移,导致机载检测设备所获图像质量下降,进而影响巡检精度与效率,无法为电网安全态势感知提供高质量信息。因此,现有无人机巡检方法无法满足电网安全态势感知任务要求。


技术实现要素:

4.本发明所要解决的技术问题是,针对现有技术不足,提供一种用于电网安全态势感知的无人机巡检方法、终端设备,利用深度强化学习技术校正无人机飞行状态以有效增强近距离巡检状态下无人机飞行位置与姿态的稳定性,从而改善机载检测设备所获图像质量,提升输电线路巡检精度与效率,增强电网安全态势感知能力。
5.为解决上述技术问题,本发明所采用的技术方案是:一种用于电网安全态势感知的无人机巡检方法,包括以下步骤:
6.s1、构建状态空间,其中任一时刻t的状态s
t
包括无人机在t时刻的检测图像di
t
和飞行状态as
t
;t时刻的检测图像di
t
是由无人机在t时刻及先前k个时刻所摄图片按时间顺序排列组成的序列ci
t-k,ci
t-k+1
,

,cij,

,ci
t-2
,ci
t-1
,ci
t
;cij=[vij,irj,uij],vij为j时刻拍摄的可见光图片,irj为j时刻拍摄的红外图片,uij为j时刻拍摄的超声图片,j=t-k,t-k+1,

,t-2,t-1,t;t时刻的飞行状态as
t
是由无人机在t时刻及先前k个时刻的位姿信息向量按时间顺序排列组成的序列pd
t-k
,pd
t-k+1
,

,pdj,

,pd
t-2
,pd
t-1
,pd
t
;其中pdj=[xj,yj,uj,αj,βj,γj],xj、yj和uj分别为j时刻地球坐标系下无人机的飞行位置三维坐标,αj、βj和γj分别为j时刻无人机的偏航角、俯仰角和横滚角;
[0007]
s2、构建混合深度神经网络(hybrid deep neural network,hdnn),所述hdnn包括
抗扰卷积神经网络(anti disturbance convolutional neural network,adcnn)、第一快速门限循环神经网络(fast gated recurrent neural network,fgrnn)、第二快速门限循环神经网络和第一全连接神经网络(dense net);所述adcnn与第一fgrnn连接;第一fgrnn、第二fgrnn均与第一dense net连接;将所述t时刻的检测图像di
t
作为所述adcnn的输入,所述t时刻的飞行状态as
t
序列作为第二fgrnn的输入;所述第一dense net的输出为t时刻的q(s,a),q(s,a)即在状态s
t
下,无人机执行动作空间中的各个动作后,所获反馈函数值的预测值;其中动作空间a=[δx,δy,δu,δα,δβ,δγ],δx为机体坐标系下无人机在水平方向横轴上的位移调节量,δy为机体坐标系下无人机在水平方向纵轴上的位移调节量,δu为机体坐标系下无人机在垂直方向上的位移调节量,δα为无人机偏航角调节量,δβ为无人机俯仰角调节量,δγ为无人机横滚角调节量,δx、δy、δu、δα、δβ与δγ均采用离散微调控制模式;反馈函数r=wss+wdd,s为基于信息量加权的结构相似度指标(information content-weighted structural similarity index,iw-ssim),d为所述检测图像di
t
中各张图片的中心与无人机所要检查的目标物体的中心之间的欧式距离,ws和wd为权重系数,反馈函数r直接反映检测图像di
t
的质量;
[0008]
s3、对所述hdnn进行仿真训练,得到无人机飞航状态校正模型(aviation state correction model,ascm)。
[0009]
本发明中,所述第一dense net的输出,即t时刻的q(s,a)函数值的获取过程包括:
[0010]
(1)利用所述adcnn从t时刻的检测图像di
t
序列内各张图片cij中分别感知环境状态信息,得到输出特征序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
,利用所述第一fgrnn从f
t-k,ft-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取时序特征,得到第一特征向量v
1t

[0011]
(2)利用所述第二fgrnn从t时刻的飞行状态as
t
序列中提取时序特征,得到第二特征向量v
2t

[0012]
(3)串联拼接所述第一特征向量v
1t
和第二特征向量v
2t
,将拼接而成的向量v
t
作为第一dense net的输入,得到t时刻的q(s,a)函数值。
[0013]
本发明中,hdnn根据状态s
t
中不同信息的具体特点,分别设置由adcnn与fgrnn组成的专门深度神经网络结构进行有针对性的分析处理,可有效增强特征提取能力,从而显著提升q(s,a)函数值拟合精度与效率。因此本发明有效增强了近距离巡检状态下无人机飞行位置与姿态的稳定性,从而改善了机载检测设备所获图像质量,提升了输电线路巡检精度与效率,增强了电网安全态势感知能力。
[0014]
本发明中,所述离散微调控制模式实现过程包括:选定无人机的最大正负位移调节量δp
max
和最大正负角度调节量δd
max
;对δp
max
进行n1等分,对δd
max
进行n2等分,则δp=δp
max
/n1为无人机的位移调节间隔,δd=δd
max
/n2为无人机的角度调节间隔,a中位移调节量δx、δy和δu的动作取值为-n1δp,-(n
1-1)δp,

,-2δp,-δp,0,+δp,+2δp,

,+(n
1-1)δp,+n1δp,角度调节量δα、δβ和δγ的动作取值为-n2δd,-(n
2-1)δd,

,-2δd,-δd,0,+δd,+2δd,

,+(n
2-1)δd,+n2δd。
[0015]
本发明中,利用adcnn从t时刻的检测图像di
t
序列内各张图片cij中分别感知环境状态信息的过程包括如下步骤:
[0016]
(1)对di
t
中各张图片cij分别进行二维膨胀卷积处理,生成一组卷积特征图m
t-k
,m
t-k+1
,

,mj,

,m
t-2
,m
t-1
,m
t

[0017]
(2)分别对各张卷积特征图中各元素取绝对值,得到一组绝对值特征图am
t-k
,am
t-k+1
,

,amj,

,am
t-2
,am
t-1
,am
t
,分别对所述各张绝对值特征图逐通道进行全局平均池化,得到一组池化向量g
t-k
,g
t-k+1
,

,gj,

,g
t-2
,g
t-1
,g
t

[0018]
(3)将每个所述池化向量分别作为第二全连接神经网络的输入,得到一组输出向量av
t-k
,av
t-k+1
,

,avj,

,av
t-2
,av
t-1
,av
t
,将各输出向量分别对应与各池化向量逐元素相乘,得到一组抗扰参数向量a
t-k
,a
t-k+1
,

,aj,

,a
t-2
,a
t-1
,a
t
,aj维度等于卷积特征图的通道数;
[0019]
(4)将各卷积特征图中对应与各抗扰参数向量逐元素相乘,得到经过抗扰处理的卷积特征图,展开经过抗扰处理的卷积特征图,得到输出特征序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t

[0020]
本发明提出的adcnn能够在有效抑制干扰信号的前提下,全面准确感知环境状态信息,从而有效增强ascm控制决策能力。
[0021]
本发明中,利用所述第一fgrnn从f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取时序特征,以及利用所述第二fgrnn从t时刻的飞行状态as
t
序列中提取时序特征的过程包括如下步骤:
[0022]
(1)利用下式生成第一fgrnn或第二fgrnn在第j个时间步上的更新门zj和重置门rj:(zj,rj)=sigmoid(zj',rj');其中,sigmoid为激活函数,zj'=dda(zj,gz,bz)与rj'=dda(rj,gr,br)分别表示第一fgrnn或第二fgrnn在第j个时间步上的更新门zj和重置门rj的中间过程向量;dda表示数据分布调整,zj=w
zhj-1
+uzxj+bz与rj=w
rhj-1
+urxj+br是中间数据向量,中间数据向量维度为h,gz与gr是增益向量,bz和br是偏置向量,增益向量与偏置向量均为可训练权重向量;在中间数据向量zj和rj中,xj为第一fgrnn或第二fgrnn在第j个时间步上的输入特征向量,即fj或pdj,h
j-1
是第一fgrnn或第二fgrnn在第j-1个时间步上生成的隐藏状态,wz、uz、wr和ur为权重矩阵,bz和br为偏置向量;
[0023]
(2)计算第一fgrnn或第二fgrnn在第j个时间步上的内部细胞状态cj:cj=relu(cj');其中,cj′
是cj的计算中间值,wc和uc是权重矩阵,bc是偏置向量,代表逐元素相乘;
[0024]
(3)计算第一fgrnn或第二fgrnn在第j个时间步上的拓展权重向量ej:其中,λ和η为拓展权重参数;e
j-1
代表第一fgrnn或第二fgrnn在第j-1个时间步上的拓展权重向量;
[0025]
(4)计算第一fgrnn或第二fgrnn在第j个时间步上生成的隐藏状态hj:其中,代表逐元素相加;
[0026]
(5)对第一fgrnn或第二fgrnn生成的各个hj进行特征强化处理,得到特征强化向量,即得到第一特征向量v
1t
或第二特征向量v
2t

[0027]
本发明提出的fgrnn基于自联想记忆与门限原理,具备较传统循环神经网络更高的学习能力和效率。
[0028]
本发明中,计算第一fgrnn或第二fgrnn的zj'和rj'的过程中,数据分布调整dda过程包括:
[0029]
(1)计算中间数据向量的均值与方差其中,xi为中间数据向量zj或rj中的各个元素;i=1,2,

,h;
[0030]
(2)对中间数据向量中元素的分布进行标准正态化:其中,xi′
为中间数据向量zj或rj中的各个元素经过标准正态化后的值,ε是一个无限趋近于0的正数;
[0031]
(3)利用下式调整中间数据向量中元素的分布:yi=gnixi'+bai;其中,yi为经过再次调整后的中间数据向量中的各个元素,gni是增益向量gz或gr中的第i个元素,bai是偏置向量bz或br中的第i个元素,gni与bai均为可训练权重参数。
[0032]
dda通过在标准正态化的基础上再次调整中间数据向量中元素的分布,使大部分元素集中于非线性激活函数中的合理区间内,从而在增大梯度的同时,保持fgrnn对非线性函数关系的拟合能力,且不破坏fgrnn学习所获知识。因此,dda可有效提升fgrnn的收敛速度。此外,dda还可增强fgrnn的泛化能力,并降低fgrnn对超参数的敏感度,从而简化调参。
[0033]
本发明中,所述步骤s3中,训练所述hdnn的具体实现过程包括:
[0034]
s3-1、设置两个动作价值函数q(s,a)和q

(s,a),其中q(s,a)由所述hdnn拟合,q

(s,a)由一个与所述hdnn结构相同的辅助hdnn;将所述hdnn和所述辅助hdnn以同一组随机权重参数初始化;将经验回放缓冲区r初始化为空集{};将训练周期数e和单步训练回合数rd初始化为0;
[0035]
s3-2、判断r中存储的数据的数量是否达到容量上限o
max
,若已达到则丢弃最早存入的若干组数据,使r中存储的数据的数量低于o
max
;若未达到则开始一个单步训练回合,利用hdnn分析当前时刻t的状态s
t
,得到t时刻的q(s,a);判断单步训练回合数rd是否达到策略转换阈值sw,若未达到,则以ε-greedy策略根据q(s,a)选择动作a
t
予以执行;若已达到,则按照下式根据q(s,a)选择动作a
t
予以执行:其中c是探索系数,n
t
(a)表示动作空间a中各动作在t时刻之前被选择的次数;获取动作a
t
执行后的新状态s
t+1
和反馈r
t
;将s
t
、a
t
、r
t
和s
t+1
组成的四元组[s
t
,a
t
,r
t
,s
t+1
]作为一组数据存储至回放缓冲区r中;
[0036]
s3-3、判断r中存储的四元组的数量是否超过容量下限o
min
,若未超过则返回步骤s3-2,若已超过则从r中随机采样n个四元组;利用由所述辅助hdnn拟合的q

(s,a)计算采样所得的各个四元组[sn,an,rn,s
n+1
]的个体损失函数值ln=(rn+ymax
a q'(s
n+1
,a)-q(sn,an))2,其中y为折扣因子;对n个四元组的个体损失函数值取平均值,得到目标损失函数值l;以梯度下降法最小化目标损失函数值l,更新所述hdnn的权重参数,完成一个单步训练回合,将rd的值加1;
[0037]
s3-4、判断rd的值是否是同步回合数c的整数倍,若是,则将hdnn的权重参数赋给所述辅助hdnn;
[0038]
s3-5、判断rd的值是否达到上限rd
max
,若已达到,则将e的值加1,并将rd的值清零,然后进入步骤s3-6,若未达到则返回步骤s3-2;
[0039]
s3-6、判断e是否达到上限e
max
,若已达到则结束训练过程,否则返回步骤s3-2。
[0040]
鉴于基于ε-greedy策略的传统强化学习忽视潜在最优动作,导致动作选择易陷入次优解或局部最优解,本发明在hdnn训练过程中对动作选择策略进行改进,将ε-greedy策略与相结合,根据次优动作成为最优动作的潜力或不确定性进行有偏好的探索,从而有效提升训练质量,更好地满足电网安全态势感知需要。
[0041]
本发明的方法还包括:
[0042]
s4、将无人机飞航状态校正模型加载至无人机的飞行控制程序中,利用无人机对实际输电线路进行巡检。具体而言,在近距离巡检状态下,ascm通过由hdnn拟合的q(s,a)函数分析状态s
t
,以预测由动作空间a中不同向量构成的各类飞行位姿校正指令对检测图像di
t
的质量,即反馈函数值r的影响,然后选择预期图像质量最高,即反馈函数值r的预测值最高的最优指令付诸执行,以使无人机飞行位姿趋于稳定,从而改善巡检图像质量,提升巡检精度和效率,增强电网安全态势感知能力。
[0043]
为在较短时间内更好适应巡检现场实际,从而进一步提升巡检精度与效率,增强电网安全态势感知能力,本发明中,利用无人机对实际输电线路进行巡检之前,利用迁移学习方法调整所述无人机飞航状态校正模型的参数。
[0044]
作为一个发明构思,本发明还提供了一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明上述方法的步骤。
[0045]
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序/指令;所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。
[0046]
与现有技术相比,本发明所具有的有益效果为:本发明提出一种用于电网安全态势感知的无人机巡检方法,综合利用深度学习与强化学习两种人工智能技术强大的特征学习和控制决策能力对无人机飞行状态进行校正,以显著增强近距离巡检时无人机飞行位置与姿态的稳定性,从而改善机载检测设备所获图像质量,最终达到提升输电线路巡检精度与效率,增强电网安全态势感知能力的目的。
附图说明
[0047]
图1为本发明实施例1的用于电网安全态势感知的无人机巡检方法的流程图;
[0048]
图2为本发明实施例1的用于拟合q(s,a)函数的hdnn的原理图;
[0049]
图3为本发明实施例1的adcnn的运算流程图;
[0050]
图4为本发明实施例1的fgrnn的内部结构图。
具体实施方式
[0051]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个所述事物,而是表示有关描述仅仅针对所述事物中2的一个,所述
事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“a包括b”意在表示在逻辑上b属于a,而不表示在空间上b位于a的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“a包括b”意在表示b属于a,但是b不一定构成a的全部,a还可能包括c、d、e等其它元素。
[0053]
实施例1
[0054]
如图1所示,本发明实施例1的用于电网安全态势感知的无人机巡检方法包括以下步骤:
[0055]
s1、构建状态空间。其中任一时刻t的状态s
t
包括无人机在t时刻的检测图像di
t
和飞行状态as
t
;t时刻的检测图像di
t
是由无人机在t时刻及先前k个时刻所摄图片按时间顺序排列组成的序列ci
t-k
,ci
t-k+1
,

,cij,

,ci
t-2
,ci
t-1
,ci
t
;cij=[vij,irj,uij],vij为j时刻拍摄的可见光图片,irj为j时刻拍摄的红外图片,uij为j时刻拍摄的超声图片,j=t-k,t-k+1,

,t-2,t-1,t;t时刻的飞行状态as
t
是由无人机在t时刻及先前k个时刻的位姿信息向量按时间顺序排列组成的序列pd
t-k
,pd
t-k+1
,

,pdj,

,pd
t-2
,pd
t-1
,pd
t
;其中pdj=[xj,yj,uj,αj,βj,γj],xj、yj和uj分别为j时刻地球坐标系下无人机的飞行位置三维坐标,αj、βj和γj分别为j时刻无人机的偏航角、俯仰角和横滚角。
[0056]
s2、构建混合深度神经网络(hybrid deep neural network,hdnn)。如图2所示,hdnn由本发明实施例1提出的抗扰卷积神经网络(anti disturbance convolutional neural network,adcnn)、第一快速门限循环神经网络(fast gated recurrent neural network,fgrnn)、第二快速门限循环神经网络和第一全连接神经网络(dense net)组成,具体包括dnn1、dnn2和dnn3三部分。其中,dnn1由adcnn和第一fgrnn上下堆叠而成,其功能在于分析状态s
t
中的图像部分di
t
。dnn1在运行时首先利用adcnn从t时刻的检测图像di
t
序列内各张图片cij中分别感知环境状态信息,得到输出特征序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
,继而利用第一fgrnn从f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取时序特征,从而得到第一特征向量v
1t
。与此同时,hdnn利用由第二fgrnn构成的dnn2从t时刻的飞行状态as
t
序列中提取时序特征,得到第二特征向量v
2t
。需要注意的是,dnn1和dnn2中的fgrnn可采用多层级联的深度结构,图2中仅显示一层fgrnn。最后在dnn3中,串联拼接(concatenate)第一特征向量v
1t
和第二特征向量v
2t
,将拼接而成的向量v
t
作为第一dense net的输入,得到t时刻的q(s,a)函数值。dnn3中的第一dense net可采用多隐藏层级联的深度结构,图2中仅显示一层。t时刻的q(s,a)函数值即在状态s
t
下,无人机执行动作空间中的各个动作后,所获反馈函数值的预测值。其中动作空间a=[δx,δy,δu,δα,δβ,δγ],δx为机体坐标系下无人机在水平方向横轴上的位移调节量,δy为机体坐标系下无人机在水平方向纵轴上的位移调节量,δu为机体坐标系下无人机在垂直方向上的位移调节量,δα为无人机偏航角调节量,δβ为无人机俯仰角调节量,δγ为无人机横滚角调节量,δx、δy、δu、δα、δβ与δγ均采用离散微调控制模式;反馈函数r=wss+wdd,s为基于信息量加权的结构相似度指标(information content-weighted structural similarity index,iw-ssim),d为所述检测图像di
t
中各张图片的中心与无人机所要检查的目标物体的中心之间的欧式距离,ws和wd为权重系数,反馈函数r直接反映检测图像di
t
的质量。
[0057]
本实施例中,离散微调控制模式实现过程包括:选定无人机的最大正负位移调节
量δp
max
和最大正负角度调节量δd
max
;对δp
max
进行n1等分,对δd
max
进行n2等分,则δp=δp
max
/n1为无人机的位移调节间隔,δd=δd
max
/n2为无人机的角度调节间隔,a中位移调节量δx、δy和δu的动作取值为-n1δp,-(n
1-1)δp,

,-2δp,-δp,0,+δp,+2δp,

,+(n
1-1)δp,+n1δp,角度调节量δα、δβ和δγ的动作取值为-n2δd,-(n
2-1)δd,

,-2δd,-δd,0,+δd,+2δd,

,+(n
2-1)δd,+n2δd。
[0058]
本实施例中,hdnn根据状态s
t
中不同信息的具体特点,分别设置由adcnn与fgrnn组成的专门深度神经网络结构进行有针对性的分析处理,可有效增强特征提取能力,从而显著提升q(s,a)函数值拟合精度与效率。
[0059]
s3、对所述hdnn进行仿真训练,得到无人机飞航状态校正模型(aviation state correction model,ascm),具体实现过程包括:
[0060]
s3-1、设置两个动作价值函数q(s,a)和q

(s,a),其中q(s,a)由hdnn拟合,q

(s,a)由一个与所述hdnn结构相同的辅助hdnn;将hdnn和辅助hdnn以同一组随机权重参数初始化;将经验回放缓冲区r初始化为空集{};将训练周期数e和单步训练回合数rd初始化为0。
[0061]
s3-2、判断r中存储的数据的数量是否达到容量上限o
max
,若已达到则丢弃最早存入的若干组数据,使r中存储的数据的数量低于o
max
;若未达到则开始一个单步训练回合,利用hdnn分析当前时刻t的状态s
t
,得到t时刻的q(s,a);判断单步训练回合数rd是否达到策略转换阈值sw,若未达到,则以ε-greedy策略根据q(s,a)选择动作a
t
予以执行;若已达到,则按照下式根据q(s,a)选择动作a
t
予以执行:其中c是探索系数,n
t
(a)表示动作空间a中各动作在t时刻之前被选择的次数;获取动作a
t
执行后的新状态s
t+1
和反馈r
t
;将s
t
、a
t
、r
t
和s
t+1
组成的四元组[s
t
,a
t
,r
t
,s
t+1
]作为一组数据存储至回放缓冲区r中。
[0062]
s3-3、判断r中存储的四元组的数量是否超过容量下限o
min
,若未超过则返回步骤s3-2,若已超过则从r中随机采样n个四元组;利用由辅助hdnn拟合的q

(s,a)计算采样所得的各个四元组[sn,an,rn,s
n+1
]的个体损失函数值ln=(rn+ymax
a q'(s
n+1
,a)-q(sn,an))2,其中y为折扣因子;对n个四元组的个体损失函数值取平均值,得到目标损失函数值l;以梯度下降法最小化目标损失函数值l,更新所述hdnn的权重参数,完成一个单步训练回合,将rd的值加1。
[0063]
s3-4、判断rd的值是否是同步回合数c的整数倍,若是,则将hdnn的权重参数赋给辅助hdnn。
[0064]
s3-5、判断rd的值是否达到上限rd
max
,若已达到,则将e的值加1,并将rd的值清零,然后进入步骤s3-6,若未达到则返回步骤s3-2。
[0065]
s3-6、判断e是否达到上限e
max
,若已达到则结束训练过程,否则返回步骤s3-2。
[0066]
鉴于基于ε-greedy策略的传统强化学习忽视潜在最优动作,导致动作选择易陷入次优解或局部最优解,本发明在hdnn训练过程中对动作选择策略进行改进,将ε-greedy策略与相结合,根据次优动作成为最优动作的潜力或不确定性进行有偏好的探索,从而有效提升训练质量,更好地满足电网安全态势感知需要。
[0067]
s4、将无人机飞航状态校正模型加载至无人机的飞行控制程序中,利用无人机对实际输电线路进行巡检。在近距离巡检状态下,ascm通过由hdnn拟合的q(s,a)函数分析状态s
t
,以预测由动作空间a中不同向量构成的各类飞行位姿校正指令对检测图像di
t
的质量,即反馈函数值r的影响,然后选择预期图像质量最高,即反馈函数值r的预测值最高的最优指令付诸执行,以使无人机飞行位姿趋于稳定,从而改善巡检图像质量,提升巡检精度和效率,增强电网安全态势感知能力。
[0068]
优选的,本实施例在实际巡检开始前还可开展迁移学习,对hdnn已有权重进行微调,以在较短时间内更好适应巡检现场实际,从而进一步提升巡检精度与效率,增强电网安全态势感知能力。
[0069]
进一步的,本发明实施例1提出的adcnn如图3所示,利用adcnn从t时刻的检测图像di
t
序列内各张图片cij中分别感知环境状态信息的过程包括如下步骤:
[0070]
(1)将di
t
序列送入二维卷积模块,以对di
t
中各张图片cij分别进行二维膨胀卷积处理,生成一组卷积特征图m
t-k
,m
t-k+1
,

,mj,

,m
t-2
,m
t-1
,m
t
;二维卷积模块由n3个二维膨胀卷积层上下堆叠而成;二维膨胀卷积层的卷积核中设有零元素空洞,可在不增加权重参数的情况下实现较常规卷积核更大的局部感受野,从而使adcnn能从更广图像区域中更加高效且全面的感知环境状态信息。
[0071]
(2)分别对各张卷积特征图中各元素取绝对值,得到一组绝对值特征图am
t-k
,am
t-k+1
,

,amj,

,am
t-2
,am
t-1
,am
t
,分别对所述各张绝对值特征图逐通道进行全局平均池化,得到一组池化向量g
t-k
,g
t-k+1
,

,gj,

,g
t-2
,g
t-1
,g
t

[0072]
(3)将每个池化向量分别作为第二全连接神经网络的输入,第二dense net中执行的运算为:
[0073]
tsj=relu(w
d1gj
+b
d1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0074]
avj=sigmoid(w
d2
tsj+b
d2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0075]
其中,tsj是过渡向量,w
d1
与w
d2
为权重矩阵,b
d1
与b
d2
为偏置向量,relu和sigmoid为激活函数,(1)中运算可按需执行多次,(2)中运算仅执行一次。经过(1)(2)中运算得到一组输出向量av
t-k
,av
t-k+1
,

,avj,

,av
t-2
,av
t-1
,av
t
。继而将各输出向量分别对应与各池化向量逐元素相乘,得到一组抗扰参数向量a
t-k
,a
t-k+1
,

,aj,

,a
t-2
,a
t-1
,a
t
,aj维度等于卷积特征图的通道数。
[0076]
(4)将各卷积特征图中对应与各抗扰参数向量逐元素相乘,得到经过抗扰处理的卷积特征图,展开经过抗扰处理的卷积特征图,得到输出特征序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t

[0077]
步骤(3)中,各输出向量分别对应与各池化向量逐元素相乘,是指,将av
t-k
与g
t-k
逐元素相乘,将av
t-k+1
与g
t-k+1
逐元素相乘,依此类推。
[0078]
步骤(4)中,各卷积特征图中对应与各抗扰参数向量逐元素相乘,是指:将m
t-k
与a
t-k
逐元素相乘,将m
t-k+1
与a
t-k+1
逐元素相乘,依此类推。
[0079]
本发明实施例1提出的adcnn能够在有效抑制干扰信号的前提下,全面准确感知环境状态信息,从而有效增强ascm控制决策能力。
[0080]
进一步的,本发明实施例1提出的fgrnn如图4所示,利用第一fgrnn从f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取时序特征,以及利用第二fgrnn从t时刻的飞行状态as
t

列中提取时序特征的过程包括如下步骤:
[0081]
(1)利用下式生成第一fgrnn或第二fgrnn在第j个时间步上的更新门zj和重置门rj:
[0082]
(zj,rj)=sigmoid(zj',rj')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0083]
其中,sigmoid为激活函数,zj'=dda(zj,gz,bz)与rj'=dda(rj,gr,br)分别表示第一fgrnn或第二fgrnn在第j个时间步上的更新门zj和重置门rj的中间过程向量;dda表示数据分布调整,zj=w
zhj-1
+uzxj+bz与rj=w
rhj-1
+urxj+br是中间数据向量,中间数据向量维度为h,gz与gr是增益向量,bz和br是偏置向量,增益向量与偏置向量均为可训练权重向量;在中间数据向量zj和rj中,xj为第一fgrnn或第二fgrnn在第j个时间步上的输入特征向量,即fj或pdj,h
j-1
是第一fgrnn或第二fgrnn在第j-1个时间步上生成的隐藏状态,wz、uz、wr和ur为权重矩阵,bz和br为偏置向量。
[0084]
(2)计算第一fgrnn或第二fgrnn在第j个时间步上的内部细胞状态cj:
[0085][0086]cj
=relu(cj')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0087]
其中,cj′
是cj的计算中间值,wc和uc是权重矩阵,bc是偏置向量,代表逐元素相乘;relu计算复杂度远低于传统循环神经网络中常用的双曲正切激活函数tanh,且其在输入为正时导数恒为1,高于tanh的最大导数,故使用relu有助于在误差反向传播过程中增大梯度,从而有效提升fgrnn的学习效率。
[0088]
(3)计算第一fgrnn或第二fgrnn在第j个时间步上的拓展权重向量ej:
[0089]ej
=λe
j-1
+ηc
jcjt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0090]
其中,λ和η为拓展权重参数;e
j-1
代表第一fgrnn或第二fgrnn在第j-1个时间步上的拓展权重向量。
[0091]
fgrnn中,诸如wc和bz等属于传统权重,其须学习至少一个mini-batch的数据方可更新一次,因而学习和衰减速度较慢,且无法充分反映距当前时刻较近的历史数据的影响。此外,传统权重学习能力受限于权重矩阵和偏置向量的容量。为此,本发明实施例1中的fgrnn引入拓展权重ej。与传统权重不同,ej无需新设神经元并利用梯度下降法反复迭代更新,而是利用已有计算结果cj、c
jt
和e
j-1
并结合两个参数λ和η,以自联想记忆方式直接获取。因此,引入ej可在不明显增加计算开销的前提下有效提升模型的权重容量,以增强模型学习能力并加快收敛速度。此外,与传统权重相比,ej可充分反映距离当前时刻较近的历史数据的影响,有利于精度指标提升。
[0092]
(4)计算第一fgrnn或第二fgrnn在第j个时间步上生成的隐藏状态hj:
[0093][0094]
其中,代表逐元素相加。
[0095]
(5)对第一fgrnn或第二fgrnn生成的各个hj进行特征强化处理,得到特征强化向量hr
t
,即第一特征向量v
1t
或第二特征向量v
2t
。特征强化处理的具体过程包括:
[0096]ej
=v
·
tanh(whj+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0097][0098][0099]
其中,tanh为双曲正切激活函数,w为权重矩阵,b为偏置向量,v为权重向量,ej为hj对应的初始算力权重,asj为算力权重。
[0100]
传统循环神经网络需将其通过学习所获全部特征保存到最后时刻输出的隐藏状态中,在输入数据序列较长的情况下,隐藏状态有限的存储容量无法完整记录全部特征,部分关键特征将被丢弃,导致学习能力下降。对此,本发明实施例1中的fgrnn引入特征强化处理,以充分利用自身生成的全部隐藏状态中的有用信息,从而避免由于仅利用最后一个时间步上的隐藏状态而造成的关键信息损失问题。同时,特征强化处理为各个隐藏状态合理分配算力权重,以强化关键特征作用并抑制次要信息干扰,可进一步提升fgrnn的学习能力。
[0101]
总体而言,本发明实施例1提出的fgrnn利用自联想记忆与门限原理,可实现较传统循环神经网络更高的学习能力和效率,且调参更加简单,故将其引入hdnn可有效提升ascm训练时的收敛速度和应用时的控制精度。
[0102]
进一步的,计算第一fgrnn或第二fgrnn的zj'和rj'的过程中,数据分布调整dda过程包括:
[0103]
(1)计算中间数据向量的均值μ与方差σ2:
[0104][0105][0106]
其中,xi为中间数据向量zj或rj中的各个元素,i=1,2,

,h。
[0107]
(2)对中间数据向量中元素的分布进行标准正态化:
[0108][0109]
其中,xi′
为中间数据向量zj或rj中的各个元素经过标准正态化后的值,ε是一个无限趋近于0的正数,用于防止除数为零。经过标准正态化处理,中间数据向量中元素大量落入sigmoid等非线性激活函数中部的线性区中,梯度有所增大,fgrnn的学习速度因而得以提升。
[0110]
(3)标准正态化操作将严重削弱fgrnn对非线性函数关系的拟合能力,并破坏fgrnn学习输入数据所获知识,进而对fgrnn的训练效果造成负面影响。因此,dda还须再次调整经过标准正态化处理的中间数据向量中元素的分布:
[0111]
yi=gnixi'+baiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0112]
其中,yi为经过再次调整后的中间数据向量中的各个元素,gni是增益向量gz或gr中的第i个元素,bai是偏置向量bz或br中的第i个元素,gni与bai均为可训练权重参数。经过
上述调整,中间数据向量中元素的均值和方差相对标准正态分布有所偏移,相当数量的元素重新落入非线性激活函数两端的非线性区。fgrnn对非线性函数关系的拟合能力因而得以恢复,fgrnn学习所获知识也得以保留。
[0113]
dda通过在标准正态化的基础上再次调整中间数据向量中元素的分布,使大部分元素集中于非线性激活函数中的合理区间内,从而在增大梯度的同时,保持fgrnn对非线性函数关系的拟合能力,且不破坏fgrnn学习所获知识。因此,dda可有效提升fgrnn的收敛速度。此外,dda还可增强fgrnn的泛化能力,并降低fgrnn对超参数的敏感度,从而简化调参。
[0114]
综上所述,针对现有无人机在近距离巡检时易受气流扰动影响,飞行位置和姿态稳定性不足,难以为电网安全态势感知提供高质量信息的问题,本发明实施例1提出一种用于电网安全态势感知的无人机巡检方法,利用深度学习与强化学习两种人工智能技术强大的特征学习和控制决策能力对无人机飞行状态进行校正,以显著增强近距离巡检时无人机飞行位置与姿态的稳定性,从而改善无人机检测图像质量,最终达到提升输电线路巡检精度与效率,增强电网安全态势感知能力的目的。
[0115]
实施例2
[0116]
本发明实施例2提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
[0117]
本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。
[0118]
在一些实现中,存储器可以是高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0119]
在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。
[0120]
实施例3
[0121]
本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。
[0122]
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
[0123]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0124]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0125]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0126]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0127]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1