技术特征:
1.一种基于深度强化学习的危险行为识别方法,其特征在于,包括如下步骤:步骤1、获取危险行为视频并进行预处理,得到危险行为图像数据集,按预设的比例将所述危险行为图像数据集划分为用于鱼竿检测的图像数据集和用于鱼竿定位的图像数据集;对所述用于鱼竿检测的图像数据集进行人工标注后,按一定比例划分为鱼竿检测训练集和鱼竿检测验证集;步骤2、建立用于检测鱼竿的鱼竿检测器、用于鱼竿定位的鱼竿定位器、用于检测人体姿态的姿态检测器;所述鱼竿检测器的组成包括:resnet-101主干网络、多尺度可形变自注意力模块、编码器、解码器;所述鱼竿定位器的组成包括:一个actor网络、两个critic网络、一个目标actor网络、两个目标critic网络、空间卷积神经网络;所述空间卷积神经网络包括:卷积层、空间信息传递模块和全连接层;所述空间信息传递模块包括:从上到下的特征提取层scnn_d、从下到上的特征提取层scnn_u、从左到右的特征提取层scnn_r和从右到左的特征提取层scnn_l;所述姿态检测器是由尺度感知的高分辨网络构成,并包括:resnet主干网络和高分辨率网络;所述高分辨网络是由并行连接的若干个多分辨子网构成,且若干个多分辨子网的分辨率由高到低排序;步骤3、将所述鱼竿检测训练集送入所述鱼竿检测器中进行训练,并通过鱼竿检测验证集进行验证,从而得到训练好的鱼竿检测器;步骤4、将所述用于鱼竿定位的图像数据集送入所述训练好的鱼竿检测器中进行鱼竿目标检测,得到每个图像的鱼竿预测包围框并构成定位数据集,再对所述定位数据集进行人工标注后,按照一定比例划分为定位训练集和定位验证集;步骤5、将所述定位训练集送入鱼竿定位器中进行训练,并通过定位验证集进行验证,从而得到训练好的鱼竿定位器;步骤6、鱼竿检测和人体动作识别;步骤6.1、定义危险行为动作种类,包括:无危险行为、潜在危险行为、收杆动作和甩杆动作;定义缓存队列queue,并用于存放连续t帧的姿态信息;步骤6.2、将待检测的危险行为视频中的一帧图像送入训练好的鱼竿检测器进行检测,得到当前帧图像的鱼竿目标包围框;步骤6.3、将当前帧图像的鱼竿目标包围框送入训练好的鱼竿定位器进行定位,得到定位后的鱼竿参数,并作为鱼竿目标;步骤6.5、将当前帧图像送入姿态检测器中进行姿态检测,得到人体姿态关键点:所述当前帧图像经过resnet主干网络进行特征提取,得到高分辨率特征图;所述高分辨率特征图输入所述高分辨率网络中,并经过并行连接的若干个多分辨率子网络的多尺度特征融合处理,得到高分辨率表示的估计关键点信息,并作为人体姿态关键点;步骤6.6、获取人体姿态关键点中手臂上的关键点信息,从而利用式(1)计算得到当前帧图像的手臂的状态cosθ,并作为姿态信息保存在缓存队列queue中:
式(1)中,θ表示手臂中小臂与大臂之间的夹角,d1、d2小臂与大臂的长度,d3表示对边长度;步骤6.7、按照步骤6.2-步骤6.5的过程获取缓存队列queue中连续t帧的姿态信息,并通过反余弦函数求出危险行为者的手臂夹角θ的变化范围,从而利用式(2)计算危险行为者手臂的动作a:式(2)中,当a=0表示无明显动作,当a=1表示有明显动作,且θ的变化从大到小表示抬手动作,否则表示甩手动作;步骤6.8、若检测到所述鱼竿目标且伴随抬手动作或者甩手动作,则判定为抬杆动作或者甩杆动作,发出高压危险警报;否则,判定为潜在危险行为;若未检测所述鱼竿目标,则判定为未无危险行为。2.根据权利要求1所述的一种基于深度强化学习的危险行为识别方法,其特征在于,所述步骤3包括:步骤3.1、所述鱼竿检测训练集送入鱼竿检测器中,先经过resnet-101主干网络进行多尺度特征提取,得到多尺度特征图;步骤3.2、所述多尺度特征图输入所述多尺度可形变自注意力模块中进行聚合处理,得到聚合多尺度特征图;对所述多尺度特征图进行位置编码后,再与聚合多尺度特征图相加并输入所述编码器中进行编码处理,得到编码后的候选特征向量;步骤3.3、所述候选特征向量输入所述解码器中进行解码处理,得到鱼竿预测目标的包围框;步骤3.4、采用焦点损失函数计算损失,并通过匈牙利匹配算法对所述焦点损失函数进行监督求解,从而得到训练后的鱼竿检测器;步骤3.5、将所述鱼竿检测验证集输入所述训练后的鱼竿检测器中进行预测,得到预测结果,并计算其准确率后与预设的正确率阈值进行对比,若达到正确率阈值或者达到训练迭代次数,则表示得到训练好的鱼竿检测器,并保存模型参数;否则,返回步骤3.1继续对训练后的鱼竿检测器进行训练。3.根据权利要求1所述的一种基于深度强化学习的危险行为识别方法,其特征在于,所述步骤5包括:步骤5.1、定义动作空间的动作类型包括,旋转动作、平移动作和终止动作;所述旋转动作包括:顺时针方向和逆时针方向旋转;所述平移动作包括:向上平移和向下平移;所述终止动作表示目标经过旋转和平移后的当前位置与期望位置达到所设阈值;步骤5.2、使用随机参数φ初始化actor网络π
φ
,使用随机参数θ1、θ2初始化两critic网络v
θ1
、v
θ2
,再使用随机参数φ
′
初始化目标actor网络π
φ
′
、使用随机参数θ
′1、θ2′
初始化两个目标critic网络v
θ1
′
、v
θ2
′
,并使φ
′
=φ、θ
′1=θ1、θ
′2=θ2;
步骤5.3、定义当前训练迭代次数为lim,并初始化lim=1;步骤5.4、初始化鱼竿参数为g、动作历史向量为空;步骤5.5、定义当前回合数为lun,并初始化lun=1;步骤5.6、在第lim次迭代的第lun回合下,将所述定位数据集送入鱼竿检测器中,并经过空间卷积神经网络进行图像特征提取,得到编码后的图像特征向量:所述卷积层对所述定位数据集进行特征提取,得到定位特征图;所述上到下的特征提取层scnn_d对定位特征图进行切片,得到特征图d;所述从下到上的特征提取层scnn_u对特征图d进行切片,得到特征图u;所述从左到右的特征提取层scnn_r对特征图u进行切片,得到特征图r;所述从右到左的特征提取层scnn_l对特征图r进行切片,得到特征图l;所述特征图l经过所述全连接层的处理后,得到编码后的图像特征向量;步骤5.7、将所述鱼竿参数g、动作历史向量和图像编码后的特征向量相加,得到当前环境状态s;步骤5.8、将所述当前环境状态s送入actor网络π
φ
中进行动作选择,得到当前动作a,并将当前动作a保存在动作历史向量中,再通过当前动作a计算得到鱼竿参数的变化,用于更新鱼竿参数g;步骤5.9、将所述当前动作a分别送入critic网络v
θ1
、v
θ2
中进行评价,得到两个动作值q1、q2;步骤5.10、将所述当前环境状态s通过当前动作a进行状态转移得到下一状态s
′
,记录奖励r,再将状态s
′
送入目标actor网络π
φ
′
,得到下一动作a
′
并分别送入目标critic网络v
θ1
′
、v
θ2
′
中进行评价,得到两个目标动作值q
1a
′
、q
2a
′
并选取最小值,作为状态s
′
的目标动作值y
′
;步骤5.11、通过式(3)计算当前环境状态s的目标动作值y,并通过均方误差损失函数分别计算与动作值q1、q2之间的损失,从而更新critic网络v
θ1
、v
θ2
的参数θ1、θ2:y=r+γmin(q
1a
′
,q
2a
′
)
ꢀꢀꢀꢀꢀ
(3)式(3)中,γ表示学习率;步骤5.12、若连续两次更新critic网络,则通过梯度上升法更新actor网络π
φ
的参数φ,否则,不更新actor网络π
φ
;步骤5.13、通过式(4)进行软更新,更新目标actor网络π
φ
′
和目标critic网络v
θ1
′
、v
θ2
′
:式(4)中,
←
表示赋值,τ表示更新比例;步骤5.14、若当前动作a为终止动作或者达到预设的回合次数阈值,结束当前迭代并继续执行步骤5.12;否则,将下一状态s
′
作为当前环境状态s,并将lun+1赋值给lun后返回步骤5.7顺序执行;步骤5.15、将所述定位验证集送入定位器中进行验证,得到定位精度和定位速度,如果满足预设标准或者达到最大训练迭代次数,则表示得到训练好的鱼竿定位器,并保存最优模型参数;否则,将lim+1赋值给lim后返回步骤5.4顺序执行。
技术总结
本发明公开了一种基于深度强化学习的危险行为识别方法,包括:1通过摄像头进行数据采集,得到危险行为视频并生成鱼竿数据集;2建立用于检测鱼竿的鱼竿检测器、用于鱼竿精准定位的鱼竿定位器、用于检测人体姿态的姿态检测器;3通过鱼竿数据集训练鱼竿检测器,并通过测试进行验证;4通过训练完成的鱼竿检测器进行鱼竿目标检测,得到定位数据集;5将定位数据集送入鱼竿定位器中进行训练,并通过测试进行验证;6将危险行为视频送入鱼竿检测和人体动作识别模型中,通过综合逻辑判断得到危险行为的动作。本发明能利用深度强化学习算法实现对高电压环境中危险行为者的动作识别,可以及时警告危险行为者的危险动作,保证该环境中的人员安全。安全。安全。
技术研发人员:李帷韬 杨盛世 丁美双 丁立健 孙伟 李奇越 刘鑫 王旗 常文婧 侯建平 胡平路 管树志 张雪松
受保护的技术使用者:国网安徽省电力有限公司超高压分公司
技术研发日:2022.04.07
技术公布日:2022/6/30