一种电力基建作业场景人工智能图像识别技术及其应用的制作方法

文档序号：33768508发布日期：2023-04-18 20:27阅读：78来源：国知局

本发明涉及电力，尤其是一种电力基建作业场景人工智能图像识别技术及其应用。

背景技术：

1、随着电力技术的高速发展，电网的覆盖面越来越广。电网安全受到社会各界的广泛关注，虽然在电力施工现场采取了较多的安全保障措施，但由于农村配电网生产作业呈现“点多、面广、量大”的特点，因此遇到安全监管资源受到人力不足、往返频繁、现场反馈不够及时准确、作业行为、标准化作业流程等执行情况监控不到位的困难。

2、目前解决该困难的方式是安排安全监管人员亲临施工现场，对重要的生产现场采用照相、录像监督和录音。然后将现场的录像、录音、图片等拷贝到电脑中，再通过查看影像资料，从中发现不安全行为和违章现象等。

3、由于施工现场覆盖面广，施工人员很多、电网运行操作频繁，因此难以实现施工现场的实时监控、全方位、全过程安全监督。

4、目前，为提高电力基建现场的安全管理，降低事故的发生，电力基建现场的监管工作多以工作人员到现场进行监管为主。虽然这种监管方式在一定程度上降低了事故的发生，但是浪费了大量的人力和时间。

技术实现思路

1、本发明要解决的技术问题是提供一种电力基建作业场景人工智能图像识别技术及其应用。

2、为解决上述技术问题，本发明所采取的技术发明如下。

3、一方面，本发明公开一种电力基建作业场景人工智能图像识别系统，包括：数据预处理与空间特征提取模块、改进的双向特征金字塔模块、双向lstm模块、分类模块，其中，所述数据预处理与空间特征提取模块用于视频数据的预处理，以减少视频片段中与动作行为无关的冗余信息；所述改进的双向特征金字塔模块用于特征交互和加权融合；所述双向lstm模块用于实现时间维度上的特征提取；所述分类模块用于完成人体行为的分类识别。

4、作为本发明的一种优选技术发明，所述数据预处理与空间特征提取模块包括以下步骤：先把每段视频分解为连续的视频帧，提取关键帧，然后使用efficientnet作为主干网络提取视频帧中的空间特征。

5、作为本发明的一种优选技术发明，所述改进的双向特征金字塔模块包括以下步骤：实现efficientnet的后5层(p3-p7)特征的加强与丰富。

6、作为本发明的一种优选技术发明，所述改进的双向特征金字塔模块还包括以下步骤：将双向特征金字塔的输出输送到坐标注意力模型进行特征的加权分配，然后每层加权后的特征通过采样操作实现分辨率的统一，最终将5层输出特征进行融合，融合后的特征输入到双向lstm模块用于时间序列特征的提取。

7、作为本发明的一种优选技术发明，所述分类模块为softmax分类器。

8、另一方面，本发明公开一种电力基建作业场景人工智能图像识别方法，包括以下步骤：

9、步骤1：关键帧的提取；

10、步骤2：efficientnet作为主干网络提取视频帧中的空间特征；

11、步骤3：使用改进bifpn实现efficientnet的后5层(p3-p7)特征的加强与丰富；

12、步骤4：丰富后的不同尺度特征分别发送到坐标注意力模块，进一步突出特征表示，随后经采样后进行融合，融合后的特征输入到长短时记忆网络用于时间序列特征的提取；

13、步骤5：输出的特征送入softmax分类器，实现基于视频的人体行为识别。

14、作为本发明的一种优选技术发明，步骤1包括：提取到的视频关键帧输入到网络模型，尺寸被重新调整为512×512×3，即efficientnet的输入为512×512×3，输出为p3-p7层的特征，其中p3(64×64×40),p4(32×32×80),p5(16×16×112),p6(8×8×192),p7(4×4×320)，其中，括号内前两位数字表示特征图像的长度和宽度，最后一位表示图像的通道数。

15、作为本发明的一种优选技术发明，步骤3包括：得到的5层(p3,p4,p5,p6,p7)特征被发送到改进的bifpn以丰富特征，输出的5层特征图尺度分别为：p3(64×64×64),p4(32×32×64),p5(16×16×64),p6(8×8×64),p7(4×4×64)。

16、作为本发明的一种优选技术发明，步骤4包括：将得到的每层特征图分别被送入坐标注意力模块，输出的特征图尺度不变，然后经过采样，每层特征图大小均为16×16×64，在p5层进行多级特征的融合，通过使用torch.cat()函数拼接特征图，拼接后的特征图大小为16×80×64；将拼接后的特征图通过全接连层实现空间特征的降维操作，最终空间特征维度为512；然后将提取的16帧关键帧图像的空间特征发送到lstm模块，实现时间维度上的特征提取。

17、作为本发明的一种优选技术发明，步骤5包括：将得到的特征图输送到网络全连接层进行降维，得到256维的时空特征并输入到softmax分类器，完成对视频中人体行为的分类识别任务。

18、采用上述技术发明所产生的有益效果在于：本发明主体框架为cnn-lstm模型。为解决视频数据过度冗余，造成网络模型训练过慢和提取过多无用特征的状况，本发明首先对数据集中的视频数据进行预处理，提取出视频中的关键帧作为网络模型的输入。提取出的关键帧经过efficientnet网络进行空间多尺度特征提取，值得注意的是，为保证减少计算的同时且能保证特征的完整性，本发明只采取efficientnet网络的后5层输出作为双向特征金字塔模块的输入，随后在每层双向特征金子塔的输出后加入注意力模块，以赋于不同层特征的重要程度，随后通过上采样和下采样操作统一每层输出的通道数并在中间层实现特征的融合。通过双向特征金子塔和注意力模块进行多尺度空间特征的融合与优化，以丰富视频人体行为描述。下一步将融合后的特征输入到双向lstm网络进行时间维度上特征建模，最终经lstm输出后的特征发送到softmax分类器实现行为分类。在公共数据集上的实验结果表明，本发明所提的网络算法模型是有效的。

技术特征：

1.一种电力基建作业场景人工智能图像识别系统，其特征在于，包括：数据预处理与空间特征提取模块、改进的双向特征金字塔模块、双向lstm模块、分类模块，其中，所述数据预处理与空间特征提取模块用于视频数据的预处理，以减少视频片段中与动作行为无关的冗余信息；所述改进的双向特征金字塔模块用于特征交互和加权融合；所述双向lstm模块用于实现时间维度上的特征提取；所述分类模块用于完成人体行为的分类识别。

2.根据权利要求1所述的一种电力基建作业场景人工智能图像识别系统，其特征在于：所述数据预处理与空间特征提取模块包括以下步骤：先把每段视频分解为连续的视频帧，提取关键帧，然后使用efficientnet作为主干网络提取视频帧中的空间特征。

3.根据权利要求2所述的一种电力基建作业场景人工智能图像识别系统，其特征在于：所述改进的双向特征金字塔模块包括以下步骤：实现efficientnet的后5层(p3-p7)特征的加强与丰富。

4.根据权利要求3所述的一种电力基建作业场景人工智能图像识别系统，其特征在于：所述改进的双向特征金字塔模块还包括以下步骤：将双向特征金字塔的输出输送到坐标注意力模型进行特征的加权分配，然后每层加权后的特征通过采样操作实现分辨率的统一，最终将5层输出特征进行融合，融合后的特征输入到双向lstm模块用于时间序列特征的提取。

5.根据权利要求4所述的一种电力基建作业场景人工智能图像识别系统，其特征在于：所述分类模块为softmax分类器。

6.一种电力基建作业场景人工智能图像识别方法，其特征在于：包括以下步骤：

7.根据权利要求6所述的一种电力基建作业场景人工智能图像识别方法，其特征在于：步骤1包括：提取到的视频关键帧输入到网络模型，尺寸被重新调整为512×512×3，即efficientnet的输入为512×512×3，输出为p3-p7层的特征，其中p3(64×64×40),p4(32×32×80),p5(16×16×112),p6(8×8×192),p7(4×4×320)，其中，括号内前两位数字表示特征图像的长度和宽度，最后一位表示图像的通道数。

8.根据权利要求7所述的一种电力基建作业场景人工智能图像识别方法，其特征在于：步骤3包括：得到的5层(p3,p4,p5,p6,p7)特征被发送到改进的bifpn以丰富特征，输出的5层特征图尺度分别为：p3(64×64×64),p4(32×32×64),p5(16×16×64),p6(8×8×64),p7(4×4×64)。

9.根据权利要求8所述的一种电力基建作业场景人工智能图像识别方法，其特征在于：步骤4包括：将得到的每层特征图分别被送入坐标注意力模块，输出的特征图尺度不变，然后经过采样，每层特征图大小均为16×16×64，在p5层进行多级特征的融合，通过使用torch.cat()函数拼接特征图，拼接后的特征图大小为16×80×64；将拼接后的特征图通过全接连层实现空间特征的降维操作，最终空间特征维度为512；然后将提取的16帧关键帧图像的空间特征发送到lstm模块，实现时间维度上的特征提取。

10.根据权利要求9所述的一种电力基建作业场景人工智能图像识别方法，其特征在于：步骤5包括：将得到的特征图输送到网络全连接层进行降维，得到256维的时空特征并输入到softmax分类器，完成对视频中人体行为的分类识别任务。

技术总结
本发明公开了一种电力基建作业场景人工智能图像识别技术及其应用，包括：数据预处理与空间特征提取模块、改进的双向特征金字塔模块、双向LSTM模块、分类模块，其中，所述数据预处理与空间特征提取模块用于视频数据的预处理，以减少视频片段中与动作行为无关的冗余信息；所述改进的双向特征金字塔模块用于特征交互和加权融合；所述双向LSTM模块用于实现时间维度上的特征提取；所述分类模块用于完成人体行为的分类识别。

技术研发人员：张桂林,王岩冰,张志晓,卢峰超,靳元园
受保护的技术使用者：河北电力工程监理有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张桂林王岩冰张志晓卢峰超靳元园
技术所有人：国网河北省电力有限公司建设公司
我是此专利的发明人

上一篇：一种装配式预制雨水收集井的制作方法
上一篇：一种装饰相框结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。