注意力机制下移动相机中判断物体运动状态方法及系统与流程

文档序号：37021155发布日期：2024-02-09 13:14阅读：13来源：国知局

本发明涉及计算机，具体而言，涉及一种注意力机制下移动相机中判断物体运动状态方法及系统。

背景技术：

1、目前，对于相机安装在一些移动平台上，比如车载人工智能（artificialintelligence，ai），机器智能设备，手持移动设备等，由于平台移动造成相机本身也存在运动，简单的基于静止相机的移动目标检测方法就不再适用。诞生的很多技术方法都是基于传统图像算法的判断检测方法，并且这些基于传统图像算法的方法只能检测出运动目标，并不能直接判断出检测目标的运动状态。

2、基于几何约束的方法通过某一约束关系构建出一个背景模型区分内外点来检测运动目标；基于运动补偿的方法通过对相机产生运动失量进行补偿，使其等效为静止背景的情况后来进行运动目标的检测；基于占用网格的方法利用占用网格的特性进行运动目标检测。在复杂的双向运动场景下，没有办法直接用到单一的目前在智能视觉领域中学习能力最强，泛化能力也最强的深度模型来直接实现目标的检测并进行运动状态的判断。并且这些基于传统图像算法的方案，每一个步骤所用的传统图像算法都会消耗大量的内存和硬件资源；同时因为传统算法的局限性，相比于经过大量数据训练得到的深度学习模型在检测准确度也相差比较大，同时在复杂场景下要么所需传统算法的步骤很复杂和麻烦，要么效果很差，最重要的是只能检测出运动的目标，无法对目标运动状态做精准的判断。现有的有将基于运动补偿的传统光流算法结合进卷积神经网络中的深度学习技术方法，但依然整体繁琐。

技术实现思路

1、本发明的目的在于提供了一种注意力机制下移动相机中判断物体运动状态方法及系统，用以解决现有技术中存在的上述问题。

2、第一方面，本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态方法，包括：

3、获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标；

4、基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标；

5、基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像；

6、将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征；

7、将所述目标时空特征输入分类器进行分类，判断待测目标是否运动。

8、可选的，所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征，包括：

9、基于跟踪目标图像，得到分块编号图像；多个跟踪目标图像对应获得多个分块编号图像；一个分块编号图像包括9个分块，每个分块对应一个编号；

10、基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征；一个编号对应一个目标时间特征；

11、根据所述目标时间特征，更新针对分离的时空自注意力模块的参数；

12、基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征；一个分块编号图像对应一个目标空间特征；

13、基于所述多个目标时间特征和多个目标空间特征，通过权重矩阵进行编码，得到时空特征。

14、可选的，所述基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征，包括：

15、将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块，得到目标时间特征；多个编号对应获得多个目标时间特征。

16、可选的，基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征，包括：

17、将分块编号图像中的9个分块输入更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到目标空间特征；

18、多个分块编号图像对应获得多个目标空间特征。

19、可选的，所述基于跟踪目标图像，得到分块编号图像，包括：

20、将所述跟踪目标图像竖直进行三等分，水平进行三等分，平均分为9个分块，得到分块图像；多个跟踪目标图像对应获得多个分块图像；

21、将分块图像中每个分块进行编号，得到分块编号图像；所述分块编号图像包含9个编号，多个分块图像中的相同位置的分块的编号相同。

22、可选的，所述基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像，包括：

23、将待测图像中目标跟踪框内的图像进行提取，得到第一图像；

24、将第一图像进行像素扩张，固定像素大小，得到跟踪目标图像。

25、可选的，训练过程中，采用训练集训练针对分离的时空自注意力模块和分类器，得到训练好的时空自注意力模块和训练好的分类器。

26、可选的，其特征在于，所述训练集包括多张训练图像和对应的多个标注数据；

27、所述训练图像表示对目标识别跟踪后，只包含目标所在位置的图像；

28、所述标注数据表示运动状态；所述运动状态为运动或静止。

29、可选的，其特征在于，所述多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。

30、第二方面，本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态系统，包括：

31、车载人工智能设备上部署deepstream框架；

32、所述车载人工智能设备用于执行下述方法：

33、获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标；

34、基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标；

35、基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像；

36、将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征；

37、将所述目标时空特征输入分类器进行分类，判断待测目标是否运动。

38、相较于现有技术，本发明实施例达到了以下有益效果：

39、本发明实施例还提供了一种注意力机制下移动相机中判断物体运动状态方法及系统，所述方法包括：获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标；基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标；基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像；将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征；将所述目标时空特征输入分类器进行分类，判断待测目标是否运动。

40、采用本发明的方法，可以在移动相机情形下，结合深度学习自注意力机制（self-attention）在复杂场景下判断物体的运动与否。在车载边缘端设备的移动场景与低性能arm边缘计算平台下，基于deepstream框架的检测到对应目标后，将目标检测框像素分辨率扩大至m*n像素，然后使用针对分离的时空自注意力模块（divided space-timeattention）学习在一定连续时间t上检测扩大得到的m*n图像的时空连续性特征，最后接入一个mlp-head对学到的时空特征分类得到其运动状态。本发明尝试在完全不涉及传统图像算法的情况下，对目标识别跟踪后的对象进行提取后，做像素扩张处理以囊括其周围空间信息，将目标跟踪后的目标对象完全结合进针对分离的时空自注意力模块（dividedspace-time attention）进行深度学习训练。自注意力机制（self-attention）改造后能学习连续时空特征的针对分离的时空自注意力模块（divided space-time attention）去学习被监测到的对象在连续时间内的时空特征再分类进而判断它是否在运动状态。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶洪麟,李骥东,鲜斌
技术所有人：成都合能创越软件有限公司
我是此专利的发明人

上一篇：基于RFID技术实现精准定位的工器具货架的制作方法
上一篇：一种浓盐水结晶分盐集水装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。