视频动作分析方法、装置、电子设备及存储介质与流程

文档序号：37371440发布日期：2024-03-22 10:24阅读：6来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机视觉，尤其涉及一种视频动作分析方法、装置、电子设备及存储介质。

背景技术：

1、当前多视角动作分析方案存在的两种类型：一种是需要数据源来自采集信号同步的多个视角相机，并在数据时间一致性较好的基础上设计算法的方案；另一种则是不要求采集信号同步，而是以类似多模态输入数据的方式进行建模混合。

2、所以，现有多视角动作分析方案要么对数据采集有高要求，例如要求数据在时间上严格对应、只支持同型号设备数据等，限制了适用范围；要么处理方式简单，未能充分处理模态间的信息交互，且无法自适应不同视角数量或兼容其他动作分析任务。

技术实现思路

1、本申请提供一种视频动作分析方法、装置、电子设备及存储介质，用以解决现有多视角动作分析方案存在的数据采集限制以及信息处理方式简单导致结果不够准确的问题。

2、第一方面，本申请提供一种视频动作分析方法，所述方法包括：

3、获取多个视角的视频数据；

4、对每个视角的视频数据进行目标对象的特征提取，获得每个视角对应的第一时空特征以表示视频数据中包含的时间信息和空间信息；

5、将每个视角对应的第一时空特征进行特征混合，生成注意力图序列以表示捕捉到的不同视角之间的互补信息和时空相关性；

6、将所述注意力图序列分别应用于每个视角对应的第一时空特征，获得每个视角对应的第二时空特征，以用于预测所述目标对象在每个视角未来至少一帧的位置；以及将每个视角对应的第二时空特征进行特征整合得到综合时空特征，以用于预测所述目标对象的动作类别。

7、在本申请的一实施例中，获取多个视角的视频数据的步骤包括：

8、获取来自多个不同型号、不同参数配置以及位于不同视角的摄像装置录制的针对同一目标对象场景的视频数据；

9、其中，所述多个视角的视频数据为同步或非同步的视频数据。

10、在本申请的一实施例中，所述方法应用于一动作分析模型，其包括特征提取模块、多视角关联器、单视角特征增强器、位置预测模块、多视角特征集成器以及分类器，所述对每个视角的视频数据进行目标对象的特征提取，获得每个视角对应的第一时空特征以表示视频数据中包含的时间信息和空间信息的步骤包括：

11、将每个视角的视频数据输入所述特征提取模块进行所述目标对象的特征提取，以得到每个视角对应的第一时空特征，其中所述特征提取模块包括用于处理时间信息的二维卷积和用于处理空间信息的一维卷积，或者包括能够同时处理时间和空间信息的三维卷积。

12、在本申请的一实施例中，所述多视角关联器包括混合操作单元、卷积单元以及注意力图生成单元，所述将每个视角对应的时空特征进行特征混合，生成注意力图序列以表示捕捉到的不同视角之间的互补信息和时空相关性的步骤包括：

13、将每个视角对应的第一时空特征输入所述混合操作单元；

14、在所述混合操作单元内对每个视角的第一时空特征进行维度对齐，以确保每个维度的大小相同；

15、将经过维度对齐的所有第一时空特征进行特征混合计算，得到混合后的第一时空特征序列；

16、使用所述卷积单元对所述混合后的第一时空特征序列进行卷积操作，并通过所述注意力图生成单元生成所述注意力图序列。

17、在本申请的一实施例中，所述将所述注意力图序列分别应用于每个视角对应的第一时空特征，获得每个视角对应的第二时空特征，以用于预测所述目标对象在每个视角未来至少一帧的位置的步骤包括：

18、将所述注意力图序列和每个视角对应的第一时空特征输入所述单视角特征增强器进行特征的加权计算，以得到每个视角对应的对其第一时空特征进行特征增强后的第二时空特征；

19、将每个视角的第二时空特征分别输入其对应的所述位置预测模块，以预测所述目标对象在每个视角未来至少一帧的位置。

20、在本申请的一实施例中，所述多视角特征集成器包括卷积单元和池化单元，所述将每个视角对应的视觉特征进行整合，以预测所述目标对象的动作类别的步骤包括：

21、将每个视角对应的所述第二时空特征输入所述卷积单元，以整合每个视角的第二时空特征，并生成整合后的第二时空特征；

22、将所述整合后的第二时空特征输入所述池化单元进行池化处理，以生成所述综合时空特征；

23、将所述综合时空特征输入所述分类器，以预测所述目标对象的动作类别。

24、在本申请的一实施例中，所述方法还包括：

25、采用均方误差损失函数对所述位置预测模块进行训练，以在训练过程中根据实际预测结果与真实标签之间的均方误差来调整权重；

26、采用交叉熵损失函数对所述分类器进行训练，以在训练过程中衡量所述动作分析模型对每一个类别的分类概率分布与真实标签之间的差异。

27、第二方面，本申请还提供一种视频动作分析装置，所述装置包括：

28、数据获取模块，用于获取多个视角的视频数据；

29、特征提取模块，用于对每个视角的视频数据进行目标对象的特征提取，获得每个视角对应的第一时空特征以表示视频数据中包含的时间信息和空间信息；

30、特征混合模块，用于将每个视角对应的第一时空特征进行特征混合，生成注意力图序列以表示捕捉到的不同视角之间的互补信息和时空相关性；

31、预测模块，用于将所述注意力图序列分别应用于每个视角对应的第一时空特征，获得每个视角对应的第二时空特征，以用于预测所述目标对象在每个视角未来至少一帧的位置；以及将每个视角对应的第二时空特征进行特征整合得到综合时空特征，以用于预测所述目标对象的动作类别。

32、第三方面，本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的视频动作分析方法的步骤。

33、第四方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的视频动作分析方法的步骤。

34、本申请提供的一种视频动作分析方法、装置、电子设备及存储介质，该方法首先通过获取多个视角的视频数据，并对每个视角进行特征提取，可以充分利用多角度的信息来辅助动作分析，以克服部分单一视角数据采集的局限性。然后，通过特征混合和注意力图序列的生成能够捕捉到不同视角之间的互补信息和时空相关性，从而增强了对动作的建模能力，使得动作分析更加全面和准确。最后，通过应用注意力图序列于每个视角的第一时空特征，得到每个视角对应的第二时空特征，从而实现对目标对象在每个视角未来至少一帧的位置进行预测，可以有效地预测目标对象在不同视角下未来的位置变化，为多视角动作分析提供了更准确和全面的信息。而且，在获得每个视角对应的第二时空特征后，进行特征整合以用于预测目标对象的动作类别，其综合考虑了各个视角的贡献，有效地提高了动作分析的准确性和鲁棒性。

技术特征：

1.一种视频动作分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频动作分析方法，其特征在于，所述获取多个视角的视频数据的步骤包括：

3.根据权利要求1所述的视频动作分析方法，其特征在于，所述方法应用于一动作分析模型，其包括特征提取模块、多视角关联器、单视角特征增强器、位置预测模块、多视角特征集成器以及分类器，所述对每个视角的视频数据进行目标对象的特征提取，获得每个视角对应的第一时空特征以表示视频数据中包含的时间信息和空间信息的步骤包括：

4.根据权利要求3所述的视频动作分析方法，其特征在于，所述多视角关联器包括混合操作单元、卷积单元以及注意力图生成单元，所述将每个视角对应的时空特征进行特征混合，生成注意力图序列以表示捕捉到的不同视角之间的互补信息和时空相关性的步骤包括：

5.根据权利要求3所述的视频动作分析方法，其特征在于，所述将所述注意力图序列分别应用于每个视角对应的第一时空特征，获得每个视角对应的第二时空特征，以用于预测所述目标对象在每个视角未来至少一帧的位置的步骤包括：

6.根据权利要求3所述的视频动作分析方法，其特征在于，所述多视角特征集成器包括卷积单元和池化单元，所述将每个视角对应的视觉特征进行整合，以预测所述目标对象的动作类别的步骤包括：

7.根据权利要求5所述的视频动作分析方法，其特征在于，所述方法还包括：

8.一种视频动作分析装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的视频动作分析方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的视频动作分析方法的步骤。

技术总结
本申请提供一种视频动作分析方法、装置、电子设备及存储介质，所述方法包括：获取多个视角的视频数据；对每个视角的视频数据进行目标对象的特征提取，获得每个视角对应的第一时空特征以表示视频数据中包含的时间信息和空间信息；将每个视角对应的第一时空特征进行特征混合，生成注意力图序列以表示捕捉到的不同视角之间的互补信息和时空相关性；将注意力图序列分别应用于每个视角对应的第一时空特征，获得每个视角对应的第二时空特征，以用于预测目标对象在每个视角未来至少一帧的位置；以及将每个视角对应的第二时空特征进行特征整合得到综合时空特征，以用于预测目标对象的动作类别。本申请可提供有效地提高了动作分析的准确性和鲁棒性。

技术研发人员：陈茂东,丁东成,谌鹏,程大龙,魏思,常欢,殷兵
受保护的技术使用者：科大讯飞华南人工智能研究院（广州）有限公司
技术研发日：
技术公布日：2024/3/21

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈茂东,丁东成,谌鹏,程大龙,魏思,常欢,殷兵
技术所有人：科大讯飞华南人工智能研究院（广州）有限公司
我是此专利的发明人

上一篇：一种四型腔铝箔容器跳步送料冲压模具的制作方法
上一篇：一种用于风湿免疫的中药熏蒸装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。