基于骨骼数据的视频动作分类方法、装置、设备及介质

文档序号：37802109发布日期：2024-04-30 17:12阅读：6来源：国知局

本发明涉及图像识别领域，特别涉及基于骨骼数据的视频动作分类方法、装置、设备及介质。

背景技术：

1、随着对图片进行检测、识别、分类等任务逐渐成熟。更多的任务开始对视频进行分析。其中对视频中主要人物的行为动作进行分析被称为动作识别。动作识别的研究对于多个领域都有所帮助，包括但不限于健康保健、安防监控和增强现实(ar)等领域。目前，动作识别经过长时间的研究和探索，已经有了非常丰富的解决方法和流程。当前该领域研究主要是在两个方向：第一个方向是探索更好的神经网络。第二个方向则是探索如何利用除rgb信息外的信息去解决动作识别问题，其中，从该研究领域提出开始，主流研究方向就是如何用更好的神经网络去提取视频内的信息。研究大致经历了四个阶段：1)最开始考虑到视频的序列化信息，有研究使用rnn模型去对视频信息进行处理。2)随着卷积神经网络的兴起，人们开始使用卷积神经网络去分析处理视频特征信息。3)在考虑到视频具有时间上的特性后，3d卷积被应用到该领域。4)随着transformer在图片领域的应用，有研究也将其引入动作识别领域并在当下成为主流方法。

2、在对神经网络有进一步研究的同时，也有研究将重心放在了视频更多维的信息上面。除开rgb色彩信息，视频中还包含人物移动所产生的光流信息。这个信息也能帮助神经网络更好的完成动作识别任务。但是相较于rgb信息，光流需要实时计算，其成本消耗较大，通过对视频的色彩信息进行分析从而完成人物动作的分类，但色彩信息本身受摄像头角度，视频光照等因素影响，容易产生分类失误的问题。

3、有鉴于此，提出本技术。

技术实现思路

1、本发明公开了一种基于骨骼数据的视频动作分类方法、装置、设备及介质，旨在解决现有技术中通过色彩信息进行分类会受光照影响而出现分类失误的问题。

2、本发明第一实施例提供了一种基于骨骼数据的视频动作分类方法，包括：

3、获取待分类的视频信息，并基于双流放大模块对所述待分类的视频信息进行采样分解，以生成rgb信息流和骨骼信息流；

4、调用时序感知网络对所述rgb信息流进行特征提取，以生成所述待分类的视频信息的色彩特征；

5、对所述骨骼信息流进行转化成为三维数据，并调用图卷积网络对进行时序交叉后的所述三维数据进行处理，以生成所述待分类的视频信息的骨骼特征；

6、对所述色彩特征和所述骨骼特征进行融合，并根据所述融合结果生成视频信息的动作分类结果。

7、优选地，所述获取待分类的视频信息，并基于双流放大模块对所述待分类的视频信息进行采样分解，以生成rgb信息流和骨骼信息流具体为：

8、通过所述双流放大模块对所述待分类的视频信息分解为多帧图片；

9、对每一帧图片进行人体姿势和关键点检测，生成每一帧图片的人物骨骼节点，结合所述每一帧图片的人物骨骼节点生成骨骼信息流，其中，所述人物骨骼节点包括头部、手肘、手腕、膝盖；

10、对每一帧图片进行信息增强操作，生成对每一帧图片的色彩信息，结合所述每一帧图片的色彩信息生成rgb信息流，其中，所述信息增强操作包括旋转、缩放、平移、局部裁剪和色彩变化。

11、优选地，所述时序感知网络的表达式为：

12、

13、其中，为单帧的原始色彩特征，为整个视频的色彩特征。

14、优选地，所述对所述骨骼信息流进行转化成为三维数据，并调用图卷积网络对进行时序交叉后的所述三维数据进行处理，以生成所述待分类的视频信息的骨骼特征，具体为：

15、对所述骨骼信息流进行转化成为三维数据，其中，x轴为节点特征，y轴为骨骼节点，z轴为采样的时间序列；

16、对所述三维数据进行时序交叉操作，其中，所述时序时序交叉操作包括将不同时间且相同节点的特征进行交换，以使得骨骼信息在在时间上传递；

17、调用图卷积网络对时序交叉操作后的三维数据进行处理，生成所述待分类的视频信息的骨骼特征。

18、优选地，所述对所述色彩特征和所述骨骼特征进行融合，并根据所述融合结果生成视频信息的动作分类结果，具体为：

19、分别对所述色彩特征和所述骨骼特征进行池化操作，生成色彩特征向量和骨骼特征向量；

20、通过融合卷积对所述色彩特征向量和所述骨骼特征向量进行处理，以生成融合特征向量；

21、调用激活函数对所述色彩特征向量、所述骨骼特征向量以及融合特征向量进行对比，生成视频信息的动作分类结果，其中，激活函数的表达式为：

22、

23、其中，表示拼接操作为整个视频的色彩特征，为整个视频的骨骼特征。

24、本发明第二实施例提供了一种基于骨骼数据的视频动作分类装置，包括：

25、分解单元，用于获取待分类的视频信息，并基于双流放大模块对所述待分类的视频信息进行采样分解，以生成rgb信息流和骨骼信息流；

26、色彩特征提取单元，用于调用时序感知网络对所述rgb信息流进行特征提取，以生成所述待分类的视频信息的色彩特征；

27、骨骼特征提取单元，用于对所述骨骼信息流进行转化成为三维数据，并调用图卷积网络对进行时序交叉后的所述三维数据进行处理，以生成所述待分类的视频信息的骨骼特征；

28、分类单元，用于对所述色彩特征和所述骨骼特征进行融合，并根据所述融合结果生成视频信息的动作分类结果。

29、优选地，所述分解单元具体用于：

30、通过所述双流放大模块对所述待分类的视频信息分解为多帧图片；

31、对每一帧图片进行人体姿势和关键点检测，生成每一帧图片的人物骨骼节点，结合所述每一帧图片的人物骨骼节点生成骨骼信息流，其中，所述人物骨骼节点包括头部、手肘、手腕、膝盖；

32、对每一帧图片进行信息增强操作，生成对每一帧图片的色彩信息，结合所述每一帧图片的色彩信息生成rgb信息流，其中，所述信息增强操作包括旋转、缩放、平移、局部裁剪和色彩变化。

33、优选地，所述分类单元具体用于：

34、分别对所述色彩特征和所述骨骼特征进行池化操作，生成色彩特征向量和骨骼特征向量；

35、通过融合卷积对所述色彩特征向量和所述骨骼特征向量进行处理，以生成融合特征向量；

36、调用激活函数对所述色彩特征向量、所述骨骼特征向量以及融合特征向量进行对比，生成视频信息的动作分类结果，其中，激活函数的表达式为：

37、

38、其中，表示拼接操作为整个视频的色彩特征，为整个视频的骨骼特征。

39、本发明第三实施例提供了一种基于骨骼数据的视频动作分类设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上任意一项所述的一种基于骨骼数据的视频动作分类方法。

40、本发明第四实施例提供了一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如上任意一项所述一种基于骨骼数据的视频动作分类方法。

41、基于本发明提供的一种基于骨骼数据的视频动作分类方法、装置、设备及介质，先获取待分类的视频信息，并基于双流放大模块对所述待分类的视频信息进行采样分解，以生成rgb信息流和骨骼信息流，接着，调用时序感知网络对所述rgb信息流进行特征提取，以生成所述待分类的视频信息的色彩特征；同时，对所述骨骼信息流进行转化成为三维数据，并调用图卷积网络对进行时序交叉后的所述三维数据进行处理，以生成所述待分类的视频信息的骨骼特征；最后，对所述色彩特征和所述骨骼特征进行融合，并根据所述融合结果生成视频信息的动作分类结果。解决了现有技术中通过色彩信息进行分类会受光照影响而出现分类失误的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈涵艺,苏松志
技术所有人：厦门大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。