本发明涉及计算机视觉的视频理解,更具体的是,本发明涉及一种高效且准确识别视频动作信息的方法。
背景技术:
1、动作识别是计算机视觉领域中视频理解的重要课题之一,识别视频的动作信息为复杂的大模型提供技术的基础,动作识别推动视频理解中各种课题的发展,例如姿势识别、状态评估等,是计算机科学研究的基础问题之一。
2、视频数据的爆炸增长带来对高准确度和低成本计算的视频理解挑战,由于关于视频数据的识别,不仅要关注静态空间信息的分布,而且要关注动态时间信息的变化,视频数据在时间上内容的变化也影响着空间物体的分布,因此两个维度的信息还需要综合的考虑。常规的图像视觉模型在成本上是相对廉价的,但其无法捕获时间维度的关系,实现视频动作识别的模型在计算成本上相对较高。
3、在视频理解的动作识别模型中,计算过程不可避免会产生冗余或无用的信息,这些信息对最终的识别结果造成负面的影响,注意力机制对此问题有着妥善的解决方案,通过优化模型的计算过程,突出关键的部分并减少不必要的计算,其相关方法得到广泛的认可。在动作识别中,注意力机制需要根据模型的工作方式进一步调整,以适应视频数据的特征。
4、实现视频动作识别的模型主要分为两类:基于卷积神经网络的视频动作识别和基于transformer的视频动作识别。
5、在基于卷积神经网络的视频动作识别模型中,通过卷积层的计算来获得时间和空间的信息,从而实现动作的识别,不论是卷积的堆叠(二维卷积神经网络)还是维度的扩张(三维卷积神经网络),卷积层采样时空信息的技术在视频理解中都得到广泛的使用,在这种技术中,模型通过计算局部的信息逐步获得全局的信息,并且模型分析所有的空间和时间信息,虽然计算的成本有一定的优势,但对于复杂的视频数据,背景的信息存在重复的采样,动作的变化也没有得到重点关注,这些问题使模型在视频动作识别过程中存在很多数据的干扰,产生额外的计算开销的同时也难以达到高准确度。
6、在基于transformer的视频动作识别模型中,通过多头注意力模块的计算按照时间的顺序获得空间的信息,它序列化的输入与视频的时间特征契合,运行过程中关注全局的空间信息使两个维度的信息有效结合,通过注意力模块的处理突出运动过程的关键信息,这类模型对于数据的完整性要求较高,实际生活生产的数据质量大多存在干扰,信息的缺省导致模型在准确度的表现不及预期,同时,多头的注意力模块的计算方式使成本也呈指数级的提高,不适用于日常的使用,庞大的模型参数量使其占用和计算需要的成本都很高。
技术实现思路
1、本发明的目的是设计开发了一种高效且准确识别视频动作信息的方法,通过通道迁移结合时空注意力模块,优化全局空间信息的分布,降低运算能耗,实现高效且准确的动作识别。
2、本发明提供的技术方案为:
3、一种高效且准确识别视频动作信息的方法,包括如下步骤:
4、步骤一、采集视频数据并对所述视频数据进行预处理,获得输入数据;
5、步骤二、建立二维卷积神经网络:
6、所述二维卷积神经网络包括依次连接的六个阶段,第一阶段包括依次连接的卷积批池化层、最大化池化层和通道迁移层,第二阶段到第五阶段均为瓶颈层构成,且每个阶段的瓶颈层的具体数量为[3,4,6,3],每个阶段的第一层瓶颈层为优化瓶颈层,其余瓶颈层均为原始瓶颈层,第六阶段包括依次连接的全局平均池化层和全连接层;
7、其中,所述优化瓶颈层包括依次连接的1×1的卷积池化层、3×3的卷积池化层、1×1的卷积池化层和时空注意力模块,所述时空注意力模块包括依次连接的空间信息处理层、通道全连接层、批归一化层、激活层和对齐操作层;
8、步骤三、将输入数据输入所述二维卷积神经网络中,获得概率最大值对应的动作标签即为识别出的视频动作信息。
9、优选的是,所述预处理包括:
10、对所述视频数据进行分段处理,每段为8帧,将每段视频数据按照时间顺序进行排序后在每段视频中随机抽取一帧组成输入数据。
11、优选的是,所述视频数据分段后,若有某一段视频不足8帧,则将不足部分填充空白帧进行补齐。
12、优选的是,所述通道迁移层满足:
13、将不同时刻的前后帧进行上下移动,具体迁移比例为0.125。
14、优选的是,所述原始瓶颈层包括依次连接的1×1卷积池化层、3×3卷积池化层和1×1卷积池化层。
15、优选的是,所述空间信息处理层满足:
16、
17、
18、式中,μn*c为空间信息矩阵中所有参数的均值,σn*c为空间信息矩阵中所有参数的方差,χn*c*h*w为输入数据的每一帧视频数据,n为输入数据中帧的数量,c为每一帧视频数据的通道数,h为每一帧视频数据的高度,w为每一帧视频数据的宽度。
19、优选的是,所述时空注意力模块的通道全连接层满足:
20、tn*c=[μn*c,σn*c];
21、
22、式中,tn*c为聚合通道矩阵,ωc为通道维度的权重分配,γn*c为第一中间参数,βn*c为第二中间参数,zn*c为第一通道矩阵。
23、优选的是,所述时空注意力模块的批归一化层满足:
24、
25、
26、式中,μc为第一通道矩阵中所有参数的均值,σc为第一通道矩阵所有参数的方差。
27、优选的是,所述时空注意力模块的激活层满足:
28、
29、式中,为第二通道矩阵,γc为第三中间参数,βc为第四中间参数。
30、优选的是,所述时空注意力模块的对齐操作层满足:
31、
32、
33、式中,gn*c′为注意力矩阵,xn*c′为时空注意力模块的输入矩阵,为优化特征矩阵。
34、本发明所述的有益效果:
35、本发明设计开发的一种高效且准确识别视频动作信息的方法,基于二维卷积神经网络的模型,利用其在计算成本上的优势,优化模型的计算过程,以不增加计算成本的方式实现高准确度的视频动作识别,主要使用地址指针迁移的方式使输入数据包含视频的时间和空间信息,设计相关的时空注意力模块,优化全局空间信息的分布,并关注动作变化的关键部分,实现识别准确度的提高,减少识别过程的计算成本和计算消耗,并降低整体的运行能耗,实现高效且准确的动作识别。
1.一种高效且准确识别视频动作信息的方法,其特征在于,包括如下步骤:
2.如权利要求1所述的高效且准确识别视频动作信息的方法,其特征在于,所述预处理包括:
3.如权利要求2所述的高效且准确识别视频动作信息的方法,其特征在于,所述视频数据分段后,若有某一段视频不足8帧,则将不足部分填充空白帧进行补齐。
4.如权利要求3所述的高效且准确识别视频动作信息的方法,其特征在于,所述通道迁移层满足:
5.如权利要求4所述的高效且准确识别视频动作信息的方法,其特征在于,所述原始瓶颈层包括依次连接的1×1卷积池化层、3×3卷积池化层和1×1卷积池化层。
6.如权利要求5所述的高效且准确识别视频动作信息的方法,其特征在于,所述空间信息处理层满足:
7.如权利要求6所述的高效且准确识别视频动作信息的方法,其特征在于,所述时空注意力模块的通道全连接层满足:
8.如权利要求7所述的高效且准确识别视频动作信息的方法,其特征在于,所述时空注意力模块的批归一化层满足:
9.如权利要求8所述的高效且准确识别视频动作信息的方法,其特征在于,所述时空注意力模块的激活层满足:
10.如权利要求9所述的高效且准确识别视频动作信息的方法,其特征在于,所述时空注意力模块的对齐操作层满足: