一种基于混合模型的轻量级视频行为识别方法

文档序号：33195667发布日期：2023-02-04 11:41阅读：来源：国知局

技术特征：
1.一种视频行为识别方法，其特征在于，所述视频行为识别方法包括：步骤一：获取待识别的行为视频；步骤二：对所述待识别的行为视频进行预处理，得到行为图像序列；步骤三：将所述行为图像序列输入基于transformer与3d-cnn混合的轻量级视频行为识别网络；步骤四：所述基于transformer与3d-cnn混合的轻量级视频行为识别网络对所述行为图像序列进行计算并输出行为识别结果。2.根据权利要求1所述的视频行为识别方法，其特征在于，所述基于transformer与3d-cnn混合的轻量级视频行为识别网络包括依次连接的：输入层、第一卷积层、连续堆叠1次以上的3d-shufflevit网络、第二卷积层、池化层、线性分类层和输出层；所述3d-shufflevit网络包括：3d-shufflenetv2基础模块、3d-shufflenetv2下采样模块和shufflevit模块；所述3d-shufflevit网络的构建过程包括：步骤1：构建所述3d-shufflenetv2基础模块和3d-shufflenetv2下采样模块；将轻量级shufflenetv2网络中的2d卷积转化为3d卷积，2d池化操作转换为3d池化操作；步骤2：构建所述shufflevit模块；对特征层进行unflod展开操作，计算展开后特征层patch之间的自注意力，最后将展开的特征层折叠；步骤3：由所述3d-shufflenetv2基础模块、所述3d-shufflenetv2下采样模块和所述shufflevit模块构建所述3d-shufflevit网络。3.根据权利要求2所述的视频行为识别方法，其特征在于，所述步骤2包括：步骤2.1：首先将特征图通过一个卷积核大小为3x3x3的卷积层进行局部特征建模，然后再通过一个卷积核大小为1x1x1的卷积层调整通道数；步骤2.2：unflod操作；对特征图划分patch，设置的patch大小为2x2x2，即每个patch内有8个像素；步骤2.3：自注意力计算；每个token只和在每个patch中位置相同的token进行自注意力计算；步骤2.4：flod操作；自注意力计算完后，对特征进行折叠操作，将[n,c,t,h,w]折叠为[n,c,t*h*w]，其中n表示batch大小，c表示通道数，t表示时间维度，h和w表示高和宽，将经过自注意力机制计算后的特征折叠为原特征图结构。4.根据权利要求2所述的视频行为识别方法，其特征在于，所述3d-shufflevit网络采用hardswish激活函数。5.根据权利要求2所述的视频行为识别方法，其特征在于，所述第一卷积层的卷积核大小为3x3x3，步长为1。6.根据权利要求2所述的视频行为识别方法，其特征在于，所述第二卷积层的卷积核大小为1x1x1。7.根据权利要求1所述的视频行为识别方法，其特征在于，所述步骤二中对所述待识别
的行为视频进行预处理的过程包括：归一化、随机裁剪、分辨率调整。8.根据权利要求7所述的视频行为识别方法，其特征在于，所述分辨率调整为224x224。9.一种视频行为识别系统，其特征在于，所述视频行为识别系统包括：视频获取模块，用于采集待识别的行为视频；视频预处理模块，用于对采集的行为视频进行处理并输出行为图像序列；权利要求1-8任一项所述的基于transformer与3d-cnn混合的轻量级视频行为识别网络，用于对所述行为图像序列进行计算；输出显示模块，用于根据所述基于transformer与3d-cnn混合的轻量级视频行为识别网络的计算结果输出行为识别结果。10.根据权利要求9所述的视频行为识别系统，其特征在于，还包括报警装置，用于根据行为识别结果发出警报信号。

技术总结
本发明公开了一种基于混合模型的轻量级视频行为识别方法，属于计算机人工智能学科技术领域。本发明通过使用轻量级3D卷积模块与Transformer相结合的方式构建轻量级深度卷积网络并用于视频行为识别，使用3D卷积能够提取时空特征优点的同时，弥补了Transformer所缺乏的归纳偏置，使得网络能够加速收敛，使用Transformer对视频这种带有时间维度信息的任务进行长时间序列信息建模，二者相辅相成，通过在不同数据集下的对比，本发明的方法提高了模型的精度，降低了模型的训练难度，并保证了模型仍为轻量化网络的效果，提升了识别效率。提升了识别效率。提升了识别效率。

技术研发人员：王映辉祝安磊
受保护的技术使用者：江南大学
技术研发日：2022.11.08
技术公布日：2023/2/3

完整全部详细技术资料下载

当前第2页1 2