本发明涉及视频处理技术,具体涉及一种基于记忆检索的视频异常检测算法。
背景技术:
1、视频异常检测算法旨在识别视频流中不正常的外观和行为,异常可以是任何偏离正常或预期模式的事物,例如生产过程的不合规操作,产品表面的划痕等。视频异常检测任务广泛存在于交通监测、工业生产质量控制、医疗影像分析、人群监控等领域,以工业生产为例,其要求实时检测生产过程中的机器故障,产品质量问题和安全隐患等,从而提高生产效率和质量。工业场景具有异常样本稀缺、异常类型丰富、实时性要求高等特点。近年来,基于深度学习的无监督异常检测方法在工业场景中得到广泛应用,目前主流的无监督异常检测方法可以分为如下2类:
2、基于重建:基于重建的方法主要利用自编码器等神经网络来重建输入帧,并根据重建误差来判断异常。这类方法假设仅在正常数据上学习的模型不能准确地重构异常。
3、基于预测:基于预测的方法采用连续多帧图像预测未来帧,并根据预测误差来判断异常。这类方法可以有效地捕捉视频数据的时序特征,从而识别更为复杂的异常事件。
4、现有的视频异常检测算法在进行使用时,编码器具有较强的生成能力,对于异常区域的重建误差比较小,难以通过重建误差区分正常和异常区域,同时vit作为视频模型常用组件,但巨大的计算成本导致其难以在密集预测任务中达到实时性。
技术实现思路
1、本发明的目的是提供一种基于记忆检索的视频异常检测算法,以解决现有技术中的上述不足之处。
2、为了实现上述目的,本发明提供如下技术方案:一种基于记忆检索的视频异常检测算法,包括编码器、记忆模块以及解码器,所述异常检测算法的具体工作流程为:
3、s1,算法以视频中连续4帧t1~t4为输入;
4、s2,经过编码器提取特征;
5、s3,检索记忆模块中的相关项;
6、s4,整合后送入解码器对第5帧t5进行预测。
7、进一步地,所述编码器采用token金字塔减少输入到记忆模块的token数量,所述编码器包括多个倒残差模块、多个平均池化模块和拼接模块,多个所述倒残差模块均用于减少特征图的损失,所述拼接模块用于对不同尺度特征图的融合。
8、进一步地,所述记忆模块包括一个n*c大小的矩阵,其中n表示存储的特征数量,c表示特征维度,所述记忆模块的工作步骤包括稀疏性寻址和读取记忆。
9、进一步地,所述记忆模块具体工作步骤为:
10、a1,编码器输出的特征向量z与记忆矩阵中存储的每一项mi计算余弦相似度,具体公式如下:
11、
12、a2,通过softmax对d(z,mi)归一化,得到wi,软寻址向量w=(w1,w2,...,,wn),具体公式如下:
13、
14、a3,通过硬收缩策略增强w的稀疏性,设置阈值λ,其中只有当分量高于λ时才有效,具体公式如下:
15、
16、其中ε是一个很小的正数项,以防分母出现0的情况;
17、a4,由寻址向量读取记忆矩阵,得到由记忆矩阵中的相似项组合而成的特征向量,具体公式如下:
18、
19、进一步地,所述解码器包括全局语义注入模块、上采样融合模块、自监督可预测卷积注意力模块以及预测头,所述全局语义注入模块用于将记忆模块输出的全局语义特征分别上采样至输入尺寸的1/8,1/16,1/32,以及和token金字塔的1/8,1/16,1/32下采样分支进行融合。
20、进一步地,所述上采样融合模块包括多个上采样操作和拼接模块,所述上采样操作用于将特征图尺寸上采样至统一大小,然后由拼接模块沿通道方向进行拼接。
21、进一步地,所述自监督可预测卷积注意力模块包括掩码卷积模块和通道注意力模块两部分,所述掩码卷积模块用于整合局部特征,所述通道注意力模块用于对特征图分通道进行加权。
22、进一步地,所述掩码卷积包含4个子卷积k1~k4,膨胀率为d,中心掩码的大小为1,由k1~k4分别进行卷积运算后求和作为输出特征图掩码位置的值,计算所述掩码卷积模块输入特征图和输出特征图的均方差损失,具体公式如下:
23、loss(g,x)=(g(x)-x)2,
24、其中x,g(x)分别表示掩码卷积的输入和输出特征图,loss(g,x)为掩码卷积的训练过程损失函数。
25、进一步地,所述预测头用于将特征图进行多次上采样和卷积操作,最后输出预测的下一帧。
26、与现有技术相比,本发明提供的一种基于记忆检索的视频异常检测算法,通过将token金字塔用于异常检测算法,降低了记忆模块的运算量,并融合多尺度语义信息,通过设计了一种记忆模块和注意力模块的混合模式,使模型具有较强的正常patch重建能力和异常patch识别能力,通过设计了一种基于记忆检索的异常检测算法结构,具有精度高,轻量化,无监督等特点。
1.一种基于记忆检索的视频异常检测算法,包括编码器、记忆模块以及解码器,其特征在于,所述异常检测算法的具体工作流程为:
2.根据权利要求1所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述编码器采用token金字塔减少输入到记忆模块的token数量,所述编码器包括多个倒残差模块、多个平均池化模块和拼接模块,多个所述倒残差模块均用于减少特征图损失,所述拼接模块用于对不同尺度特征图的融合。
3.根据权利要求2所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述记忆模块包括一个n*c大小的矩阵,其中n表示存储的特征数量,c表示特征维度,所述记忆模块的工作步骤包括稀疏性寻址和读取记忆。
4.根据权利要求3所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述记忆模块具体工作步骤为:
5.根据权利要求4所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述解码器包括全局语义注入模块、上采样融合模块、自监督可预测卷积注意力模块以及预测头,所述全局语义注入模块用于将记忆模块输出的全局语义特征分别上采样至输入尺寸的1/8,1/16,1/32,以及和token金字塔的1/8,1/16,1/32下采样分支进行融合模块。
6.根据权利要求5所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述上采样融合模块包括多个上采样操作和拼接模块,所述上采样操作用于将特征图尺寸上采样至统一大小,然后由拼接模块沿通道方向进行拼接。
7.根据权利要求6述的一种基于记忆检索的视频异常检测算法,其特征在于,所述自监督可预测卷积注意力模块包括掩码卷积模块和通道注意力模块两部分,所述掩码卷积模块用于整合局部特征,所述通道注意力模块用于对特征图分通道进行加权。
8.根据权利要求7述的一种基于记忆检索的视频异常检测算法,其特征在于,所述掩码卷积包含4个子卷积k1~k4,膨胀率为d,中心掩码的大小为1,由k1~k4分别进行卷积运算后求和作为输出特征图掩码位置的值,计算所述掩码卷积模块输入特征图和输出特征图的均方差损失,具体公式如下:
9.根据权利要求8所述的一种基于记忆检索的视频异常检测算法,其特征在于,所述预测头用于将特征图进行多次上采样和卷积操作,最后输出预测的下一帧。