基于时空增强关联记忆的视频异常检测方法

文档序号:35912728发布日期:2023-10-29 17:38阅读:42来源:国知局
基于时空增强关联记忆的视频异常检测方法

本发明涉及视频异常检测,具体涉及基于时空增强关联记忆的视频异常检测方法。


背景技术:

1、随着监控摄像机在公共场所的广泛应用,视频异常检测受到越来越多的关注。然而,视频异常检测是一个具有挑战性质的任务,因为异常的定义通常是模糊的,并且异常事件非常罕见以至于不可能收集所有异常事件。因此,视频异常检测通常被视为无监督的任务,即在训练期间只使用正常的数据来训练模型,在测试期间将不符合模型的帧视为异常帧。

2、现有技术中,无监督视频异常检测通常使用基于重构或者基于预测的方法。现有方案提出用连续的多帧图像预测下一帧,并加入光流约束来提取运动特征。还有方案使用基于双生成器的框架来学习正常场景之间的交互,并通过引入运动位置注意来捕获空间域和时间域中的全局依赖。但是,尽管深度神经网络(deep neural networks,dnns)在表示能力方面具有优势,但存在网络可以准确重建或预测异常的风险,导致异常检测的整体有效性降低。

3、为解决上述问题,最近的一些方案中提出利用记忆网络来保存正常事件的原型,以降低dnn的表示能力。现有方案中引入了内存增强自动编码器(memae),利用外观特征来查询记忆模组内存库,以获取最相关的特征原型,然后将特征聚合并使用解码器进行解码。还有方案提出在网络瓶颈处集成包含更新机制的存储模块,以记录不同正常事件的原型模式,从而增强模型对正常视频帧的预测能力并抑制对异常视频帧的预测能力。还有方案建议使用去噪任务和重建任务分别记录外观和光流正态模式,并通过对抗学习探索它们的相关性。

4、然而,上述的记忆网络都是基于正常事件的原型内容的记忆,没有探究这些原型记忆之间的丰富关系,导致视频异常检测的性能不好。同时,现有方案一般将外观特征和运动特征分开处理,而没有直接对正常事件的时空语义表示进行建模,也没有充分利用时空信息的内在联系,导致视频异常检测的有效性不好。因此,如何提高视频异常检测的性能是亟需解决的技术问题。


技术实现思路

1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于时空增强关联记忆的视频异常检测方法,能够通过记录和学习正常事件的原型及其原型关系来调整特征,并且能够利用运动特征来增强外观特征以实现时空语义增强,从而提高视频异常检测的性能。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、基于时空增强关联记忆的视频异常检测方法,包括:

4、s1:获取待检测的视频帧序列;

5、s2:将视频帧序列输入经过训练的异常检测模型中,输出对应的异常预测值;

6、s3:将异常检测模型输出的异常预测值作为待检测视频帧序列的异常检测结果;

7、步骤s2中,通过如下步骤训练异常检测模型:

8、s201:获取包括训练视频帧序列和异常真实值的训练数据,并生成训练视频帧序列的光流序列;

9、s202:将训练视频帧序列及其光流序列输入异常检测模型;

10、s203:通过外观编码器和运动编码器提取训练视频帧序列及其光流序列的外观特征和运动特征;

11、s204:通过时空增强模组利用运动特征来对外观特征进行融合增强,得到融合特征;

12、s205:通过关联记忆模组基于融合特征进行关联检索,得到正常事件原型间的关系;

13、s206:通过正常事件原型间的关系调整融合特征,生成最终特征;

14、s207:通过解码器对最终特征进行解码,得到对应的异常预测值;

15、s208:根据异常预测值和对应的异常真实值计算模型损失,并优化模型参数;

16、s209:重复步骤s201至s208,直至异常检测模型收敛。

17、优选的,外观编码器、运动编码器和解码器均为经过改进的u-net网络;

18、外观编码器和运动编码器的改进为:将u-net网络的池化层变成了步长卷积层;解码器的改进为:在u-net网络进行反卷积之前增加了可变形卷积网络层。

19、优选的,时空增强模组基于运动特征的运动方差注意力图对外观特征进行加权,以实现通过运动特征增强外观特征。

20、优选的,时空增强模组的处理步骤如下:

21、s2041:将外观特征和运动特征作为时空增强模组的输入;

22、s2042:将运动特征输入1×1卷积层和softmax层,得到光流全局上下文特征;

23、s2043:将光流全局上下文特征输入方差注意力模块,生成运动方差注意力图;

24、s2044:将外观特征与运动方差注意力图进行哈达玛积运算,生成运动增强外观特征;

25、s2045:将运动增强外观特征依次输入1×1卷积层、layernorm函数层、relu函数层和1×1卷积层后,再与外观特征相加,得到融合特征。

26、优选的,方差注意力模块通过如下公式计算生成运动方差注意力图:

27、

28、式中:attv表示运动方差注意力图;fm表示光流全局上下文特征;d表示通道的尺寸;d表示空间维数的数目。

29、优选的,关联记忆模组通过记忆网络记录正常事件原型间的关系;其中,包括分别用于记录正常事件的原型及原型间关系的内容记忆模块和关系记忆模块。

30、优选的,关联记忆模组的处理步骤如下:

31、s2051:将融合特征作为关联记忆模组的输入;

32、s2052:读取上一状态的内容记忆模块和关系记忆模块;

33、公式描述为:

34、

35、

36、式中:x1表示上一状态的内容记忆模块和关系记忆模块;x表示融合特征;f1,f2,f3表示线性层;表示外积;

37、s2053:根据读取的上一状态的内容记忆模块和关系记忆模块更新当前状态的内容记忆模块和关系记忆模块;

38、公式描述为:

39、

40、

41、其中,

42、式中:mr、mi表示更新后的内容记忆模块和关系记忆模块;mr-1表示上一状态的内容记忆模块和关系记忆模块;f4表示线性层;sam表示自注意联想记忆运算;

43、s2054:检索更新后的关系记忆模块,得到正常事件原型间的关系。

44、优选的,通过如下步骤生成最终特征:

45、s2061:将正常事件原型间的关系输入前向传播网络,得到内容可寻址存储器;

46、公式描述为:

47、m=f(mr);

48、式中:m表示内容可寻址存储器;mr表示正常事件原型间的关系;f表示前向传播网络;

49、s2062:计算内容可寻址存储器和输入融合特征的余弦相似度,并对余弦相似度进行softmax操作,得到融合特征与内容可寻址存储器中每一个条目的相似度权重;

50、公式描述为:

51、

52、

53、式中:wi表示相似度权重;mi、mj表示内容可寻址存储器m中的条目;x表示融合特征;d(x,mi)、d(x,mj)表示融合特征与条目mi和mj的余弦相似度;

54、s2063:将相似度权重和内容可寻址存储器的条目进行乘法运算,得到对应的原型特征;

55、公式描述为:

56、

57、式中:表示原型特征;w表示由相似度权重wi组成的相似度权重矩阵;

58、s2064:将融合特征和原型特征在维度进行拼接,得到最终特征。

59、优选的,通过如下公式计算模型损失:

60、

61、式中:lrec表示模型损失;it表示视频帧的异常真实值;表示视频帧的异常预测值。

62、优选的,通过异常评分评估异常检测模型的性能;

63、通过如下公式计算异常检测模型的异常评分:

64、

65、其中,

66、

67、式中:s(it)表示异常评分;v表示不同尺度最大预测误差的堆叠;vi表示尺度i的最大预测误差;n表示误差金字塔中包含的尺度总数。

68、本发明中基于时空增强关联记忆的视频异常检测方法与现有技术相比,具有如下有益效果:

69、本发明通过训练后的异常检测模型从输入的视频帧序列中检测出异常帧。其中异常检测模型生成融合特征之后,通过融合特征检索正常事件原型间的关系,并通过正常事件原型间的关系调整融合特征。然而,正常事件原型间的关系包含了正常事件的原型内容和原型内容之间的相互关系,也就是说,本发明不仅记录和学习正常事件的原型内容,还记录和学习了包含更高阶信息和更高级语义的原型内容间的关系,进而能够利用原型记忆之间的丰富关系来更准确地预测正常帧,从而提高视频异常检测的性能。

70、本发明的异常检测模型在结合正常事件原型间关系调整融合特征的基础上,利用两个编码器来分别提取视频帧序列及其光流序列的时空特征(即外观特征和运动特征),进而通过对外观施加全局运动上下文约束来充分利用时空特征的内在联系,即能够利用运动特征来增强外观特征以实现时空语义增强,使得生成的融合特征能够更准确地预测正常帧,从而进一步提高视频异常检测的有效性。最终,通过在三个现有数据集上的大量实验验证了本发明所提方法的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1