一种基于自编码器的人群异常行为检测方法

文档序号:37543945发布日期:2024-04-08 13:45阅读:12来源:国知局
一种基于自编码器的人群异常行为检测方法

本发明属于计算机视觉领域,具体涉及一种基于自编码器的人群异常行为检测方法。


背景技术:

1、人群异常行为检测是计算机视觉领域的研究热点之一,对室内外安全至关重要。由于监控视频存储数据量大而异常行为却相对罕见,用人工筛查需要耗费大量的时间和精力。因此,实时高效的异常行为检测算法能大大提高监控系统的智能化水平,节省人力和物力资源,为人民群众的生命财产安全和维护社会治安与稳定起到重要的保障作用。所以,对视频异常行为检测算法的研究迫在眉睫,具有重要意义。

2、近些年来,随着复杂场景下异常行为检测数据集的出现以及计算机硬件的更新换代,国内外研究人员提出了众多基于深度学习的异常行为检测方法,主要包括基于预测和基于重构的方法。基于预测的方法关键思想在于给定视频片段预测未来帧。2019年,li等提出了unity-net,引入convlstm网络和rgb差值实现对时间特征的充分建模,缺点是忽略了外观异常。基于重构的方法使用重构误差进行异常检测。2019年,dong等提出了memae,在自动编码器中添加一个记忆模块,并将编码结果用作查询以检索记忆模块中最相似的一项进行重构,缺点是忽略了运动异常。针对上述方法不能同时利用外观信息和运动信息等问题,2021年,deepak等提出了r-stae,采用残差时空自编码器提取时空表示,以区分视频片段中的正常事件和异常事件,缺点是获取的信息存在冗余。2021年,li等提出了st-caae,采用时空对抗性自动编码器和时空卷积自动编码器识别异常视频长方体并对特定异常块进行分类,充分融合外观和运动信息,缺点是光流的计算会耗费大量的计算资源和内存。2022年,le等提出了astnet,采用空间和时间双分支有效提取时空信息,同时提出了残差通道注意力模块为特征分配权重,减少冗余信息,缺点是利用主干网络提取特征时需要借助预训练网络。

3、已有的研究工作取得了许多成果和进展,但还存在需要进一步研究和解决的问题:基于预测的方法过度关注时间信息,忽略了外观变化所引起的异常,基于重构的方法又恰恰相反,而能够同时利用外观和运动的模型大多数又会借助光流和预训练网络,出现内存消耗大,网络过于复杂等问题。因此,这一领域仍需要更多思路的引入,来实现全面、深入的时空特征利用。


技术实现思路

1、基于上述背景,本发明旨在解决不使用光流和预训练网络,同时利用外观和时间信息,提高异常行为检测准确度的问题,提出了一种基于自编码器的人群异常行为检测方法,通过引入全局跨通道特征提取模块和全局时空信息增强模块,使得网络能够充分利用全局时空特征,同时过滤冗余信息,提升网络模型的检测能力,达到对异常行为进行准确、高效检测的技术效果。

2、为实现上述目的,本发明是通过以下技术方案来实现:

3、第一方面,本发明提供了一种基于自编码器的人群异常行为检测方法,包括以下步骤:

4、步骤1:获取异常行为检测数据并对其进行裁剪、灰度转化、伪异常生成操作;

5、步骤2:构建基于自编码器的人群异常行为检测网络模型;

6、步骤3:将步骤1获得的异常行为检测数据输入步骤2获得的模型进行基于自编码器的人群异常行为检测。

7、进一步地,所述伪异常生成操作是将获取的检测数据经过跳帧操作生成伪异常数据,具体生成过程包括:

8、1)获取异常行为检测数据xn,其定义如下式所示:

9、xn=(in,in+1,...,in+t-1)   (1)

10、式中,xn是来自原始训练数据的连续帧序列,in表示从视频中随机选择的起始帧,t表示采用固定数量的连续帧;

11、2)使用伪异常合成器生成的跳帧伪异常序列,其定义如下式所示:

12、xp=(in,in+s,...,in+(t-1)s)   (2)

13、式中,xp表示生成的伪异常序列,采用marcella等人的工作(astrid m,zaheer mz,lee s i.synthetic temporal anomaly guided end-to-end video anomalydetection[c]//proceedings of the ieee/cvf international conference oncomputer vision.2021:207-214.),s表示跳过的帧数,可以随机选择为2,3,4,5,伪异常数据仅在训练期间引入。

14、进一步地,所述网络模型包含三个部分,编码器、全局时空信息增强模块、解码器;所述编码器对输入视频帧进行局部时空特征提取并进行下采样;所述全局时空信息增强模块对编码特征进行全局时空特征提取;所述解码器用于恢复输入分辨率,实现对输入帧的重构。

15、进一步地,所述编码器是利用steal-net作为主干网络来提取局部时空特征的,同时在下采样操作后加入全局跨通道特征提取模块获取全局依赖,减少因下采样导致的关键信息缺失。

16、进一步地,所述全局跨通道特征提取模块的具体定义为:首先采用1×1的卷积和softmax函数获取注意力权重,将获取的注意力权重与原始特征进行矩阵乘法得到全局上下文特征;然后根据通道数选择核尺寸以捕获跨通道交互;最后采用加法操作将全局跨通道特征聚合到每个位置的特征上,具体定义如下式所示:

17、fgc-cfe=fe-out+sigmod(conv1(y))   (3)

18、y=fe_out×softmax(conv1×1(fe_out))   (4)

19、式中,fe-out表示编码器每一阶段的输出,fgc-cfe表示全局跨通道特征提取模块的输出,y表示获取到的注意力权重,conv1是一个1维卷积,其核尺寸k决定交互范围,k的定义如下式所示:

20、

21、式中,采用wang等人的工作(wang q,wu b,zhup,et al.eca-net:efficientchannel attention for deep convolutional neural networks[c]//proceedings ofthe ieee/cvf conference on computer vision and pattern recognition.2020:11534-11542.),|t|odd表示最接近t的奇数,γ设置为2,b设置为1。

22、进一步地,所述全局时空信息增强模块的具体定义为:以xt表示输入,经过transconv模块获得更具有代表性的特征再将与上一时刻的外部状态在通道维度进行拼接并进行卷积操作;最后对卷积后的输出进行切分操作得到遗忘门ft、输入门it、输出门ot和当前时刻的内部信息ct。这些门的取值是由非线性激活函数产生的,具体定义如下式所示:

23、

24、

25、

26、

27、

28、

29、式中,r(xt)表示transconv操作,wxf、wxi、wxc、wxo分别为输入数据与遗忘门、输入门、记忆状态和输出门的权重矩阵,whf、whi、whc、who分别为上一时刻的隐藏状态与遗忘门、输入门、记忆状态和输出门的权重矩阵,wcf、wci、wco分别为上一时刻的记忆状态与遗忘门、输入门和输出门的权重矩阵,bf、bi、bc、bo为偏置项,ht表示当前时刻的隐藏状态,σ、tanh表示非线性激活函数,*表示卷积运算,表示hadamard运算。

30、进一步地,所述transconv模块将卷积和transformer模块进行有效的结合,其既能最大程度地保留全局特征,同时注意到其中的局部细节信息,具体提取过程包括:编码器输出的特征首先经过两个三维卷积提取局部特征;然后经过平均池化层送入到transformer块中,对计算出的权重应用sigmod函数可以促进相关特征并抑制不相关的特征;最后与原始特征相加实现了特征的有效融合,可以促使模型更好地利用不同层次的特征信息,定义如下式所示:

31、

32、式中,f和f'分别代表输入和输出的特征图,表示逐元素相加,表示逐元素乘积,y=w2δ(w1f),表示两个三维卷积的输出,其中δ表示relu激活函数,w1和w2是两个三维卷积层的权重集。s(y)代表transformer块,其定义如下式所示:

33、s(y)=f(norm(m(norm(y))+y))+m(norm(y))+y   (13)

34、式中,m表示有个头的多头注意力层,f表示前馈神经网络层,norm表示层归一化。

35、进一步地,所述解码器采用多个上采样层,将潜在空间重构为与原始帧相同大小的输出。

36、进一步地,所述网络模型的整体损失函数从最小化正常帧的重构误差和最大化伪异常帧的重构误差两方面展开,计算过程如下式所示:

37、

38、式中,in+t表示输入的正常帧,表示重构的正常帧,||.||f表示frobenius范数,c为特征维数,t为输入序列的帧数,h为视频帧的高度,w为视频帧的宽度,

39、

40、式中,in+ts表示输入的伪异常帧,表示重构的伪异常帧,负号表示增大伪异常帧的重构误差,可以限制网络对异常帧的重构能力。

41、最终网络训练的损失l如下式所示:

42、

43、式中,x表示网络的输入,l表示网络模型的整体损失函数,ln表示正常帧的重构损失,lp表示伪异常帧的重构损失。

44、第二方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

45、第三方面,本发明提供了一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法的步骤。

46、与现有技术相比,本发明的有益效果如下:

47、本发明方法适用于视频中的异常行为检测,通过在编码器中加入全局跨通道特征提取模块提取全局上下文特征,在编码器与解码器之间加入全局时空信息增强模块提取全局时空特征,同时忽略无关信息、关注重点信息,从而提升异常行为的检测能力,提高网络整体检测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1