一种基于视觉显著性和深度自编码的公共场景智能视频监控方法与流程

文档序号:11775838阅读:214来源:国知局

本发明涉及图像处理技术,特别是涉及一种基于视觉显著性和深度自编码的公共场景智能视频监控方法。



背景技术:

近几年,监控设备被应用在各行各业,现代机场、车站、医院等公共场景覆盖了成千上万的监控装置,由于视频资料众多,单靠安保人员分析,滤除正常场景下的正常行为,及时发现异常行为,是一个很大的工作量,而随着分析数量的增多,人员的注意力和工作效率会产生明显的下降,为了将人从大量的分析理解中解放出来,研究一种智能视频监控方法具有重要意义。

智能监控系统主要涉及三部分的内容:视频中运动信息的提取,即提取视频中的运动目标,由于监控系统是固定的,所以这部分主要是提取视频中前景目标的运动信息;行为特征的提取,智能监控系统中的一大挑战,要具有唯一性、鲁棒性等特点,提取特征;异常行为检测,分为基于规则的检测,如检测目标是否违反了某些预定义的规则,和基于统计的检测,即在大量的样本中找到行为的模式,使用模式识别的方法和模型进行异常行为识别。现有的技术多位第二种,使用模式识别的方法来进行识别,但这种方法精度相比深度学习的方法的精度低,故本发明使用精度较高的基于深度学习中深度自编码网络来进行异常行为的识别。



技术实现要素:

有鉴于此,本发明的主要目的在于提供一种检测精度高、鲁棒性强的基于视觉显著性和深度自编码的公共场景智能视频监控方法,大大提高了检测精度,同时,能应对多种场景下的异常行为识别,鲁棒性很强。

为了达到上述目的,本发明提出的技术方案为:一种基于视觉显著性和深度自编码的公共场景智能视频监控方法,实现步骤如下:

步骤1、读取公共场景下的视频,将视频分解成单个帧,然后基于高斯差分组合带通滤波器,计算每一帧的视觉显著性图,以此来提取运动信息;

步骤2、在每帧显著性图的基础上,计算相邻帧的光流,从而提取前景目标的运动信息,获取运动特征;

步骤3、在异常识别的算法中包含训练和测试两个过程,在训练过程中,计算训练样本的视觉显著性图并提取运动特征,将得到的光流特征转换为列向量作为深度自编码网络的输入,使用深度自编码网络中编码器的降维和解码器的重建作用,通过最小化损失函数重建输入,训练深度自编码网络;

步骤4、通过最小化损失函数重建输入,训练深度自编码网络后,提取训练好的深度自编码网络的编码器部分作为测试过程中的网络,分别计算出训练样本和测试样本的显著性图和运动特征后,以各个样本的光流特征作为深度自编码网络中编码器的输入,通过所述编码器网络的降维操作,用低维向量来提取最能代表输入的低维特征;

步骤5、在三维坐标中可视化测试过程中编码器网络的结果,用一个超球体表示其中训练样本降维后的分布范围;

步骤6、对于输入测试样本的异常识别,若测试样本可视化的范围落入超球体的范围内,则判定该测试样本为正常序列;反之,落在超球体范围以外,则判定该测试样本为异常序列,由此实现异常行为的识别,公共场景下视频的智能监控。

所述步骤1中视觉显著性图的方法如下:

步骤i)对于一帧图像,图像中每个点的显著度定义为:

s(x,y)=||iμ-iwhc(x,y)||

其中,iμ输入图像在lab空间中各个像素点颜色的均值,iwhc(x,y)为对图像进行高斯模糊后,各个像素点在lab空间的值,s(x,y)表示每个像素点的显著度,为二者的欧氏距离;

步骤ii)首先对图像进行高斯模糊,二维的高斯分布函数为:

其中,x和y分别对应中心点周围8个点的横纵坐标,σ为高斯分布函数的方差,g(x,y)为每个像素点的模糊程度;

对于彩色图像,在r,g,b三个通道,分别使用高斯核与原图像做卷积操作,将每个通道的结果合并,即为高斯模糊后的图像,分别将高斯模糊后的图像和原图像转换到lab空间

步骤iii)计算高斯模糊后图像每个像素点的lab值iwhc(x,y)和原图像各个像素点在lab空间颜色的均值iμ,计算二者的欧氏距离,即得到原图像的视觉显著性图。

所述步骤3使用训练深度自编码网络的具体过程为:

步骤i)训练样本中只包含正常样本,在训练过程中,计算训练样本相邻帧图像的光流特征,将光流特征转换为列向量,作为深度自编码网络的输入,自编码是一个以全连接方式,让输出尽可能等于输入的结构为输入层-隐层-输出层的网络,整个网络由左半部分的编码器和右半部分的解码器组成,编码器用于数据降维,提取最能代表输入的特征信息;解码器以尽可能小的误差,以编码器的输出作为解码器的输入,重建整个网络的原始输入,深度自编码网络是在自编码网络的基础上,在编码器网络和解码器网络中增加了几个隐层;

步骤ii)以光流为输入x={x1,x2...xn},网络的激活函数采用relu函数f(x)=max(0,x),其中,x为激活函数的输入,即自变量,f(x)是激活函数的因变量,网络的前半部分即编码器网络的输出为:z=f(wx+b),其中,w为编码器网络的权重,b为编码器网络的偏置,z为编码器网络的输出,即z是x降维后的结果,能代表x的特征信息;网络的后半部分即解码器的输出为:y=f(w'z+b'),其中,w'为解码器网络的权重,b'为解码器网络的偏置,即y是x的重建,整个编码器网络以公式化表示为:y=f(w'(f(wx+b))+b')。

步骤iii)损失函数采用均方误差:mse=||x-y||2=||x-f(w'(f(wx+b))+b')||,而最小化损失函数来重建输入,就是通过深度自编码网络的训练过程,使均方误差最小,此时的输出即是输入的重建。

所述步骤4提取训练好的深度自编码网络的编码器部分作为测试过程中的网络过程为:

步骤i)首先,图像的预处理与训练过程类似,以训练样本和测试样本的光流特征转换的列向量作为网络的输入;

步骤ii)与训练过程中所用到的网络不同,测试过程中提取训练过程得到的训练好的深度自编码网络中的编码器作为测试过程的网络,使用编码器网络的降维作用,将输入压缩为3个神经元,由编码器的特点可知,这三个神经元能包含输入的全部信息。

综上所述,本发明所述的一种基于视觉显著性和深度自编码的公共场景智能视频监控方法,包括:对公共场景下的视频进行单帧分解,在分解出来的视频帧中,使用视觉显著性提取运动信息,然后计算相邻帧运动物体的光流,包括运动速度的大小和方向,之后的检测过程分为训练和测试两个过程,在训练中,以训练样本的光流作为深度自编码的输入,通过最小化损失函数来训练整个深度自编码网络,在测试阶段,分别以训练和测试样本的光流作为输入,提取训练好的深度自编码网络中的编码器,通过编码器网络的降维作用提取输入的特征,根据编码器网络的特性,降维后的特征能代表输入的全部信息,然后可视化降维后的结果,使用超球体表示训练样本的可视化范围,在输入测试样本时,使用同样的方法可视化,若样本可视化的结果落入超球体范围内,则判定样本正常;反之,落在超球体范围之外,判定样本异常,由此实现视频的智能监控。

本发明与现有技术相比的优点在于:

(1)本发明以异常行为的识别为主,使用视觉显著性和光流法初步提取运动信息,然后使用深度学习中的深度自编码器提取特征,进行训练和检测,由于深度自编码器能以最小化损失函数重建输入,编码器的降维作用能提取能表示输入信息的低维特征,所以提取的特征具有很强的鲁棒性,而正是由于特征的鲁棒性,可以很高效地进行异常行为的识别,提高算法精度。由于使用超球体表示正常的范围,在进行异常的判别时,只需要判断可视化结果的范围,所以判断速度快。

(2)本发明具有检测精度高、鲁棒性强等特点,可广泛应用于社区安全防护、医院、银行等公共场景的安全保护。通过使用光流法和深度学习中的深度自编码网络,提取能表示物体全部信息的低维特征,判断精确、鲁棒性强,由于使用超球体表示正常的范围,在进行异常的判别时,只需要判断可视化结果的范围,所以判断速度快。

附图说明

图1为本发明实现流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明所述的一种基于视觉显著性和深度自编码的公共场景智能视频监控方法,包括:对公共场景下视频进行单帧分解,在分解出来的视频帧中,使用视觉显著性提取运动信息,然后计算相邻帧运动物体的光流,包括运动速度的大小和方向,之后的检测过程分为训练和测试两个过程,在训练中,以训练样本的光流作为深度自编码的输入,通过最小化损失函数来训练整个深度自编码网络,在测试阶段,分别以训练和测试样本的光流作为输入,提取训练好的深度自编码网络中的编码器,通过编码器网络的降维作用提取输入的特征,根据编码器网络的特性,降维后的特征能代表输入的全部信息,然后可视化降维后的结果,使用超球体表示训练样本的可视化范围,在输入测试样本时,使用同样的方法可视化,若样本可视化的结果落入超球体范围内,则判定样本正常;反之,落在超球体范围之外,判定样本异常,由此实现视频的智能监控。

如图1所示,本发明具体实现如下步骤:

步骤1)、读取公共场景下的视频,将视频分解成单个帧,然后基于高斯差分组合带通滤波器,计算每一帧的视觉显著性图,以此来提取运动信息;

步骤2)、在每帧显著性图的基础上,计算相邻帧的光流,从而提取前景目标的运动信息,获取运动特征;

步骤3)、在异常识别的算法中包含训练和测试两个过程,在训练过程中,计算训练样本的视觉显著性图并提取运动特征,将得到的每帧图像的光流特征转换为列向量作为深度自编码网络的输入,使用深度自编码网络中编码器的降维和解码器的重建,通过最小化损失函数重建输入,训练深度自编码网络;

步骤4)、通过最小化损失函数重建输入,训练深度自编码网络后,提取训练好的深度自编码网络的编码器部分作为测试过程中的网络,分别计算出训练样本和测试样本的显著性图和运动特征后,以各图像帧样本的光流特征作为深度自编码网络中编码器的输入,通过所述编码器网络的降维操作,用低维向量来提取最能代表输入的低维特征;

步骤5)、在三维坐标中可视化测试过程中编码器网络的结果,用一个超球体表示其中训练样本降维后的分布范围;

步骤6)、对于输入测试样本的异常识别,若测试样本可视化的范围落入超球体的范围内,则判定该测试样本为正常序列;反之,落在超球体范围以外,则判定该测试样本为异常序列,由此实现异常行为的识别,公共场景下视频的智能监控。

所述步骤1)中视觉显著性图的计算方法如下:

步骤i)对于一帧图像,图像中每个点的显著度定义为:

s(x,y)=||iμ-iwhc(x,y)||

其中,iμ输入图像在lab空间中各个像素点颜色的均值,iwhc(x,y)为对图像进行高斯模糊后,各个像素点在lab空间的值,s(x,y)表示每个像素点的显著度,为二者的欧氏距离;

步骤ii)首先对图像进行高斯模糊,二维的高斯分布函数为:

其中,x和y分别对应中心点周围8个点的横纵坐标,σ为高斯分布函数的方差,g(x,y)为每个像素点的模糊程度;

在r,g,b三个通道,分别使用高斯核与原图像做卷积操作,将每个通道的结果合并,即为高斯模糊后的图像,分别将高斯模糊后的图像和原图像转换到lab空间。

步骤iii)计算高斯模糊后图像每个像素点的lab值iwhc(x,y)和原图像各个像素点在lab空间颜色的均值iμ,计算二者的欧氏距离,即得到原图像的视觉显著性图。

所述步骤3)训练深度自编码网络原理如下:

步骤i)训练样本中只包含正常样本,在训练过程中,计算训练样本相邻帧图像的光流特征,将光流特征转换为列向量,作为深度自编码网络的输入,自编码是一个以全连接方式,让输出尽可能等于输入的结构为输入层-隐层-输出层的网络,整个网络由编码器和解码器组成,编码器用于数据降维,提取最能代表输入的特征信息;解码器以尽可能小的误差,以编码器的输出作为解码器的输入,重建整个网络的原始输入,深度自编码网络是在自编码网络的基础上,在编码器网络和解码器网络中增加了几个隐层;

步骤ii)以光流为输入x={x1,x2...xn},网络的激活函数采用relu函数f(x)=max(0,x),其中,x为激活函数的输入,即自变量,f(x)是激活函数的因变量,网络的前半部分即编码器网络的输出为:z=f(wx+b),其中,w为编码器网络的权重,b为编码器网络的偏置,z为编码器网络的输出,即z是x降维后的结果,能代表x的特征信息;网络的后半部分即解码器的输出为:y=f(w'z+b'),其中,w'为解码器网络的权重,b'为解码器网络的偏置,即y是x的重建,整个编码器网络以公式化表示为:y=f(w'(f(wx+b))+b')。

步骤iii)损失函数采用均方误差:mse=||x-y||2=||x-f(w'(f(wx+b))+b')||,而最小化损失函数来重建输入,就是通过深度自编码网络的训练过程,使均方误差最小,此时的输出即是输入的重建。

所述步骤4)提取训练好的深度自编码网络的编码器部分作为测试过程中的网络具体过程为:

步骤i)首先,图像的预处理与训练过程类似,以训练样本和测试样本的光流特征转换的列向量作为网络的输入;

步骤ii)与训练过程中所用到的网络不同,测试过程中提取训练过程得到的训练好的深度自编码网络中的编码器作为测试过程的网络,使用编码器网络的降维作用,将输入压缩为3个神经元,所述3个神经元能包含输入的全部信息。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1