一种深度学习的暴力检测系统的制作方法

文档序号:16504893发布日期:2019-01-05 08:58阅读:449来源:国知局
一种深度学习的暴力检测系统的制作方法
本发明涉及暴力检测
技术领域
,具体涉及一种深度学习的暴力检测系统。
背景技术
:随着平安城市建设的不断推进,视频监控系统大范围普及,利用智能视频分析技术实现对类似暴力行为进行检测及预警成为一种迫切需求。现有的暴力检测系统根据分析信号的差异,可细分为基于音频的方法、基于音视频的方法和基于视频的方法。在实际监控系统中,绝大多数的监控系统并没有安装音频采集设备,在这种情况下,基于音频的方法便无法奏效,而基于图像视频数据的暴力检测就变得更具研究价值。此外,爆炸、流血和汽车追逐等行为通常是检测电影片段中暴力场景的有效线索,但是在日常生活中,这类行为是十分稀少的。相反的,暴力打斗及群体斗殴行为在日常生活中出现最为频繁,造成的危害范围最广。技术实现要素:针对上述问题,本发明提供一种深度学习的暴力检测系统。本发明的目的采用以下技术方案来实现:提供了一种深度学习的暴力检测系统,包括图像输入模块、图像全局特性模块、深度网络模型模块、3d网络模型模块、d3d网络模型模块、图像输出模块,所述图像输入模块用于输入所检测的图像,所述图像全局特性模块用于提取出图像的全局特征,所述深度网络模型模块用于将所提取的图像全局特征融合在深度网络模型中,所述3d网络模型模块基于深度网络模型模块确定暴力检测结果,所述d3d网络模型模块用于优化3d网络模型模块暴力检测结果,所述图像输出模块用于输出优化的暴力检测结果。本发明的有益效果为:提供了一种深度学习的暴力检测系统,有效的提高了暴力检测的准确率。附图说明利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。图1是本发明的结构示意图;附图标记:图像输入模块1、图像全局特性模块2、深度网络模型模块3、3d网络模型模块4、d3d网络模型模块5、图像输出模块6。具体实施方式结合以下实施例对本发明作进一步描述。参见图1,本实施例的一种深度学习的暴力检测系统,包括图像输入模块1、图像全局特性模块2、深度网络模型模块3、3d网络模型模块4、d3d网络模型模块5、图像输出模块6,所述图像输入模块1用于输入所检测的图像,所述图像全局特性模块2用于提取出图像的全局特征,所述深度网络模型模块3用于将所提取的图像全局特征融合在深度网络模型中,所述3d网络模型模块4基于深度网络模型模块3确定暴力检测结果,所述d3d网络模型模块5用于优化3d网络模型模块4暴力检测结果,所述图像输出模块6用于输出优化的暴力检测结果。本实施例提供了一种深度学习的暴力检测系统,有效的提高了暴力检测的准确率。优选的,所述图像全局特性模块2包括数据输入层、卷积计算层、激励层、池化层;所述数据输入层对输入的图像进行预处理;所述卷积计算层对图像进行滤波以及卷积操作;所述激励层把卷积计算层的输出结果做非线性映射;所述池化层用于压缩非线性映射后的图像;在卷积计算层中,通过卷积操作对预处理后的图像提取局部邻域特征,经过多层迭代,通过二维卷积提取出图像的全局特征:上式中,i表示图像当前所在的卷积层,j表示该层的特征映射数量,表示在第i层第j个特征映射上(x,y)位置处的激活值,此激活值就是图像的二维全局特征;f(·)表示激活函数,其中,h,w分别表示二维卷积核的高度、宽度的大小;表示卷积核的权重,表示第i-1层第d个特征映射在(x,y)处的激活值,bij表示偏置向量。本优选实施例通过二维卷积可以很容易地抽取图像的空间信息,简单方便,应用范围最广,但是仅利用这些表观特征并不足以对视频进行完整表达,会使视频有所缺失。优选的,所述深度网络模型模块3将图像全局特性模块2中的二维卷积核经过空间扩展生成三维卷积核,在像素点(x,y,z)处的三维卷积计算定义为:上式中,i表示图像当前所在的卷积层,j表示该层的特征映射数量,表示在第i层第j个特征映射上(x,y,z)位置处的激活值;此激活值就是图像的三维全局特征;f(·)表示激活函数,其中,h,w,t分别表示三维卷积核的高度、宽度和时间维度上的大小;表示卷积核的权重,表示第i-1层第d个特征映射在(x,y,z)处的激活值,bij表示偏置向量。本优选实施例与二维卷积公式相比,三维卷积在对卷积核和像素点的表示上都增加了时间维度。将卷积核扩展至三维空间后,在对图像序列进行卷积时,卷积操作就会在空域和时域同时进行,这样经过卷积和池化操作后,输出的特征图依旧是图像序列,可以很好的保留视频中的时空信息。经过多个三维卷积的特征提取,就可以提取出视频的全局时空特征。优选的,所述3d网络模型模块4基于深度网络模型模块3使用c1、c2、c3三个卷积计算层,c1、c2和c3使用的三维卷积核尺寸分别为7×7×5、5×5×5和3×3×3像素;3d网络模型模块4的输入为由40帧连续图像构成的图像片段x;图像帧在经过预处理后,归一化为60×90像素大小并转换为灰度图;输出标量y标量,用来表示模型对图像输入的检测结果,对于训练好的模型,如果测试图像中包含暴力场景,那么输出y为1,否则输出结果为0;所述3d网络模型模块4对前两个卷积计算层计算得到的特征图进行池化操作,池化通过下式计算:式中,δt为采样函数,其中,t为时间,t为采样周期,n∈[0,+∞]且n为正整数,表示x层第y个特征图,表示x-1层第y个特征图,θ和b分别为乘性偏置和加性偏置,表示x层第y个乘性偏置,表示x层第y个加性偏置;所述池化操作采用二维池化操作,即不在时间维度对输入特征图序列进行降采样操作,池化因子分别设为3×3和2×2像素;在模型训练过程中,3d网络模型模块4采用均方误差作为代价函数,其表达式如下:式中,h1(x,θ)表示3d网络模型代价函数,g为模型函数,θ为模型参数,x为训练样本,n为样本数量,而是样本实际标签,k∈[1,n],n∈[1,+∞];代价函数值越小表明模型与训练集拟合的越好;本优选实施例一方面可以进一步减少网络参数,另一方面也赋予了特征图平移不变和旋转不变等特性,使得学到的特征更加鲁棒。优选的,所述d3d网络模型模块5基于3d网络模型,其输入为128×128像素的40帧连续图像,连续图像为三通道彩色图像;将三维卷积核统一设为3×3×3像素,在卷积操作时,d3d网络模型模块5对特征图进行填充操作,使得卷积后得到的特征图与计算前保持一样的大小;在池化过程中也使用三维池化操作,即在时间维度对输入特征图序列进行降采样操作,池化因子设为2×2×2像素;所述d3d网络模型模块5在模型训练过程中的代价函数选取负对数似然函数,其表达式如下:式中,h2(x,θ)表示d3d网络模型代价函数,g为模型函数,θ为模型参数,xk为第k个训练样本,m是类别数,n是每类样本数,是第k个数据实际标签;k∈[1,n],n∈[1,+∞],l∈[1,m],m∈[1,+∞]。本优选实施例采用了更加复杂的结构,因此处理的图像数据维度可以更高,这样可以加快图像时间信息的提取,去除其中的大量冗余。采用本发明深度学习的暴力检测系统进行暴力检测,选取5个检测场景进行实验,分别为检测场景1、检测场景2、检测场景3、检测场景4、检测场景5,对暴力检测准确率和暴力检测速度进行统计,同现有暴力检测系统相比,产生的有益效果如下表所示:暴力检测准确率提高暴力检测速度提高检测场景129%27%检测场景227%26%检测场景326%26%检测场景425%24%检测场景524%22%通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于ram、rom、eeprom、cd-rom或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1