一种基于深度学习的高精度图像模糊检测方法与流程

文档序号:12471765阅读:924来源:国知局
一种基于深度学习的高精度图像模糊检测方法与流程

本发明属于图像模糊检测领域,涉及一种基于深度学习(deep learning)的高精度图像模糊检测技术。



背景技术:

本发明中涉及到的背景技术有:

(1)图像模糊检测(Blur detection):对于图像的模糊检测,之前的工作主要集中于特征的人工选定和能量函数的优化上面。选择合适的特征或者能量函数,可以采用不同的方法来直接对主题进行建模,比如利用多方向的梯度统计方法为模糊分割建立能量函数,局部梯度统计方法同样被用来估计物体运动产生的模糊。常用的特征有局部能量谱斜率、梯度直方图跨度、最大饱和性和局部自动相关一致性。有一些工作通过使用逐像素的单个值的信息来识别模糊的类型和度量模糊的内容。最近,有一些工作在图像梯度,傅里叶和数据驱动的局部过滤空间上学习模糊特征的表示,取得了不错的区分效果。相对于这些基于从多样的低阶图像统计衍生出来的人工选取的特征进行模糊检测的方法而言,本发明所基于的深度卷积神经网络,指的是通过深度卷积神经网络训练出的具有可区分性的深度特征来对图像的模糊区域进行标识与分割。

(2)深度卷积神经网络(Convolutional Neural Networks):近些年我们目睹了深度卷积神经网络模型在许多计算机视觉领域问题上多都取得了远好于经典的方法的效果。比如,物体检测和识别,图像分割,场景解析,深度重建,显著性检测,图像去噪,超像素等等。一种普遍接受度的观点是,深度卷积神经网络模型成功的原因主要来自它超强的直接从输入图像提取特征的能力。因为图像的模糊是图像品质的一种退化,所以图像模糊检测不同于大多数识别问题。图像识别问题对于图片质量造成影响的因素,像噪声和模糊,应该被容忍。然而,在图像模糊检测方面,我们需要学习与模糊相关的特征而忽视由于不同的图像内容造成的巨大差异。据我们目前所知,我们的模型是第一个将深度卷积神经网络用于模糊度量和检测的。



技术实现要素:

针对现有技术中存在的技术问题,本发明提供一种基于深度学习的高精度图像模糊检测方法,该方法是将深度卷积神经网络(Convolutional Neural Networks)应用到图像模糊检测问题中,以精确地检测出图像中的模糊区域为目标。

为了解决现有技术中存在的技术问题,本发明采用如下技术方案:

一种基于深度学习的高精度图像模糊检测方法,包括如下步骤:

步骤一,建立深度卷积神经网络模型CNN和初始化,并向其输入检测图像;

步骤二,所述深度卷积神经网络模型对需要检测图像选取不同s个尺度获得不同尺度的图像块;

步骤三,所述深度卷积神经网络模型按照六种卷积层对步骤二中所述图像块进行特征提取获得单尺度模糊图:

步骤四,所述深度卷积神经网络模型对不同的所述单尺度模糊图进行多次融合处理输出模糊图。

所述步骤二中不同尺度的图像块是根据对应的尺度对检测图像进行填料,然后用滑动窗口对于图下的每一个像素点取对应的图像块,获得每个尺度下能够输入对应的图像块图像的像素点的每一个对应的图像块。

所述深度卷积神经网络模型按照六种卷积层对步骤二中所述图像块进行特征提取获得单尺度模糊图步骤:

步骤一,第一卷积层采用96个5x5的过滤器对所述图像块提取低阶的特征;

步骤二,第二卷积层采用256个5x5的过滤器对所述图像块提取中阶的特征;

步骤三,第三卷积层采用384个3x3的过滤器对所述图像块提取高阶的特征;

步骤四,第四卷积层和第五卷积层均采用2048个过滤器对所述图像块提取特征;

步骤五,第六卷积层采用一个2路的softmax分类器对所述图像块进行二值的分类获得单尺度模糊图。

所述第四卷积层和所述第五卷积层为整体连通层。

所述第一卷积层提取低价的特征为提取角和边连接的信息。

所述第二卷积层提取中价的特征为复杂的纹理和样式。

所述第三卷积层提取高价特征为语义信息。

本发明有益效果:

第一,本发明是解决现有技术中在提取特征进行图像模糊检测方法精确性差的技术问题。如图4,图5所示。

第二,本发明是将深度神经网络应用到图像模糊检测中,即在多个尺度上仅利用深度卷积神经网络提取的可区分的特征就可以做到高精度图像模糊检测的方法,高对模糊图像的处理能力。如图6,图7所示。

附图说明

图1:图像模糊检测流程图

图2:图片模糊检测结果与groundtruth对比图

图3:模糊检测方法CNN框架示意图

图4:我们的模糊检测方法与其他方法的模糊检测实验结果对比图

图5:我们的模糊检测方法与其他方法的模糊检测实验结果PR曲线图

图6:我们的模糊检测方法与其他方法的模糊检测实验结果Precision Recall和F-measure直方图

图7:我们的模糊检测方法与其他方法的模糊检测实验结果的ROC曲线图

具体实施方式

下面结合附图对本发明做出详细地说明:

本发明提出了一种基于深度学习的高精度图像模糊检测方法。与现有提取低阶特征优化能量函数的方法不同,本发明从多个尺度上提取利用CNN提取图像的高阶特征进行分类,能够实现高精度的图像模糊检测。这项技术将深度卷积神经网络(Convolutional Neural Networks

如图1所示,本发明采用如下的技术方案:

步骤一(110,120,130)建立深度卷积神经网络模型CNN和初始化,并向其输入检测图像;

其中,深度卷积神经网络的总体架构如图2所示,展示了多个尺度的模糊检测总体框架。在不同的图像块(patch)尺度上训练了卷积神经网络(CNN)。每个CNN分别叫做CNN-s,其中s=1,2,…,S代表不同的尺度。本发明方法中,S被设定为3需要通过一个滑动窗口来获取不同尺度的图像块,给对应尺度的CNN,来获取对用的概率图,然后将不同尺度下的概率图融合来获得最终的检测结果。

为了建立一个有效分类的CNN,网络的每一层都能有一定的处理能力。对于多层卷积神经网络而言,底层的卷积层提取角和边连接的信息,中层的卷积层提取复杂的纹理和样式,更高层的卷积层捕获高阶的语义信息。还有,网络的总体深度对于模型取得一个好的效果是非常重要的。依据以上的分析,我们对单个尺度的模糊检测设计了一个六层的CNN模型。

神经网络的训练

(a)训练数据

找到了一个已经发布的数据集其中有296张运动模糊的图片和704张没有对准焦点的模糊图片。随机的选取了这两种图片80%来建立一个数据集。对于训练集中的每个图片,取用步长为5的滑动窗口在不同的尺度上(例,21x21,35x35,和49x49)上去一些图片块作为训练的样本。如果图像块模糊的像素点超过80%,这个图像块就被标记为正例。同样,如果图像块模糊的像素点超过80%,这个图像块就被标记为负例。正例和负例样本的数目的比值是1。我们一共选取了1000万个21x21的样例,500万个35x35的样例和400万个45x45的样例。我们在每个尺度用使80%的样例训练我们的模型,用剩余的20%来进行验证。不对训练的样本进行预处理。

(b)训练设置

在深度卷积神经网络框架CAFFE上搭建完成后,输入的大小在不同尺度上是不一样的。对每个网络进行单独的训练,训练时采用随机梯度下降法,其中batch size是128,momentum是0.9,权重衰减是0.0005,基础的学习率被设定为0.001。

步骤二140,所述深度卷积神经网络模型对需要检测图像选取不同s个尺度获得不同尺度的图像块,(其中s=1,2,..);所述步骤二中不同尺度的图像块是根据对应的尺度对检测图像进行填料(padding),然后用滑动窗口对于图下的每一个像素点取对应的图像块,获得每个尺度下能够输入对应的图像块的图像像素点的每一个对应的图像块。

步骤三150,所述深度卷积神经网络模型按照六种卷积层对步骤二中所述图像块进行特征提取获得单尺度模糊图;所述深度卷积神经网络模型按照六种卷积层对步骤二中所述图像块进行特征提取获得单尺度模糊图步骤:如图3所示,步骤一,第一卷积层采用96个5x5的过滤器对所述图像块提取低阶的特征;所述第一卷积层提取低价的特征为提取角和边连接的信息。步骤二,第二卷积层采用256个5x5的过滤器对所述图像块提取中阶的特征;所述第二卷积层提取中价的特征为复杂的纹理和样式。步骤三,第三卷积层采用384个3x3的过滤器对所述图像块提取高阶的特征;所述第三卷积层提取高价特征为语义信息;步骤四,第四卷积层和第五卷积层均采用2048个过滤器对所述图像块提取特征;所述第四卷积层和所述第五卷积层为整体连通层;本发明采用了概率为0.5的dropout方法来避免两个全连通层的过拟合。步骤五,第六卷积层采用一个2路的softmax分类器对所述图像块进行二值的分类获得单尺度模糊图。

如图1所示,步骤四160,所述深度卷积神经网络模型对不同的所述单尺度模糊图进行多次融合处理输出模糊图。在每个尺度上计算通过对应尺度的模糊检测的CNN计算出对应的模糊图(blur map)。然后再一个图模型里把对应的模糊图融合起来。

对于一个给定的图片,首先通过滑动窗口在每个尺度上得到对应的模糊图。为了更好的说明,我们把每个模糊图记为Bs,其中s表示尺度(scale)。我们建立了一个多尺度的图模型。在这个模型里,每个像素都有邻接的邻居。给定一个模糊检测图Ds,s表示对应的单个尺度s。那么我们可以得到Bs的最优估计值。将Bs和Ds分别做成向量bs和ds,那么能量函数可以表示为,

其中p是像素索引,能量函数等式里有三项,第一项是数据项,它负责分配每一个像素的概率。第二项是保持每个尺度的临近的像素点的标签一致。第三项产生了不同尺度的一致性标签。其中是两个像素点的表面相似性,被定义为:

其中fp是在像素在位置p上的表观(appearance)。Z是一个配分函数,去正则化这些权重值。把b1,b2,…,bn连接成一个向量b,把d1,d2,…,dn连接成一个向量d。带入上一个能量函数的式子,我们可以得到最优的通过优化

E(b)=(b-d)T(b-d)+αbTUTUb+βbVTVb

=bATb-2dTb+dTd,

这个式子是一个二次方程式,我们可以通过解Ab=d得到最优解。其中超参数α和β,在我么你的额实验中都被设为0.5.A=I+αUTU+βVTV.很明显A是一个对称和正定矩阵。U=diag(U1,U2,...,Us).其中我们定义Us

V被定义为[V1,V2,...,Vs,...,Vn]T,其中Vs=[Vs1,Vs2,...,Vss]。V的元素定义如下:

上述实例仅用于说明本发明,其中各部件的结构、材料、连接方式都是可以有所变化的,凡是在本发明技术基础上进行的等同变换和改进,均不应该排除在本发明的保护范围之外。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1