图像的显著性检测方法及装置与流程

文档序号:13393269阅读:326来源:国知局

本公开涉及图像技术领域,尤其涉及图像的显著性检测方法及装置。



背景技术:

显著性物体检测(salientobjectdetection)是智能图像处理的基本问题之一。不同于一般物体检测中需要检测图像中所有物体的要求,显著性物体检测要求通过对人的真实视点进行采集,得到图像中最可能引起人关注的物体,并利用仿生或学习的方式进行建模。显著性物体检测器最终输出的物体要求尽可能接近人类真正感兴趣的物体。

图1是相关技术中的显著性物体检测的示意图。如图1所示,在相关技术中,显著性物体检测的基本操作单位为图像像素,显著性程度根据像素的灰度值确定。在图1中,各个图片中不同部分的灰度值不同。灰度值越大,则显著性程度越高。然而,由于物体检测通常要求直接给出显著性物体的边界框,因此,相关技术中的显著性物体检测技术很难发挥作用。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种图像的显著性检测方法及装置。

根据本公开实施例的第一方面,提供一种图像的显著性检测方法,包括:

对图像进行显著性检测,确定所述图像中的显著性区域;

采用深度卷积神经网络对所述显著性区域进行目标检测,确定所述显著性区域中的目标的类别。

在一种可能的实现方式中,在确定所述显著性区域中的目标的类别之后,所述方法还包括:

根据所述显著性区域的边界以及所述目标的类别,确定所述目标的边界框。

在一种可能的实现方式中,采用深度卷积神经网络对所述显著性区域进行目标检测,包括:

根据所述深度卷积神经网络中的各个通道的输入值,确定所述深度卷积神经网络针对所述各个通道的激活函数。

在一种可能的实现方式中,根据所述深度卷积神经网络中的各个通道的输入值,确定所述深度卷积神经网络针对所述各个通道的激活函数,包括:

采用式1确定通道c的激活函数f(x),

其中,x表示所述通道c的输入值,ac表示当所述通道c的输入值小于0时所述深度卷积神经网络针对所述通道c的斜率值,bc表示当所述通道c的输入值大于或等于0时所述深度卷积神经网络针对所述通道c的斜率值。

在一种可能的实现方式中,对图像进行显著性检测,确定所述图像中的显著性区域,包括:

对所述图像进行显著性检测,确定所述图像中的各个像素的显著性值;

根据所述图像中的各个像素的显著性值,确定所述图像中的显著性区域。

根据本公开实施例的第二方面,提供一种图像的显著性检测装置,包括:

第一确定模块,用于对图像进行显著性检测,确定所述图像中的显著性区域;

第二确定模块,用于采用深度卷积神经网络对所述显著性区域进行目标检测,确定所述显著性区域中的目标的类别。

在一种可能的实现方式中,所述装置还包括:

第三确定模块,用于根据所述显著性区域的边界以及所述目标的类别,确定所述目标的边界框。

在一种可能的实现方式中,所述第二确定模块包括:

第一确定子模块,用于根据所述深度卷积神经网络中的各个通道的输入值,确定所述深度卷积神经网络针对所述各个通道的激活函数。

在一种可能的实现方式中,所述第一确定子模块用于:

采用式1确定通道c的激活函数f(x),

其中,x表示所述通道c的输入值,ac表示当所述通道c的输入值小于0时所述深度卷积神经网络针对所述通道c的斜率值,bc表示当所述通道c的输入值大于或等于0时所述深度卷积神经网络针对所述通道c的斜率值。

在一种可能的实现方式中,第一确定模块包括:

第二确定子模块,用于对所述图像进行显著性检测,确定所述图像中的各个像素的显著性值;

第三确定子模块,用于根据所述图像中的各个像素的显著性值,确定所述图像中的显著性区域。

本公开的实施例提供的技术方案可以包括以下有益效果:本实施例通过对图像进行显著性检测,确定该图像中的显著性区域,并采用深度卷积神经网络对显著性区域进行目标检测,确定显著性区域中的目标的类别,由此能够结合显著性检测技术和深度卷积神经网络准确地识别出图像中的目标的类别。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是相关技术中的显著性物体检测的示意图。

图2是根据一示例性实施例示出的一种图像的显著性检测方法的流程图。

图3是根据一示例性实施例示出的一种图像的显著性检测方法的一示例性的流程图。

图4是根据一示例性实施例示出的一种图像的显著性检测方法步骤s21的一示例性的流程图。

图5是根据一示例性实施例示出的一种图像的显著性检测装置框图。

图6是根据一示例性实施例示出的一种图像的显著性检测装置的一示例性的框图。

图7是根据一示例性实施例示出的一种用于图像的显著性检测的装置800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图2是根据一示例性实施例示出的一种图像的显著性检测方法的流程图。该方法可以应用于终端设备中。如图2所示,该包括步骤s21和步骤s22。

在步骤s21中,对图像进行显著性检测,确定该图像中的显著性区域。

在一实施例中,图像中的显著性区域可以为图像中的前景部分,图像中的非显著性区域可以为图像中的背景部分。

作为本实施例的一个示例,可以确定图像中各个像素的灰度值,将灰度值大于第一阈值的像素围成的区域确定为该图像中的显著性区域。

作为本实施例的另一个示例,可以识别图像中物体的边界,得到各个物体所在的区域,并可以将各个物体所在的区域中平均灰度值大于第二阈值的区域确定为该图像中的显著性区域。

需要说明的是,尽管以以上两个示例介绍了确定显著性区域的方式如上,但本领域技术人员能够理解,本公开应不限于此。本领域技术人员可以根据实际应用场景灵活设定确定显著性区域的方式。

在步骤s22中,采用深度卷积神经网络对显著性区域进行目标检测,确定显著性区域中的目标的类别。

其中,深度卷积神经网络是多层的神经网络,深度卷积神经网络可以对输入的图像进行多层非线性变换。深度卷积神经网络的非线性变换结果在语义层面上从低层到高层不断递进,低层输出接近于物体的形态信息,高层输出接近于物体的类别信息。

在本实施例中,深度卷积神经网络具有两个任务,且两个任务之间具有相关性。第一个任务用于对图像进行显著性检测,第二个任务用于识别显著性区域中目标的类别。第一个任务对应的分类器可以用于对前景和背景进行分类,确定图像中的显著性区域;第二个任务对应的分类器可以用于对目标的类别进行分类。通过同时训练两个相关的任务对应的两个分类器,可以利用任务的特征的相关性提高各个分类器的训练效果,从而提高分类器的分类精度。

本实施例通过对图像进行显著性检测,确定该图像中的显著性区域,并采用深度卷积神经网络对显著性区域进行目标检测,确定显著性区域中的目标的类别,由此能够结合显著性检测技术和深度卷积神经网络准确地识别出图像中的目标的类别。

图3是根据一示例性实施例示出的一种图像的显著性检测方法的一示例性的流程图。如图3所示,该方法包括步骤s21至步骤s23。

在步骤s21中,对图像进行显著性检测,确定该图像中的显著性区域。

在步骤s22中,采用深度卷积神经网络对显著性区域进行目标检测,确定显著性区域中的目标的类别。

在步骤s23中,根据显著性区域的边界以及目标的类别,确定目标的边界框。

在本实施例中,根据步骤s22确定的目标的类别,可以对步骤s21确定的显著性区域的边界进行调整,从而得到更精确的目标的边界框。例如,若根据步骤s22确定目标的类别为卡车,则可以根据卡车的形状,对步骤s21确定的显著性区域的边界进行调整,由此得到更精确的目标的边界框,从而能够更准确地确定目标的位置。

在一种可能的实现方式中,深度卷积神经网络可以采用relu(rectifiedlinearunit,修正线性单元)激活函数,深度卷积神经网络的每一层的卷积输出经过relu激活函数进行非线性变换。

在一种可能的实现方式中,采用深度卷积神经网络对显著性区域进行目标检测,包括:根据深度卷积神经网络中的各个通道的输入值,确定深度卷积神经网络针对各个通道的激活函数。在该实现方式中,对relu激活函数进行改进,针对各个通道的激活函数根据各个通道的输入值来确定,以提高显著性物体检测和识别的性能。

在一种可能的实现方式中,根据深度卷积神经网络中的各个通道的输入值,确定深度卷积神经网络针对各个通道的激活函数,包括:

采用式1确定通道c的激活函数f(x),

其中,x表示通道c的输入值,ac表示当通道c的输入值小于0时深度卷积神经网络针对通道c的斜率值,bc表示当通道c的输入值大于或等于0时深度卷积神经网络针对通道c的斜率值。

该实现方式通过采用改进后的激活函数,对于不同的通道有不同的斜率值,对于正负输入值也有不同的斜率值,由此提高了深度卷积神经网络的表达能力,从而提高了显著性物体检测和识别的性能。

图4是根据一示例性实施例示出的一种图像的显著性检测方法步骤s21的一示例性的流程图。如图4所示,步骤s21可以包括步骤s211和步骤s212。

在步骤s211中,对该图像进行显著性检测,确定该图像中的各个像素的显著性值。

作为本实施例的一个示例,图像中的任意一个像素的显著性值,可以等于该像素与图像中其他所有像素的灰度差值之和。

需要说明的是,尽管以某一像素与图像中其他所有像素的灰度差值之和介绍了确定像素的显著性值的方式如上,但本领域技术人员能够理解,本公开应不限于此。例如,还可以根据某一像素与图像中其他所有像素的rgb(red,红;green,绿;blue,蓝)差值之和确定像素的显著性值,在此不作限定。本领域技术人员可以根据实际应用场景灵活设定确定像素的显著性值的方式。

在步骤s212中,根据该图像中的各个像素的显著性值,确定该图像中的显著性区域。

作为本实施例的一个示例,可以将该图像中显著性值大于第三阈值的像素围成的区域确定为该图像中的显著性区域。

需要说明的是,尽管以将该图像中显著性值大于第三阈值的像素围成的区域确定为该图像中的显著性区域作为示例介绍了确定步骤s212的具体实现方式如上,但本领域技术人员能够理解,本公开应不限于此。例如,还可以将图像中像素的显著性值的平均值大于第四阈值的区域确定为该图像中的显著性区域,在此不作限定。本领域技术人员可以根据实际应用场景灵活设定根据图像中的各个像素的显著性值确定该图像中的显著性区域的方式。

图5是根据一示例性实施例示出的一种图像的显著性检测装置框图。参照图5,该装置包括第一确定模块51和第二确定模块52。

该第一确定模块51被配置为对图像进行显著性检测,确定所述图像中的显著性区域;

该第二确定模块52被配置为采用深度卷积神经网络对所述显著性区域进行目标检测,确定所述显著性区域中的目标的类别。

图6是根据一示例性实施例示出的一种图像的显著性检测装置的一示例性的框图。如图6所示:

在一种可能的实现方式中,所述装置还包括第三确定模块53。

该第三确定模块53被配置为根据所述显著性区域的边界以及所述目标的类别,确定所述目标的边界框。

在一种可能的实现方式中,所述第二确定模块52包括第一确定子模块521。

该第一确定子模块521被配置为根据所述深度卷积神经网络中的各个通道的输入值,确定所述深度卷积神经网络针对所述各个通道的激活函数。

在一种可能的实现方式中,所述第一确定子模块521被配置为:

采用式1确定通道c的激活函数f(x),

其中,x表示所述通道c的输入值,ac表示当所述通道c的输入值小于0时所述深度卷积神经网络针对所述通道c的斜率值,bc表示当所述通道c的输入值大于或等于0时所述深度卷积神经网络针对所述通道c的斜率值。

在一种可能的实现方式中,第一确定模块51包括第二确定子模块511和第三确定子模块512。

该第二确定子模块511被配置为对所述图像进行显著性检测,确定所述图像中的各个像素的显著性值;

该第三确定子模块512被配置为根据所述图像中的各个像素的显著性值,确定所述图像中的显著性区域。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本实施例通过对图像进行显著性检测,确定该图像中的显著性区域,并采用深度卷积神经网络对显著性区域进行目标检测,确定显著性区域中的目标的类别,由此能够结合显著性检测技术和深度卷积神经网络准确地识别出图像中的目标的类别。

图7是根据一示例性实施例示出的一种用于图像的显著性检测的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1