用于检测图像中的感兴趣对象的方法和装置与流程

文档序号:18667635发布日期:2019-09-13 20:24阅读:187来源:国知局
用于检测图像中的感兴趣对象的方法和装置与流程

本发明涉及用于检测图像中的感兴趣对象的方法和装置,并且具体地涉及使用深度神经网络来进行对象检测。



背景技术:

对象检测是各种使用案例中普遍关注的问题。在比如监控或驾驶员辅助系统或自主驾驶之类的使用案例或需要关于环境的信息的任何其他使用案例中,对象检测都是很重要的任务。



技术实现要素:

因此,本发明的目的在于提供高效地检测图像中的感兴趣对象的方法和装置。

根据本发明的第一方面,通过包括权利要求1的特征的用于检测图像中的感兴趣对象的方法来达成该目的。

根据第一方面,本发明提供了一种用于检测图像中的感兴趣对象的方法,

其中所述方法包括以下步骤:

将至少一个输入图像提供给包括层的堆叠的经训练的深度神经网络dnn,以及使用经学习的过滤器的去卷积输出或者组合所述经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测所提供的图像中的感兴趣对象。

在根据本发明第一方面的方法的可能实施例中,在包括注释标签的带注释的训练图像上训练所述深度神经网络dnn。

在根据本发明第一方面的方法的另一可能实施例中,所述带注释的训练图像的注释标签包括指示相应训练图像内的感兴趣对象的数量的计数值。

在根据本发明第一方面的方法的又一可能实施例中,基于带注释的合成训练图像和/或带注释的自然训练图像来训练所述深度神经网络dnn。

在根据本发明第一方面的方法的又一可能实施例中,组合所述经训练的深度神经网络dnn的中级和高级层的经学习的过滤器的去卷积输出,以检测所提供的图像中的感兴趣对象。

在根据本发明第一方面的方法的另一可能实施例中,所述输入图像包括具有针对不同通道的像素值的像素。

在根据本发明第一方面的方法的另一可能实施例中,所述通道包含包括针对不同颜色的像素值的颜色通道,所述不同颜色包括红色、蓝色和绿色。

在根据本发明第一方面的方法的另一可能实施例中,通过分离地处理所述不同通道来降低至少一个经学习的过滤器的至少一个去卷积输出内的噪声。

在根据本发明第一方面的方法的另一可能实施例中,保持至少一个通道而同时抑制(suppress)至少另一个通道,以降低至少一个经学习的过滤器的至少一个去卷积输出内的噪声。

在根据本发明第一方面的方法的又一可能实施例中,处理所选择的通道以提高相应通道的平均值。

在根据本发明第一方面的方法的另一可能实施例中,至少部分地通过将一层的经学习的过滤器的输出与经学习的过滤器的去卷积输出进行比较来消除所述输入图像内的背景。

在根据本发明第一方面的方法的另一可能实施例中,执行阈值处理以检测所提供的图像内的感兴趣对象的轮廓。

在根据本发明第一方面的方法的另一可能实施例中,在所述输入图像上在所检测到的轮廓周围叠加边界框,以标记所述输入图像内的感兴趣对象。

在根据本发明第一方面的方法的另一可能实施例中,存储、传输和/或显示具有所叠加的边界框的输入图像,和/或其中将所述边界框分离地储存为元数据。

在根据本发明第一方面的方法的又一可能实施例中,所述感兴趣对象包含包括行人和/或车辆的移动对象和/或静止对象。

在根据本发明第一方面的方法的又一可能实施例中,所述深度神经网络dnn包括卷积神经网络cnn和/或递归神经网络rnn和/或深度前馈网络。

根据另一方面,本发明还提供了包括权利要求15的特征的用于检测图像中的感兴趣对象的装置。

根据第二方面,本发明提供了一种用于检测图像中的感兴趣对象的装置,其中所述装置包括:

提供单元,其被适配成将至少一个输入图像提供给包括层的堆叠的经训练的深度神经网络dnn;以及

处理单元,其被适配成组合所述经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测所提供的输入图像中的感兴趣对象。

附图说明

在下文中,参照附图更加详细地描述本发明的不同方面的可能实施例。

图1示出了根据本发明一个方面的用于检测图像中的感兴趣对象的装置的可能示例性实施例的框图;

图2示出了根据本发明另一方面的用于检测图像中的感兴趣对象的方法的可能示例性实施例的流程图;

图3示出了根据本发明的检测装置的另一可能示例性实施例的框图;

图4示出了用于例示根据可能实施例的用于检测图像中的感兴趣对象的方法和装置的操作的示意图。

具体实施方式

如图1中可见,根据本发明的检测装置1在所例示的实施例中包括提供单元2和处理单元3。提供单元2被适配成将至少一个输入图像提供给包括层的堆叠的经训练的深度神经网络dnn。提供单元2的输出连接到检测装置1的处理单元3。在可能的实施例中,处理单元3被适配成组合经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测由提供单元2提供给该经训练的深度神经网络的输入图像中的感兴趣对象。处理单元3还可以被适配成使用该dnn的层的经学习的过滤器的去卷积输出。

在可能的实施例中,可以通过相机来捕获被提供给经训练的深度神经网络dnn的图像。在替换实施例中,可以从存储器读取或者可以从系统的其他设备接收被提供给经训练的深度神经网络dnn的输入图像。

检测装置1被提供用于检测接收到的数字图像中的感兴趣对象。所述感兴趣对象可以包括移动对象或静止对象。移动对象可以是例如所提供的数字图像中的行人和/或车辆。此外,对象还可以包括所提供的数字图像内的静止对象,诸如树木或建筑物。

可以在包括注释标签的带注释的训练图像上训练深度神经网络dnn。在可能的实施例中,带注释的训练图像的注释标签可以包括计数值,所述计数值指示被提供给要训练的深度神经网络dnn的相应训练图像内的感兴趣对象的数量。可以基于带注释的合成训练图像以及还基于带注释的自然训练图像来训练深度神经网络dnn。

深度神经网络dnn包括层的堆叠。在可能的实施例中,组合经训练的深度神经网络dnn的中级层和高级层的经学习的过滤器的去卷积输出,以检测所提供的数字图像中的感兴趣对象。

在可能的实施例中,被提供给经训练的深度神经网络dnn的输入图像可以包括像素,其中每个像素包括像素值。在可能的实现中,像素可以包括针对不同通道的像素值。在可能的实施例中,这些通道包括颜色通道,其包括针对不同颜色的像素值。在可能的实现中,颜色通道可以包括针对红色通道、蓝色通道和绿色通道的像素值。

在可能的实施例中,可以通过分离地处理不同的通道来降低经学习的过滤器的经组合的去卷积输出内的噪声。在可能的实施例中,保持至少一个通道(诸如颜色通道),而同时可以抑制至少另一个通道(诸如另一个颜色通道),以降低经学习的过滤器的经组合的去卷积输出内的噪声。还可以处理所选择的通道(诸如颜色通道)以提高相应通道的平均值。

在检测装置1的可能实施例中,可以至少部分地通过将一层的经学习的过滤器的输出与经学习的过滤器的去卷积输出或深度神经网络dnn的经学习的过滤器的去卷积输出的组合进行比较来消除输入图像内的背景。然后,可以执行阈值处理以检测所提供的数字图像内的感兴趣对象的轮廓。

此外,检测装置1可以被适配成在输入图像上在检测到的轮廓周围叠加边界框,以标记输入图像内的感兴趣对象。在可能的实施例中,具有叠加的边界框的输入图像可以作为元数据存储在数据存储器中。此外,对应于输入图像的边界框也可以被存储、传输到系统的其他设备,和/或作为元数据分离地进行储存。此外,具有叠加的边界框的输入图像也可以在屏幕上显示给用户。

在可能的实施例中,检测装置1所采用的深度神经网络dnn可以包括卷积神经(neutral)网络cnn。在替换实施例中,检测装置还可以采用递归神经网络rnn。在另一替换实施例中,深度神经网络dnn还可以包括深度前馈网络。

所采用的深度神经网络dnn由若干个层组成。每个层可以包括在其处执行计算的若干节点。层的节点将来自数据的输入与增强或减弱输出的一组系数或权重进行组合,从而为算法试图学习的任务的输入分配重要性。可以对这些乘积求和,并将所生成的和传递通过节点的所谓的激活函数,以确定所述信号是否以及在何种程度上通过神经网络nn进一步发展以影响最终输出。

因此,所采用的深度神经网络dnn的层可以包括一排神经元状的开关,其在输入数据被馈送通过深度神经网络dnn时打开和关闭。从接收数据的初始输入层开始,每个层的输出同时是后一层的输入。深度神经网络dnn包括至少一个输入层、至少一个输出层以及输入层与输出层之间的一个或多个隐藏层。

在深度学习神经网络中,每个节点层基于前一层的输出在不同的一组特征上进行训练。越深远地进入到深度神经网络dnn中,节点能够识别的特征就变得越复杂,因为节点聚合并重组来自前一层的特征。这也称为特征层次结构。该层次结构是提高复杂度和抽象化的层次结构。特征层次结构使得深度学习神经网络能够处理具有可以通过非线性函数的多个参数的非常大的高维数据集。

可以将在带标签的数据上训练的深度学习神经网络dnn在训练之后应用于包括数字输入图像数据的非结构化数据。

在可能的实施例中,深度神经网络dnn由卷积神经网络cnn形成。卷积神经网络cnn是一种前馈人工神经网络。卷积层形成卷积神经网络cnn的核心构建块。这些层的参数由一组可学习的过滤器或内核组成,这些过滤器或内核具有较小的感受域,但延伸穿过输入数据卷的整个深度。在正向通过期间,跨输入卷的宽度和高度对每个过滤器进行卷积,从而计算过滤器的条目与输入之间的点积并产生过滤器的二维激活图。结果,网络学习可以被激活的过滤器,并且网络在输入数据中的某个空间位置处检测某种特定类型的特征。在图4的上下文中还例示了卷积神经网络cnn的可能结构。

在可能的实施例中,检测装置1可以使用用于对对象进行计数的深度神经网络dnn。然后使用经训练的深度神经网络dnn的经学习的过滤器的去卷积输出来检测感兴趣对象。感兴趣对象可以例如包括特定类型的前景对象,诸如行人或车辆。在可能的实施例中,为了实现特定类型的前景对象的检测,可以训练用于对对象进行计数的深度神经网络dnn。然后,使用由深度神经网络dnn的不同层学习的过滤器来分析输入图像,以用于检测感兴趣对象(诸如前景对象)。尽管深度神经网络dnn还未被明确地训练用于检测对象,但是为了实现对对象进行计数的任务,深度神经网络dnn学习了由前景对象激活的过滤器。可以利用该事实来实现对象检测。为了提取输入图像的导致深度神经网络dnn的过滤器中的激活的部分,使用去卷积,其中可以执行连续的反池化(unpooling)、修正和过滤,以重建该层下面的层中引起所选激活的活动。

深度神经网络dnn的较下层通常表示低级特征。使用这些确实需要额外的智能来将前景与背景分离。随着层的层次结构的提高,学习更高级的概念,直到到达深度神经网络dnn的最高层。深度神经网络dnn的最高层是任务特异性最强的。在可能的实施例中,可以使用来自中级层和较高级层的通道的组合来检测所提供的数字图像中的前景对象。中级层和/或高级层的不同通道可以被前景对象的不同部分激活。通过组合或合并经学习的过滤器的去卷积输出,可以获得特定的感兴趣对象(诸如前景对象)的指示。

图2示出了根据本发明一个方面的用于检测图像中的感兴趣对象的方法的可能示例性实施例的流程图。在所例示的示例性实施例中,该方法包括两个主要步骤。

在第一步骤s1中,将至少一个输入图像提供给包括层的堆叠的经训练的深度神经网络dnn。

在进一步的步骤s2中,使用经学习的过滤器的去卷积输出,或者在步骤s2中,组合经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测所提供的图像中的感兴趣对象。

在将输入图像提供给深度神经网络dnn之前,在训练阶段中对深度神经网络dnn进行训练。在可能的实施例中,可以在包括注释标签的带注释的训练图像上训练深度神经网络dnn。这些注释标签可以包括指示每个所提供的训练图像内的感兴趣对象的数量的计数值。可以基于带注释的合成训练图像和/或带注释的自然训练图像来执行深度神经网络dnn的训练。

在可能的实施例中,在步骤s2中组合经训练的深度神经网络dnn的中级和高级层的经学习的过滤器的去卷积输出,以检测所提供的数字图像中的感兴趣对象。

所提供的数字图像可以包含具有针对不同通道的像素值的像素,所述通道特别是包括针对不同颜色的像素值的颜色通道,所述颜色包括红色、绿色和蓝色。

图3示出了用于例示用于检测图像中的感兴趣对象的方法的可能实施例的示意图。所例示的实施例可以例如用于检测所提供的数字图像中的作为前景对象的行人。如图3的实施例中可以看到的,在初始步骤s0中,使用被提供给深度神经网络dnn的训练图像timg来训练所提供的深度神经网络dnn。所使用的深度神经网络dnn可以是例如用于对对象进行计数的深度神经网络dnn。此外,在步骤s1中,可以将至少一个图像(诸如测试图像te-tmg)提供给经训练的深度神经网络dnn,也如图3中例示的。在可能的实施例中,可以将包括多个输入图像或输入图像帧的输入图像序列提供给经训练的深度神经网络dnn。在进一步的步骤s2中,组合经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测所提供的图像中的感兴趣对象。在可能的实施例中,在步骤s2中合并经训练的深度神经网络dnn或数据模型的经学习的过滤器的去卷积输出以进行检测。

可以如图3中例示的那样扩展该处理。在进一步的步骤s3中,可以执行低级处理噪声降低和伪彩色化。通过分离地处理不同的通道,可以降低经学习的过滤器的经组合的去卷积输出的噪声。可以保持至少一个通道而同时抑制至少另一个通道,以降低经学习的过滤器的经组合的去卷积输出内的噪声。在可能的实施例中,可以通过使用分离地处理不同颜色通道的技术来在合成图像上实现噪声降低。在可能的实现中,由于以具有高红色和蓝色通道值的色调突出显示前景对象,因此保持红色通道和蓝色通道的细节而同时抑制绿色通道的细节。这是因为去卷积导致用以红色和蓝色为主的颜色突出显示输入图像的引起激活的特征。

主要颜色通道,即红色通道和蓝色通道,对于所有类型的图像日期可能是相同的,因为在对任何图像进行去卷积之后生成的热图都将导致以这些颜色来突出显示输入图像的引起激活的特征。然而,如果绘制热图的过程改变了,那么该表示可以改变,并且可以相应地适配该处理。在步骤s3中,噪声降低之后是执行所谓的伪彩色化。在可能的实施例中,基于针对每个颜色通道的正弦波生成来产生颜色变化。在可能的实现中,提高红色通道和蓝色通道的平均值以更清楚地显示前景对象。因此,在可能的实施例中,可以处理所选择的通道以提高相应通道的平均值。

在进一步的处理步骤中,可以执行背景消除。在该步骤s4中,至少部分地通过将一层的经学习的过滤器的输出与经学习的过滤器的去卷积输出或经学习的过滤器的去卷积输出的组合进行比较来消除输入图像内的背景。例如,可以使用来自深度神经网络dnn的卷积层5的通道的输出来去除部分背景。

随着深度神经网络dnn的层的层次结构的提高,过滤器更好地学习前景的概念。在可能的实施例中,卷积层5中的过滤器可以包括输出,该输出能够很好地定位前景,同时能够将其与大部分背景区分开。可以在全局层级上获得关于分离图像帧的前景与背景的信息。通过将特定层(诸如dnn的第五卷积层)的通道输出与在低级处理(噪声去除和伪彩色化)之后获得的输出进行比较,消除了部分背景。所采用的概念类似于引导过滤的概念,其中使用引导图像的内容来过滤实际图像。同样,在这种情况下,特定卷积层(诸如dnn的第五卷积层)的过滤器输出可以用作引导图像。对于引导图像中具有低像素值或零像素值的区域,正被过滤的图像的输出可以被丢弃或被视为是背景的一部分,而其余部分被视为前景。p(x,y)表示经伪彩色化的输出,其中p是数字图像中的坐标x、y处的像素值。g(x,y)表示引导图像(例如,特定卷积层(诸如第五卷积层)的过滤器或通道的输出),其中g是数字图像的坐标x、y处的像素值。在可能的实施例中,p(x,y)用作第一输入,并且g(x,y)(例如引导图像)用作步骤s4的第二输入。步骤s4的输出可以用f(x,y)表示,其中f是数字图像中的坐标x、y处的像素值,其中

如果g(x,y)≤阈值,则f(x,y)=背景,并且

如果g(x,y)>阈值,则f(x,y)=p(x,y)。

在图3所例示的实施例中,步骤s4中的背景消除之后是阈值处理步骤s5。执行阈值处理以检测所提供的图像内的感兴趣对象的轮廓。如果阈值处理步骤的输入用f(x,y)表示,其中f是数字图像中的坐标x、y处的像素值,并且o(x,y)是阈值处理步骤的输出,其中o是数字图像中的坐标x、y处的像素值:

如果f(x,y)≤阈值,则o(x,y)=前景,并且

如果f(x,y)>阈值,则o(x,y)=背景。

步骤s5中的轮廓检测之后是用边界框框出轮廓结果。如图3中例示的,在步骤s6中执行该框出动作。在步骤s6中,在所提供的图像内的检测到的感兴趣对象的轮廓处生成边界框。边界框可以叠加在输入图像上在检测到的轮廓周围,以标记输入图像内的感兴趣对象。如图3中例示的,可以输出具有叠加边界框的输入图像。具有叠加边界框的输入图像可以被储存在存储器中或者被传输到另一设备或者在屏幕上显示给用户。

图3示出了具有扩展的后处理的可能实施例。该后处理包括低级处理,包括用来突出显示前景区域的噪声降低和伪彩色化(步骤s3)。通过使用来自深度神经网络dnn的中级层的通道,还有一些背景部分可能导致需要被消除的激活。在步骤s4中执行背景消除。通过使用由较高层学习的一些过滤器,可以在步骤s4中消除部分背景。这之后,在步骤s5中进行阈值处理以分割前景区域。最后,在步骤s6中,针对闭合轮廓分析所分割的前景,并且可以用所生成的边界框包围所分割的前景。

如图3中例示的,通过使用训练图像timg来训练所使用的深度神经网络dnn。可以使用合成图像和/或自然图像来训练用于对对象进行计数的深度神经网络dnn。可以使用很少的数字图像针对目标数据集调整模型。这避免了在训练期间需要来自目标站点的大量带注释的训练数据。

可以使用迁移学习来使用合成图像训练卷积神经网络cnn来对行人进行计数,所述合成图像来自针对图像分类进行过训练的基线网络。还可以使用自然图像或者合成图像和自然图像的组合来训练和调整深度神经网络dnn。

图4示出了可以用于对行人进行计数的深度神经网络dnn的结构。如图4中例示的,深度神经网络dnn包括输入数据层idl。此外,如图4中所示,深度神经网络dnn包括若干个卷积层conv1至conv5。如图4中所示,卷积层之后可以是全连接层fc6、fc7、fc8。在所例示的实施例中,各层的编号是按层次结构的升序,其中层1是最低层,并且层8指示该层次结构内的最高层。所例示的框和对应数字表示深度神经网络dnn的每一层中的神经元或节点的体积的可能尺寸。对于五个卷积层conv1至conv5,还例示了内核大小。例如,深度神经网络dnn的第一卷积层1具有55x55x96的体积尺寸。第一卷积层的内核具有5x5的内核大小。第二卷积层2的尺寸是27x27x256,包括内核大小为3x3的内核,如图4中所示。接下来的卷积层conv3的尺寸为13x13x384,并且内核的内核大小为3x3。第四卷积层conv4包括尺寸13x13x384,内核大小为3x3。最后的卷积层conv5包括尺寸13x13x256,其指示该层中的神经元或节点的体积。图4左侧的输入数据层idl包括被馈送到深度神经网络dnn的数据层。如图4中例示的,卷积深度神经网络cnn可以包括五个卷积层和三个全连接层fc6、fc7、fc8。最后的全连接层fc8形成分类器,该分类器给出针对每个种类的概率。可以使用修正线性单元用于激活函数。池化和局部响应归一化层可以存在于卷积层处。可以使用dropout来减少过拟合。

正向通过深度神经网络dnn包括数据从输入数据层idl流向输出层,即从层次结构中较低的层流向层次结构中较高的层。去卷积通过涉及到从一层处的经学习的过滤器中的一个开始并且执行连续的反池化、修正和过滤的逆过程,以重建下面的层中的引起所选激活的活动。该流程从层次结构中较高的层到层次结构中较低的层。

在不同的实施例中,卷积层和全连接层的数量和尺寸可以取决于使用案例而变化。用于检测数字图像中的感兴趣对象的装置可以用于不同的使用案例,包括驾驶员辅助系统或监控系统。可以并行地执行用于检测图像中的感兴趣对象的方法,以同时检测图像中的不同种类的感兴趣对象。在优选实施例中,图像是数字彩色图像,其可以是由车辆的相机捕获的。可以将由相机捕获的图像提供给如图4的示例性实施例中例示的经训练的深度神经网络dnn。通过处理单元组合和处理经训练的深度神经网络dnn的至少一个层的经学习的过滤器的去卷积输出,以检测所提供的输入图像中的感兴趣对象。这些对象可以例如包括车辆周围的行人或车辆周围的其他车辆。图像可以经历如图3中例示的后处理,以提供边界框或其他标志,以标记所提供的输入图像内的感兴趣对象。可以在屏幕上用不同的标志或边界框向用户(例如,向车辆的驾驶员)显示检测到的感兴趣对象(诸如行人和/或车辆)。在可能的实施例中,可以从数据库加载所采用的深度神经网络dnn或数据模型,以用于系统的不同使用案例或操作模式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1