目标检测方法、装置及系统与流程

文档序号:16694306发布日期:2019-01-22 19:20阅读:117来源:国知局
目标检测方法、装置及系统与流程

本发明涉及人工智能技术领域,尤其是涉及一种目标检测方法、装置及系统。



背景技术:

目标检测(objectdetection)是计算机视觉中的一类非常重要的任务,是诸如人脸检测、目标跟踪、实例分割等很多复杂视觉任务的基础。现有的目标检测方法大多基于卷积神经网络实现,可以检测出图像中包含的物体类别,还可以定位出目标物体在图像中的所在位置,已广泛应用于诸如安防系统、交通系统等领域。可以理解的是,目标检测结果对各应用场合具有重要意义,而现有的目标检测方法的检测效果不佳。



技术实现要素:

有鉴于此,本发明的目的在于提供一种目标检测方法、装置及系统,能够较好地提升检测效果。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种目标检测方法,包括:获取待检测的目标图像;对所述目标图像进行特征提取,生成第一特征图;其中,所述第一特征图包含有不同尺度的特征信息;对所述第一特征图进行区域候选识别,得到所述目标图像的候选区域信息;根据多个所述候选区域和所述第一特征图,生成检测结果;所述检测结果包含所述目标图像中的目标类别和/或目标位置。

进一步,所述获取待检测的目标图像的步骤,包括:获取待检测的初始图像;对所述初始图像进行预处理,得到目标图像;其中,所述预处理包括白化操作。

进一步,所述对所述目标图像进行特征提取,生成第一特征图的步骤,包括:将所述目标图像输入至基础神经网络;通过所述基础神经网络对所述目标图像进行多阶段特征提取,得到不同尺度的特征信息;其中,每个阶段提取出的特征信息的尺度不同;将多个指定阶段对应的特征信息融合形成第一特征图。

进一步,所述将多个指定阶段对应的特征信息融合形成第一特征图的步骤,包括:获取所述基础神经网络的倒数第二个阶段提取的第一特征信息;获取所述基础神经网络的最后一个阶段提取的第二特征信息;对所述第二特征信息进行全局池化操作,得到第三特征信息;通过上下文增强网络将所述第一特征信息、所述第二特征信息和所述第三特征信息融合形成第一特征图。

进一步,所述上下文增强网络包括并行的第一卷积层、第二卷积层和第三卷积层;其中,所述第二卷积层的输出端还连接有上采样操作层,所述第三卷积层的输出端还连接有广播操作层;所述第一卷积层的输出端、所述上采样操作层的输出端和所述广播操作层的输出端共同连接有加法操作层。

进一步,所述通过上下文增强网络将所述第一特征信息、所述第二特征信息和所述第三特征信息融合形成第一特征图的步骤,包括:将所述第一特征信息输入至所述第一卷积层、将所述第二特征信息输入至所述第二卷积层,以及将所述第三特征信息输入至所述第三卷积层;通过所述第一卷积层对所述第一特征信息进行卷积操作,得到具有指定尺度的第一特征信息;通过所述第二卷积层和所述上采样操作层先后对所述第二特征信息进行卷积操作和上采样操作,得到具有所述指定尺度的第二特征信息;通过所述第三卷积层和所述广播操作层先后对所述第三特征信息进行卷积操作和广播操作,得到具有所述指定尺度的第三特征信息;通过所述加法操作层对具有所述指定尺度的第一特征信息、具有所述指定尺度的第二特征信息和具有所述指定尺度的第三特征信息进行加和处理,形成第一特征图。

进一步,所述基础神经网络为轻量级特征提取网络。

进一步,所述对所述第一特征图进行候选区域识别,得到所述目标图像的候选区域信息的步骤,包括:将所述第一特征图输入至区域候选生成网络;通过所述区域候选生成网络对所述第一特征图进行特征提取,得到中间特征图,并对所述中间特征图进行候选区域识别,得到所述目标图像的候选区域信息。

进一步,所述区域候选生成网络包括顺次连接的通道卷积层和第四卷积层。

进一步,所述根据所述候选区域信息和所述第一特征图,生成检测结果的步骤,包括:将所述第一特征图和所述中间特征图均输入至空间注意力网络;通过所述空间注意力网络将所述第一特征图和所述中间特征图融合形成第二特征图;其中,所述第二特征图的前景特征强于背景特征;根据所述候选区域信息和所述第二特征图,生成检测结果。

进一步,所述空间注意力网络包括顺次连接的第五卷积层和激活函数层;所述激活函数层的输出端连接有乘法运算层。

进一步,所述第五卷积层和所述激活函数层之间还连接有批归一化层。

进一步,所述通过所述空间注意力网络将所述第一特征图和所述中间特征图融合形成第二特征图的步骤,包括:将所述中间特征图输入至所述第五卷积层,通过所述第五卷积层、所述批归一化层和所述激活函数层先后对所述中间特征图进行处理,得到所述激活函数层输出的经处理后的所述中间特征图;其中,经处理后的所述中间特征图的前景特征强于背景特征;将所述第一特征图和经处理后的所述中间特征图输入至所述乘法运算层;通过所述乘法运算层对所述第一特征图和经处理后的所述中间特征图进行乘法运算,生成第二特征图。

进一步,所述根据所述候选区域信息和所述第二特征图,生成检测结果的步骤,包括:将所述候选区域信息和所述第二特征图输入至候选区域特征提取层;通过所述候选区域特征提取层基于所述候选区域信息,在所述第二特征图上提取每个所述候选区域的区域特征;基于每个候选区域的区域特征进行目标检测,生成检测结果。

进一步,所述基于每个所述候选区域的区域特征进行目标检测,生成检测结果的步骤,包括:通过所述分类子网络对每个所述候选区域的区域特征进行分类处理,确定所述目标图像中的目标类别;和/或,通过回归子网络对每个所述候选区域的区域特征进行回归处理,得到所述目标图像中的目标位置。

进一步,所述分类子网络和所述回归子网络均为一个全连接层。

第二方面,本发明实施例还提供一种目标检测装置,包括:图像获取模块,用于获取待检测的目标图像;第一特征图生成模块,用于对所述目标图像进行特征提取,生成第一特征图;其中,所述第一特征图包含有不同尺度的特征信息;候选识别模块,用于对所述第一特征图进行区域候选识别,得到所述目标图像的候选区域信息;检测模块,用于根据所述候选区域信息和所述第一特征图,生成检测结果;所述检测结果包含所述目标图像中的目标类别和/或目标位置。

第三方面,本发明实施例提供了一种目标检测系统,所述系统包括:图像采集装置、处理器和存储装置;所述图像采集装置,用于采集目标图像;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行上述第一方面任一项所述的方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种目标检测方法、装置及系统,能够对获取的目标图像进行特征提取,生成包含有不同尺度的特征信息的第一特征图;然后对第一特征图进行区域候选识别,得到候选区域信息,进而能够根据候选区域信息和第一特征图,生成检测结果。本实施例提供的上述方式能够利用不同尺度的特征信息进行目标检测,有效地提升了检测效果。

本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图;

图2示出了本发明实施例所提供的一种目标检测流程图;

图3示出了本发明实施例所提供的一种上下文增强网络的结构示意图;

图4示出了本发明实施例所提供的一种空间注意力网络的结构示意图;

图5示出了本发明实施例所提供的一种目标检测模型的结构示意图;

图6示出了本发明实施例所提供的一种目标检测系统的结构框图;

图7示出了本发明实施例所提供的一种第一特征图生成示意图;

图8示出了本发明实施例所提供的一种第二特征图生成示意图;

图9示出了本发明实施例所提供的一种目标检测装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到现有技术中的目标检测效果不佳,为改善此问题,本发明实施例提供的一种目标检测方法、装置及系统,该技术可采用相应的软件或硬件实现,以下对本发明实施例进行详细介绍。

实施例一:

首先,参照图1来描述用于实现本发明实施例的目标检测方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑阵列(pla)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合,并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地,用于实现根据本发明实施例的目标检测方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二:

参见图2所示的一种目标检测流程图,该方法可由前述实施例提供的电子设备执行,该方法具体包括如下步骤:

步骤s202,获取待检测的目标图像。其中,该目标图像中包含有待检测的目标对象。其中,目标对象的类别可以根据实际需要而自行设定,诸如设定目标对象可以为人、猫、车等。

在一种实施方式中,可以将诸如摄像头等图像采集设备直接采集的图像帧作为目标图像。在另一种实施方式中,可以首先通过摄像头获取待检测的初始图像,然后对初始图像进行预处理,得到目标图像;也即,对摄像头直接采集的图像帧进行预处理,将预处理后的图像作为目标图像。其中,预处理可以包括白化操作等图像处理操作。其中,白化操作也可称为去均值操作,其主要操作过程是将初始图像的每个通道减去该通道对应的预设平均值,然后再除以该通道对应的方差,从而得到预处理后的图像。通过对初始图像进行预处理,得到符合要求的图像,能够有效的加快检测速度。诸如,采用神经网络对目标图像进行检测时,经处理得到的目标图像有助于加快神经网络的收敛速度。

步骤s204,对目标图像进行特征提取,生成第一特征图;其中,第一特征图包含有不同尺度的特征信息。

在具体实施时,第一特征图的生成方式可以为:将目标图像输入至基础神经网络;通过基础神经网络对目标图像进行多阶段特征提取,得到不同尺度的特征信息;其中,每个阶段提取出的特征信息的尺度不同;最后将多个指定阶段对应的特征信息融合形成第一特征图。

上述基础神经网络即为能够提取图像特征的骨干网络,主要作用为提取图像特征,并生成特征图。为了能够提升检测效率,可以选择诸如xception或shufflenet等轻量级特征提取网络作为本实施例中的基础神经网络。其中,轻量级特征提取网络的特征在于网络结构简单、内存需求低、运算量较小以及检测效率较高。

步骤s206,对第一特征图进行区域候选识别,得到目标图像的候选区域信息。其中,候选区域信息可以包括多个候选区域的位置信息和置信度等。候选区域也即目标图像中可能包含有目标对象的区域。

诸如,将第一特征图输入至区域候选生成网络(regionproposalnetwork,rpn);通过区域候选生成网络对第一特征图进行特征提取,得到中间特征图,并对所述中间特征图进行候选区域识别,得到目标图像的候选区域信息。步骤s206可表明,本发明实施例提供的目标检测方法具体采用了二阶段检测算法的基本原理。其中,二阶段检测算法的基本原理为:首先预测图像中的候选区域(又可称为候选框),然后基于候选区域预测包含有目标对象的目标区域(又可称为检测框)。相比于直接预测目标区域的一阶段检测算法而言,二阶段检测算法的检测精度更好。二阶段检测算法可采用诸如fasterr-cnn、r-fcn等网络模型实现,其中,区域候选生成网络是各种二阶段检测模型所采用的常用网络,用于生成多个候选区域。

步骤s208,根据候选区域信息和第一特征图,生成检测结果;检测结果包含目标图像中的目标类别和/或目标位置。

本发明实施例提供的上述目标检测方法,能够对获取的目标图像进行特征提取,生成包含有不同尺度的特征信息的第一特征图;然后对第一特征图进行区域候选识别,得到候选区域信息,进而能够根据候选区域信息和第一特征图,生成检测结果。本实施例提供的上述方式能够利用不同尺度的特征信息进行目标检测,有效地提升了检测效果。

在采用基础神经网络对目标图像进行特征提取时,可以理解的是,神经网络的特征提取过程通常包括多个阶段,每个阶段都可以对上个阶段得到的特征信息(特征信息可以以特征图的形式体现)进一步提取特征,得到该阶段对应的特征信息,不同阶段得到的特征信息的尺度不同。为了能够在目标检测过程中融入不同尺度的语义信息和上下文信息,本实施例从基础神经网络的多个阶段中选取若干阶段作为指定阶段,将指定阶段对应的特征信息融合形成第一特征图。

在一种实施方式中,指定阶段可以为基础神经网络的最后两个阶段,诸如,如果基础神经网络在特征提取过程中一共有四个阶段,则选用第三阶段和第四阶段作为指定阶段。在将多个指定阶段对应的特征信息融合形成第一特征图时,可以参照如下步骤实现:

步骤1,获取基础神经网络的倒数第二个阶段提取的第一特征信息;

步骤2,获取基础神经网络的最后一个阶段提取的第二特征信息;

步骤3,对第二特征信息进行全局池化操作,得到第三特征信息;

步骤4,通过上下文增强网络将第一特征信息、第二特征信息和第三特征信息融合形成第一特征图。

通过上述方式,能够有效地多尺度表达目标图像。可以理解的是,在提取图像特征时,如果采取固定尺度的特征检测方式,就会得到偏向该尺度的检测结果,而漏检其它尺度的特征。基于此,本发明实施例通过基础神经网络对目标图像进行多阶段特征提取,可将图像在多个尺度上进行检测和匹配,从而使得到的第一特征图所包含的特征信息更为准确。

在一种实施方式中,参见图3所示的一种上下文增强网络的结构示意图,上下文增强网络可以包括并行的第一卷积层、第二卷积层和第三卷积层;其中,第二卷积层的输出端还连接有上采样操作层,第三卷积层的输出端还连接有广播操作层。第一卷积层的输出端、上采样操作层的输出端和广播操作层的输出端共同连接有加法操作层。

第一卷积层、第二卷积层和第三卷积层的参数可以相同或不同,诸如,都选用包含有245个大小为1*1的卷积核的卷积层实现,从而将接收到的特征信息通过1*1的卷积核压缩为245个通道。

在通过上下文增强网络将第一特征信息、第二特征信息和第三特征信息融合形成第一特征图时,可以参照如下步骤实现:

(1)将第一特征信息输入至第一卷积层、将第二特征信息输入至第二卷积层,以及将第三特征信息输入至第三卷积层;也即,将不同阶段得到的特征信息分别输入到对应的卷积层中;

(2)通过第一卷积层对第一特征信息进行卷积操作,得到具有指定尺度的第一特征信息;诸如,第一特征信息表现为大小是20*20的特征图,通过第一卷积层的1*1卷积操作后,得到指定大小为20*20的特征图。

(3)通过第二卷积层和上采样操作层先后对第二特征信息进行卷积操作和上采样操作,得到具有指定尺度的第二特征信息;诸如,第二特征信息表现为大小是10*10的特征图,通过第二卷积层的1*1卷积操作以及上采样操作层的两倍上采样(2*upsample)后,得到指定大小为20*20的特征图。

(4)通过第三卷积层和广播操作层先后对第三特征信息进行卷积操作和广播操作,得到具有指定尺度的第三特征信息;诸如,第三特征信息表现为1*1的特征图,通过第三卷积层的1*1卷积操作以及广播操作层的广播操作后,得到指定大小为20*20的特征图。

(5)通过加法操作层对具有指定尺度的第一特征信息、具有指定尺度的第二特征信息和具有指定尺度的第三特征信息进行加和处理,形成第一特征图。

通过将不同阶段得到的特征信息转换为相同尺度(大小),从而将不同阶段得到的特征信息进行加和处理,得到最终包含有多种语义信息和上下文信息的特征图。

为了进一步提升目标检测速度,相比于常规的区域候选生成网络,本实施例提供了一种结构精简的区域候选生成网络,该区域候选生成网络包括顺次连接的通道卷积层和第四卷积层。诸如,该通道卷积层可以是包括1个大小为5*5的通道卷积,该第四卷积层可以包括256个大小为1*1的卷积核,又可称为256通道的1*1标准卷积。通过这种区域候选生成网络,能够简便地识别出特征图中的候选区域,诸如,其能产生多达200个候选区域。

为了能够进一步提升目标检测精度,根据候选区域信息和第一特征图,生成检测结果的一种实施方式可以是:将第一特征图和区域候选生成网络在生成候选区域信息的过程中得到的中间特征图输入至空间注意力网络;通过空间注意力网络将第一特征图和中间特征图融合形成第二特征图;其中,第二特征图的前景特征强于背景特征,其又可理解为第二特征图的前景区域的特征值(简称前景特征值)高于背景区域的特征值(简称背景特征值)。根据候选区域信息和第二特征图,生成检测结果。可以理解的是,区域候选生成网络在生成候选区域信息的过程中所得到的中间特征图也潜在包含有前景信息和背景信息,其中,前景信息又可以理解为目标对象所在区域的信息,背景信息可理解为没有包含目标对象的区域的信息;空间注意力网络基于中间特征图,可对第一特征图中的前景区域的特征进行增强处理(诸如,增大前景特征值)、背景区域的特征进行削弱处理(诸如,降低背景特征值),从而得到前景特征强于背景特征的第二特征图。为便于理解,在此简单示例如下:假设第一特征图中的前景特征值为0.5,背景特征值为0.4,前景区域与背景区域的区分度不大;但是经过空间注意力网络处理后,可以将前景特征值提升为0.6,背景特征值降低为0.1,使得前景特征明显强于背景特征,增大了前景区域与背景区域的区分度,并有效突显出前景区域。应当注意的是,以上仅为示例性说明,举例说明了在第一特征图的前景特征值略优于背景特征值但数值相差不大时,空间注意力网络仍可增强进一步前景特征值,进一步削弱背景特征值,以增加前景区域与背景区域之间的区分度。当然第一特征图也会出现前景特征值低于背景特征值的情况,此时空间注意力网络会更大程度的提升前景特征值以及降低背景特征值,从而使前景特征值高于背景特征值,在此不再赘述。通过这种采用空间注意力网络增强前景特征,削弱背景特征的方式,有助于增强候选区域的特征,也即使之后在第二特征图上直接提取的候选区域的特征更加突显,使得检测结果更加准确。

一种实施方式中,空间注意力网络包括顺次连接的第五卷积层和激活函数层;激活函数层的输出端连接有乘法运算层。诸如,该第五卷积层可以包括245个大小为1*1的卷积核,该激活函数层可以采用sigmoid激活函数实现。在另一种实施方式中,第五卷积层和激活函数层之间还连接有批归一化层(batchnorm)。

结合图4所示的一种空间注意力网络的结构示意图,进一步阐述通过空间注意力网络生成第二特征图的具体实现方式:将中间特征图输入至第五卷积层,通过第五卷积层、批归一化层和激活函数层先后对中间特征图进行处理,得到激活函数层输出的经处理后的中间特征图;其中,经处理后的中间特征图的前景特征强于背景特征;将第一特征图和经处理后的中间特征图输入至乘法运算层;通过乘法运算层对第一特征图和各候选区域的增强特征进行乘法运算,生成第二特征图。经处理后的中间特征图可以体现出各区域的特征权重,上述空间注意力生成网络能够基于特征权重对第一特征图中的特征进行加权(re-weight),加权后得到的第二特征图中的前景特征强于背景特征,有助于突显目标所在区域,提升目标检测结果的准确性。

在生成第二特征图后,可以将候选区域信息和第二特征图均输入至候选区域特征提取层;通过候选区域特征提取层基于候选区域信息,在第二特征图上提取每个候选区域的区域特征;然后基于每个候选区域的区域特征进行目标检测,生成检测结果。候选区域提取层在提取区域特征时,可以对候选区域执行诸如以下操作中的一种;roipooling(regionofinterestpooling,感兴趣区域池化)操作、psroipooling(positionsensitiveregionofinterestpooling,位置敏感的感兴趣区域池化)操作、roialign(regionofinterestalign,感兴趣区域对齐)操作或psroialign(positionsensitiveregionofinterestalign,位置敏感的感兴趣区域对齐)操作等。

当通过候选区域特征提取层提取出每个候选区域的区域特征时,则可基于各候选区域的区域特征进行目标检测,具体而言,可以通过分类子网络对每个候选区域的区域特征进行分类处理,确定目标图像中的目标类别;和/或,通过回归子网络对每个候选区域的区域特征进行回归处理,得到目标图像中的目标位置。

为了能够进一步提升目标检测效率,缩短检测时间,本实施例采用的分类子网络和回归子网络可以均为一个全连接层。其中,作为分类子网络的全连接层的通道数可以为类别数;作为回归子网络的全连接层的通道数可以为4通道。除此之外,分类子网络和回归子网络之前均可再接有一个全连接层,通过该全连接层首先对各候选区域的区域特征进一步提取特征,以便分类子网络和回归子网络能够针对进一步提取的区域特征更好地进行分类和边框回归。在一种实施方式中,分类子网络和回归子网络之前的全连接层可具有1024通道。

为便于理解,可以参见图5所示的一种目标检测模型的结构示意图,该目标检测模型可用于实现上述目标检测方法,具体示意出了基础神经网络、上下文增强网络、空间注意力网络、区域候选生成网络、候选区域特征提取层、分类子网络和回归子网络的连接关系,各网络的具体作用在此不再赘述。应当注意的是,图5所示的目标检测模型仅为一种示例,在实际应用中,可以在图5所示的目标检测模型中适应性的填加其它网络结构或者删减部分网络结构。

综上所述,通过本实施例提供的上述目标检测方法,采用上下文增强网络可以有效结合不同尺度的语义信息和上下文信息,使得特征图包含有多种尺度的特征信息;采用空间注意力网络可以对候选区域的特征进行增强处理,以便更好地基于具有增强特征的候选区域进行目标检测,得到更为准确的检测结果。而且,本实施例采用的基础神经网络为轻量级特征提取网络,本实施例提出的上下文增强网络、空间注意力网络、分类子网络和回归子网络结构精简,运算量较小,有效提升了检测效率。综上所述,本实施例提出的上述目标检测方法,能够有效提升目标检测精度和目标检测速度。

实施例三:

本实施例提供了一种应用前述目标检测方法的具体示例,具体示意出一种基于深度神经网络的目标检测系统(又可称为目标检测模型),该目标检测系统主要是对当前的轻量级二阶段目标检测算法(诸如,light-headr-cnn)进行了改进,用以实现高效、高精度的目标检测。

整体而言,本发明实施例提供的目标检测系统主要包括以下三个模块:图像预处理模块,区域候选(regionproposal)提取模块和区域候选识别模块。其中,图像预处理模块负责对输入的图像(也即,前述原始图像)进行预处理,区域候选提取模块主要使用卷积神经网络来产生潜在的目标区域(也即,前述候选区域),区域候选识别模块主要使用神经网络对区域候选提取模块提取的区域候选进行识别,得到最后的检测结果。在实际应用中,目标检测系统也可以不设置图像预处理模块,而是直接将原始图像输入至区域候选提取模块即可。图像预处理模块的主要作用在于加快目标检测速度。

具体而言,本实施例提供了如图6所示的一种目标检测系统的结构框图,图6为图5的一种具体实现方式,相比于图5而言更加形象化且具体化,以下结合图6对本实施例提供的轻量级二阶段检测方法进一步阐述如下:

步骤一:图像处理

对待检测的图像进行白化操作,得到可输入至神经网络的目标图像,并将目标图像缩放为320*320像素大小。具体而言,图6所示的输入(input)也即目标图像,大小为320*320*3。

步骤二:提取候选区域

将上述目标图像输入至基础神经网络(又可称为骨干网络,backbone),通过基础神经网络提取目标区域的特征。为了提高检测效率,可以使用轻量级的基础网络xception和shufflenet实现。

为了增强目标检测系统的特征表示能力,图6所示的目标检测系统还示意出了上下文增强网络(又可称为上下文增强模块,contextenhancementmodule,cem),用以融合不同尺度的语义信息和上下文信息。结合上个实施例提供的如图3所示的上下文增强网络的结构示意图,参见图7所示的一种第一特征图生成示意图,其利用了基础神经网络中第3个阶段产生的特征图c4(尺度为20*20),第4个阶段产生的特征图c5(尺度为10*10),以及特征图c5经全局池化(globalavgpooling)之后的特征图cglb(尺度为1*1),特征图c4经上下文增强网络中的第一卷积层进行1*1卷积并压缩为245个通道,得到尺度为20*20的c4—lat;特征图c5经上下文增强网络中的第二卷积层进行1*1卷积,并压缩为245个通道,之后再经过上采样操作层进行两倍上采样操作(2*upsample),得到尺度为20*20的c5—lat,特征图cglb经上下文增强网络中的第三卷积层进行1*1卷积,并压缩为245个通道,之后再经过广播操作层进行广播操作(broadcast),得到尺度为20*20的cglb—lat,最终c4—lat、c5—lat和cglb—lat通过加法操作层相加,得到第一特征图cem_fm(大小为20*20*245)。

之后,将第一特征图cem_fm输入至区域候选生成网络rpn,以通过rpn产生潜在的目标框(boundingbox),潜在的目标框即为前述候选区域。为了提升计算效率,区域候选生成网络只包含一个5x5通道卷积(depthwiseconvolution)和一个256通道的1x1标准卷积。在具体实施时,通过区域候选生成网络,每张图片可以产生多达200个候选区域。具体而言,图6中示意出区域候选生成网络基于第一特征图cem_fm生成中间特征图rpn_fm(大小为20*20*256),然后也示意出了由rpn_fm生成rols(regionofinterest,感兴趣区域),也即得到候选区域信息。

步骤三:识别候选区域

为了进一步增强目标检测系统的特征表示能力,图6所示的目标检测系统还示意出了空间注意力网络(又可称为空间注意力模块,spatialattentionmodule,sam),用来对上下文增强网络产生的第一特征图中的特征进行加权(re-weight)。具体而言,结合图4所示的一种空间注意力网络的结构示意图,本实施例又示意出如图8所示的一种第二特征图生成示意图,示意出rpn输出的中间特征图rpn_fm先后经过1*1卷积层、batchnorm归一层和sigmoid激活层,与第一特征图cem_fm进行元素乘运算,得到第二特征图sam_fm。如图6所示,空间注意力网络所得的第二特征图sam_fm的大小为20*20*245。

之后,可以对第二特征图sam_fm进行诸如roipooling操作、psroipooling操作、roialign操作或psroialign操作等,以提取区域特征。如图6所示,基于rols对第二特征图sam_fm执行psroialign操作(为了简洁,图6中未示意出执行psroialign操作的候选区域特征提取层),得到各候选区域的区域特征rol_fm(大小为7*7*5),并利用r-cnn子网络对每个候选区域进行识别,识别包括分类(classification)和边框回归(boundingboxregression)两个任务,最终得到分类结果和回归结果。在实际应用中,r-cnn子网络可以首先包括一层1024通道的全连接层(fc,fully-connectedlayer),然后包括并行接在该全连接层之后的两个全连接层,一个用于分类,其通道数与类别数相同,另一个用于边框回归,也即计算目标框的坐标,其通道数为4通道。为了简洁,图6只是象征性示意出了一个1024通道的全连接层fc,其可用于对候选区域的区域特征进行特征再提取,然后将再提取的特征分别进行分类和边框回归,得到分类结果和回归结果。为了验证本发明实施例提供的轻量级二阶段目标检测方法的性能,在mscoco数据集上将本发明实施例提供的目标检测方法与现有的轻量级目标检测方法进行了比较,结果如表1所示。

表1

表1中的ap(averageprecision)可表示为各目标检测方法的平均检测精度,mflops可表示为各目标检测方法得到检测结果时的计算量。从表1中可以看出,本发明实施例提供的目标检测方法(最后三排所示的mobilelight-headr-cnn)可以利用不到一半的计算量实现相同甚至更好的检测准确率;而在相近计算量下,本发明实施例提供的目标检测方法可以实现明显更好的检测准确率。也即,本发明实施例提供的目标检测方法有效地提升了目标检测速度和目标检测精度。

实施例四:

对于实施例二中所提供的目标检测方法,本发明实施例提供了一种目标检测装置,参见图9所示的一种目标检测装置的结构框图,包括:

图像获取模块902,用于获取待检测的目标图像;

第一特征图生成模块904,用于对目标图像进行特征提取,生成第一特征图;其中,第一特征图包含有不同尺度的特征信息;

候选识别模块906,用于对第一特征图进行区域候选识别,得到目标图像的候选区域信息;

检测模块908,用于根据候选区域信息和第一特征图,生成检测结果;检测结果包含目标图像中的目标类别和/或目标位置。

本发明实施例提供的上述目标检测装置,能够对获取的目标图像进行特征提取,生成包含有不同尺度的特征信息的第一特征图;然后对第一特征图进行区域候选识别,得到候选区域信息,进而能够根据候选区域信息和第一特征图,生成检测结果。本实施例提供的上述方式能够利用不同尺度的特征信息进行目标检测,有效地提升了检测效果。

在一种实施方式中,上述图像获取模块902用于:获取待检测的初始图像;对初始图像进行预处理,得到目标图像;其中,预处理包括白化操作。

在一种实施方式中,上述第一特征图生成模块904用于:将目标图像输入至基础神经网络;通过基础神经网络对目标图像进行多阶段特征提取,得到不同尺度的特征信息;其中,每个阶段提取出的特征信息的尺度不同;将多个指定阶段对应的特征信息融合形成第一特征图。

在一种实施方式中,上述第一特征图生成模块904进一步用于:获取基础神经网络的倒数第二个阶段提取的第一特征信息;获取基础神经网络的最后一个阶段提取的第二特征信息;对第二特征信息进行全局池化操作,得到第三特征信息;通过上下文增强网络将第一特征信息、第二特征信息和第三特征信息融合形成第一特征图。

在一种实施方式中,上述上下文增强网络包括并行的第一卷积层、第二卷积层和第三卷积层;其中,第二卷积层的输出端还连接有上采样操作层,第三卷积层的输出端还连接有广播操作层;第一卷积层的输出端、上采样操作层的输出端和广播操作层的输出端共同连接有加法操作层。

在一种实施方式中,上述第一特征图生成模块904进一步用于:将第一特征信息输入至第一卷积层、将第二特征信息输入至第二卷积层,以及将第三特征信息输入至第三卷积层;通过第一卷积层对第一特征信息进行卷积操作,得到具有指定尺度的第一特征信息;通过第二卷积层和上采样操作层先后对第二特征信息进行卷积操作和上采样操作,得到具有指定尺度的第二特征信息;通过第三卷积层和广播操作层先后对第三特征信息进行卷积操作和广播操作,得到具有指定尺度的第三特征信息;通过加法操作层对具有指定尺度的第一特征信息、具有指定尺度的第二特征信息和具有指定尺度的第三特征信息进行加和处理,形成第一特征图。

在一种实施方式中,上述基础神经网络为轻量级特征提取网络。

在一种实施方式中,上述候选识别模块906用于:将第一特征图输入至区域候选生成网络;通过区域候选生成网络对第一特征图进行特征提取,得到中间特征图,并对所述中间特征图进行候选区域识别,得到目标图像的候选区域信息。

在一种实施方式中,上述区域候选生成网络包括顺次连接的通道卷积层和第四卷积层。

在一种实施方式中,上述检测模块908用于将第一特征图和中间特征图均输入至空间注意力网络;通过空间注意力网络将第一特征图和中间特征图融合形成第二特征图;其中,第二特征图的前景特征强于背景特征;根据候选区域信息和第二特征图,生成检测结果。

在一种实施方式中,上述空间注意力网络包括顺次连接的第五卷积层和激活函数层;激活函数层的输出端连接有乘法运算层。

在一种实施方式中,上述第五卷积层和激活函数层之间还连接有批归一化层。

在一种实施方式中,上述检测模块908进一步用于:将中间特征图输入至第五卷积层,通过第五卷积层、批归一化层和激活函数层先后对中间特征图进行处理,得到激活函数层输出的经处理后的中间特征图;其中,经处理后的中间特征图的前景特征强于背景特征;将第一特征图和经处理后的中间特征图输入至乘法运算层;通过乘法运算层对第一特征图和经处理后的中间特征图进行乘法运算,生成第二特征图。

在一种实施方式中,上述检测模块908进一步用于:将候选区域信息和第二特征图输入至候选区域特征提取层;通过候选区域特征提取层基于候选区域信息,在第二特征图上提取每个候选区域的区域特征;基于每个候选区域的区域特征进行目标检测,生成检测结果。

在一种实施方式中,上述检测模块908进一步用于:通过分类子网络对每个候选区域的区域特征进行分类处理,确定目标图像中的目标类别;和/或,通过回归子网络对每个候选区域的区域特征进行回归处理,得到目标图像中的目标位置。

在一种实施方式中,上述分类子网络和回归子网络均为一个全连接层。

本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

此外,本实施例提供了一种目标检测系统,该系统包括:图像采集装置、处理器和存储装置;图像采集装置,用于采集待检测图像;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行前述目标检测方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统具体工作过程,可以参考前述实施例中的对应过程,在此不再赘述。

进一步,本实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例二所提供的方法的步骤。

本发明实施例所提供的目标检测方法、装置及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1