粗细分类相结合的图像目标检测方法及相关装置与流程

文档序号:27943193发布日期:2021-12-11 13:26阅读:464来源:国知局
粗细分类相结合的图像目标检测方法及相关装置与流程

1.本技术涉及计算机视觉技术领域,尤其涉及一种粗细分类相结合的图像目标检测方法、装置、设备及存储介质。


背景技术:

2.近几年来,目标检测技术主要是基于深度学习模型,即利用卷积神经网络(如lenet、vggnet、resnet50等)作为特征提取网络提取目标对象的深层特征来进行分类和定位。由于检测过程中目标对象的种类和数目都不确定,目标的形态、大小、材质也各不相同,由此形成了目标类内差异大、粗类中包含多种可拆分子类的目标检测问题。
3.针对目标检测过程中某些目标类内差异大、粗类中包含多种可拆分子类的问题,若按照常规检测流程,一般有两种处理方式:一种是直接将其视为一个类别进行检测,由于类内特征混杂,此时模型很难抽取出有效的共性特征来准确而又全面的表征所有子类目标;另一种是将所有子类都拆分出来,分别作为一个单独的类进行检测,由于检测的类别多样,有些类别需要拆分,而有些类别的特征较为稳定,如打火机类基本上都是外壳中包含一个打火机芯的结构,是不需要拆分的,如果将拆分后的细类和无需拆分的大类一起进行检测,此时将面临一个可区分特征粒度不一致的问题,例如模型既需要从整体特征上区分刀和打火机,又要从刀的细节特征上区分折叠刀和刀片,整体特征粒度较粗而细节特征粒度较细,模型很难在同一个分类器中同时兼顾学习不同粒度的特征,导致最终识别效果不理想。


技术实现要素:

4.基于上述技术现状,本技术提出一种粗细分类相结合的图像目标检测方法、装置、设备及存储介质,能够在类内差异大、粗类中又包含子类的图像目标检测任务中,基于不同粒度的图像特征对图像分别进行粗分类和细分类,从而获得理想的图像目标检测和分类效果。
5.为了达到上述技术效果,本技术具体提出如下技术方案:一种粗细分类相结合的图像目标检测方法,包括:从待检测图像中提取候选区域,并且获取候选区域特征;基于候选区域特征进行目标检测处理,得到第一检测结果,所述第一检测结果至少包括对候选区域的粗分类结果;从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
6.一种粗细分类相结合的图像目标检测装置,包括:特征提取模块,用于从待检测图像中提取候选区域,并且获取候选区域特征;粗分类模块,用于基于候选区域特征进行目标检测处理,得到第一检测结果,所述第一检测结果至少包括对候选区域的粗分类结果;
细分类模块,用于从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
7.一种粗细分类相结合的图像目标检测设备,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现上述的粗细分类相结合的图像目标检测方法。
8.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的粗细分类相结合的图像目标检测方法。
9.本技术实施例提出的粗细分类相结合的图像目标检测方法,由粗粒度到细粒度地对候选区域进行特征提取,并基于提取的粗粒度特征对候选区域进行粗分类,以及基于提取的细粒度特征对候选区域进行细分类,由此可以同时得到对候选区域的粗分类结果和细分类结果。该粗细分类相结合的图像目标检测方法在类内差异大、粗类中又包含子类的图像目标检测任务中,可以基于不同粒度的图像特征对图像分别进行粗分类和细分类,从而既能在粗粒度上对图像中的目标对象进行识别,又能对目标对象进行粗类下的子类识别,因此能够更加准确、全面地识别图像目标。
10.进一步的,相较于以树形级联结构进行先粗后细渐进式分类的方法而言,本技术实施例提出的图像目标检测方法实现了从粗到细的图像特征提取过程,粗分类和细分类各取所需,应用相应粒度的特征进行图像分类,使得细分类结果不依赖粗分类结果,因此能够充分保证分类结果的准确度。
附图说明
11.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
12.图1是本技术实施例提供的一种粗细分类相结合的图像目标检测方法的流程示意图;图2是本技术实施例提供的目标检测模型的结构示意图;图3是本技术实施例提供的至少一个细分类模型的结构示意图;图4是本技术实施例提供的细粒度特征提取过程示意图;图5是本技术实施例提供的从待检测图像中提取候选区域以及获取候选区域特征的过程示意图;图6是本技术实施例提供的粗细分类相结合的图像目标检测模型的结构示意图;图7是本技术实施例提供的一种粗细分类相结合的图像目标检测装置的结构示意图;图8是本技术实施例提供的一种粗细分类相结合的图像目标检测设备的结构示意图。
具体实施方式
13.本技术实施例技术方案应用于图像目标检测的应用场景。采用本技术实施例技术方案,不仅能够从图像中检测出目标对象并对目标对象进行粗分类以及位置标注,而且还能对图像中的目标对象进行细分类,在类内差异大、粗类中又包含子类的图像目标检测任务中能够取得更好的检测效果。
14.目前主流的目标检测算法可以归为两大类:two

stage两阶段检测算法和one

stage单阶段检测算法。two

stage检测算法首先利用rpn网络生成候选区域(region proposals)进行粗定位,然后在模型头部对候选区域进行精定位和分类预测,典型的two

stage检测算法包括faster r

cnn,rfcn等系列方法;而one

stage检测算法则是基于主干网络提取的特征直接回归目标对象的类别概率和位置信息,不生成候选区域进行粗定位,典型的算法包括yolov1/v2/v3、ssd等。
15.two_stage目标检测模型主要包括以下几大模块:1)backbone + neck特征提取模块:backbone包含一系列的卷积conv、池化pooling、正则化bn/gn、非线性激活层relu等操作,用于提取图像的深层卷积特征,常用的backbone包括vgg19、resnet50、inceptionnet等;neck部分则主要是将具有高级语义信息的顶层特征和具有明显几何信息的底层特征进行逐级融合,以达到丰富特征表达能力的目的。最终得到的深层卷积特征可用四维向量n*c*h*w表示,其中n为输入图像batch_size的大小,c为特征通道数,常设置为256或更高维,h/w为特征图的空间尺寸大小。
16.2)rpn候选区域生成模块:基于提取的卷积特征,rpn网络以特征图各像素点为中心分别预设一系列anchors,初步定位可能包含有目标对象的候选区域proposals,该模块只分析候选区域中是否包含有目标对象(前景/背景),而不关注目标对象所属的具体类别,且只初步定位目标对象位置。
17.3)rcnn head 头部模块:生成候选区域后,即可将其映射回backbone卷积特征图上截取对应部分的特征进行分类和位置回归预测。由于各proposal尺寸不一,为了得到固定维度的全连接层输入特征,需先进行roi pooling操作将该部分特征进行池化,假设池化块数设置m*m,则得到n*c*m*m维度的候选区域特征向量。然后,接入若干全连接层fc进行特征映射,最后分别接入n*cls_num分类器和n*4回归器即可准确预测目标类别概率并精确回归目标位置。模型头部也可以采用cascade级联方式,将上一级预测得到的目标框作为下一级候选区域,进行多级回归和预测可得到更准确的检测结果。
18.由于图像目标检测过程中目标对象的种类和数目都不确定,目标的形态、大小、材质也各不相同,时常遇到类内差异大、粗类中又包含子类的图像目标检测任务。例如在x光安检场景中,可能出现的违禁品包括刀具、工具、压力容器罐、打火机、烟花爆竹等多种类别,部分类别类内特征差异较大,如刀具类,从外观上看可能包含折叠刀、直柄刀、刀片等多种形态,从大小上看有大菜刀也有小刮胡刀片,在材质上包含金属刀、陶瓷刀、塑料柄的水果刀等多种类别,不同材质在x光下会呈现蓝/绿/黄等不同颜色,且透视性弱的物体会被透视性强的金属材质等遮挡,这些因素导致识别过程存在诸多干扰,想要准确而又全面的检测识别出所有目标对象,是一项十分具有挑战性的任务。目前大部分的检测方法都是将各种类型的刀具视为一个类进行检测,巨大的类内差异导致识别效果不甚理想,且检测的品类不够精细化,成为x光安检场景中的一个痛点。如果直接将各种类型的刀具都拆分出来和
其他类别一起进行检测,由于子类与大类间的可区分特征粒度不一致,模型的特征学习过程变得更加困难,子类检测精度很难达到实战要求。
19.针对目标检测过程中某些目标类内差异大、粗类中包含多种可拆分子类的问题,若按照常规检测流程,一般有两种处理方式:一种是直接将其视为一个类别进行检测,由于类内特征混杂,此时模型很难抽取出有效的共性特征来准确而又全面的表征所有子类目标;另一种是将所有子类都拆分出来,分别作为一个单独的类进行检测,由于检测的类别多样,有些类别需要拆分,而有些类别的特征较为稳定,如打火机类基本上都是外壳中包含一个打火机芯的结构,是不需要拆分的,如果将拆分后的细类和无需拆分的大类一起进行检测,此时将面临一个可区分特征粒度不一致的问题,例如模型既需要从整体特征上区分刀和打火机,又要从刀的细节特征上区分折叠刀和刀片,整体特征粒度较粗而细节特征粒度较细,模型很难在同一个分类器中同时兼顾学习不同粒度的特征,导致最终识别效果不理想。
20.有些方法提出借鉴人类的认知学习过程,采用由粗到细的方式递进分类,即先设置一个粗分类器,预测目标所属的粗类别,然后根据粗分类器的识别结果设置一个细分类器详细预测该目标所属的细类。这种由粗到细的渐进式分类方法,看似分离了粗分类和细分类识别流程,但其第一步粗分类识别过程就会面临由于类内差异大而无法准确预测所属粗类的问题,在不准确的粗类预测结果指引下细分类器也很难得到有效的训练。
21.可见,主流的目标检测算法在应对类内差异大、粗类中又包含子类的图像目标检测任务时,不能取得可观的检测效果。
22.基于上述技术现状,本技术实施例提出一套应用于图像目标检测场景的技术方案,该方案尤其适用于类内差异大、粗类中又包含子类的图像目标检测任务。针对这种特殊的图像目标检测任务,本技术具体提出一种粗细分类相结合的多分支细粒度图像目标识别方案,该方案在faster_rcnn模型结构的基础上再额外构造若干细分类分支,使原分类器只检测经过合并的大类,而细分类器则负责检测各大类拆分出来的子类,粗/细分类分支同步训练、相互促进,最终共同提升模型的检测效果。实验效果证明,这种方式能有效提升各粗类的检测精度,且可扩展模型使其具备良好的细类检测能力,从而在类内差异大、粗类中又包含子类的图像目标检测任务中能够取得更好的检测效果。
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.本技术实施例提出一种粗细分类相结合的图像目标检测方法,参见图1所示,该方法包括:s101、从待检测图像中提取候选区域,并且获取候选区域特征。
25.具体的,上述的候选区域,具体是待检测图像中可能包含目标对象的图像区域。该目标对象,是指图像目标检测过程中希望从图像中检测或识别出的目标对象。例如在x光安检中,需要对乘客行李中的违禁品进行检测、识别,则各种违禁品,例如刀具、工具、压力容器罐、打火机、烟花爆竹等,即为该场景下的图像目标检测的目标对象。
26.在本技术实施例提出的粗细分类相结合的图像目标检测方法中,当获取待检测图
像后,首先从待检测图像中提取候选区域。可以理解的是,当从待检测图像中提取候选区域时,具体是提取可能包含哪些目标对象的图像区域,可以根据图像目标检测所希望检测出的对象而确定。例如在x光安检任务中,希望对乘客行李中的违禁品进行检测,则可以从待检测的x光图像中提取可能包含违禁品的图像区域作为候选区域;又比如在人脸识别场景中,希望对自然场景图像中的人脸进行检测、识别,则可以从待检测的自然场景图像中提取可能包含人脸的图像区域作为候选区域。
27.示例性的,可以参照主流的two

stage目标检测算法,先对待检测图像进行特征提取,然后基于提取得到的特征图,通过rpn网络(regionproposal network,区域生成网络)从待检测图像中提取出可能包含有目标对象的候选区域proposals。
28.由于待检测图像中可能并不是只包含一个目标对象,而且,即便最终希望检测的是某一个目标对象,但是在候选区域提取过程中,也可能并不是只提取到一个候选区域。所以,从待检测图像中提取到的候选区域,可以为一个,也可以为多个。为了避免漏检,提取的候选区域通常为多个,然后再通过后续的候选区域分类得到最终检测结果。
29.进一步的,当从待检测图像中提取得到候选区域后,对候选区域进行特征提取,即可获取候选区域特征。
30.作为另一种可选的实现方式,当按照上述的主流two

stage目标检测算法提取得到待检测图像的特征图,并且基于该特征图从待检测图像中提取出候选区域后,将候选区域再映射到待检测图像的特征图上,从该特征图上截取候选区域相应部分的特征图,然后对截取的特征图进行池化处理得到固定维度(如7*7)的特征向量,假设特征通道数设置为256,则n个候选区域最终可得到n*256*7*的特征向量,即为候选区域特征。
31.s102、基于候选区域特征进行目标检测处理,得到第一检测结果,所述第一检测结果至少包括对候选区域的粗分类结果。
32.具体的,基于上述步骤获取的候选区域特征进行位置回归预测和粗分类,得到第一检测结果,该第一检测结果包含了两方面的检测结果,一方面是对候选区域进行位置回归预测得到的候选区域的四个顶点的位置预测结果,另一方面是对候选区域进行分类得到的分类结果。
33.由于本技术实施例技术方案的目的是实现对图像中的目标既能进行粗分类,又能进行细分类。而步骤s102是基于候选区域的整体特征进行检测处理,同时又是对候选区域进行首次分类,因此其分类结果实际上是粗分类的结果。因此,为了便于与后文的细分类的结果相区分,将上述的第一检测结果中包含的对候选区域进行分类得到的分类结果,定义为粗分类结果。
34.作为一种可选的实现方式,可以借助常规的目标检测模型或算法,来基于候选区域特征进行目标检测处理。
35.例如,将候选区域特征输入图2所示的目标检测模型,先接入两层共享fc全连接层,映射得到n*1024维特征向量,然后分别接入n*4的位置回归预测分支和n*cls_num_coarse的粗分类分支,即可得到对候选区域的位置回归预测结果,以及对候选区域的粗分类结果。其中,cls_num_coarse为总的粗类类别数量。
36.s103、从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
37.具体的,上述的候选区域特征,是针对候选区域整体而获取的特征向量,其能够从整体上对候选区域的内容进行表征。
38.基于上述的候选区域特征,本技术实施例从该候选区域特征中进一步提取更细粒度的特征,即提取细粒度特征。该细粒度特征,是相对于候选区域特征所表达的候选区域整体内容来说,能够更加具体地表示候选区域细节内容的特征,该细粒度特征能够用于对候选区域的图像内容在更细粒度上进行区分。
39.基于从候选区域特征中提取的细粒度特征,对候选区域进行图像分类处理,即实现了基于候选区域的细节信息进行图像内容分类。由于分类处理应用了候选区域的细节特征,因此能够从更细的粒度、更精细地对候选区域中的图像内容进行分类,得到对候选区域的细分类结果。
40.作为可选的实现方式,上述的从候选区域特征中提取细粒度特征,以及基于提取的细粒度特征进行图像分类处理,可以利用“特征提取模块+分类器”的模型结构或算法来实现。
41.上述的步骤s102、s103的执行顺序可以灵活设置,比如可以同步执行,也可以根据需求设置两者先后执行。
42.通过上述介绍可见,本技术实施例提出的粗细分类相结合的图像目标检测方法,由粗粒度到细粒度地对候选区域进行特征提取,并基于提取的粗粒度特征对候选区域进行粗分类,以及基于提取的细粒度特征对候选区域进行细分类,由此可以同时得到对候选区域的粗分类结果和细分类结果。该粗细分类相结合的图像目标检测方法在类内差异大、粗类中又包含子类的图像目标检测任务中,可以基于不同粒度的图像特征对图像分别进行粗分类和细分类,从而既能在粗粒度上对图像中的目标对象进行识别,又能对目标对象进行粗类下的子类识别,因此能够更加准确、全面地识别图像目标。
43.进一步的,相较于以树形级联结构进行先粗后细渐进式分类的方法而言,本技术实施例提出的粗细分类相结合的图像目标检测方法实现了从粗到细的图像特征提取过程,粗分类和细分类各取所需,应用相应粒度的特征进行图像分类,使得细分类结果不依赖粗分类结果,因此能够充分保证分类结果的准确度。
44.作为可选的实施方式,上述的从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果,具体包括:从候选区域特征中分别提取与每一种粗类对应的细粒度特征,并基于提取的细粒度特征在相应的粗类范围内进行细粒度图像分类处理,得到对候选区域的细分类结果。
45.具体的,在实际的图像目标检测场景中,可能并不是所有类别的物品都可以更细地进行子类划分,例如在x光安检场景中,对于“刀具”这一粗类可以进一步细分,有些刀具是危险品不允许上车,比如匕首、砍刀等,而有些刀具则是日用品是允许乘客携带的,比如刮胡刀、指甲刀等,因此需要对检测出的刀具进行细分类以确定其是否为危险品;但是对于“打火机”这一类别则通常不再具体细分,因为在某些环境中,只要是打火机无论其具体为何种形式,都是不允许携带的,因此只要能识别出打火机即可,不用关心其具体为何种打火机。
46.基于上述情况,本技术实施例结合方案应用场景,预先确定应当进行细分类的各个粗类。
47.同时,不同的类别在进行细分类时所关注的内容不同,比如对于刀具而言,不同细类的刀具的区别通常体现在刀把形状、整体形状、尺寸、材质等方面,则如果要对刀具这一类别进行细分类,应当从图像中提取与刀把形状、整体形状、尺寸、材质等方面有关的特征信息进行分类。因此,针对不同的粗类别,当对其进行细分类时,应当根据该粗类别下属的各个细类之间的区别特点而提取细粒度特征,使得提取到的细粒度特征能够对该粗类别范围内的各个细类进行有效区分,从而能够基于该细粒度特征实现对该粗类的细分类。
48.所以,在本技术实施例中,当从候选区域特征中提取粗粒度特征时,具体是从候选区域特征中提取与每一种粗类对应的细粒度特征。其中的“每一种粗类”是指在当前应用场景中可能出现的能够或需要被细分的粗类。例如在x光安检场景下,“刀具”、“工具”这些粗类需要进行细分以便识别具体是哪种刀具或哪种工具,因此,“刀具”、“工具”这些粗类就是当前应用场景下需要被细分的粗类。上述的“每一种粗类”的具体内容,可以根据实际应用场景或需求,在本技术实施例介绍的思想下灵活设置。
49.当从候选区域特征中提取到与某一种粗类对应的细粒度特征后,基于提取的细粒度特征,在该粗类范围内进行细粒度图像分类处理,得到对候选区域的细分类结果。
50.可见,本技术实施例实际上是对多种不同的粗类分别进行各自独立的并行细分类处理,对各个粗类的细分类不会相互影响,并且对应每一粗类的细分类都是基于与其对应的细粒度特征而进行的,因此不会发生细粒度特征混淆的情况,能够保证细分类准确度。
51.作为一种优选的实现方式,参见图3所示,本技术实施例对应每一种可能或需要被细分的粗类,分别设置一个相对应的细分类模型。由此可见,每一个细分类模型都对应一种粗类。假设有k个粗类需要或可以进行细分,则相应设置k个细分类模型。
52.每一个细分类模型均是由细粒度特征提取模块和细分类分支构成,经过训练后,每一个细分类模型分别具备从候选区域特征中提取与相应的粗类对应的细粒度特征,并基于提取的细粒度特征进行该粗类范围内的细粒度图像分类处理,从而得到候选区域的细分类结果的能力。
53.例如,假设第一个细分类模型对应“刀具”这一粗类,则当将从待检测图像中提取的候选区域特征输入该细分类模型时,该细分类模型能够从候选区域特征中提取与“刀具”这一类别对应的细粒度特征,然后基于提取的细粒度特征进行“刀具”类别范围内的细粒度图像分类处理,从而得到对候选区域在“刀具”类别范围内的细分类结果,即确定候选区域中的图像内容具体属于哪种刀具。
54.由于粗细分类并存的图像目标检测场景中至少有一个粗类需要进行细分分类,因此需要设置至少一个细分类模型。将获取的候选区域特征分别输入预先训练的至少一个细分类模型,即可借助该细分类模型的功能,得到对候选区域的细分类结果。
55.通过上述介绍可见,本技术实施例在从候选区域特征中提取细粒度特征时,是按照需要细分类的粗类进行提取的,即从候选区域中提取与粗类对应的细粒度特征。有多少种粗类需要进行细分类,则需要对应这些粗类分别提取细粒度特征。
56.作为可选的实现方式,从候选区域特征中提取与一种粗类对应的细粒度特征,例如与一种粗类对应的细分类模型从候选区域特征中提取与该种粗类对应的细粒度特征,具体可参照图4所示,通过执行如下步骤a1

a3实现:a1、对应于该种粗类,从候选区域特征中,提取每个候选区域对应第一数量子类、
每个子类对应第二数量的局部特征图的特征向量。其中,该第一数量的子类同属于该种粗类。
57.具体的,假设该粗类包含的细分类类别数为f,对于输入的候选区域特征(n*256*7*7),首先进行3*3卷积,输出通道数设置为c_out=f *,f *个输出通道意味着对每个子类分别设置个专门检测其局部特征的局部特征图,进行卷积操作后特征向量维度为n* c_out*7*7。
58.a2、对提取得到的特征向量中的、对应每个子类的第二数量的局部特征图分别进行聚合处理,得到每个候选区域对应第一数量子类的特征向量。
59.具体的,将各子类对应的个局部特征图进行聚合,这里采用跨通道最大值池化的方法来实现,即每个通道特征图作为一组,每个空间位置对应着个特征值,取其中最大的特征值作为最后的聚合特征,这样每组特征中的具有判别性的特征点都聚合到一张特征图上,最终得到n*f *7*7的局部特征聚合图。
60.a3、对所述每个候选区域对应第一数量子类的特征向量进行双线性池化处理,得到与该种粗类对应的细粒度特征。
61.具体的,聚合特征图的f个通道分别对应着f个子类,由于细分支中这f个类共属一个大类,特征间的差异性较少,为了捕捉特征间的这种相关关系,这里进一步进行双线性池化bilinear pooling处理,即计算特征图上各空间位置特征间的外积并进行归一化,每个空间位置对应着一个f维向量,经过外积(f *1
ꢀ×ꢀ
1* f)后最终得到n* f 2
维的双线性池化特征,该特征具有较强的细粒度特征表征能力,即可作为与该种粗类对应的细粒度特征。
62.作为一种优选的实施方式,尤其是利用细分类模型从候选区域特征中提取细粒度特征时,当执行上述的步骤a1后,在执行步骤a2之前,执行步骤a4、分别从提取得到的特征向量中的、对应每个子类的第二数量的局部特征图中,随机选择设定比例的局部特征图失活。
63.具体的,在细分类模型训练过程中,为了让每个类别的局部特征检测图学习到更具判别性的信息,这里采用一种通道注意力机制(channel attention),即采用[0]*a+[1]*(
ꢀ‑
a)系数列在特征的通道域上进行加权,让个特征图部分随机失活。如设置a=/2时,失活概率为0.5,这样,每次迭代过程中只有一半的特征图在发挥作用,为了得到正确的分类结果,这一部分特征图就必须学习更强大的特征表达。同时,随机失活能够减少特征间的冗余,增加各个局部特征检测图之间的互补性。
[0064]
基于上述的训练方案,在实际应用过程中,可以适配模型训练过程,当从候选区域特征中提取得到每个候选区域对应f个子类、每个子类对应个局部特征图的特征向量后,从提取得到的特征向量中对应每个子类的个局部特征图中随机选择设定比例的局部特征图失活,然后再对每个子类对应的个局部特征图进行聚合处理。
[0065]
本技术实施例提出的粗细分类相结合的图像目标检测方法将粗分类和细分类分开执行,可以保证细分类结果不受粗分类结果的影响。因此,从待检测图像中提取的各候选区域特征,会分别输入每一细分类分支进行细粒度特征提取以及细分类处理。
[0066]
通常情况下,为了能够准确地将待检测图像中的所有目标对象检出,会从待检测
图像中提取多个候选区域proposals,例如提取1000个proposals。
[0067]
那么,当对这些候选区域进行细分类时,需要将每一个候选区域proposals的特征输入图3所示的每一个细分类模型,同时,如果需要细分的粗类数量较多,则会存在多个细分类模型,每个细分类模型需要分别对每个proposal进行细粒度特征提取、细分类回归预测等处理。这样,候选区域proposals数量越多,基于候选区域特征的细分类处理的计算量就越大。
[0068]
为了减少计算量,加快推理速度,本技术实施例选择联合粗分支的分类结果对候选区域proposals进行过滤处理,以减少进行细分类处理的候选区域数量。
[0069]
即,当从待检测图像中提取的候选区域为多个时,先基于获取的候选区域特征进行目标检测处理,得到对候选区域的粗分类处理,然后,在从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果之前,根据对各候选区域的粗分类结果,对从待检测图像中提取得到的候选区域进行筛选,得到分类置信度最高的n个候选区域;获取该n个候选区域的特征向量,作为更新后的候选区域特征。然后,从该更新后的候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
[0070]
具体的,当从待检测图像中提取得到n个候选区域proposals,以及获取该n个候选区域proposals的特征后,先将这n(如n=1000)个proposals的特征送入粗分类分支,得到n*cls_num_coarse维的类别预测向量,即对n个候选区域proposals的粗分类结果。
[0071]
然后,通过nms非极大值抑制方法,依据粗分类结果选出分类置信度较高的前ntop(如n=300)个检测框,然后进行反索引得到这ntop个检测框对应的n个原始候选区域proposals,以此作为进行细分类的更新后的候选区域,相应的,当确定更新后的候选区域时,基于从待检测图像中获取的候选区域特征,可以获取更新后的候选区域特征。
[0072]
基于该更新后的候选区域特征进行后续的细分类处理,可以使得真正进行细分类的候选区域proposals数量由原始的n个缩减为ntop个,细分类处理的计算量将大大减少。实验证明,进行proposals过滤对最终检测效果无明显影响,而检测速度能提升1.2倍左右。
[0073]
作为一种优选的实现方式,本技术实施例提出的粗细分类相结合的图像目标检测方法在从待检测图像中提取候选区域并且获取候选区域特征时,具体可以借助预先训练的特征提取模型实现。
[0074]
该特征提取模型对待检测图像的候选区域提取和特征提取过程可参见图5所示。
[0075]
待检测图像输入该特征提取模型后,首先利用resnet50残差卷积神经网络作为backbone从下到上提取图像深层特征。残差网络由多个残差模块堆叠而成,各残差模块采用1
×
1、3
×
3、1
×
1卷积层组成瓶颈结构bottleneck进行残差拟合,并利用shortcut连接进行恒等映射,以解决深层网络在梯度回传过程中梯度消失的问题,使得模型在较深深度时依旧能得到有效训练。在backbone由下到上的特征提取过程中,特征空间尺寸逐渐减小,感受野逐渐增大,其语义表达能力逐渐提升。得到顶层特征后,再利用特征金字塔网络fpn(feature pyramid networks)从上到下逐级上采样,并通过侧向连接分别与对应的低层特征图融合,得到多级既具有丰富语义信息又兼备几何特性的特征向量。最终得到的深层卷积特征可用四维向量n*c*h*w表示,其中n为输入图像batch_size的大小,c为特征通道数,通常设置为256或更高维,h/w为特征图的空间尺寸大小。
[0076]
基于提取的卷积特征,rpn网络以特征图各像素点为中心分别预设一系列anchors,定位可能包含有目标对象的候选区域proposals。生成候选区域proposals后,即可将其映射回backbone卷积特征图上截取对应部分的特征得到候选区域特征。由于各proposal尺寸不一,为了得到固定维度的全连接层输入特征,需先进行roi pooling操作将该部分特征进行池化,假设池化块数设置m*m,则得到n*c*m*m维度的候选区域特征向量。
[0077]
作为一种优选的训练方式,上述的特征提取模型至少根据基于该特征提取模型提取得到的候选区域特征执行的粗分类的分类结果的损失函数,以及基于该特征提取模型提取得到的候选区域特征执行的细分类的分类结果的损失函数。
[0078]
具体的,在该特征提取模型的训练过程中,当该提取得到候选区域特征时,基于该候选区域特征执行本技术上述实施例介绍的对候选区域的粗分类处理,并计算粗分类结果的损失函数,作为第一损失函数;同时,基于该候选区域特征执行本技术上述实施例介绍的对候选区域的细分类处理,并计算细分类结果的损失函数,作为第二损失函数。
[0079]
然后,基于上述的第一损失函数和第二损失函数,对该特征提取模型的运算参数进行优化,使其提取的候选区域特征能够支持后续的粗分类和细分类得到更加准确的分类结果。
[0080]
另外,对于上述的特征提取模型的候选区域提取能力,则依据训练样本数据的候选区域标注标签进行训练。
[0081]
具体的,特征提取模型在提取候选区域时,先根据目标对象可能的长宽比属性,预设一系列anchors,如设置64*64、1288128、256*256三种尺寸且每种尺寸对应1:1、1:2、2:1三种比例的共9个anchors。在对输入图像提取的特征图上,以每个像素点为中心分别放置这样一组anchors,然后根据各anchor与候选区域标注框gt_box的重叠程度iou确定其属于背景还是前景,进行0/1二分类,并根据anchor相对于gt_box的位置偏移量()进行位置回归预测,候选区域的位置回归公式如下所示:其中,,,,表示预设anchor的中心点坐标及宽高值,,,,为预测得到的候选框中心坐标及宽高值。由于预设的anchors数量较多,通常采用nms非极大值抑制操作选取置信度较高的n个(如n=1000)回归框作为最终候选区域proposals。
[0082]
上述的训练方式应用细分类损失和粗分类损失同时对特征提取模型进行训练、优化,一方面能够提升特征提取模型提取候选区域整体特征的性能,另一方面能够促使模型提取更多有用的细粒度特征,从而能够整体上提高粗细分类相结合的图像目标检测的性能。
[0083]
本技术实施例提出的粗细分类相结合的图像目标检测方法的一种最优选的实现方式是,训练粗细分类相结合的图像目标检测模型,由该粗细分类相结合的图像目标检测
模型来执行本技术提出的粗细分类相结合的图像目标检测方法的处理过程,从而实现对待检测图像中的目标对象的粗分类和细分类。
[0084]
参见图6所示,该粗细分类相结合的图像目标检测模型由特征提取主干网络、粗分类网络和至少一个细分类网络组成。作为可选的网络搭建方式,该特征提取主干网络具有与上述实施例中的特征提取模型相同的结构和功能,该粗分类网络与上述实施例中的用于实现粗分类的目标检测模型具有相同的结构和功能,该细分类网络与上述实施例中的细分类模型具有相同的结构和功能。
[0085]
在训练过程中,特征提取主干网络基于粗分类网络的粗分类损失和至少一个细分类网络的细分类损失同时进行训练,是其具备对待检测图像进行特征提取、生成候选区域以及提取候选区域特征的能力,并且可以使得提取的特征能够更好地支持粗分类网络和细分类网络分别进行粗分类和细分类。
[0086]
经过训练后,上述的粗分类网络具备基于特征提取主干网络输出的候选区域特征,对候选区域进行目标检测处理,得到第一检测结果的能力;该第一检测结果包括对候选区域的粗分类结果,以及对候选区域的位置预测结果;每一细分类网络分别具备从特征提取主干网络输出的候选区域特征中提取与一种粗类对应的细粒度特征,并基于提取的细粒度特征进行该粗类范围内的细粒度图像分类处理,从而得到对候选区域的细分类结果的能力。
[0087]
当对上述的粗细分类相结合的图像目标检测模型训练完成后,将待检测图像输入预先训练得到的粗细分类相结合的图像目标检测模型,待检测图像首先进入特征提取主干网络,特征提取主干网络从待检测图像中提取候选区域并且获取候选区域特征。然后,该粗细分类相结合的图像目标检测模型的粗分类网络基于特征提取主干网络输出的候选区域特征进行目标检测处理,得到第一检测结果;以及,该粗细分类相结合的图像目标检测模型的至少一个细分类网络分别从特征提取主干网络输出的候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
[0088]
示例性的,上述的粗细分类相结合的图像目标检测模型,可以通过执行如下步骤s1

s4训练得到:s1、获取训练样本图像,以及训练样本图像的标注标签;其中,训练样本图像的标注标签包括对应训练样本图像中的各个目标对象的标注标签,目标对象的标注标签包括类别标签和标注框位置标签,目标对象的类别标签包括目标对象的粗类标签以及目标对象的细类标签。
[0089]
具体的,批量获取训练样本图像,并且对于获取的每一训练样本图像,分别进行标签标注。
[0090]
对于一张包含多个目标对象的训练图像,其中每个目标对象都分别标注一个类别标注标签cls和标注框位置标签gt_box(x1,y1,x2,y2)。在本技术实施例技术方案中,有些目标对象属于粗类中拆分出的细类,这里将其类别标签设置为包含粗类标签cls_coarse和细类标签cls_finegrained的两级标签的形式,而对于那些形态特征稳定,不需要拆分的目标对象,将其类别标签设置为细类标签缺省的形式,只配备cls_coarse标签。以x光安检智能识别系统中的刀具类为例,粗类标签cls_coarse设置为knife,而细类标签cls_finegrained根据其形态特征设置为近似无壳刀片、有壳同色刀片、特殊刀片、同色折叠刀、
异色折叠刀、同色柄刀、异色柄刀、线形刀具、大面积刀等其中的某一种。在训练过程中,粗类标签cls_coarse只应用于粗分类网络训练过程,而细类标签cls_finegrained只应用于细分类网络训练过程。
[0091]
进一步的,对获取的训练样本图像进行一系列增强操作有利于增加数据的多样性,提升训练模型的鲁棒性和泛化能力。这里用到的数据增强操作包括:1)几何变换:进行平移、旋转、水平/垂直翻转、随机裁剪等,以适应不同姿势、不同位置出现的目标对象;2)进行多尺度缩放:如在0.8

1.5范围内以0.05步幅随机采样一个系数对图像进行缩放,以适应不同尺寸大小的目标对象;3)数字图像变换:对图像的亮度brightness、对比度contrast、饱和度saturation等进行调整,以适应不同的机型、不同的成像环境得到的图像。
[0092]
s2、将训练样本图像输入粗细分类相结合的图像目标检测模型,得到粗分类网络输出的第一检测结果,以及各个细分类网络输出的细分类结果。
[0093]
具体的,当训练样本图像输入粗细分类相结合的图像目标检测模型后,由模型内部的特征提取主干网络进行候选区域特征提取,以及粗分类网络基于候选区域特征进行候选区域粗分类、细分类网络基于候选区域特征进行候选区域细分类,最终得到粗分类网络输出的候选区域粗分类结果、候选区域位置预测结果,以及细分类网络输出的候选区域细分类结果。
[0094]
其中,上述的特征提取主干网络从训练样本图像中提取候选区域以及获取候选区域特征的过程,可参见上述的特征提取模型的结构、功能的相应介绍。同理,上述的粗分类网络和细分类网络的具体工作内容,可分别参见上述实施例中的目标检测模型和细分类模型的工作内容。对于上述各网络的具体工作内容,在此处均不再重复。
[0095]
需要说明的是,为了提高训练精度,上述的粗分类网络输出的对候选区域的位置预测结果,用预测的候选区域的四个顶点相对于真实目标对象标注框四个顶点位置的偏移量表示。
[0096]
s3、根据所述粗分类网络输出的第一检测结果,以及训练样本图像的标注标签中的粗类标签和标注框位置标签,计算确定粗分类损失和位置回归损失;以及,根据各个细分类网络输出的细分类结果,以及训练样本图像的标注标签中的细类标签,计算确定各个细分类网络的细分类损失。
[0097]
具体的,根据粗分类网络输出的第一检测结果中的候选区域的位置偏移量,以及训练样本图像的标注框位置标签gt_box,按照如下公式计算得到位置回归损失smoothl1:其中,,为粗分类网络预测的候选区域标注框相对于gt_box的位置偏移量,为候选框相对于gt_box的真实偏移量。
[0098]
粗分类网络对候选区域的粗分类结果为候选区域归属各粗类的概率标签的形式。假设粗类类别数为cls_num_coarse,则针对n个候选区域最终可得到n*cls_num_coarse维
类别预测值,进行softmax:转换后得到类别概率。其中,xi表示候选区域归属第i个粗类类别的预测概率,s
i
表示候选区域归属第i个粗类类别的归一化后的概率值。
[0099]
然后,根据训练样本图像的目标对象粗类标签,可计算粗分类网络的粗分类损失, 其中,p(x
i
)即为上述的s
i

[0100]
对于各个细分类网络的细分类损失,可以参照上述的粗分类损失的方案计算得到。
[0101]
作为更优的实现方式,本技术实施例按照如下步骤s31、s32的处理计算确定各个细分类网络的细分类损失:s31、从训练样本图像的标注标签中,分别确定出与各个细分类网络对应的目标对象标注标签;其中,与细分类网络对应的目标对象标注标签,具体为属于细分类网络进行细分类的粗类的目标对象的标注标签。
[0102]
具体的,由于各个细分类网络分别对应不同的粗类进行细分类处理,因此,在同一批训练样本图像中,各个细分类网络所针对的对象有所不同,因为训练过程中会根据各候选区域proposal与真实标注框的重叠程度来确定正负样本,如,与gt_box重叠度较高(如iou≥0.7)的候选框都会被视为正样本,重叠度较低(如iou<0.3)的会被视为负样本,在粗分类网络中,所有被标注过的目标对象都会作为有效的gt_box参与计算,而在细分类网络中,为了只针对一个特定类别的粗类进行子类识别,只有属于该粗类的标注目标才会被视为gt_box参与运算,其余标注框均被视为背景,且此时各目标框以细类标签cls_finegrained为类别标签,以训练模型预测目标框的细类归属情况。
[0103]
依据上述规则,本技术实施例分别对每一个细分类网络,分别确定与之对应的目标对象,以及目标对象标注标签。
[0104]
s32、根据各个细分类网络输出的细分类结果,以及各个细分类网络对应的目标对象标注标签中的细类标签,计算确定各个细分类网络的细分类损失。
[0105]
具体的,明确了与细分类网络对应的新的类别标签cls_finegrained和新的gt_box_new后,就可以通过将细分类网络输出的细分类结果,与细分类网络对应的类别标签cls_finegrained进行对比,计算确定细分类网络的细分类损失,具体的计算方式可参见上述的粗分类损失计算方法。
[0106]
s4、根据所述粗分类损失和所述位置回归损失,对所述特征提取主干网络以及所述粗分类网络进行参数校正,以及,根据所述各个细分类网络的细分类损失,对所述特征提取主干网络以及所述各个细分类网络进行参数校正。
[0107]
通过上述介绍可以理解,特征提取主干网络主要提取粗粒度的类别整体特征,粗分类网络直接利用该特征进行粗分类,而细分类网络则在该特征的基础上继续进行细粒度特征,利用提取的细粒度特征进行类内区分,实现对候选区域的细分类。在模型训练过程中,在基于粗分类损失对粗分类网络进行反向优化,以及基于细分类损失对细分类网络进
行反向优化的同时,粗分类网络和细分类网络的反传梯度分别对特征提取主干网络进行参数优化,整体而言,这种方式一方面提升了粗类检测精度,另一方面也扩展了模型的细类检测能力,使得各种细类也能一并检测出来,并且细分类分支与粗分类分支相辅相成,能够提高训练效率。
[0108]
具体而言,上述的步骤s4可细分为如下步骤s41和s42:s41、基于所述粗分类损失、所述位置回归损失以及所述各个细分类网络的细分类损失,确定所述粗细分类相结合的图像目标检测模型的整体损失。
[0109]
在模型训练过程中,粗细分类相结合的图像目标检测模型的整体损失包括粗分类损失、位置回归损失以及各个细分类网络的细分类损失。具体的,粗细分类相结合的图像目标检测模型的整体损失可以由粗分类损失、位置回归损失以及各个细分类网络的细分类损失求和确定。
[0110]
作为优选的实施方式,在确定粗细分类相结合的图像目标检测模型的整体损失时,首先,根据训练样本图像中的目标对象的类别标签,确定与各个细分类网络对应的细分类损失权重;其中,当所有训练样本图像中不包含属于细分类网络进行细分类的粗类的目标对象时,该细分类网络对应的细分类损失权重为0;当所有训练样本图像中包含属于细分类网络进行细分类的粗类的目标对象时,该细分类网络对应的细分类损失权重为非0值。
[0111]
具体的,在实际训练过程中,由于细类目标数量相对于全体待识别目标数量较少,在一个batch_size的训练样本中,可能根本不含有该类目标,此时如果直接将所有候选框都视为背景进行训练,会导致在多次迭代下负样本损失占主导地位,影响模型收敛方向,使得分类器的检出率降低。因此,本技术实施例针对各细分类网络分别设置一个动态的细分类损失权重dynamic _weight,只有输入batch中包含有该类目标时该细分类网络才发挥作用,当batch中完全不存在该类目标时,该细分类网络的细分类损失权重dynamic_weight设置为0。动态损失权重一方面可以缓解细分类网络中背景与正样本间的不平衡问题,另一方面,由于该网络中的部分背景相对于其它细分类网络而言是正样本,减小负样本损失函数值可避免对其他类(假背景)过度抑制。
[0112]
基于上述思想,在每次迭代训练时,在计算粗细分类相结合的图像目标检测模型的整体损失时,根据训练样本图像中的目标对象的类别标签,确定训练样本图像中是否含有属于细分类网络进行细分类的粗类的图像目标,从而确定与细分类网络对应的细分类损失权重是否应当置0,进而可以针对每个细分类网络分别确定其细分类损失权重。
[0113]
示例性的,当细分类网络的细分类损失权重不为0时,其具体取值可以设置为1,或者为0到1之间的分数值。
[0114]
然后,基于各个细分类网络对应的细分类损失权重,对各个细分类网络的细分类损失进行加权求和,以及将各个细分类网络的细分类损失的加权求和结果与所述粗分类损失、所述位置回归损失进行求和,得到所述粗细分类相结合的图像目标检测模型的整体损失。
[0115]
具体的,假设共有k个细分类网络,k个细分类网络的细分类损失为cls_loss_fine_i,i=1,

,k;同时假设粗分类损失为cls_loss_coarse,位置回归损失为reg_loss,则可按照如下公式计算得到粗细分类相结合的图像目标检测模型的整体损失:
其中,为系数,其用于平衡粗分类损失和细分类损失,为细分类网络的细分类损失权重。
[0116]
s42、根据所述粗分类损失和所述位置回归损失,对所述特征提取主干网络以及所述粗分类网络进行反向参数修正,以及,根据所述各个细分类网络的细分类损失,对所述特征提取主干网络以及所述各个细分类网络进行反向参数修正,以使所述粗细分类相结合的图像目标检测模型的整体损失梯度下降。
[0117]
具体的,利用经典的随机梯度下降算法,利用粗分类损失和位置回归损失,对特征提取主干网络以及粗分类网络进行反向参数优化,以及,利用各个细分类网络的细分类损失,对特征提取主干网络以及各个细分类网络进行反向参数优化,使得粗细分类相结合的图像目标检测模型的整体损失梯度下降。
[0118]
优化过程中,特征提取主干网络主要提取粗粒度的类别整体特征,粗分类网络直接利用该特征进行粗分类,而细分类网络则在该特征的基础上继续接一个细粒度特征提取模块,利用生成的细粒度特征进行类内区分。迭代过程中,细分类分支的反传梯度会对特征提取主干网络进一步进行优化,从而辅助提升粗分类分支的识别结果。整体而言,这种方式一方面提升了粗类检测精度,另一方面也扩展了模型的类别检测能力,使得各种细类也能一并检测出来。
[0119]
另外,作为优选的模型训练方式,由于模型训练过程中,需要基于候选区域来提取目标的细粒度特征,而训练前期预测的候选区域位置通常还不够准确,为避免对细分类网络的特征学习过程带来干扰,可考虑让模型的粗分类网络先训练若干epoch(如5个epoch),待趋于稳定后再开启细粒度特征提取模块进行细粒度识别。
[0120]
通过上述的粗细分类相结合的图像目标检测模型的结构和功能及训练过程的介绍,应当理解,本技术实施例提出的粗细分类相结合的图像目标检测方案主要是在faster_rcnn模型结构的基础上进行改进,常规检测模型通常只包含单个类别检测器,面对类内混杂的各粗类,若直接将其作为一个类别进行检测,较大的类内差异导致检测精度不高,若将其子类全部展开与其他类别一起进行检测,由于特征粒度不一致细类很难被检测出来。本案采用了一种粗细分类相结合的多分支细粒度识别方案,多个分支同步预测、相互促进,不仅提升了粗类的检测精度,还具有良好的细类检测能力。
[0121]
相较于以树形级联结构进行先粗后细渐进式分类的方法而言,本案更注重的是由粗到细的特征提取过程。渐进式分类依赖先粗后细的树形分类器,该方法对特征提取网络backbone的特征提取能力要求较高,要求提取的特征既要有类内部件特征表征能力,又要有类间整体特征表征能力,通常较难实现。即使能同时提取到粗/细两种不同粒度的特征,由于提取的特征是从同一个接口输入,先经过粗分类器再流向细分类器,在这个过程中,各级分类器面对的特征存在冗余,如对于粗分类器而言细粒度特征是多余的,而对于细分类器而言粗粒度特征是不必要的,并且冗余情况下也很难保证各级分类器利用的是本级对应粒度的特征。另外,树形结构中细分支依赖粗分类分支的识别结果,很容易受到粗分支错误识别结果的影响。本技术实施例技术方案直接以并行的方式在模型头部构建新的细分类分
支,一个分支对应一个拆分类别,不依赖粗分类器的识别结果;且本模型以backbone粗粒度特征+细粒度特征提取模块的方式生成不同粒度的特征,粗分类分支和细分类分支分别各取所需。在优化过程中,细粒度特征提取模块的梯度也会反传至特征提取网络backbone中,可达到相互辅助、共同优化的效果。
[0122]
此外,本技术实施例技术方案提出的模型结构支持在cascade结构的任意stage上增加任意多个细分类分支;另外,这种新的类别拆分和重组模式具有很强的可推广性,传统意义上不属于一个大类但具有相似性的类别也可以进行组合和拆分,如电击器和手电筒,可以将其合并为一个大类在粗分类分支中进行检测,然后在细分支中进行详细区分,实验发现这种组合方式有助于解决相似类别误报的问题。
[0123]
与上述的粗细分类相结合的图像目标检测方法相对应的,本技术实施例提出一种粗细分类相结合的图像目标检测装置,参见图7所示,该装置包括:特征提取模块100,用于从待检测图像中提取候选区域,并且获取候选区域特征;粗分类模块110,用于基于候选区域特征进行目标检测处理,得到第一检测结果,所述第一检测结果至少包括对候选区域的粗分类结果;细分类模块120,用于从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果。
[0124]
本技术实施例提出的粗细分类相结合的图像目标检测装置,能够由粗粒度到细粒度地对候选区域进行特征提取,并基于提取的粗粒度特征对候选区域进行粗分类,以及基于提取的细粒度特征对候选区域进行细分类,由此可以同时得到对候选区域的粗分类结果和细分类结果。该粗细分类相结合的图像目标检测方案在类内差异大、粗类中又包含子类的图像目标检测任务中,可以基于不同粒度的图像特征对图像分别进行粗分类和细分类,从而既能在粗粒度上对图像中的目标对象进行识别,又能对目标对象进行粗类下的子类识别,因此能够更加准确、全面地识别图像目标。
[0125]
进一步的,相较于以树形级联结构进行先粗后细渐进式分类的方案而言,本技术实施例提出的粗细分类相结合的图像目标检测装置实现了从粗到细的图像特征提取过程,粗分类和细分类各取所需,应用相应粒度的特征进行图像分类,使得细分类结果不依赖粗分类结果,因此能够充分保证分类结果的准确度。
[0126]
可选的,所述从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果,包括:从候选区域特征中分别提取与每一种粗类对应的细粒度特征,并基于提取的细粒度特征在相应的粗类范围内进行细粒度图像分类处理,得到对候选区域的细分类结果。
[0127]
可选的,从候选区域特征中分别提取与每一种粗类对应的细粒度特征,并基于提取的细粒度特征在相应的粗类范围内进行细粒度图像分类处理,得到对候选区域的细分类结果,包括:将候选区域特征分别输入预先训练的至少一个细分类模型,得到对候选区域的细分类结果;其中,每一细分类模型分别具备从候选区域特征中提取与一种粗类对应的细粒度特征,并基于提取的细粒度特征进行该粗类范围内的细粒度图像分类处理,从而得到对候选区域的细分类结果的能力。
[0128]
可选的,从候选区域特征中提取与一种粗类对应的细粒度特征,包括:对应于该种粗类,从候选区域特征中,提取每个候选区域对应第一数量子类、每个子类对应第二数量的局部特征图的特征向量;其中,该第一数量的子类同属于该种粗类;对提取得到的特征向量中的、对应每个子类的第二数量的局部特征图分别进行聚合处理,得到每个候选区域对应第一数量子类的特征向量;对所述每个候选区域对应第一数量子类的特征向量进行双线性池化处理,得到与该种粗类对应的细粒度特征。
[0129]
可选的,在提取得到每个候选区域对应第一数量子类、每个子类对应第二数量的局部特征图的特征向量后,所述细分类模块120还用于:分别从提取得到的特征向量中的、对应每个子类的第二数量的局部特征图中,随机选择设定比例的局部特征图失活。
[0130]
可选的,所述装置还包括:候选区域筛选模块,用于根据对各个候选区域的粗分类结果,对从待检测图像中提取得到的候选区域进行筛选,得到分类置信度最高的n个候选区域;获取该n个候选区域的特征向量,作为更新后的候选区域特征。
[0131]
可选的,所述从待检测图像中提取候选区域,并且获取候选区域特征,包括:将待检测图像输入特征提取模型,以使该特征提取模型从待检测图像中提取候选区域,并且获取候选区域特征;所述特征提取模型至少根据第一损失函数和第二损失函数训练得到;其中,所述第一损失函数为基于所述特征提取模型输出的候选区域特征进行目标检测处理得到的对候选区域的粗分类结果的损失函数;所述第二损失函数为从所述特征提取模型输出的候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理得到的候选区域的细分类结果的损失函数。
[0132]
可选的,从待检测图像中提取候选区域,并获取候选区域特征;基于候选区域特征进行目标检测处理,得到第一检测结果,所述第一检测结果至少包括对候选区域的粗分类结果;以及从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果,包括:将待检测图像输入预先训练的粗细分类相结合的图像目标检测模型,以使该粗细分类相结合的图像目标检测模型的特征提取主干网络从待检测图像中提取候选区域并且获取候选区域特征;该粗细分类相结合的图像目标检测模型的粗分类网络基于候选区域特征进行目标检测处理,得到第一检测结果;以及,该粗细分类相结合的图像目标检测模型的至少一个细分类网络分别从候选区域特征中提取细粒度特征,并基于提取的细粒度特征进行图像分类处理,得到对候选区域的细分类结果;其中,所述特征提取主干网络基于所述粗分类网络的粗分类损失和所述至少一个细分类网络的细分类损失训练得到,其具备对待检测图像进行特征提取、生成候选区域以及提取候选区域特征的能力;所述粗分类网络具备基于所述特征提取主干网络输出的候选区域特征,对候选区域进行目标检测处理,得到第一检测结果的能力;该第一检测结果包括对候选区域的粗分类结果,以及对候选区域的位置预测结果;
每一细分类网络分别具备从所述特征提取主干网络输出的候选区域特征中提取与一种粗类对应的细粒度特征,并基于提取的细粒度特征进行该粗类范围内的细粒度图像分类处理,从而得到对候选区域的细分类结果的能力。
[0133]
可选的,所述粗细分类相结合的图像目标检测模型的训练过程,包括:获取训练样本图像,以及训练样本图像的标注标签;其中,训练样本图像的标注标签包括对应训练样本图像中的各个目标对象的标注标签,目标对象的标注标签包括类别标签和标注框位置标签,目标对象的类别标签包括目标对象的粗类标签以及目标对象的细类标签;将训练样本图像输入粗细分类相结合的图像目标检测模型,得到粗分类网络输出的第一检测结果,以及各个细分类网络输出的细分类结果;根据所述粗分类网络输出的第一检测结果,以及训练样本图像的标注标签中的粗类标签和标注框位置标签,计算确定粗分类损失和位置回归损失;以及,根据各个细分类网络输出的细分类结果,以及训练样本图像的标注标签中的细类标签,计算确定各个细分类网络的细分类损失;根据所述粗分类损失和所述位置回归损失,对所述特征提取主干网络以及所述粗分类网络进行参数校正,以及,根据所述各个细分类网络的细分类损失,对所述特征提取主干网络以及所述各个细分类网络进行参数校正。
[0134]
可选的,根据各个细分类网络输出的细分类结果,以及训练样本图像的标注标签中的细类标签,计算确定各个细分类网络的细分类损失,包括:从训练样本图像的标注标签中,分别确定出与各个细分类网络对应的目标对象标注标签;其中,与细分类网络对应的目标对象标注标签,具体为属于细分类网络进行细分类的粗类的目标对象的标注标签;根据各个细分类网络输出的细分类结果,以及各个细分类网络对应的目标对象标注标签中的细类标签,计算确定各个细分类网络的细分类损失。
[0135]
可选的,根据所述粗分类损失和所述位置回归损失,对所述特征提取主干网络以及所述粗分类网络进行参数校正,以及,根据所述各个细分类网络的细分类损失,对所述特征提取主干网络以及所述各个细分类网络进行参数校正,包括:基于所述粗分类损失、所述位置回归损失以及所述各个细分类网络的细分类损失,确定所述粗细分类相结合的图像目标检测模型的整体损失;根据所述粗分类损失和所述位置回归损失,对所述特征提取主干网络以及所述粗分类网络进行反向参数修正,以及,根据所述各个细分类网络的细分类损失,对所述特征提取主干网络以及所述各个细分类网络进行反向参数修正,以使所述粗细分类相结合的图像目标检测模型的整体损失梯度下降。
[0136]
可选的,所述基于所述粗分类损失、所述位置回归损失以及所述各个细分类网络的细分类损失,确定所述粗细分类相结合的图像目标检测模型的整体损失,包括:根据训练样本图像中的目标对象的类别标签,确定与各个细分类网络对应的细分类损失权重;其中,当所有训练样本图像中不包含属于细分类网络进行细分类的粗类的目标对象时,该细分类网络对应的细分类损失权重为0;当所有训练样本图像中包含属于细分类网络进行细分类的粗类的目标对象时,该细分类网络对应的细分类损失权重为非0值;
基于各个细分类网络对应的细分类损失权重,对各个细分类网络的细分类损失进行加权求和,以及将各个细分类网络的细分类损失的加权求和结果与所述粗分类损失、所述位置回归损失进行求和,得到所述粗细分类相结合的图像目标检测模型的整体损失。
[0137]
具体的,上述的粗细分类相结合的图像目标检测装置的各个模块的具体工作内容,请参见上述相应的方法实施例的内容,此处不再赘述。
[0138]
本技术另一实施例还提出一种粗细分类相结合的图像目标检测设备,参见图8所示,该设备包括:存储器200和处理器210;其中,所述存储器200与所述处理器210连接,用于存储程序;所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的粗细分类相结合的图像目标检测方法。
[0139]
具体的,上述粗细分类相结合的图像目标检测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
[0140]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:总线可包括一通路,在计算机系统各个部件之间传送信息。
[0141]
处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application

specific integrated circuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0142]
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
[0143]
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read

only memory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0144]
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0145]
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
[0146]
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。
[0147]
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本技术实施例所提供的粗细分类相结合的图像目标检测方法的各个步骤。
[0148]
本技术另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的粗细分类相结合的图像目标检测方法的各个步骤。
[0149]
具体的,上述的粗细分类相结合的图像目标检测设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上
述的粗细分类相结合的图像目标检测方法的各个实施例的内容,此处不再赘述。
[0150]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0151]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0152]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
[0153]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0154]
本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0155]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0156]
另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
[0157]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0158]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd

rom、或技术领域内所公知的任意其它形式的存储介质中。
[0159]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0160]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1