图像检测方法、装置、设备、车辆和介质与流程

文档序号:26590160发布日期:2021-09-10 20:38阅读:84来源:国知局
图像检测方法、装置、设备、车辆和介质与流程

1.本公开涉及人工智能领域,尤其涉及计算机视觉和深度学习技术,具体可用于智慧城市和智能交通场景下。


背景技术:

2.目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,就成为了近年来理论和应用的研究热点。


技术实现要素:

3.本公开提供了一种图像检测方法、装置、设备、车辆和介质。
4.根据本公开的一方面,提供了一种图像检测方法,包括:
5.获取训练好的初始检测模型;其中,初始检测模型包括至少一个目标卷积层;目标卷积层中并联设置有至少两个尺寸的卷积核;
6.将相同目标卷积层中的至少两个尺寸的卷积核进行融合,得到融合卷积核;
7.将融合卷积核替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,得到目标检测模型,用于对待检测图像进行目标检测。
8.根据本公开的另一方面,还提供了一种图像检测装置,包括:
9.初始检测模型获取模块,用于获取训练好的初始检测模型;其中,初始检测模型包括至少一个目标卷积层;目标卷积层中并联设置有至少两个尺寸的卷积核;
10.融合卷积核得到模块,用于将相同目标卷积层中的至少两个尺寸的卷积核进行融合,得到融合卷积核;
11.目标检测模型得到模块,用于将融合卷积核替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,得到目标检测模型,用于对待检测图像进行目标检测。
12.根据本公开的另一方面,还提供了一种电子设备,包括:
13.至少一个处理器;以及
14.与至少一个处理器通信连接的存储器;其中,
15.存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任意实施例提供的一种图像检测方法。
16.根据本公开的另一方面,还提供了一种车辆,其中,车辆设置有本公开任意实施例提供的一种电子设备。
17.根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任意实施例提供的一种图像检测方法。
18.根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任意实施例提供的一种图像检测方法。
19.根据本公开的技术,兼顾了图像检测精度和检测效率,同时提高了检测结果稳定
性。
20.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.附图用于更好地理解本方案,不构成对本公开的限定。其中:
22.图1是本公开实施例提供的一种图像检测方法的流程图;
23.图2是本公开实施例提供的另一种图像检测方法的流程图;
24.图3a是本公开实施例提供的一种初始检测模型的结构图;
25.图3b是本公开实施例提供的一种fpn网络分支的结构图;
26.图3c是本公开实施例提供的一个具体实现方式中fpn网络分支的结构图;
27.图3d是本公开实施例提供的融合卷积核生成过程示意图;
28.图3e是本公开实施例提供的目标检测网络中fpn网络的各网络分支;
29.图4a是本公开实施例提供的另一种初始检测模型的结构图;
30.图4b是本公开实施例提供的一种检测头网络的解码子模块的结构图;
31.图4c是本公开实施例提供的一个具体实现方式中解码模块的结构图;
32.图4d是本公开实施例提供的融合卷积核的生成过程示意图;
33.图4e是本公开实施例提供的一种检测头网络的结构图;
34.图5是本公开实施例提供的一种图像检测装置的结构图;
35.图6是用来实现本公开实施例的图像检测方法的电子设备的框图。
具体实施方式
36.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
37.现有技术在进行图像检测时,通常通过增加检测模型的网络宽度或网络深度的方式,以提高检测结果的准确度。然而,上述方式将会带来计算量的增加,从而提高了对计算设备的性能要求,以及增加了计算过程的时间成本。另外,由于网络深度和宽度不断增加,相应的模型训练过程中需要学习的参数也不断增加,巨大的参数容易发生过拟合,影响模型鲁棒性,从而影响模型检测结果的稳定性。
38.有鉴于此,本公开提供了一种图像检测方法、装置、设备、车辆和存储介质,以在图像检测这一应用场景中,克服无法兼顾图像检测精度、图像检测效率和图像检测结果稳定性的问题。
39.本公开所涉及的各图像检测方法,可以由图像检测装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是终端设备或服务器。在一个优选实施例中,该电子设备可以是车载终端。
40.参见图1所示的一种图像检测方法,包括:
41.s101、获取训练好的初始检测模型;其中,初始检测模型包括至少一个目标卷积
层;目标卷积层中并联设置有至少两个尺寸的卷积核。
42.其中,初始检测模型为用于进行目标检测的已训练好的模型。目标卷积层为并联设置有至少两个尺寸的卷积核的卷积层。其中,目标卷积层的数量可以为至少一个,由构建或训练初始检测模型的技术人员根据需要或经验值加以设定。
43.卷积核的作用是提取图像更高维的特征,一个卷积核代表一种特征提取方式,对应产生一个特征图;卷积核的尺寸对应感受野的大小。可以理解的是,由于在目标卷积层中并联设置有至少两个尺寸的卷积核,使得在同一目标卷积层中增加不同感受野,提高了目标卷积层输出结果的丰富性和全面性。
44.在一个可选实施例中,初始检测模块可以包括特征提取网络,用于对所输入图像进行特征提取;相应的,目标卷积层可以是设置于特征提取网络中的卷积层,从而根据目标卷积层,对所输入图像特征进行不同尺度的特征提取。
45.在又一可选实施例中,初始检测模块可以包括检测头网络,用于对所输入特征进行特征重组;相应的,目标卷积层可以是设置于检测头网络中的卷积层,从而根据目标卷积层,对所输入图像特征进行不同尺度的特征重组。
46.可以理解的是,通过在初始检测模块中的不同网络部分,设置目标卷积层,进行特征提取或重组,提高了初始检测模块的多样性,从而有助于提高图像检测方法的多样性。
47.s102、将相同目标卷积层中的至少两个尺寸的卷积核进行融合,得到融合卷积核。
48.s103、将融合卷积核替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,得到目标检测模型,用于对待检测图像进行目标检测。
49.针对每个目标卷积层,将该目标卷积层中的至少两个尺寸的卷积核进行融合,得到一个融合卷积核。将该融合卷积核替换初始检测模型中相应的目标卷积层,从而实现了初始检测模型与目标检测模型中目标卷积层的等效替换。
50.可以理解的是,由于将至少两个尺寸的卷积核进行融合,得到了一个融合卷积层,减少了初始检测模型的网络宽度,从而有助于降低网络复杂度,减少模型使用时的推理时间,进而有助于减少数据运算量、提高数据处理效率和模型鲁棒性。同时,由于融合卷积核基于至少两个尺寸的卷积核得到,因此,该融合卷积核同样具备不同尺度的特征提取或特征重组能力,从而使得数据处理过程能够兼顾不同尺度下的图像特征,提高了特征丰富性和多样性,进而有助于提高后续的图像检测精度。
51.其中,待检测图像可以是具备目标检测需求的图像,以通过将目标检测模型的承载设备以及待检测图像的自身属性加以限定,能够将图像检测方法的应用场景具体化,体现了本公开所涉及的图像检测方法的场景多样性。
52.例如,待检测图像可以是监控系统进行目标追踪和识别场景中的图像采集模块所采集的图像;相应的,目标检测模型可以设置于智能监测设备(如摄像头)中,以适配在公共场所或企事业单位进行人员监测的场景。又如,待检测图像可以是无人驾驶场景中的无人驾驶车辆行驶环境中所采集的图像;相应的,目标检测模型可以设置于无人驾驶车辆中,以适配无人驾驶车辆行驶场景,从而为实现智能交通或构建智慧城市奠定基础。
53.本公开通过获取包括并联设置有至少两个尺寸的卷积核的目标卷积层的初始检测模型;将相同目标卷积层中的至少两个尺寸的卷积核进行融合,生成融合卷积层;将融合卷积层替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,生成用于对待检
测图像进行目标检测的目标检测模型,避免了增加检测模型网络宽度或深度带来的模型复杂度的提升,从而降低了对图像检测模型的运算性能的要求,减少了图像检测的推理时间,提高了图像检测效率和模型鲁棒性。同时,由于融合卷积核基于至少两个尺寸的卷积核得到,使得融合卷积核同样具备多尺度特征提取能力,从而保证了目标卷积层的特征提取或特征重组的丰富性或多样性,进而保证了目标检测模型的检测精度。
54.在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该可选实施例中,对融合卷积核的生成过程进行了优化改进。需要说明的是,在本公开未详述部分,可参见前述实施例的表述,在此不再赘述。
55.参见图2所示的一种图像检测方法,包括:
56.s201、获取训练好的初始检测模型;其中,初始检测模型包括至少一个目标卷积层;目标卷积层中并联设置有至少两个尺寸的卷积核。
57.s202、针对每一目标卷积层,将该目标卷积层中各卷积核的尺寸调整至目标尺寸。
58.通过将目标卷积层中各卷积核的尺寸统一调整至目标尺寸,从而保证了目标卷积层中各卷积核尺寸大小的一致性,为卷积核的融合奠定了基础。
59.示例性的,目标尺寸可以由技术人员根据需要或经验值进行确定,或根据目标卷积层中各卷积核的尺寸大小设定。
60.可选的,目标尺寸可以是目标卷积层中其中一个卷积核的尺寸。
61.当目标尺寸过大,需要对各个卷积核尺寸均进行放大调整,带来一定计算量的冗余;当目标尺寸多小,将会导致目标卷积层中感受野的缺失,无法实现后续目标卷积层的等效替代,从而影响最终生成目标检测模型的检测精度。为了实现两者兼顾,在一个可选实施例中,可以将目标卷积层中卷积核的最大尺寸作为目标尺寸,并将该目标卷积层中非最大尺寸的卷积核作为待调整卷积核;分别对各待调整卷积核进行扩展,以将各待调整卷积核调整至目标尺寸,避免了目标尺寸过大带来的计算冗余,同时避免了目标尺寸过小带来感受野的缺失。
62.在一个具体实现方式中,分别对各待调整卷积进行扩展,以将各待调整卷积调整至目标尺寸,可以是:分别以各待调整卷积核为中心,通过均匀补零的方式,将各待调整卷积核调整至目标尺寸。相应的,将各目标尺寸的卷积核(包括调整后的各卷积核,以及目标卷积层中原目标尺寸大小的卷积核)叠加,得到该目标卷积层对应的融合卷积核。
63.可以理解的是,以待调整卷积核为中心,通过均匀补零的方式将待调整卷积核的尺寸调整至目标尺寸,从而实现了该目标卷积层中不同尺寸的卷积核的中心对齐,同时不会引入其他额外的运算量,实现了融合卷积核对目标卷积层中并列设置的至少两个尺寸的卷积核的等效替代,从而在保证降低网络复杂度的同时,保留了多尺度特征的提取或重组能力,为目标检测模型检测精度、检测效率和模型鲁棒性的同步提升,提供了保障。
64.s203、将调整后的各卷积核进行融合,得到该目标卷积层对应的融合卷积核。
65.由于调整后的各卷积核的尺寸大小均为目标尺寸,因此可以通过数值叠加的方式,将目标尺寸大小的各卷积核(包括调整后的各卷积核以及目标卷积层中原目标尺寸大小的卷积核)融合得到一个融合卷积层。
66.s204、将融合卷积核替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,得到目标检测模型,用于对待检测图像进行目标检测。
67.本公开实施例通过将融合卷积核的生成操作,细化为针对每一目标卷积层,将该目标卷积层中各卷积核的尺寸调整至目标尺寸;将调整后的各卷积核进行融合,得到该目标卷积层对应的融合卷积核,完善了融合卷积核的生成机制,实现了融合卷积核与目标卷积层中的至少两尺寸的卷积核的等效替代,从而降低了目标检测模型的模型复杂度,进而提高了模型的鲁棒性,降低了模型推理时间。同时,由于融合卷积核在降低模型图复杂度的同时,保留了目标卷积层的多尺度特性,从而使目标检测模型仍旧具备多尺度特征的提取或重组能力,提高了模型所使用特征的丰富性和多样性,进而提高了模型检测精度。
68.在上述各技术方案的基础上,本公开以特征提取网络为fpn(feature pyramid networks,特征金字塔)网络为例,对目标检测模型的生成过程进行详述。
69.参见图3a所示的一种初始检测模型的结构图,该初始检测模型包括骨干网络(backbone)、fpn网络和检测头网络。其中,骨干网络,每一层级向上进行下采样,用来做基本特征提取;fpn网络,用来通过上采样融合骨干网络所提取的特征,进行多尺度特征融合;检测头网络,用于对根据fpn所融合的特征数据,输出目标检测结果。示例性的,目标检测结果可以包括目标坐标和置信度等数据中的至少一种。
70.以图3a所示的初始检测模型为例,对初始检测模型的数据处理逻辑进行详细说明。待检测图像i1输入至骨干网络,逐级下采样并作基本特征提取后,得到初始特征数据c3、c4和c5;初始特征数据c3、c4和c5通过fpn网络所对应目标卷积层进行特征提取,并对上一层级的输出结果上采样进行特征融合后,得到目标特征数据p3、p4和p5;目标特征数据p3、p4和p5中的至少一个通过检测头网络,输出对应的目标检测结果。
71.参见图3b所示初始检测模型中fpn网络分支的结构图,对fpn网络的具体处理机制进行详细说明。其中,该fpn网络分支包括目标卷积层、融合层和激活层。其中,目标卷积层包括至少两个并列设置的不同尺寸的卷积核,用于对所输入的初始特征数据进行不同尺度的特征提取;融合层,包括特征融合模块,用于对不同尺寸卷积核所输出的特征提取结果进行融合处理,得到中间特征数据;激活层,用于基于激活函数对中间特征数据进行激活操作,以解决非线性问题,得到目标特征数据。其中,激活函数可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。需要说明的是,一个fpn网络包括至少一个fpn网络分支。
72.在一个可选实施例中,较高层级的目标卷积层中卷积核的数量大于较低层级的目标卷积层中卷积核的数量,从而能够实现浅层语义特征(如图像中的颜色、边缘等信息)和深层语义特征(如图像中的纹理等信息)等不同尺度的特征数据的全面提取,从而提高fpn网络所提取特征的丰富性和多样性,进而有助于提高初始检测网络的检测精度。
73.在一个具体实现方式中,参见图3c所示的初始检测网络中fpn网络的各网络分支的结构图。其中,分别对c3、c4和c5进行处理的各目标卷积层中卷积核的数量依次增加。其中,c3对应的目标卷积层中的卷积核数量为2,c4对应的目标卷积层中的卷积核数量为3,c5对应的目标卷积层中的卷积核数量为4。示例性的,各fpn网络分支所采用激活函数为relu函数。需要说明的是,图3c中目标卷积层的数量、各目标卷积层中卷积核的数量、以及所采用的具体的激活函数,均可以由技术人员根据需要或经验值进行设定或调整,或通过大量试验反复确定,不应理解为对本公开的限定。不同fpn网络分支所采用的激活函数可以相同或不同。
74.在一个可选实施例中,较高层级的目标卷积层的目标卷积层中卷积核的最大尺寸大于较低层级的目标卷积层中卷积核的最大尺寸。可以理解的是,通过各层级目标卷积层中卷积核尺寸逐渐递增的方式,能够增加fpn网络的感受野,从而从全局角度进行特征提取,避免边界信息的丢失,提高了所提取特征的准确度。
75.在一个具体实现方式中,继续参见图3c,分别对c3、c4和c5进行处理的各目标卷积层中卷积核的最大尺寸依次增加。其中,c3对应的目标卷积层中的卷积核尺寸分别为1
×
1和3
×
3,最大尺寸为3
×
3;c4对应的目标卷积层中的卷积核尺寸分别为1
×
1、3
×
3和5
×
5,最大尺寸为5
×
5;c5对应的目标卷积层中的卷积核尺寸分别为1
×
1、3
×
3、5
×
5和7
×
7,最大尺寸为7
×
7。需要说明的是,其中不同目标卷积层中所采用的卷积核尺寸可以由技术人员根据需要或经验值进行设定,或通过大量试验调整确定,仅需保证卷积层中卷积核的最大尺寸递增即可,本公开仅示例性对各卷积核尺寸进行说明,不应理解为对本公开的限定。
76.然而,由于初始检测模型通过在目标卷积层中并联设置至少两个尺寸的卷积核的方式,提高了所提取特征的丰富性和全面性,从而提高了初始检测模型的模型精度。然而,由于并联设置卷积核的方式,增加了模型复杂度,影响了模型的鲁棒性。同时,增加了数据处理时的推理时间,降低了目标检测效率。
77.为了克服上述缺陷,在一个可选实施方式中,本公开将目标卷积层中不同尺寸的卷积核进行融合,得到融合卷积核,进而采用融合卷积核初始检测模型中相应的目标卷积层,生成目标卷积层。
78.参见图3d所示的融合卷积核生成过程示意图,对融合卷积核的生成过程,进行详细说明。针对任一fpn网络分支,将初始检测模型中该fpn网络分支中的目标卷积层中各卷积核进行融合,得到融合卷积核;采用融合卷积核替代目标卷积层,并剔除多余的融合层,得到目标检测模型的fpn网络分支。
79.在一个可选实施例中,将初始检测模型中目标卷积层中的各卷积核,分别以该卷积核为中心,通过均匀补零的方式,将该卷积核调整至该目标卷积层中卷积核的最大尺寸,从而保证目标卷积层中各卷积核的输入通道和输出通道数相一致;将调整后的各卷积核进行融合,得到该目标卷积层的融合卷积核。
80.具体的,由于卷积具备可分离性,即(a+b)x=(ax+bx),因此,针对每个fpn分支,可以通过对卷积核的网络参数合并的方式,将目标卷积层中至少两个不同尺寸的卷积核,合并为一个融合卷积核。示例性的,卷积核的网络参数可以包括卷积参数和/或偏置参数。
81.以初始特征数据c3对应的fpn网络分支为例,若1
×
1卷积核k1为[a],3
×
3卷积核k3为则将卷积核k1调整为使得调整后的卷积核k1’
与卷积核k3尺寸相同;将卷积核k1’
与卷积核k3进行融合(k1’
+k3),得到融合卷积核k
c3

[0082]
在一个具体实现方式中,可以将原图3c中c3、c4和c5所对应的各fpn网络分支中各目标卷积层对应替换为融合卷积核k
c3
、k
c4
和k
c5
,得到图3e所示的目标检测网络中fpn网络
的各网络分支。
[0083]
可以理解的是,在模型训练阶段,通过在目标卷积层中并联设置至少两个尺寸的卷积核,进行网络宽度的扩展,提高了模型精度;通过在模型推理阶段,也即模型使用阶段,将目标卷积层中的不同尺寸的卷积核进行融合,替代目标卷积层,避免了网络宽度扩展带来模型复杂度的升高,从而提高了检测效率和模型鲁棒性。由于融合卷积核仍旧具备多尺度特征提取能力,因此也兼顾了模型精度。
[0084]
在上述各技术方案的基础上,本公开以检测头网络为例,对目标检测模型的生成过程进行详述。
[0085]
参见图4a所示的一种初始检测模型的结构图,该初始检测模型包括特征提取网络和检测头网络。其中,特征提取网络,用于对待检测图像进行特征提取,得到目标特征数据;检测头网络,用于根据目标特征数据,对待检测图像进行目标检测,得到目标检测结果,例如可以包括目标位置和置信度等数据中的至少一种。
[0086]
其中,检测头网络包括编码模块和解码模块。其中,编码模块用于对特征检测网络所输出的目标特征数据进行编码处理,得到编码特征数据;解码模块用于对编码特征数据进行特征重组,得到解码特征数据。示例性的,可以采用边界框回归模块,如基于yolo(you only look once,只看一次)算法的编码器,根据解码特征数据,进行目标检测结果的确定。
[0087]
其中,解码模块中包括至少一个解码子模块级联设置,用于对编码模块所输出的编码特征数据进行不通过尺度的特征重组。其中,解码子模块的数量可以由技术人员根据需要或经验值进行设定,或通过大量试验反复调整确定。参见图4b所示的初始检测模型中检测头网络的解码子模块的结构图。其中,解码子模块包括目标卷积层、融合层和激活层。其中,目标卷积层包括至少两个并列设置的不同尺寸的卷积核,用于对所输入的编码特征数据、或前一解码子模块输出的解码特征数据进行不同尺度的解码处理,从而能够尽可能多的保留目标特征数据中的多尺度特征数据;融合层,包括特征融合模块,用于对不同尺寸卷积核所输出的特征数据进行融合处理,得到中间特征数据;激活层,用于基于激活函数对中间特征数据进行激活操作,以解决非线性问题,得到解码特征数据。其中,激活函数可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
[0088]
在一个可选实施例中,较高层级的目标卷积层中卷积核的数量大于较低层级的目标卷积层中卷积核的数量,从而能够实现目标特征数据中浅层语义特征(如图像中的颜色、边缘等信息)和深层语义特征(如图像中的纹理等信息)等不同尺度的特征数据的全面重组,从而能够提高检测头网络所使用特征的丰富性和多样性,进而有助于提高初始检测网络的检测精度。
[0089]
在一个具体实现方式中,参见图4c所示的初始检测网络中检测头网络中解码模块的结构图。其中,随着网络深度的增加,各解码子模块中的目标卷积层中卷积核的数量依次增加。其中,首部的解码子模块的输入为编码模块所输出的编码特征数据h1;后续各解码子模块的输入分别为前一解码子模块输出的解码特征数据h2、h3和h4;尾部的解码子模块的输出数据为解码特征数据h5。其中,h1对应的目标卷积层中的卷积核数量为2,h2对应的目标卷积层中的卷积核数量为3,h3对应的目标卷积层中的卷积核数量为4,h4对应的目标卷积层中的卷积核数量为5。示例性的,各解码子模块中所采用激活函数为relu函数。需要说明的是,图4c中目标卷积层的数量、各目标卷积层中卷积核的数量、以及所采用的具体的激活函数,
均可以由技术人员根据需要或经验值进行设定或调整,或通过大量试验反复确定,不应理解为对本公开的限定。不同解码子模块所采用的激活函数可以相同或不同。
[0090]
在一个可选实施例中,较高层级的目标卷积层的目标卷积层中卷积核的最大尺寸大于较低层级的目标卷积层中卷积核的最大尺寸。可以理解的是,通过各层级目标卷积层中卷积核尺寸逐渐递增的方式,能够增加检测头网络的感受野,从而从全局角度进行特征重组,避免边界信息的丢失,有助于提高检测结果准确度。
[0091]
在一个具体实现方式中,继续参见图4c,随着网络深度的增加,各目标卷积层中卷积核的最大尺寸依次增加。其中,h1对应的目标卷积层中的卷积核尺寸分别为1
×
1和3
×
3,最大尺寸为3
×
3;h2对应的目标卷积层中的卷积核尺寸分别为1
×
1、3
×
3和5
×
5,最大尺寸为5
×
5;h3对应的目标卷积层中的卷积核尺寸分别为1
×
1、3
×
3、5
×
5和7
×
7,最大尺寸为7
×
7;h4对应的目标卷积层中的卷积核尺寸分别为1
×
1、3
×
3、5
×
5、7
×
7和9
×
9,最大尺寸为9
×
9。需要说明的是,不同目标卷积层中所采用的卷积核尺寸可以由技术人员根据需要或经验值进行设定,或通过大量试验调整确定,仅需保证卷积层中卷积核的最大尺寸递增即可,本公开仅示例性对各卷积核尺寸进行说明,不应理解为对本公开的限定。
[0092]
然而,由于初始检测模型通过在目标卷积层中并联设置至少两个尺寸的卷积核的方式,提高了解码特征数据的丰富性和全面性,从而提高了初始检测模型的模型精度。然而,由于并联设置卷积核的方式,增加了模型复杂度,影响了模型的鲁棒性。同时,增加了数据处理时的推理时间,降低了目标检测效率。
[0093]
为了克服上述缺陷,在一个可选实施方式中,本公开将目标卷积层中不同尺寸的卷积核进行融合,得到融合卷积核,进而采用融合卷积核初始检测模型中相应的目标卷积层,生成目标卷积层。
[0094]
参见图4d所示的融合卷积核的生成过程示意图,对融合卷积核的生成过程,进行详细说明。针对每一目标卷积层,将该目标卷积层中各卷积核进行融合,得到融合卷积核;采用融合卷积核替代目标卷积层,并剔除多余的融合层。
[0095]
在一个可选实施例中,将初始检测模型中目标卷积层中的各卷积核,分别以该卷积核为中心,通过均匀补零的方式,将该卷积核调整至该目标卷积层中卷积核的最大尺寸,从而保证目标卷积层中各卷积核的输入通道和输出通道数相一致;将调整后的各卷积核进行融合,得到该目标卷积层的融合卷积核。
[0096]
具体的,由于卷积具备可分离性,即(a+b)x=(ax+bx),因此,针对每个fpn分支,可以通过对卷积核的网络参数合并的方式,将目标卷积层中至少两个不同尺寸的卷积核,合并为一个融合卷积核。示例性的,卷积核的网络参数可以包括卷积参数和/或偏置参数。
[0097]
以编码特征数据h1对应的解码子模块为例,若1
×
1卷积核k1为[a],3
×
3卷积核k3为则将卷积核k1调整为使得调整后的卷积核k1’
与卷积核k3尺寸相同;将卷积核k1’
与卷积核k3进行融合(k1’
+k3),得到融合卷积核k
h1

[0098]
在一个具体实现方式中,可以将原图4c中解码子网络中各目标卷积层生成对应的融合卷积核k
h1
、k
h2
、k
h3
和k
h4
,得到图4e所示的检测头网络的网络结构。
[0099]
可以理解的是,在模型训练阶段,通过在目标卷积层中并联设置至少两个尺寸的卷积核,进行网络宽度的扩展,提高了模型精度;通过在模型推理阶段,也即模型使用阶段,将目标卷积层中的不同尺寸的卷积核进行融合,替代目标卷积层,避免了网络宽度扩展带来模型复杂度的升高,从而提高了检测效率和模型鲁棒性。由于融合卷积核仍旧具备多尺度特征提取能力,因此也兼顾了模型精度。
[0100]
在一个具体实现方式中,为了实现多尺度特征信息的融合,通常在特征提取网络中引入fpn网络,从而对骨干网络中不同层级所提取的初始特征数据(如前述c3、c4和c5)进行融合,解决图像检测过程中的多尺度目标问题,以提高检测结果准确度。然而,上述方式需要将fpn每一层级的特征与相邻层级进行特征融合,将会带来计算量的增加,从而影响计算效率。为了提高检测结果准确度,可以在模型训练阶段,在初始检测模型中不引入fpn网络的前提下,将骨干网络中输出的携带有较多特征信息的初始特征数据(如前述c5)作为检测头网络的输入,并在检测头网络引入并联设置有至少两个尺度的卷积核的目标卷积层,充分利用已有特征,实现多尺度特征信息的重组。在模型推理阶段,也即模型使用阶段,将目标卷积层中各尺度的卷积核融合生成融合卷积核,替换目标卷积层,从而简化模型,降低模型计算量,从而提高模型鲁棒性和计算效率。
[0101]
在上述各技术方案的基础上,本公开还提供了一种实施上述各图像检测方法的执行装置的可选实施例。参见图5所示的一种图像检测装置500,包括:初始检测模型获取模块501、融合卷积核得到模块502和目标检测模型得到模块503。其中,
[0102]
初始检测模型获取模块501,用于获取训练好的初始检测模型;其中,初始检测模型包括至少一个目标卷积层;目标卷积层中并联设置有至少两个尺寸的卷积核;
[0103]
融合卷积核得到模块502,用于将相同目标卷积层中的至少两个尺寸的卷积核进行融合,得到融合卷积核;
[0104]
目标检测模型得到模块503,用于将融合卷积核替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,得到目标检测模型,用于对待检测图像进行目标检测。
[0105]
本公开通过初始检测模型获取模块获取包括并联设置有至少两个尺寸的卷积核的目标卷积层的初始检测模型;通过融合卷积核得到模块将相同目标卷积层中的至少两个尺寸的卷积核进行融合,生成融合卷积层;通过目标检测模型得到模块将融合卷积层替换初始检测模型中相应目标卷积层中的至少两个尺寸的卷积核,生成用于对待检测图像进行目标检测的目标检测模型,避免了增加检测模型网络宽度或深度带来的模型复杂度的提升,从而降低了对图像检测模型的运算性能的要求,减少了图像检测的推理时间,提高了图像检测效率和模型鲁棒性。同时,由于融合卷积核基于至少两个尺寸的卷积核得到,使得融合卷积核同样具备多尺度特征提取能力,从而保证了目标卷积层的特征提取或特征编码的丰富性或多样性,进而保证了目标检测模型的检测精度。
[0106]
在一个可选实施例中,融合卷积核得到模块502,包括:
[0107]
卷积核尺寸调整单元,用于针对每一目标卷积层,将该目标卷积层中各卷积核的尺寸调整至目标尺寸;
[0108]
融合卷积核得到单元,用于将调整后的各卷积核进行融合,得到该目标卷积层对
应的融合卷积核。
[0109]
在一个可选实施例中,卷积核尺寸调整单元,包括:
[0110]
目标尺寸确定子单元,用于将该目标卷积层中卷积核的最大尺寸作为目标尺寸,并将该目标卷积层中非最大尺寸的卷积核作为待调整卷积核;
[0111]
卷积核尺寸调整子单元,用于分别对各待调整卷积进行扩展,以将各待调整卷积调整至目标尺寸。
[0112]
在一个可选实施例中,卷积核尺寸调整子单元,包括:
[0113]
卷积核尺寸调整从单元,用于分别以各待调整卷积核为中心,通过均匀补零的方式,将各待调整卷积核调整至目标尺寸。
[0114]
在一个可选实施例中,初始检测模型包括特征提取网络和检测头网络;
[0115]
目标卷积层位于特征提取网络和/或检测头网络。
[0116]
在一个可选实施例中,在特征提取网络或检测头网络中,较高层级的目标卷积层中卷积核的数量大于较低层级的目标卷积层中卷积核的数量。
[0117]
在一个可选实施例中,在特征提取网络或检测头网络中,较高层级的目标卷积层中卷积核的最大尺寸大于较低层级的目标卷积层中卷积核的最大尺寸。
[0118]
在一个可选实施例中,目标检测模型设置于无人驾驶车辆中,待检测图像为无人驾驶车辆行驶环境中所采集的图像。
[0119]
上述图像检测装置可执行本公开任意实施例所提供的图像检测方法,具备执行图像检测方法相应的功能模块和有益效果。
[0120]
本公开的技术方案中,所涉及的初始检测模型和待检测图像等数据的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0121]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0122]
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0123]
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0124]
设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0125]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单
元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如图像检测方法。例如,在一些实施例中,图像检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的图像检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像检测方法。
[0126]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0127]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0128]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0129]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0130]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0131]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0132]
在上述各技术方案的基础上,本公开的一个可选实施例中,还提供了一种车辆。该车辆设置有如图6所示的电子设备。在一个可选实施例中,该车辆可以是无人驾驶车辆。
[0133]
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
[0134]
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
[0135]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
[0136]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1