基于CNN和Transformer的目标检测方法与流程

文档序号:33374037发布日期:2023-03-08 03:20阅读:104来源:国知局
基于CNN和Transformer的目标检测方法与流程
基于cnn和transformer的目标检测方法
技术领域
1.本发明涉及自动驾驶技术领域,尤其涉及一种基于cnn和transformer的目标检测方法。


背景技术:

2.目标检测是自动驾驶领域核心技术之一。目标检测主要是通过对车辆实时采集到的路面图像进行分析,从而识别出路面图像上的物体并框选出来。目标检测可以为自动驾驶功能的实现提供技术支持,以保证行车安全。
3.目前,常规的目标检测是采用卷积神经网络(cnn)。与传统方法相比,cnn可以准确地提取出合适的特征,无需额外设计特定的特征。但是现有的基于cnn的检测方法,例如yolov5,虽然因为其网络深度较浅因而速度更快,但同时其目标识别精度也有所下降,在实际应用时无法保证识别的可靠性。


技术实现要素:

4.本发明实施例提供一种基于cnn和transformer的目标检测方法,其能实现模型轻量化,提高目标检测的精度。
5.本发明实施例提供一种基于cnn和transformer的目标检测方法,包括:
6.获取待检测图像;
7.采用预先构建的目标检测模型对所述待检测图像进行检测,获得标记有目标检测框的目标图像;
8.其中,所述目标检测模型包括backbone、neck和head三部分,backbone部分基于cnn网络和transformer网络对所述待检测图像进行特征提取,得到多个不同尺度的特征;neck部分基于ghost-bifpn网络对相应多个不同尺度的特征进行特征融合,并将得到的融合特征输入到head部分进行预测,得到所述目标图像。
9.作为上述方案的改进,backbone部分包括依次连接的三层不同尺度的、基于cnn网络的特征提取模块和一层基于transformer网络的特征提取模块;第一层基于cnn网络的特征提取模块以所述待检测图像为输入进行特征提取,依次连接的另两层基于cnn网络的特征提取模块分别对上一层特征提取模块输出的特征继续进行特征提取,基于transformer网络的特征提取模块对最末层基于cnn网络的特征提取模块输出的特征继续进行特征提取。
10.作为上述方案的改进,各层特征提取模块的下采样倍数自第一层基于cnn网络的特征提取模块起依次为2、4、8、16。
11.作为上述方案的改进,各层特征提取模块中的特征提取单元的数量配比依次为2:3:4:4。
12.作为上述方案的改进,各层基于cnn网络的特征提取模块中的特征提取单元采用shufflenetv2网络。
13.作为上述方案的改进,基于transformer网络的特征提取模块中的特征提取单元采用conv-pool网络。
14.作为上述方案的改进,所述ghost-bifpn网络包括第一融合层、第二融合层以及第三融合层,所述第一融合层与基于transformer网络的特征提取模块和所述第二融合层连接;所述第二融合层与第三层基于cnn网络的特征提取模块、所述第一融合层和第三融合层连接;所述第三融合层与第二层基于cnn网络的特征提取模块和第二融合层连接。
15.作为上述方案的改进,所述第一融合层包括第一特征融合单元以及第一特征卷积提取单元;所述第二融合层包括第一下采样单元、第一上采样单元、第二特征融合单元、第三特征融合单元、第二特征卷积提取单元、第三特征卷积提取单元;所述第三融合层包括第二下采样单元、第二上采样单元、第四特征融合单元和第四特征卷积提取单元;
16.其中,所述第四特征卷积提取单元用于对第二层基于cnn网络的特征提取模块输出的特征进行特征提取,所述第二下采样单元用于对第二层基于cnn网络的特征提取模块输出的特征进行下采样,所述第二上采样单元用于对所述第二融合层输出的融合特征进行上采样,所述第四特征融合单元用于对第二层基于cnn网络的特征提取模块输出的特征、所述第四特征卷积提取单元输出的特征以及所述第二上采样单元输出的特征进行特征融合;
17.所述第二特征卷积提取单元用于对第三层基于cnn网络的特征提取模块输出的特征进行特征提取,所述第二特征融合单元用于对所述第二下采样单元输出的特征和所述第二特征卷积提取单元输出的特征进行特征融合,所述第一下采样单元用于对所述第二特征融合单元输出的特征进行下采样,所述第三特征卷积提取单元用于对所述第二特征融合单元输出的特征进行特征提取,所述第一上采样单元用于对所述第一特征融合单元输出的融合特征进行上采样,所述第三特征融合单元用于对第三层基于cnn网络的特征提取模块输出的特征、所述第三特征卷积提取单元输出的特征以及所述第一上采样单元输出的特征进行特征融合;
18.所述第一特征卷积提取单元用于对基于transformer网络的特征提取模块输出的特征进行特征提取,所述第一特征融合单元用于对基于transformer网络的特征提取模块输出的特征、所述第一下采样单元输出的特征以及所述第一特征卷积提取单元输出的特征进行特征融合。
19.作为上述方案的改进,所述第一特征卷积提取单元、所述第二特征卷积提取单元、所述第三特征卷积提取单元以及第四特征卷积提取单元均采用ghost网络进行特征提取。
20.相对于现有技术,本发明实施例的有益效果在于:通过采用预先构建的目标检测模型对获取的待检测图像进行检测,获得标记有目标检测框的目标图像;其中,所述目标检测模型包括backbone、neck和head三部分,backbone部分基于cnn网络和transformer网络对所述待检测图像进行特征提取,得到多个不同尺度的特征;neck部分基于ghost-bifpn网络相应对多个不同尺度的特征进行特征融合,并将得到的融合特征输入到head部分进行预测,得到所述目标图像;本发明实施例基于cnn网络、transformer网络和ghost-bifpn网络对车辆采集的待检测图像进行目标检测,可以在实现模型轻量化以提升目标检测速度的同时,可以提高目标检测的精度。
附图说明
21.为了更清楚地说明本发明的技术方案,下面将对实施方式中所占据要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例提供的一种基于cnn和transformer的目标检测方法的流程图;
23.图2是本发明实施例提供的目标检测模型的结构示意图;
24.图3(a)是本发明实施例提供的shufflenetv2 block的一种结构示意图;
25.图3(b)是本发明实施例提供的shufflenetv2 block的另一种结构示意图;
26.图4是本发明实施例提供的conv-pool block的结构示意图;
27.图5是本发明实施例提供的ghost网络的结构示意图;
28.图6是本发明实施例提供的ghost-bifpn网络的结构示意图。
具体实施方式
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.请参见图1,其是本发明实施例提供的一种基于cnn和transformer的目标检测方法的流程图,所述基于cnn和transformer的目标检测方法,包括:
31.s1:获取待检测图像;
32.示例性,所述待检测图像可以是汽车在行驶过程中采集的位于前方的路面图像,或者汽车周围的环境图像。
33.s2:采用预先构建的目标检测模型对所述待检测图像进行检测,获得标记有目标检测框的目标图像;
34.其中,所述目标检测模型包括backbone、neck和head三部分,backbone部分基于cnn网络和transformer网络对所述待检测图像进行特征提取,得到多个不同尺度的特征;neck部分基于ghost-bifpn网络对多个不同尺度的特征进行特征融合,并将得到的融合特征输入到head部分进行预测,得到所述目标图像。
35.其中,backbone部分可以理解为所述目标检测模型的主干网络,是用于提取特征的网络。neck部分是放在backbone部分和head部分之间,用于融合特征并将融合后特征传递给head部分。head部分可以理解为检测头,用于利用neck部分输出的特征进行预测,得到预测结果。
36.将获取的待检测图像输入到目标检测模型中进行目标检测,可以获得标记有目标检测框的目标图像,例如所述目标检测框可以采用最小外接框的形式在所述目标图像中框选出的目标对象,所述目标对象可以是车辆、行人或其他影响汽车行驶的障碍物。进一步,对于不同类型的目标对象可以采用不同颜色的最小外接框进行框选,以对目标对象进行分类。在本发明实施例中,建立基于cnn+transformer的backbone部分对待检测图像进行多尺度特征提取,然后在基于ghost-bifpn建立的neck部分进行多尺度特征融合,从而可以融合
多尺度特征的前提下实现更加轻量化,提升目标检测速度,同时可以提高目标检测的精度。
37.在一种可选的实施例中,backbone部分包括依次连接的三层不同尺度的、基于cnn网络的特征提取模块和一层基于transformer网络的特征提取模块;第一层基于cnn网络的特征提取模块以所述待检测图像为输入进行特征提取,依次连接的另两层基于cnn网络的特征提取模块分别对上一层特征提取模块输出的特征继续进行特征提取,基于transformer网络的特征提取模块对最末层基于cnn网络的特征提取模块输出的特征继续进行特征提取。
38.需要说明的是,在其他实施例中还可以根据实际需要对基于cnn网络的特征提取模块和基于transformer网络的特征提取模块的设置数量进行自定义。
39.示例性,基于cnn网络特征提取模块的数量配置为3个,基于transformer网络的特征提取模块的数量配置为1个,则第一层基于cnn网络的特征提取模块对所述待检测图像进行特征提取;第二层基于cnn网络的特征提取模块对第一基于cnn网络的特征提取模块输出的特征进行特征提取;第三层基于cnn网络的特征提取模块对第二层基于cnn网络的特征提取模块输出的特征进行特征提取;基于transformer网络的特征提取模块对第三层基于cnn网络的特征提取模块输出的特征进行特征提取。
40.在一种可选的实施例中,各层特征提取模块的下采样倍数自第一层基于cnn网络的特征提取模块起依次为2、4、8、16。
41.在一种可选的实施例中,各层特征提取模块中的特征提取单元的数量配比依次为2:3:4:4。
42.在一种可选的实施例中,各层基于cnn网络的特征提取模块中的特征提取单元采用shufflenetv2网络。
43.在一种可选的实施例中,基于transformer网络的特征提取模块中的特征提取单元采用conv-pool网络。
44.如图2所示,其给出了3层基于cnn网络的特征提取模块和1层基于transformer网络的特征提取模块的目标检测模型的示例。为了方便说明,下面将基于cnn网络的特征提取模块和基于transformer网络的特征提取模块统称为stage,对目标检测模型的结构进行说明。所述目标检测模型的stage1-3均采用shufflenetv2 block,所述目标检测模型的stage4采用conv-pool block,所述目标检测模型的neck采用ghost-bifpn block,其中,stage1同时作为图像接收层,用于接收待检测图像并进行特征提取。stage1-4的下采样倍数依次为2、4、8、16,同时每个stage的block数量配比为2、3、4、4,使得特征提取深度慢慢递增后维持不变,从而可以提取出更加丰富的语义信息。
45.图3(a)、(b)给出了shufflenetv2 block的两种结构。其中,图3(a)中的shufflenetv2 block结构包括:通道分片(channel split)、第一卷积层(conv1*1)、第二卷积层(depthwise conv3*3)、数据标准化(bn,batch norm)、第三卷积层(conv1*1)、特征叠加(concat)、通道重组(channel shuffle),channel split将输入特征的通道分成两个通道,其中一个通道依次经过conv1*1、depthwise conv3*3、bnconv1*1后与另一个通道的特征进行concat操作,最后进行channel shuffle,将concat后得到的特征通道数翻倍,从而提取出所需的局部特征。图3(b)中的shufflenetv2 block结构包括:第四卷积层(group conv1*1)、第五卷积层(depthwise conv3*3)、两个数据标准化(bn,batch norm)、第六卷积
层(conv1*1)、特征叠加(concat)、通道重组(channel shuffle)、第七卷积层(depthwise conv3*3)、第八卷积层(conv1*1),输入特征一方面依次经过包括group conv1*1、depthwise conv3*3、bn和conv1*1的分支,另一方面依次经过包括depthwise conv3*3、bn和conv1*1的分支,然后将两个分支输出的特征进行concat,最后进行channel shuffle,将concat后得到的特征通道数翻倍,从而提取出所需的局部特征。相对于传统的卷积算子,本发明实施例采用shufflenetv2进行特征提取可以同时兼顾精度与速度,可以提升目标检测的实时性。
46.如图4所示,其给出了conv-pool block的结构示意图。conv-pool block主要包括mlp(多层感知机,multi-layer perceptrons)、norm(归一化)、conv-pool以及embed(嵌入);其中,conv-pool使用了1x1 conv与avg-pool(平均池化)使模型更加轻量化,进一步加快推理速度。
47.在一种可选的实施例中,所述ghost-bifpn网络包括第一融合层、第二融合层以及第三融合层,所述第一融合层与基于transformer网络的特征提取模块和所述第二融合层连接;所述第二融合层与第三层基于cnn网络的特征提取模块、所述第一融合层和第三融合层连接;所述第三融合层与第二层基于cnn网络的特征提取模块和第二融合层连接。
48.进一步,所述第一融合层包括第一特征融合单元以及第一特征卷积提取单元;所述第二融合层包括第一下采样单元、第一上采样单元、第二特征融合单元、第三特征融合单元、第二特征卷积提取单元、第三特征卷积提取单元;所述第三融合层包括第二下采样单元、第二上采样单元、第四特征融合单元和第四特征卷积提取单元;
49.其中,所述第四特征卷积提取单元用于对第二层基于cnn网络的特征提取模块输出的特征进行特征提取,所述第二下采样单元用于对第二层基于cnn网络的特征提取模块输出的特征进行下采样,所述第二上采样单元用于对所述第二融合层输出的融合特征进行上采样,所述第四特征融合单元用于对第二层基于cnn网络的特征提取模块输出的特征、所述第四特征卷积提取单元输出的特征以及所述第二上采样单元输出的特征进行特征融合;
50.所述第二特征卷积提取单元用于对第三层基于cnn网络的特征提取模块输出的特征进行特征提取,所述第二特征融合单元用于对所述第二下采样单元输出的特征和所述第二特征卷积提取单元输出的特征进行特征融合,所述第一下采样单元用于对所述第二特征融合单元输出的特征进行下采样,所述第三特征卷积提取单元用于对所述第二特征融合单元输出的特征进行特征提取,所述第一上采样单元用于对所述第一特征融合单元输出的融合特征进行上采样,所述第三特征融合单元用于对第三层基于cnn网络的特征提取模块输出的特征、所述第三特征卷积提取单元输出的特征以及所述第一上采样单元输出的特征进行特征融合;
51.所述第一特征卷积提取单元用于对基于transformer网络的特征提取模块输出的特征进行特征提取,所述第一特征融合单元用于对基于transformer网络的特征提取模块输出的特征、所述第一下采样单元输出的特征以及所述第一特征卷积提取单元输出的特征进行特征融合。
52.其中,所述第一特征卷积提取单元、所述第二特征卷积提取单元、所述第三特征卷积提取单元以及第四特征卷积提取单元均采用ghost网络进行特征提取。
53.考虑到由于所述特征提取层的轻量化,可能会丢失一些信息,而所述特征融合层
如果直接基于传统卷积的形式做特征融合则会一定程度上损失速度,本发明实施例在所述特征融合层中采用ghost网络来提取更加精细的特征,同时还可以保证推理速度和精度。ghost网络结构如图5所示,包括ghost module、bn、relu(rectified linear unit,整流线性单元),输入ghost网络的特征依次经过ghost module、bn、relu、ghost module和bn进行处理,得到的特征再次与输入ghost网络的特征进行融合。其中,ghost module包括conv、depthwise conv、bn、relu和concat,输入ghost module的特征依次经过conv、bn和relu进行处理,得到的特征一方面依次depthwise conv、bn、relu后输入到concat,另一方面直接输入到concat,进行特征叠加。
54.考虑到所述特征提取层提取特征的层次结构,同时对于不同尺度不同规模的检测目标的需求,本发明实施例使用了bifpn网络(加权双向特征金字塔网络)来进行多尺度特征的融合,同时为了进一步实现轻量化的所述特征融合层的结构,在bifpn网络中使用上述ghost网络(下文统称为ghost conv),得到所述ghost-bifpn网络,进一步实现的精度与速度的均衡。所述ghost-bifpn网络的结构如图6所示,包括上述ghost conv、down-sample(下采样)、up-sample(上采样),对应如图2中所示目标检测模型,所述ghost-bifpn网络设置为三层结构,在第一层中,stage2输出的特征一方面输入到ghost conv进行精细特征提取,另一方面经过down-sample处理后输出到第二层,然后将提取到的精细特征与stage2输出的特征、第二层经过up-sample处理后输出的特征进行融合,并输出;在第二层中,stage3输出的特征输入到ghost conv进行精细特征提取,提取到的精细特征与第一层经过down-sample处理后输出的特征进行特征融合,然后将融合特征一方面输入到ghost conv再次进行精细特征提取,另一方面经过down-sample处理后输出到第三层,然后将二次提取到的精细特征与stage3输出的特征、第三层经过up-sample处理后输出的特征进行融合,并输出;在第三层中,stage4输出的特征输入到ghost conv进行精细特征提取,然后将提取到的精细特征与stage4输出的特征、第二层经过down-sample处理后输出的特征进行融合,并输出。
55.相对于现有技术,本发明实施例的有益效果在于:通过采用预先构建的目标检测模型对获取的待检测图像进行检测,获得标记有目标检测框的目标图像;目标检测模型包括backbone、neck和head三部分,backbone部分,backbone部分基于cnn网络和transformer网络对所述待检测图像进行特征提取,得到多个不同尺度的特征;neck部分基于ghost-bifpn网络相应对多个不同尺度的特征进行特征融合,并将得到的融合特征输入到head部分进行预测,得到所述目标图像;本发明实施例基于cnn网络、transformer网络和ghost-bifpn网络对车辆采集的待检测图像进行目标检测,可以在实现模型轻量化以提升目标检测速度的同时,可以提高目标检测的精度。
56.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出多台改进和润饰,这些改进和润饰也视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1