基于密集连接和交叉融合的图像语义实时分割方法

文档序号:34803333发布日期:2023-07-18 19:28阅读:100来源:国知局
基于密集连接和交叉融合的图像语义实时分割方法

本发明属于图像语义分割,涉及一种基于密集连接和交叉融合的图像语义实时分割方法。


背景技术:

1、传统的语义分割算法包括阈值分割、聚类、基于边缘分割、基于图分割和基于区域分割算法等。但以上传统的图像语义分割算法只能运用于简单的分割场景,不能满足自动驾驶场景需求,其对图像的特征描述不够深入,难以区分城市街景中的不同目标类。但在深度学习被应用于图像语义分割之前,传统的图像语义分割算法对简单场景具有积极影响。

2、自卷积神经网络提出以来,基于深度学习的语义分割方法在预测精度上不断提高,但依旧由于参数量和计算量过大而无法用于简单的移动设备资源上。直至enet的出现,实时分割网络算法模型开始展现。

3、随着自动驾驶领域的不断发展,对实时性语义分割网络的需求在不断提高。目前,有很多技术减轻了网络模型的沉重,轻量级模型也不断涌现。esnet遵循对称的编码器-解码器架构,提出一个并行分解卷积单元模块,具有多分支并行卷积、多分支空洞卷积和逐点卷积。esnet体系结构的对称性降低了网络的复杂性,从而减少了推理时间。并行分解卷积单元模块以一种强大的方式学习非并行特征表示,而不增加计算复杂度。shelfnet18由多个编码器-解码器分支组成,使用了共享权重和残差块。为了减少推理时间,shelfnet18提出了信道缩减策略,有效地减少了计算成本。不同编码器-解码器分支的使用改善了计算过程,提高了分割精度。在相同残差块的卷积层之间共享权重,以减少网络参数的数量而不降低精度。lednet是一种新型的轻量级网络,其重点在于减少网络参数的数量。它遵循非对称编码器-解码器架构,并使用信道变换来提高推理速度。lednet的解码器中使用基于注意力的金字塔网络,以扩大感受野,同时减轻网络额外的计算复杂性。此外,非对称编码器-解码器结构表明了小解码器尺寸可以提高推理速度方面的性能。rgpnet提出密集连接的编解码器网络架构,该架构基于resnet骨干,具有轻量级编码器。rgpnet通过引入一个适配器模块来捕获多个抽象级别,以帮助细分片段的边界细化。适配器还通过增加短路径来辅助梯度流动。rgpnet结合多尺度特征的策略带来了出色的性能,但与其他一些方法相比,该模型相当大且缓慢。

4、目前实时语义分割网络相关研究已经不断涌现,为使网络处理速度有所提升,意味着要减少卷积神经网络的深度以及参数,这使得网络预测精度有所下降。但过于追求推理速度的提升,也会导致分割效果不佳,失去语义分割的最初目的,因此对于网络结构的精度、推理速度和参数之间难以达到良好的平衡。


技术实现思路

1、有鉴于此,本发明的目的在于针对城市街景下轻量级网络过多依赖精度指标或过多依赖推理速度指标而忽略性能和效率平衡的问题,提供一种提出基于密集连接和交叉融合的实时分割网络(dccfnet)。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于密集连接和交叉融合的图像语义实时分割方法,包括以下步骤:

4、s1:构建通道交流瓶颈残差单元(channel communication bottleneck residualunit,cbru),在下采样的同时,补充空间信息和上下文信息;

5、s2:构建密集连接的通道交流瓶颈残差模块(densely connected channelcommunication bottleneck residual,dcbr),在cbru单元间使用元素加密集连接的方法,在各个阶段对深层次语义信息和低层次细节信息进行融合;在cbru单元间使用元素加密集连接的方法,该模块消除cbru单元中由于空洞卷积造成的网格伪影。同时,dcbr模块在各个阶段对深层次语义信息和低层次细节信息进行融合,使模型给出更平滑的决策边界。本方案不会增加模型设置的通道数,参数量低,计算量也大大降低。

6、s3:构建多分辨率交叉融合模块(multi-resolution cross-fusion module,mcfm),将浅层空间信息和深层语义信息相融合;

7、s4:基于步骤s1-s3构建的模块,构建基于密集连接和交叉融合的实时分割网络dccfnet,对图像语义进行实时分割。

8、进一步,所述通道交流瓶颈残差单元cbru在开头使用3×3卷积,将通道数减少为原来的一半,这大大减少了模型的通道数,也保留了空间信息和上下文信息;

9、在经过3×3卷积之后,特征分别通过两分支的深度卷积操作,使用3×1和1×3的深度可分离卷积和1×3和3×1的深度可分离卷积分别对特征进行处理;

10、然后再进行元素加法操作,增强两分支的信息交流;

11、接着使用空洞卷积对特征进一步提取,对上下文信息进一步融合;

12、再然后使用1×1卷积恢复原本通道数,提高模型表达能力;

13、最后利用通道混洗操作对特征进行处理,进一步便于信息在特征通道中传输。

14、本方案将深度可分离卷积和空洞卷积相结合,深度可分离卷积在保持精度的同时大大减少了参数,对局部信息和全局信息进行提取,空洞卷积放大了感受野,帮助上下文信息交流而不会降低分辨率。

15、进一步,所述多分辨率交叉融合模块mcfm的处理步骤如下:

16、s31:将1/8分辨率的特征图经过3×1和1×3的分解卷积进行降维,然后使用1×1卷积和sigmoid激活函数得到注意力图与1/8分辨率的输入特征图相乘,得到x1;

17、s32:将1/2分辨率的特征图分支同样经过3×1和1×3的分解卷积,然后进行下采样操作,得到分辨率为1/4的特征,得到x3;

18、s33:将1/4分辨率的特征图输入经过3×1和1×3的分解卷积为x2;

19、s34:使用像素级相乘将各支路特征x1、x2、x3进行交叉相乘,对应得到特征f1、f2、f3;

20、s35:将各分支的特征进行元素加法融合得到最终结果f。

21、由于dccfnet只将输入特征图下采样1/8分辨率,因此使用1×1卷积和sigmoid激活函数得到的注意力图对语义特征进一步的加强。此外,使用分解卷积,减少模型总体参数,加快推理速度。使用多分支融合加强了通道间的信息交流,对深层语义特征和浅层细节特征进行更好地融合,使得到的分割结果更加准确。

22、进一步,所述基于密集连接和交叉融合的实时分割网络dccfnet包括编码器部分和解码器部分;

23、编码器部分包括三个阶段:

24、阶段一:包括一个下采样操作,然后使用3个3×3卷积得到图像的初始特征;

25、阶段二:包括一个下采样操作,然后使用3个通道交流瓶颈残差单元cbru对初始特征的语义信息进一步提取,使用密集连接的通道交流瓶颈残差模块dcbr增强网络架构上下文信息的交流;

26、阶段三:包括一个下采样操作,然后使用8个双路径的通道交流瓶颈残差单元cbru进一步提取特征;

27、解码器部分为一个阶段:

28、阶段四:利用多分辨率交叉融合模块mcfm对各层分割得到的特征图进行融合,然后使用分割头对融合后得到的特征图进行最后的处理,得到预测图。

29、进一步,阶段二中,使用空洞卷积的空洞率分别为{2,2,2},通道数为64。

30、进一步,阶段三中,使用空洞卷积的空洞率分别为{4,4,8,8,16,16,32,32},通道数为128。

31、进一步,对于基于密集连接和交叉融合的实时分割网络dccfnet,使用额外的监督优化深度卷积神经网络,在解码器部分使用分割头对输入特征进行上采样,在测试阶段丢弃,总损失函数为加权交叉熵损失函数和辅助损失,如式所示:

32、l=lossw+αlossα

33、其中l为最终损失,lossw为加权交叉熵损失函数,lossα为辅助损失,α为辅助损失权重。

34、本发明的有益效果在于:本发明提出一种基于密集连接和交叉融合的实时分割网络dccfnet,其属于编解码器网络,在编码器阶段通过对特征提取模块引入通道短连接提出通道交流瓶颈残差单元,使信息在特征提取阶段就可以进行交流。使用密接连接加强不同模块间的特征共享,加强特征重用。编码器阶段,为了更好地使浅层细节信息和深层语义信息充分融合,提出多分辨率交叉融合模块。dccfnet在cityscapes数据集以72.2%的预测精度和96fps推理速度超过现有模型。

35、本模型具有轻量级的特点,引入通道交流瓶颈残差单元,有效提取语义信息,同时增强了信道交流和上下文交流;使用模块间密集连接方法加强了模块的有效预测,促进局部信息和全局信息的融合,同时有效防止梯度爆炸;多分辨率交叉融合模块相比传统方法,可以得到更佳的性能;网络的精度和推理速度具有较好的结果。

36、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1