夜间图像实时语义分割方法、装置、电子设备及存储介质

文档序号:35780274发布日期:2023-10-21 16:22阅读:30来源:国知局
夜间图像实时语义分割方法、装置、电子设备及存储介质

本发明属于计算机视觉,涉及一种图像语义分割方法、装置、电子设备及存储介质,涉及一种夜间图像实时语义分割方法、装置、电子设备及存储介质。


背景技术:

1、语义分割是计算机视觉领域的重要任务,旨在将图像中的每个像素标记为不同的语义类别,从而在视觉上区分出不同的区域。然而,在夜晚场景下进行实时语义分割面临许多挑战,例如低光条件、噪声、模糊和低对比度等。传统的基于深度学习的语义分割方法通常使用卷积神经网络(convolutional neural network,cnn)来提取图像特征和上下文信息。然而,cnn在处理大尺寸图像时需要大量的计算资源和存储空间,因此对于实时应用或资源受限的场景并不适用。

2、现有技术在夜晚场景下实时语义分割方面已经提出了一些解决方案。其中,基于轻量化设计的方法尝试通过减少模型的复杂性和参数量来降低计算和存储资源的需求。另外,一些方法通过引入上下文信息捕捉机制,如空洞卷积、多尺度处理或条件随机场,以提高语义分割的准确性。然而,现有方法存在一些限制。首先,传统基于cnn的方法可能无法充分捕捉夜晚场景中的长距离上下文依赖关系,导致语义分割的准确性不高。其次,轻量化设计方法通常会牺牲一定的准确性或需要复杂的优化过程。因此,需要一种新的技术来解决夜晚场景下实时语义分割的问题。


技术实现思路

1、本发明要解决的技术问题在于,解决夜晚场景下的实时语义分割问题中存在的:(1)夜晚场景中的物体可能具有复杂的结构和语义关系,涉及到长距离的依赖关系。传统基于cnn的方法可能无法有效捕捉这种上下文关系,导致分割结果缺乏全局一致性和准确性;(2)在实时应用中,如智能交通系统或自动驾驶系统,对于语义分割算法需要具备高效的推理速度和较低的计算资源需求。然而,常规的基于vit的方法通常具有较高的计算复杂度和存储需求,无法满足实时应用的要求。

2、为了解决上述技术问题,本发明提供了一种夜间图像实时语义分割方法、装置、电子设备及存储介质。

3、本发明的方法采用的技术方案是:一种夜间图像实时语义分割方法,包括以下步骤:

4、步骤1:将待处理的夜间图像输入特征提取网络,用于获取不同分辨率的特征;

5、所述特征提取网络,以stdc块为基本单位,共5个阶段组成,对于输入的特征,stdc块采用4个层次的卷积进行特征提取,并在此过程中逐步减小通道数,最后将除了1×1的卷积层外的所有特征进行串联后输出;

6、步骤2:将所述特征提取网络中的第3、4、5阶段生成的特征进行维度变换,随后将变换后的特征串联在一起组成特征金字塔,形成多尺度的特征表示;

7、步骤3:将特征金字塔作为输入,经过轻量化vit网络获取长距离的依赖关系,得到含有多尺度语义信息的高级特征;

8、步骤4:采用交互融合网络将所述高级特征与第3,4,5阶段进行维度变换后的低级特征依次进行融合,其顺序为:所述高级特征首先与第5阶段维度变换后的低级特征融合,形成分辨率为原图1/32的初步融合特征;再将1/32的初步融合特征与第4阶段维度变换后的低级特征融合,形成分辨率为原图1/16的中间融合特征;最后将中间融合特征与第3阶段维度变换后的低级特征融合,形成分辨率为原图1/8的深度耦合语义与细节信息的最终特征;

9、步骤5:将最终特征输入分割单元,输出一个与待处理图像相同大小的分割结果,从而实现像素级预测。

10、本发明的装置采用的技术方案是:一种夜间图像实时语义分割装置,包括以下模块:

11、特征提取模块,用于将待处理的夜间图像输入特征提取网络,用于获取不同分辨率的特征;所述特征提取网络,以stdc块为基本单位,共5个阶段组成,对于输入的特征,stdc块采用4个层次的卷积进行特征提取,并在此过程中逐步减小通道数,最后将除了1×1的卷积层外的所有特征进行串联后输出;

12、特征金字塔构建模块,用于将所述特征提取网络中的第3、4、5阶段生成的特征进行维度变换,随后将变换后的特征串联在一起组成特征金字塔,形成多尺度的特征表示;

13、高级特征获取模块,用于将特征金字塔作为输入,经过轻量化vit网络获取长距离的依赖关系,得到含有多尺度语义信息的高级特征;

14、最终特征获取模块,用于将所述高级特征将进行多次交互融合,形成深度耦合语义与细节信息的最终特征;

15、语义分割模块,用于将最终特征输入分割单元,输出一个与待处理图像相同大小的分割结果,从而实现像素级预测。

16、本发明的电子设备采用的技术方案是:一种电子设备,包括:

17、一个或多个处理器;

18、存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的夜间图像实时语义分割方法。

19、本发明的存储介质采用的技术方案是:一种存储介质,存储有程序;所述程序被处理器执行时,实现所述的夜间图像实时语义分割方法。

20、本发明的有益效果包括:

21、(1)实时性:本发明能够在保持高准确性的同时,实现更快的推理速度,适用于实时应用需求。

22、(2)准确性:本发明通过引入transformer的自注意力机制,能够捕捉夜晚场景中的长距离依赖关系,相较于传统基于cnn的方法,能够更好地理解图像中的上下文信息,从而实现更准确的语义分割结果。

23、(3)轻量化设计:本发明采用轻量化的网络设计,减少了模型的复杂性和参数量,降低了计算和存储资源的需求。这使得该发明在资源受限的环境中仍能高效运行,并且可以在嵌入式设备或边缘计算平台上实现实时语义分割。



技术特征:

1.一种夜间图像实时语义分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的夜间图像实时语义分割方法,其特征在于:步骤2中,所述维度变换,包括通道缩减和下采样,其中第3、4阶段的特征进行通道缩减和下采样,第5阶段的特征只进行通道缩减;

3.根据权利要求1所述的夜间图像实时语义分割方法,其特征在于:步骤3中,所述轻量化vit网络,由自注意力机制层和前馈网络构成;

4.根据权利要求1所述的夜间图像实时语义分割方法,其特征在于:步骤4中,所述交互融合网络包括预处理层、空间注意力机制层和互补融合层三个部分;

5.根据权利要求1所述的夜间图像实时语义分割方法,其特征在于:步骤4中,所述分割单元,由顺序连接的3×3的卷积层、批归一化层、relu激活函数层、1×1卷积层以及双线性插值的上采样层组成。

6.根据权利要求1-5任一项所述的夜间图像实时语义分割方法,其特征在于:所述特征提取网络、轻量化vit网络、交互融合网络和分割单元,组成夜间图像实时语义分割网络;所述夜间图像实时语义分割网络,是训练好的网络;训练过程中采用的损失函数loss由主要损失和两个辅助损失共同组成;

7.根据权利要求1-5任一项所述的夜间图像实时语义分割方法,其特征在于:所述特征提取网络、轻量化vit网络、交互融合网络和分割单元,组成夜间图像实时语义分割网络;所述夜间图像实时语义分割网络,是训练好的网络;训练过程中采用的损失函数l是交叉熵损失函数;

8.一种夜间图像实时语义分割装置,其特征在于,包括以下模块:

9.一种电子设备,其特征在于,包括:

10.一种存储介质,存储有程序;其特征在于,所述程序被处理器执行时,实现权利要求1至7中任一项所述的夜间图像实时语义分割方法。


技术总结
本发明公开了一种夜间图像实时语义分割方法、装置、电子设备及存储介质,首先将待处理的夜间图像输入特征提取网络,用于获取不同分辨率的特征;然后将特征提取网络中的第3、4、5阶段生成的特征进行维度变换,随后将变换后的特征串联在一起组成特征金字塔,形成多尺度的特征表示;接着将特征金字塔作为输入,经过轻量化ViT网络获取长距离的依赖关系,得到含有多尺度语义信息的高级特征;采用交互融合网络将高级特征将进行多次交互融合,形成深度耦合语义与细节信息的最终特征;最后将最终特征输入分割单元,输出一个与待处理图像相同大小的分割结果,从而实现像素级预测。本发明能够有效地捕捉夜晚场景中的上下文信息,提高语义分割的准确性。

技术研发人员:魏龙生,廖宇航,赵雷,黄浩,罗大鹏
受保护的技术使用者:中国地质大学(武汉)
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1