一种基于MobileViT与UNet模型的图像分割方法及系统

文档序号:37364279发布日期:2024-03-22 10:17阅读:23来源:国知局
一种基于MobileViT与UNet模型的图像分割方法及系统

本发明涉及图像处理领域,特别涉及一种基于mobilevit与unet模型的图像分割方法及系统。


背景技术:

1、随着工业自动化和视觉技术的快速发展,工业图像分割在自动化生产和质量控制中变得至关重要。工业图像分割是一项复杂而关键的任务,它可以帮助工程师和研究人员准确地识别和定位生产线上的物体、缺陷或异常情况,从而提高了工业生产的效率、质量和安全性。

2、现有的工业图像分割方法存在一系列明显的缺陷,这些缺陷限制了它们在实际应用中的效用。首先,许多传统的图像分割方法往往过于复杂,需要大量的计算资源和时间,这在工业环境下并不可行,特别是在移动设备上的应用。这限制了这些方法的实际可用性和部署范围。其次,一些传统方法对工业图像的多样性和复杂性表现出有限的适应性。它们难以处理不同光照条件、角度和拍摄设备导致的变化,这在工业场景中经常出现。这导致了分割的不稳定性和不准确性。此外,现有的方法通常侧重于特定领域或特定类型的工业图像,难以泛化到不同类型的工业应用中。这缺乏通用性,需要根据具体应用进行不同的定制和调整。

3、综上,传统的工业图像分割方法通常面临计算复杂性高、模型效果有限和对硬件资源要求较高的挑战。为了应对这些问题,深度学习方法已经成为工业图像分割领域的一项重要创新。unet模型作为一种经典的卷积神经网络结构,已经在工业图像分割任务中取得了显著的成功。然而,在需要轻量级和高效模型的工业环境中,传统的unet模型可能会受到一些限制,如在嵌入式视觉系统或实时生产线监控中的应用。


技术实现思路

1、针对现有技术的问题,本发明的目的在于提供一种基于mobilevit与unet模型的图像分割方法及系统,分割模型以unet为基础,同时融合了mobilevit的网络结构,对unet的卷积模块和特征金字塔结构进行了改进,能够有效地处理工业环境中的图像,提高分割精度和加快推理速度,在资源受限的情况下提供高质量的分割结果。

2、本发明采用如下技术方案:

3、一方面,一种基于mobilevit与unet模型的图像分割方法,包括:

4、s101,将原始的rgb三通道图像大小进行调整,并对应调整标签图像大小;

5、s102,将调整后的rgb图像输入分割模型进行训练,获得训练好的模型参数;所述分割模型包括编码器和解码器;所述编码器用于对调整后的rgb图像进行特征提取;所述解码器的输入为所述编码器的输出,所述解码器输出与编码器部分相同空间分辨率的特征图;

6、所述编码器包括若干倒残差结构和mobilevit结构;所述编码器包括若干上倒残差结构和mobilevit结构;所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接;所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接;

7、s103,使用训练好的分割模型进行图像分割,输出与标签图像的大小一致的分割图像。

8、优选的,s101中,rgb三通道图像大小调整为512×512×3,对应的标签图像大小调整为512×512×1。

9、优选的,所述编码器包括依次相连接的卷积核大小为3×3步长为2的卷积层、卷积核大小为2×2的池化层、步长为1的第一倒残差结构、步长为2的第二倒残差结构、两步长为1的第三倒残差结构、步长为2的第四倒残差结构、第一mobilevit结构、步长为2的第五倒残差结构、第二mobilevit结构、步长为2的第六倒残差结构、第三mobilevit结构、步长为2的第七倒残差结构、第四mobilevit结构和第五mobilevit结构;其中,所述卷积层与调整后的rgb图像相连接;所述第五mobilevit结构与解码器相连接。

10、优选的,所述解码器包括依次相连接的2倍上采样且步长为1的第一上倒残差结构、第六mobilevit结构、2倍上采样且步长为1的第二上倒残差结构、第七mobilevit结构、2倍上采样且步长为1的第三上倒残差结构、第八mobilevit结构、2倍上采样且步长为1的第四上倒残差结构、两步长为1的第八倒残差结构、2倍上采样且步长为1的第五上倒残差结构、步长为1的第九倒残差结构、卷积核大小为3×3步长为2的卷积层和分类层;所述第一上倒残差结构与第五mobilevit结构相连接。

11、优选的,所述步长为2的第四倒残差结构与2倍上采样且步长为1的第四上倒残差结构之间建立有跳跃连接;

12、所述第一mobilevit结构与第八mobilevit结构之间建立有跳跃连接;

13、所述步长为2的第五倒残差结构与2倍上采样且步长为1的第三上倒残差结构之间建立有跳跃连接;

14、所述第二mobilevit结构与第七mobilevit结构之间建立有跳跃连接;

15、所述步长为2的第六倒残差结构与2倍上采样且步长为1的第二上倒残差结构之间建立有跳跃连接;

16、所述第三mobilevit结构与第六mobilevit结构之间建立有跳跃连接;

17、所述步长为2的第七倒残差结构与第一上倒残差结构之间建立有跳跃连接。

18、优选的,所述倒残差结构包括:

19、依次连接的1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

20、优选的,所述上倒残差结构包括:

21、依次连接的双线性插值层、1x1卷积层、3x3的卷积操作的深度可分离卷积层和1x1卷积层。

22、优选的,模型训练时使用的损失函数如下:

23、

24、其中,|y|表示真实标签的像素总数;|yp|表示模型的预测值的像素总数;|y∩yp|表示真实标签与模型输出的交集;cosh是双曲余弦函数;log是自然对数。

25、另一方面,一种基于mobilevit与unet模型的图像分割系统,包括:

26、预处理模块,用于将原始的rgb三通道图像大小进行调整,并对应调整标签图像大小;

27、训练模块,用于将调整后的rgb图像输入分割模型进行训练,获得训练好的模型参数;所述分割模型包括编码器和解码器;所述编码器用于对调整后的rgb图像进行特征提取;所述编码器的输出作为解码器的输入,所述解码器输出与编码器部分相同空间分辨率的特征图;

28、所述编码器包括若干倒残差结构和mobilevit结构;所述编码器包括若干上倒残差结构和mobilevit结构;所述编码器的倒残差结构与解码器的上倒残差结构建立有跳跃连接;所述编码器的mobilevit结构与解码器的mobilevit结构建立有跳跃连接;

29、分割模块,用于使用训练好的分割模型进行图像分割,输出与标签图像的大小一致的分割图像。

30、与现有技术相比,本发明的有益效果如下:

31、(1)本发明将mobilevit网络结构应用于unet模型中的编码器部分,结合倒残差结构(上倒残差结构)和mobilevit结构,能够有效降低了分割模型的计算成本,在工业图像分割中,使得分割模型能够更快地完成推理,适用于实时或大规模应用;

32、(2)本发明对卷积模块的激活函数进行了改进,此外,引入了跳跃连接(skipconnection),有助于提取工业环境图像中的细节信息,提高分割精度,并将池化层替换为了stride=2的倒残差结构;

33、(3)mobilevit block中的transformer模块具有注意力机制,为了进一步改进分割准确度,本发明引入该注意力机制模块,在特征融合前使用通道注意力网络,使得模型能够更加关注重要的特征信息,从而提升了分割准确度,尤其在复杂工业环境图像中表现出色;

34、(4)本发明对损失函数进行了改进,引入log-cosh dice loss作为损失函数,进一步提升分割任务的性能;log-cosh dice loss结合了dice loss和log-cosh损失的特性,对分割准确性和稳定性都有显著的改进,有助于更好地匹配实际应用场景的需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1