一种用于复杂环境移动机器人场景理解的语义分割模型训练方法

文档序号：27688227发布日期：2021-12-01 02:03阅读：180来源：国知局

1.本发明涉及图像处理技术领域，具体涉及一种用于复杂环境移动机器人场景理解的语义分割模型训练方法。

背景技术：

2.对于移动机器人,场景理解是其实现真正智能化的最核心技术,其场景理解能力依赖于面向场景解析的高精度语义分割算法具有场景理解能力的服务机器人即拥有了场景语义分割的能力,在配合移动底座和高精度机械臂后,能够进一步实现自主导航、物体送达、室内安保等高级任务。
3.场景理解在早期的计算机视觉相关的研究工作中就已经被重视,但一直无法找出较有效的解决方法。场景理解研究中存在较多难点，比如：如何在场景中的目标物体受到平移、旋转、光照或畸变等影响时,仍能获得该目标物体的鲁棒特征、为了取得更好的分割效果，研究人员通常会为基于深度学习的语义分割模型设计复杂的结构来提高分割精度，如aspp模块等，但复杂的结构通常会降低模型的运行速度、为了提高模型的运行速度，很多轻量语义分割模型被提出，然而轻量模型的精度与精确模型相比有一定差距，结构通常也比较特殊，较难改进或者改进后可能需要在imagenet数据集上进行预训练，设备要求高且训练费时费力。
4.综上，应用于移动机器人的面向场景解析的语义分割模型需要保证高精度，在未部署到移动端时即可达到实时的处理速度，从而可以使模型在直接使用时就能高精度地对场景进行解析，在专用设备上应用时不会因为降低精度的操作而损失过多的场景解析性能。考虑到设备的限制，难以对全新的模型进行重复迭代验证，因此本发明提出了一种用于复杂环境移动机器人场景理解的语义分割模型，该模型采用语义指导上采样模块以及repvgg模块将不同层级的特征图进行对齐融合，能捕获丰富的上下文信息。并且该模型最复杂的结构只有五级，结构简单模型更易训练且处理速度快等特点，并可以根据需求和平台灵活调整网络中的参数能进一步加快网路的推理速度。这些特点的结合，能很好的使移动机器人在应对复杂多变的环境下，迅速做出合理且精细的判断并加以应对。

技术实现要素：

5.针对现有技术中存在的问题和不足，本发明的目的旨在提供一种用于复杂环境移动机器人场景理解的语义分割模型训练方法及图像语义分割方法。
6.为实现发明目的，本发明采用的技术方案如下：
7.本发明第一方面提供了一种用于复杂环境移动机器人场景理解的语义分割模型训练方法，包括以下步骤：
8.s1：获取样本图像集，所述样本图像集中包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将样本图像集按比例随机划分为训
练集、验证集和测试集；
9.s2：将训练集中的样本图像输入预先构建的语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对语义分割模型进行参数更新，得到训练后的语义分割模型；
10.s3：采用验证集对步骤s2得到的训练后的语义分割模型进行验证，从训练后的语义分割模型中选出最优语义分割模型；
11.s4：采用测试集对步骤s3筛选的最优语义分割模型进行测试，评估最优语义分割模型的性能。
12.根据上述的语义分割模型训练方法，优选地，所述语义分割模型包含编码器、neck网络和解码器，所述编码器用于对待分割图像进行多个不同通道的特征提取，提取后生成多个不同通道的特征图；所述neck网络位于编码器和解码器之间，用于对编码器生成的多个不同通道的特征图进行加工处理，使输入的多个不同通道的特征图的通道数调整相同；所述解码器用于将neck网络输出的特征图进行上采样处理，得到最终的语义分割结果。
13.根据上述的语义分割模型训练方法，优选地，所述编码器包含五个网络结构相同的主干网络和四个结构相同的下采样模块组成；待分割图像从第一主干网络输入，经第一主干网络进行特征提取后生成一级特征图；一级特征图经第一下采样模块进行下采样后输入第二主干网络，经第二主干网络进行特征提取后生成二级特征图；二级特征图经第二下采样模块进行下采样后输入第三主干网络，经第三主干网络进行特征提取后生成三级特征图；三级特征图经第三下采样模块进行下采样后输入第四主干网络，经第四主干网络进行特征提取后生成四级特征图；四级特征图经第四下采样模块进行下采样后输入第五主干网络，经第五主干网络进行特征提取后生成五级特征图。
14.根据上述的语义分割模型训练方法，优选地，所述主干网络为resnet
‑
18网络；所述下采样模块的步长为2。
15.根据上述的语义分割模型训练方法，优选地，所述neck网络包含四个并列设置的repvgg模块，四个repvgg模块的网络结构相同，其中，第一repvgg模块的输入为二级特征图，第一repvgg模块的输出为二级变换特征图；第二repvgg模块的输入为三级特征图，第二repvgg模块的输出为三级变换特征图；第三repvgg模块的输入为四级特征图，第三repvgg模块的输出为四级变换特征图；第四repvgg模块的输入为五级特征图，第四repvgg模块的输出为五级变换特征图；所述解码器包含3个网络结构相同的上采样模块，每个上采样模块均由语义指导上采样模块和repvgg模块组成；第一上采样模块的输入为四级变换特征图和五级变换特征图，第一上采样模块的输出为四级变换特征图和五级变换特征图经语义融合得到的四级融合特征图；第二上采样模块的输入为三级变换特征图和四级融合特征图，第二上采样模块的输出为三级变换特征图和四级融合特征图经语义融合得到的三级融合特征图；第三上采样模块的输入为二级变换特征图和三级融合特征图，第三上采样模块的输出为二级变换特征图和三级融合特征图经语义融合得到的二级融合特征图；将二级融合特征图的通道数调整至与待分割图像一致，得到语义分割结果并输出。
16.根据上述的语义分割模型训练方法，优选地，每个上采样模块均由语义指导上采
样模块和repvgg模块组成；语义指导上采样模块用于对输入上采样模块的两个特征图进行特征语义对齐处理，并将特征语义对齐后的两个特征图进行融合，得到相应的融合特征图；所述语义指导上采样模块包含反卷积模块、拼接模块、repvgg模块、卷积模块和warp变形模块。更加优选地，语义指导上采样模块中，所述反卷积模块由转置卷积层、批量归一化层和激活函数组成，反卷积模块的卷积核大小为2，步长为2，填充为0；所述卷积模块为3
×
3卷积模块。
17.根据上述的语义分割模型训练方法，优选地，语义指导上采样模块对输入的两个特征图进行处理的具体过程为：
18.(1)将输入上采样模块的两个特征图中高一级的特征图记作x
i+1
，低一级的特征图记作x
i
(以第一上采样模块的输入为例，五级变换特征图为高一级的特征图，四级变换特征图为低一级的特征图；以第二上采样模块的输入为例，四级融合特征图为高一级的特征图，三级变换特征图为低一级的特征图)，采用语义指导上采样模块中的反卷积模块对特征图x
i+1
进行反卷积处理，得到反卷积特征图；将反卷积特征图与特征图x
i
按通道进行拼接处理，得到拼接特征图；
19.(2)将拼接特征图依次经repvgg模块、卷积模块进行处理，计算特征图x
i+1
与特征图x
i
之间的语义偏移量；
20.(3)根据步骤(2)计算得到的语义偏移量，通过warp变形模块对特征图x
i+1
进行变形处理，得到变形后特征图变形后特征图与特征图x
i
的特征语义对齐；
21.(4)变形后特征图与特征图x
i
进行对应元素相加，得到融合特征图并输出。
22.根据上述的语义分割模型训练方法，优选地，所述预先构建的语义分割模型、所述最优语义分割模型中repvgg模块均含有三个并列设置的分支模块和一个激活函数模块；第一分支和第二分支模块的结构相同，均包含3
×
3卷积层和批量归一化层；所述第三分支模块为批量归一化层；所述激活函数模块为1
×
1卷积模块；
23.repvgg模块对输入图像进行处理的过程为：
24.输入repvgg模块的特征图分别进入三个分支模块进行处理，得到三个特征图，将经三个分支模块处理得到的三个特征图进行合并后传输至激活函数模块进行处理，得到相应的变换特征图；其中，特征图输入第一个分支模块或第二个分支模块时，先采用3
×
3卷积层对特征图进行处理，然后再采用批量归一化层进行处理。
25.根据上述的语义分割模型训练方法，优选地，所述预先构建的语义分割模型中repvgg模块含有三个并列设置的分支模块和一个激活函数模块；第一分支和第二分支模块的结构相同，均包含3
×
3卷积层和批量归一化层；所述第三分支模块为批量归一化层；所述激活函数模块为1
×
1卷积模块。
26.所述预先构建的语义分割模型中repvgg模块对输入图像进行处理的过程为：
27.输入repvgg模块的特征图分别进入三个分支模块进行处理，得到三个特征图，将经三个分支模块处理得到的三个特征图进行合并后传输至激活函数模块进行处理，得到相应的变换特征图；其中，特征图输入第一个分支模块或第二个分支模块时，先采用3
×
3卷积层对特征图进行处理，然后再采用批量归一化层进行处理；
28.所述最优语义分割模型中repvgg模块由一个3
×
3卷积层和一个激活函数模块组成；所述最优语义分割模型中repvgg模块对输入图像进行处理的过程为：输入repvgg模块
的特征图经3
×
3卷积层进行卷积处理后传输至激活函数模块进行处理，得到相应的变换特征图。本发明预先构建的语义分割模型中repvgg模块包含多条支路，通过消融实验表明repvgg模块采用的多分支结构能充分的训练图片，提取图片中更多细节信息，可使分割模型得到充分的训练，最终取得良好的效果；而且，在训练完成后在对待分割图片进行语义分割时，将训练后的语义分割模型中repvgg模块的多条支路合并，形成一个3
×
3卷积层和一个激活函数模块，通过将repvgg模块中多条支路合并处理，能够避免网络的碎片化，加快语义分割模型的推理速度。
29.根据上述的语义分割模型训练方法，优选地，所述训练样本集中的样本图像来自imagenet dataset、cityscapes dataset、ade20k dataset三种图像数据集中的至少一种。更加优选地，所述训练集中的样本图像来自于imagenet dataset图像数据集，所述验证集中的样本图像来自于cityscapes dataset图像数据集，所述测试集中样本图像来自于ade20k dataset图像数据集。
30.本发明第二方面提供了一种图像语义分割方法，所述方法包括：获取待分割图像，将所述待分割图像输入语义分割模型，得到图像语义分割结果；其中，所述语义分割模型为采用上述第一方面所述语义分割模型训练方法进行训练得到的训练后的语义分割模型。
31.本发明第三方面提供了一种电子设备，包括存储器和处理器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的语义分割模型训练方法，或者如上述第二方面所述的图像语义分割方法。
32.本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的语义分割模型训练方法，或者如上述第二方面所述的图像语义分割方法。
33.与现有技术相比，本发明取得的积极有益效果如下：
34.(1)本发明的一种用于复杂环境移动机器人场景理解的语义分割模型，网络最复杂处只有5级结构，结构简单且训练更快速。这使得移动机器人在复杂多变的环境中能能迅速的对突发状况做出快速反应。网络结构为分级结构，在获得不同空间尺度特征图的同时将其融合，能有效捕获上下文信息，使得模型精度更高。这使得移动机器人能够很好的实时对周围环境图像做出精细的语义分割，能实现较好的自动导航、精准避障等功能；
35.(2)本发明应用repvgg模块，采用多分支结构将输入特征图同时输入到不同模块进行处理，减少了模型的计算量和模型中间变量的存储空间，相应的减少了移动机器人在硬件上的堆叠，使移动机器人机身更加轻量化。该模块将多分支处理后的结果进行逐元素相加其处理图像的精度达到了像素级别能够充分的提取每一张图片的语义信息，使得模型得到充分的训练。这提高了移动机器人在复杂环境下对场景理解的深度，能够很好的应对场景中的目标物体受到平移、旋转、光照或畸变等所带来的问题；
36.(3)本发明采用语义指导上采样模块来代替传统的上采样操作，语义指导上采样模块对低层特征上采样的过程中间接利用了高层特征中的语义信息计算解码器中相邻特征图的语义偏移，解决了语义不对齐的问题，进一步提高了模型精度。这使得移动机器人在复杂的有较多类别物体的环境中，能够精细的分割每个类别物体的边缘，实现更精确的场景分析。
37.(4)本发明预先构建的语义分割模型(即训练时采用的语义分割模型)中repvgg模
块包含多条支路，可使分割模型得到充分的训练，最终取得良好的效果；在训练完成后将训练后的语义分割模型中repvgg模块的多条支路合并，形成一个3
×
3卷积层和一个激活函数模块，通过将repvgg模块中多条支路合并处理，能够避免网络的碎片化，加快语义分割模型的推理速度。
附图说明
38.图1为本发明的语义分割模型的网络架构示意图；图中，decoder head表示解码器；长方体表示特征图，长方体下方文字表示特征图的名称和通道数；
39.图2为本发明语义分割模型中语义指导上采样模块的架构示意图；
40.图3为本发明语义分割模型中warp变形模块对图像进行处理的过程示意图；
41.图4为本发明语义分割模型中repvgg模块的架构示意图。
42.具体实施方方式
43.下面结合附图和具体的实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外，还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
44.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
45.实施例1：
46.一种用于复杂环境移动机器人场景理解的语义分割模型训练方法，包括以下步骤：
47.s1：获取样本图像集，所述样本图像集中包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将样本图像集按比例随机划分为训练集、验证集和测试集；所述样本图像集中的样本图像来自imagenet dataset、cityscapes dataset、ade20k dataset三种图像数据集中的至少一种；
48.s2：将训练集中的样本图像输入预先构建的语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对语义分割模型进行参数更新，得到训练后的语义分割模型；
49.s3：采用验证集对步骤s2得到的训练后的语义分割模型进行验证，调整参数值，从训练后的语义分割模型中选出最优语义分割模型；
50.s4：采用测试集对步骤s3筛选的最优语义分割模型进行测试，评估最优语义分割模型的性能。
51.语义分割模型(如图1所示)包含编码器、neck网络和解码器。编码器用于对待分割的图像进行多个不同通道的特征提取，提取后生成多个不同通道的特征图；neck网络位于编码器和解码器之间，用于对编码器生成的多个不同通道的特征图进行加工处理，使输入的多个不同通道的特征图的通道数调整相同，同时也使处理后的特征图更适合解码器计算；解码器用于将neck网络输出的特征图进行上采样处理，得到最终的语义分割结果。
52.编码器包含五个网络结构相同的主干网络和四个结构相同的下采样模块组成，所
述主干网络为resnet
‑
18网络，所述下采样模块的步长为2，下采样模块用于减小特征图的空间尺寸，提高网络的计算效率。待分割图像从第一主干网络输入，经第一主干网络进行特征提取后生成一级特征图；一级特征图经第一下采样模块进行下采样后输入第二主干网络，经第二主干网络进行特征提取后生成二级特征图；二级特征图经第二下采样模块进行下采样后输入第三主干网络，经第三主干网络进行特征提取后生成三级特征图；三级特征图经第三下采样模块进行下采样后输入第四主干网络，经第四主干网络进行特征提取后生成四级特征图；四级特征图经第四下采样模块进行下采样后输入第五主干网络，经第五主干网络进行特征提取后生成五级特征图。
53.neck网络包含四个并列设置的repvgg模块，四个repvgg模块的网络结构相同，其中，第一repvgg模块的输入为二级特征图，第一repvgg模块的输出为二级变换特征图；第二repvgg模块的输入为三级特征图，第二repvgg模块的输出为三级变换特征图；第三repvgg模块的输入为四级特征图，第三repvgg模块的输出为四级变换特征图；第四repvgg模块的输入为五级特征图，第四repvgg模块的输出为五级变换特征图。
54.解码器包含3个网络结构相同的上采样模块，每个上采样模块均由语义指导上采样模块和repvgg模块组成；第一上采样模块的输入为四级变换特征图和五级变换特征图，第一上采样模块的输出为四级变换特征图和五级变换特征图经语义融合得到的四级融合特征图；第二上采样模块的输入为三级变换特征图和四级融合特征图，第二上采样模块的输出为三级变换特征图和四级融合特征图经语义融合得到的三级融合特征图；第三上采样模块的输入为二级变换特征图和三级融合特征图，第三上采样模块的输出为二级变换特征图和三级融合特征图经语义融合得到的二级融合特征图；将二级融合特征图的通道数调整至与待分割图像一致，得到语义分割结果并输出。
55.每个上采样模块均由语义指导上采样模块和repvgg模块组成。语义指导上采样模块用于对输入上采样模块的两个特征图进行特征语义对齐处理，并将特征语义对齐后的两个特征图进行融合，得到相应的融合特征图。语义指导上采样模块(如图2所示)包含反卷积模块、拼接模块、repvgg模块、卷积模块和warp变形模块；其中，所述反卷积模块由转置卷积层、批量归一化层和激活函数层组成，反卷积模块的卷积核大小为2，步长为2，填充为0；所述卷积模块为3
×
3卷积模块。
56.语义指导上采样模块对输入的两个特征图进行处理的具体过程为：
57.(1)将输入上采样模块的两个特征图中高一级的特征图记作x
i+1
，低一级的特征图记作x
i
(第一上采样模块的输入图像中，五级变换特征图为高一级的特征图，四级变换特征图为低一级的特征图；第二上采样模块的输入图像中，四级融合特征图为高一级的特征图，三级变换特征图为低一级的特征图；第三上采样模块的输入图像中，三级融合特征图为高一级的特征图，二级变换特征图为低一级的特征图)，采用语义指导上采样模块中的反卷积模块对特征图x
i+1
进行反卷积处理，得到反卷积特征图；将反卷积特征图与特征图x
i
按通道进行拼接处理，得到拼接特征图；
58.(2)将拼接特征图依次经repvgg模块、卷积模块进行处理，计算特征图x
i+1
与特征图x
i
之间的语义偏移量；
59.(3)根据步骤(2)计算得到的语义偏移量，通过warp变形模块对特征图x
i+1
进行变形处理，得到变形后特征图变形后特征图与特征图x
i
的特征语义对齐；
60.(4)将变形后特征图与特征图x
i
执行对应元素相加，得到融合特征图并输出。其中，warp变形模块对特征图进行变形处理的操作算法如图3所示，其过程可以概述为：先创建一个横轴、纵轴取值范围均为[
‑
1,1]的空间网格，后将步骤(2)计算得到的语义偏移量叠加在空间网格中，生成坐标点的采样网格；pytorch中的grid_sample()方法将根据采样网格中的坐标值对特征图x
i+1
上采样，最终生成分辨率更高的特征图
[0061]
所述预先构建的语义分割模型中repvgg模块(如图4中a所示)均含有三个并列设置的分支模块和一个激活函数模块。第一分支和第二分支模块的结构相同，均包含3
×
3卷积层和批量归一化层；所述第三分支模块为批量归一化层；所述激活函数模块为1
×
1卷积模块。
[0062]
预先构建的语义分割模型(即训练时采用的语义分割模型)中repvgg模块对输入图像进行处理的过程为：输入repvgg模块的特征图分别进入三个分支模块进行处理，得到三个特征图，将经三个分支模块处理得到的三个特征图进行合并后传输至激活函数模块进行处理，得到相应的变换特征图；其中，特征图输入第一个分支模块或第二个分支模块时，先采用3
×
3卷积层对特征图进行处理，然后再采用批量归一化层进行处理并输出。其中，将经三个分支模块处理得到的三个特征图进行合并的具体过程如下：将输入每个分支模块的特征图记作i，特征图i的通道数记为c1，三个分支模块输出的三个特征图合并后得到的特征图记作合并特征图o，合并特征图o的通道数记为c2，第一个分支模块3
×
3卷积层的卷积核表示为将第二个分支模块3
×
3卷积层的卷积核表示为将第一个分支模块中批量归一化的参数表示为μ
1,1
、σ
1,1
、γ
1,1
、β
1,1
；将第二个分支模块中批量归一化的参数表示为μ
2,2
、σ
2,2
、γ
2,2
、β
2,2
；将第三分支模块中批量归一化的参数表示为μ
3,3
、σ
3,3
、γ
3,3
、β
3,3
；将输入的特征图i表示为将合并特征图o表示为当c1＝c2，h1＝h2，w1＝w2时，合并特征图的算公式如式i所示；
[0063][0064]
式i中，bn(
·
)表示推理时的批量归一化函数。
[0065]
所述最优语义分割模型中repvgg模块(如图4中b所示)由一个3
×
3卷积层和一个激活函数模块组成；所述最优语义分割模型中repvgg模块对输入图像进行处理的过程为：输入repvgg模块的特征图经3
×
3卷积层进行卷积处理后传输至激活函数模块进行处理，得到相应的变换特征图。本发明预先构建的语义分割模型(即训练时采用的语义分割模型)中repvgg模块包含多条支路，通过消融实验表明repvgg模块采用的多分支结构能充分的训练图片，提取图片中更多细节信息，可使分割模型得到充分的训练，最终取得良好的效果；而且，在训练完成后在对待分割图片进行语义分割时，将训练后的语义分割模型中repvgg模块的多条支路合并，形成一个3
×
3卷积层和一个激活函数模块，通过将repvgg模块中多条支路合并处理，能够避免网络的碎片化，加快语义分割模型的推理速度。
[0066]
实施例2：
[0067]
一种用于复杂环境移动机器人场景理解的语义分割模型训练方法，包括以下步
骤：
[0068]
s1：获取样本图像集，所述样本图像集中包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将样本图像集按比例随机划分为训练集、验证集和测试集；所述样本图像集中的样本图像来自imagenet dataset、cityscapes dataset、ade20k dataset三种图像数据集中的至少一种；
[0069]
s2：将训练集中的样本图像输入预先构建的语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对语义分割模型进行参数更新，得到训练后的语义分割模型；
[0070]
s3：采用验证集对步骤s2得到的训练后的语义分割模型进行验证，调整参数值，从训练后的语义分割模型中选出最优语义分割模型；
[0071]
s4：采用测试集对步骤s3筛选的最优语义分割模型进行测试，评估最优语义分割模型的性能。
[0072]
语义分割模型(如图1所示)包含编码器、neck网络和解码器。编码器用于对待分割的图像进行多个不同通道的特征提取，提取后生成多个不同通道的特征图；neck网络位于编码器和解码器之间，用于对编码器生成的多个不同通道的特征图进行加工处理，使输入的多个不同通道的特征图的通道数调整相同，同时也使处理后的特征图更适合解码器计算；解码器用于将neck网络输出的特征图进行上采样处理，得到最终的语义分割结果。
[0073]
编码器包含五个网络结构相同的主干网络和四个结构相同的下采样模块组成，所述主干网络为resnet
‑
18网络，所述下采样模块的步长为2，下采样模块用于减小特征图的空间尺寸，提高网络的计算效率。待分割图像从第一主干网络输入，经第一主干网络进行特征提取后生成一级特征图；一级特征图经第一下采样模块进行下采样后输入第二主干网络，经第二主干网络进行特征提取后生成二级特征图；二级特征图经第二下采样模块进行下采样后输入第三主干网络，经第三主干网络进行特征提取后生成三级特征图；三级特征图经第三下采样模块进行下采样后输入第四主干网络，经第四主干网络进行特征提取后生成四级特征图；四级特征图经第四下采样模块进行下采样后输入第五主干网络，经第五主干网络进行特征提取后生成五级特征图。
[0074]
neck网络包含四个并列设置的repvgg模块，四个repvgg模块的网络结构相同，其中，第一repvgg模块的输入为二级特征图，第一repvgg模块的输出为二级变换特征图；第二repvgg模块的输入为三级特征图，第二repvgg模块的输出为三级变换特征图；第三repvgg模块的输入为四级特征图，第三repvgg模块的输出为四级变换特征图；第四repvgg模块的输入为五级特征图，第四repvgg模块的输出为五级变换特征图。
[0075]
解码器包含3个网络结构相同的上采样模块，每个上采样模块均由语义指导上采样模块和repvgg模块组成；第一上采样模块的输入为四级变换特征图和五级变换特征图，第一上采样模块的输出为四级变换特征图和五级变换特征图经语义融合得到的四级融合特征图；第二上采样模块的输入为三级变换特征图和四级融合特征图，第二上采样模块的输出为三级变换特征图和四级融合特征图经语义融合得到的三级融合特征图；第三上采样模块的输入为二级变换特征图和三级融合特征图，第三上采样模块的输出为二级变换特征
图和三级融合特征图经语义融合得到的二级融合特征图；将二级融合特征图的通道数调整至与待分割图像一致，得到语义分割结果并输出。
[0076]
每个上采样模块均由语义指导上采样模块和repvgg模块组成。语义指导上采样模块用于对输入上采样模块的两个特征图进行特征语义对齐处理，并将特征语义对齐后的两个特征图进行融合，得到相应的融合特征图。语义指导上采样模块(如图2所示)包含反卷积模块、拼接模块、repvgg模块、卷积模块和warp变形模块；其中，所述反卷积模块由转置卷积层、批量归一化层和激活函数层组成，反卷积模块的卷积核大小为2，步长为2，填充为0；所述卷积模块为3
×
3卷积模块。
[0077]
语义指导上采样模块对输入的两个特征图进行处理的具体过程为：
[0078]
(1)将输入上采样模块的两个特征图中高一级的特征图记作x
i+1
，低一级的特征图记作x
i
(第一上采样模块的输入图像中，五级变换特征图为高一级的特征图，四级变换特征图为低一级的特征图；第二上采样模块的输入图像中，四级融合特征图为高一级的特征图，三级变换特征图为低一级的特征图；第三上采样模块的输入图像中，三级融合特征图为高一级的特征图，二级变换特征图为低一级的特征图)，采用语义指导上采样模块中的反卷积模块对特征图x
i+1
进行反卷积处理，得到反卷积特征图；将反卷积特征图与特征图x
i
按通道进行拼接处理，得到拼接特征图；
[0079]
(2)将拼接特征图依次经repvgg模块、卷积模块进行处理，计算特征图x
i+1
与特征图x
i
之间的语义偏移量；
[0080]
(3)根据步骤(2)计算得到的语义偏移量，通过warp变形模块对特征图x
i+1
进行变形处理，得到变形后特征图变形后特征图与特征图x
i
的特征语义对齐；
[0081]
(4)将变形后特征图与特征图x
i
执行对应元素相加，得到融合特征图并输出。其中，warp变形模块对特征图进行变形处理的操作算法如图3所示，其过程可以概述为：先创建一个横轴、纵轴取值范围均为[
‑
1,1]的空间网格，后将步骤(2)计算得到的语义偏移量叠加在空间网格中，生成坐标点的采样网格；pytorch中的grid_sample()方法将根据采样网格中的坐标值对特征图x
i+1
上采样，最终生成分辨率更高的特征图
[0082]
所述预先构建的语义分割模型(即训练时采用的语义分割模型)、所述最优语义分割模型中repvgg模块(如图4中a所示)均含有三个并列设置的分支模块和一个激活函数模块。第一分支和第二分支模块的结构相同，均包含3
×
3卷积层和批量归一化层；所述第三分支模块为批量归一化层；所述激活函数模块为1
×
1卷积模块。
[0083]
所述预先构建的语义分割模型(即训练时采用的语义分割模型)、所述最优语义分割模型中repvgg模块对输入图像进行处理的过程为：输入repvgg模块的特征图分别进入三个分支模块进行处理，得到三个特征图，将经三个分支模块处理得到的三个特征图进行合并后传输至激活函数模块进行处理，得到相应的变换特征图；其中，特征图输入第一个分支模块或第二个分支模块时，先采用3
×
3卷积层对特征图进行处理，然后再采用批量归一化层进行处理。其中，将经三个分支模块处理得到的三个特征图进行合并的具体过程如下：将输入每个分支模块的特征图记作i，特征图i的通道数记为c1，三个分支模块输出的三个特征图合并后得到的特征图记作合并特征图o，合并特征图o的通道数记为c2，第一个分支模块3
×
3卷积层的卷积核表示为将第二个分支模块3
×
3卷积层的卷积核
表示为将第一个分支模块中批量归一化的参数表示为μ
1,1
、σ
1,1
、γ
1,1
、β
1,1
；将第二个分支模块中批量归一化的参数表示为μ
2,2
、σ
2,2
、γ
2,2
、β
2,2
；将第三分支模块中批量归一化的参数表示为μ
3,3
、σ
3,3
、γ
3,3
、β
3,3
；将输入的特征图i表示为将合并特征图o表示为当c1＝c2，h1＝h2，w1＝w2时，合并特征图的算公式如式i所示；
[0084][0085]
式i中，bn(
·
)表示推理时的批量归一化函数。
[0086]
实施例3：
[0087]
一种图像语义分割方法，所述方法包括：获取待分割图像，将所述待分割图像输入语义分割模型，得到图像语义分割结果；其中，所述语义分割模型为采用实施例1所述的语义分割模型训练方法进行训练得到的最优语义分割模型。
[0088]
实施例4：
[0089]
一种图像语义分割方法，所述方法包括：获取待分割图像，将所述待分割图像输入语义分割模型，得到图像语义分割结果；其中，所述语义分割模型为采用实施例2所述的语义分割模型训练方法进行训练得到的最优语义分割模型。
[0090]
实施例5：
[0091]
一种电子设备，包括存储器和处理器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现如实施例1所述的语义分割模型训练方法，或者如实施例3所述的图像语义分割方法。
[0092]
实施例6：
[0093]
一种电子设备，包括存储器和处理器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现如实施例2所述的语义分割模型训练方法，或者如实施例4所述的图像语义分割方法。
[0094]
实施例7：
[0095]
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如实施例1所述的语义分割模型训练方法，或者如实施例3所述的图像语义分割方法。
[0096]
实施例8：
[0097]
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如实施例2所述的语义分割模型训练方法，或者如实施例4所述的图像语义分割方法。
[0098]
采用本发明实施例1所述的图像语义分割训练方法训练得到的最优语义分割模型(记作sgnet(resnet
‑
18))以及现有主流的语义分割模型对待分割图像进行处理，比较本发明最优语义分割模型与现有主流的语义分割模型进行图像语义分割的准确率。其结果如表1所示。
[0099]
表1本发明实施例1训练得到的最优语义分割模型与现有语义分割模型的语义分
割结果对比
[0100][0101]
由表1可知，本发明训练后的最优语义分割模型帧率最高可达17.19，高于现有的主流语义分割模型，说明本发明语义分割模型处理图像的速度更快；而且，本发明训练后的最优语义分割模型的miou准确率最高可达77.25％，说明，本发明语义分割模型对图片中的事物类别有更高的分割精度。
[0102]
以上所述仅为本发明的较佳实施例而已，但不仅限于上述实例，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李恒宇;程立;刘靖逸;岳涛;王曰英;谢少荣;罗均
技术所有人：上海大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。