基于注意力模型的轻量级语义分割网络构建方法

文档序号：34027314发布日期：2023-05-05 09:42阅读：122来源：国知局

本发明涉及一种语义分割方法，具体为一种基于注意力模型的轻量级语义分割网络构建方法。

背景技术：

1、随着计算机视觉领域的发展，基于深度学习的方法极大提高了语义分割的准确性和速度，语义分割作为计算机视觉领域的一个重要方向，因此将语义分割应用于医疗成像、自动驾驶等。现有算法会产生准确度低、实时性低等问题。因此，如何兼顾识别结果的可靠性和速度，具有重要的研究意义。

2、目前流行的众多语义分割模型，在语义分割方面已经取得了一些的成果，但也存在着占用计算量大、算法收敛速度慢、无法满足实时性要求和准确度低等问题，无法适用于复杂工业场景的图像分割。语义分割技术目前向轻量化、实时性方向进展。基于深度学习的图像语义分割，对输入图像的每个像素标上标签，并根据像素类别生成最终不同颜色的区域块的效果。现如今的轻量级网络虽然能够以较快的推理速度完成图像的预测效果，但是由于缺少对图像高级特征信息的提取，最终将导致图像的分割精度不理想，从而严重影响结果精度和可靠性。

3、现有的技术方案中，自从fcn第一个全卷积神经网络提出，到u-net网络开始提出的双分支网络，bisenetv1设计了spatial path和contex path同时收集空间信息和语义信息，bisenetv2设计了一个双边网络，其中detail branch获取细节信息，semantic branch提取深层次的语义特征，pp-liteseg提出了uafm模块利用空间和通道注意力产生权重。

4、fcn存储开销大，并且计算效率低，感受野较小，只能获得一些局部特征信息，u-net网络提出的双分支网络即收缩路径(contracting path)和扩展路径(expandingpath)，虽然有效获得上下文信息，但也导致了网络出现冗余，bisenetv1和bisenetv2设计的方案虽然提高了精度，但添加额外路径来编码空间信息是耗时的，pp-liteseg提出了uafm模块利用空间和通道注意力产生权重，但未能将他们进行有效融合以充分利用低层和高层的特征。

技术实现思路

1、发明目的：本发明的目的为提供一个注意力模型并应用到轻量级语义分割网络中，通过深度学习的方法提取特征，输入到csam注意力模型中，结合通道注意力和空间注意力，以提高模型的准确率。

2、技术方案：基于注意力模型的轻量级语义分割网络构建方法，包括以下步骤：

3、步骤1：输入图像，使用一个通用的轻量级网络作为编码器来提取分层特征；

4、步骤2：采用上下文嵌入块对长距离依赖关系进行建模,将编码器的输出特征作为输入；

5、步骤3：利用csam模块融合多层次特征并输出结果图像；

6、步骤4：执行conv-bn-relu操作，并进行上采样操作将特征大小扩展到输入图像大小，我们采用argmax操作预测每个像素的标签。

7、进一步的，步骤3所述csam模块采用了双csam，所述csam是空间注意力模块和通道注意力模块相结合的结构。

8、进一步的，步骤3包括：

9、3.1：csam利用双线性插值的方法将fhigh上采样到flow的相同的大小，获得fup，公式如下：

10、fup＝upsample(fhigh)；

11、3.2：将fup和flow作为输入，并在空间注意力模块和通道注意力模块分别产生权重α1和α2，公式如下：

12、α1＝spatial attention(fup,flow)，

13、α2＝channel attention(fup,flow)；

14、3.3：对加权特征进行元素级加法操作，并输出融合特征fout，公式如下：

15、fout＝fup×α1+flow×α2。

16、进一步的，第一个csam中上下文嵌入块的输出结果为fhigh，编码器提取的低级特征1/16为flow，第二个csam中前一个csam的输出结果为fhigh，编码器提取的低级特征1/8为flow。

17、进一步的，空间注意力模块中给定输入特征，即fup∈rc×h×w和flow∈rc×h×w，首先沿通道轴执行均值操作和最大值操作分别输入特征的通道，该过程生成维度为r1×h×w的四个特征，即mean(fup)，max(fup)，mean(flow)，max(flow)；然后，我们采用concat操作来拼接这四个特征并输出为fcat∈r4×h×w，并执行conv运算和sigmoid运算最终得到α1∈r1×h×w，公式如下：

18、fcat＝concat(mean(fup),max(fup),mean(flow),max(flow))，

19、α1＝sigmoid(conv(fcat))。

20、进一步的，通道注意力模块中给定输入特征，即fup∈rc×h×w和flow∈rc×h×w，通道注意力模块利用平均池化操作和最大池化操作分别输入特征的空间维度，该过程生成维度为rc×1×1的四个特征，即avgpool(fup)，maxpool(fup)，avgpool(flow)，maxpool(flow)，然后，沿着通道轴采用concat操作来拼接这四个特征以得到fcat，并执行conv运算和sigmoid运算最终得到α2∈rc×1×1，公式如下：

21、fcat＝concat(avgpool(fup),maxpool(fup),avgpool(flow),maxpool(flow))

22、α2＝sigmoid(conv(fcat))。

23、有益效果：与现有技术相比，本发明具有如下显著优点：本发明有效利用了1/8和1/16处的低层特征，聚合了多尺度信息，弥补了小目标的边缘细节信息；设计的csam模块通过空间注意力以及通道注意力的有效结合进一步加强了细节信息的引导，使得分割边界更加清晰，同时，使用两个csam模块能很好的解决现有技术在深层特征多次上采样操作时导致的信息丢失的问题，提升了分割精度。

技术特征：

1.基于注意力模型的轻量级语义分割网络构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力模型的轻量级语义分割网络构建方法，其特征在于，步骤3所述csam模块采用了双csam，所述csam是空间注意力模块和通道注意力模块相结合的结构。

3.根据权利要求2所述的基于注意力模型的轻量级语义分割网络构建方法，其特征在于，步骤3包括：

4.根据权利要求3所述的基于注意力模型的轻量级语义分割网络构建方法，其特征在于，第一个csam中上下文嵌入块的输出结果为fhigh，编码器提取的低级特征1/16为flow，第二个csam中前一个csam的输出结果为fhigh，编码器提取的低级特征1/8为flow。

5.根据权利要求3所述的基于注意力模型的轻量级语义分割网络构建方法，其特征在于，空间注意力模块中给定输入特征，即fup∈rc×h×w和flow∈rc×h×w，首先沿通道轴执行均值操作和最大值操作分别压缩输入特征的通道，该过程生成维度为r1×h×w的四个特征，即mean(fup)，max(fup)，mean(flow)，max(flow)；然后，采用concat操作拼接这四个特征并输出为fcat∈r4×h×w，再通过conv运算和sigmoid运算得到α1∈r1×h×w。

6.根据权利要求3所述的基于注意力模型的轻量级语义分割网络构建方法，其特征在于，通道注意力模块中给定输入特征，即fup∈rc×h×w和flow∈rc×h×w，首先通道注意力模块利用平均池化操作和最大池化操作来压缩输入特征的空间维度，该过程生成维度为rc×1×1的四个特征，即avgpool(fup)，maxpool(fup)，avgpool(flow)，maxpool(flow)，然后，沿着通道轴采用concat操作拼接这四个特征得到fcat，并执行conv运算和sigmoid运算以生成权重α2∈rc×1×1。

技术总结
本发明公开了基于注意力模型的轻量级语义分割网络构建方法，包括以下步骤：步骤1：输入图像，使用一个通用的轻量级网络作为编码器来提取分层特征；步骤2：采用上下文嵌入块对长距离依赖关系进行建模,将编码器的输出特征作为输入；步骤3：利用CSAM模块融合多层次特征并输出结果图像；步骤4：执行Conv‑BN‑Relu操作，并进行上采样操作将特征大小扩展到输入图像大小，argmax操作预测每个像素的标签。本发明聚合了多尺度信息，弥补了小目标的边缘细节信息；CSAM模块进一步加强了细节信息的引导，使得分割边界更加清晰，同时，能很好的解决现有技术在深层特征多次上采样操作时导致的信息丢失的问题，提升了分割精度。

技术研发人员：曹宇,姜明新,王梓轩,甘峰瑞,陆易
受保护的技术使用者：淮阴工学院
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹宇姜明新王梓轩甘峰瑞陆易
技术所有人：淮阴工学院
我是此专利的发明人

上一篇：云平台中云盘跨集群热迁移方法及装置与流程
上一篇：分布式缓存方法、装置、电子设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。