一种基于框标注的弱监督图像分割方法与流程

文档序号：28630054发布日期：2022-01-26 14:53阅读：158来源：国知局

1.本发明涉及一种基于框标注的弱监督图像分割方法，属于计算机视觉领域。

背景技术：

2.图像分割是图像理解的关键组成部分，促进了计算机视觉领域的深层次应用，比如自动驾驶、姿态估计、图像合成等。在这些实际应用中，图像分割的功能往往是优于目标检测的，因为一个目标掩码将比一个目标框更加准确。即使某些实际应用需要目标框，我们也能对目标掩码取外接矩形框得到目标框，而对于整个模型而言，格外的计算成本几乎可以忽略不计。但在诸多现实情况中，图像分割并没有得到像目标检测一样广泛应用。在实际使用中我们发现阻碍图像分割的主要障碍不是实时处理的速度和精度，而是较为严格的像素级标注。像素级标注是对图像中每个像素都标注一个确定的类别，因此这种标注方式需要大量的人力、时间和资金支持。为了减轻高昂的标注成本给图像分割的实用性带来的限制，我们使用一种低质量标注——目标框标注，实现弱监督训练图像分割模型并达到实用性的性能要求。

技术实现要素：

3.发明目的：提出一种基于框标注的弱监督图像分割方法，实现弱监督训练图像分割模型并达到实用性的性能要求。
4.技术方案：一种基于框标注的弱监督图像分割方法，包括如下步骤：
5.步骤1、初始化输入：完成图像转换为深度学习数据；
6.步骤2、建立深度学习模型：搭建一个端到端的图像分割模型；
7.步骤3、规范化输出：输出对深度学习模型的计算结果。
8.根据本发明的一个方面，所述步骤1中的初始化输入具体为：
9.步骤11、数据输入：首先将图像转存入计算机中；
10.步骤12、数据增强：将图像做一些格外的处理，包含图像大小的随机改变、图像的随机翻转、图像色彩的随便变换、图像随机裁剪，通过使用这些数据增强，在原有图像的基础上尽可能地丰富图像样式，以拟合在现实场景中各种实际变化；
11.步骤13、数据转换：使用图像读取代码实现图像数据转换到深度学习数据。
12.根据本发明的一个方面，所述步骤2中的建立深度学习模型具体步骤如下：
13.步骤21、定义模型结构：定义模型中各模块的结构和次序关系；
14.步骤22、实现模型结构：基于pytorch代码库，根据定义按次序依次实现相应的模型结构；
15.步骤23、编译模型：代码编译过程，判断当前实现过程中是否存在问题；
16.步骤24、配置模型：设置模型参数和超参数。
17.根据本发明的一个方面，所述深度学习模型结构包含如下三层：
18.卷积层：对多通道输入进行多个卷积操作，每个卷积产生一个通道的输出，因此可
以得到多个通道的输出，卷积定义为：
[0019][0020]
其中z[x,y]是计算结果，g[x,y]是输入数据，f[x,y]是卷积核，*表示卷积操作；
[0021]
激活层：对输入的每个数值通过激活函数进行修改，得到相同大小的输出，该函数使用relu函数：
[0022]
f(x)＝max(0,x)；
[0023]
池化层：对输入数据按比例进行采样，其采样方法表示为：
[0024]
f(x)＝max([x])。
[0025]
根据本发明的一个方面，所述步骤3中的规范化输出包括2个阶段，训练阶段和应用阶段。
[0026]
根据本发明的一个方面，所述训练阶段的图像分割处理方具体步骤为：
[0027]
步骤31、将目标框的标注转换为图像表示，其中目标框内的区域设置为1，框外区域设置为0；
[0028]
步骤32、采用三种方法来指导模型学习目标框提供的目标信息，三种指导方法分别是向量指导、点指导和平面指导；
[0029]
步骤33、统合三个指导方法带来的误差和损失，根据梯度反向传播原理，将误差和损失层层传递到各个深度学习的基础计算操作中，再经过梯度下降法，使各基础计算操作的参数向更优的方向收敛，逐渐减小误差和损失，使模型达到最优的性能和最好的结果。
[0030]
根据本发明的一个方面，所述向量指导方法指导模型学习目标框提供的目标信息具体实现为：
[0031]
步骤41、将目标框在原图像上进行向量投影，分别做横向和纵向的投影，投影的方法是取各方向上的最大值，具体计算方法如下：
[0032]
l
x
＝vect
x
(l)＝max
x
(l)，
[0033]
ly＝vecty(l)＝maxy(l)；
[0034]
步骤42、通过这种投影方式，将二维的目标标注映射到一维的目标指导信息；
[0035]
步骤43、然后本文采用同样的方法，将之前的深度学习模型的计算结果映射相应的横向和纵向的预测向量；
[0036]
步骤44、之后本文将横向和纵向的目标指导信息与其相应的预测向量来计算各自的误差，损失函数采用二元交叉熵或者dice损失：
[0037][0038]
根据本发明的一个方面，所述点指导方法是对某个或多个点提供明确的指导信息，使模型在这些点的指导信息中学习具体的目标特征，在训练中加强模型对这些点的重视程度，即分别对框内和框外的预测图取最小值和最大值，并使它们两个值趋于背景类0值，其损失计算公式如下：
[0039][0040]
根据本发明的一个方面，所述平面指导方法具体为：
[0041]
步骤51、首先在原图像上计算每个像素对的颜色相似度，将颜色相似的像素对当作正样本，颜色相似度计算如下：
[0042][0043]
步骤52、然后对预测掩码使用相同的方法计算概率相似度，概率相似度计算如下：
[0044][0045]
步骤53、最后使正样本的概率相似度趋于一致，平面指导的损失计算如下：
[0046][0047]
根据本发明的一个方面，所述应用阶段直接使用本文训练的模型进行推理，然后对于推理的结果进行色彩填充，色彩填充的方法：将推理得到的预测概率分布到[0,255]，以符合图像像素的显示要求。
[0048]
有益效果：该方法证明了方框标注在显著性检测任务中的可行性；该方法通过向量指导、点指导和平面指导得到了优异的结果；如图3和图4所示，在定量和定性分析下，我们的方法优于其他弱监督的显著性模型，并且接近于完全监督的方法；该方法可以快速地应用于其他完全监督的显著性模型。
附图说明
[0049]
图1是基于框标注的弱监督图像分割方法流程图。
[0050]
图2是深度学习的模型结构图。
[0051]
图3是基于框标注的弱监督图像分割方法评估结果对比图。
[0052]
图4是实验结果比较图。
具体实施方式
[0053]
如图1所示，在该实施例中，一种基于框标注的弱监督图像分割方法，包括如下步骤：
[0054]
步骤1、初始化输入：完成图像转换为深度学习数据；
[0055]
步骤2、建立深度学习模型：搭建一个端到端的图像分割模型；
[0056]
步骤3、规范化输出：输出对深度学习模型的计算结果。
[0057]
在进一步的实施例中，所述步骤1中的初始化输入具体为：
[0058]
步骤11、数据输入：首先将图像转存入计算机中；
[0059]
步骤12、数据增强：将图像做一些格外的处理，包含图像大小的随机改变、图像的随机翻转、图像色彩的随便变换、图像随机裁剪，通过使用这些数据增强，在原有图像的基础上尽可能地丰富图像样式，以拟合在现实场景中各种实际变化；
[0060]
步骤13、数据转换：使用图像读取代码实现图像数据转换到深度学习数据。
[0061]
在进一步的实施例中，所述步骤2中的建立深度学习模型具体步骤如下：
[0062]
步骤21、定义模型结构：定义模型中各模块的结构和次序关系；
[0063]
步骤22、实现模型结构：基于pytorch代码库，根据定义按次序依次实现相应的模型结构；
[0064]
步骤23、编译模型：代码编译过程，判断当前实现过程中是否存在问题；
[0065]
步骤24、配置模型：设置模型参数和超参数。
[0066]
在进一步的实施例中，如图2所示，所述深度学习模型结构包含如下三层：
[0067]
卷积层：对多通道输入进行多个卷积操作，每个卷积产生一个通道的输出，因此可以得到多个通道的输出，卷积定义为：
[0068][0069]
其中z[x,y]是计算结果，g[x,y]是输入数据，f[x,y]是卷积核，*表示卷积操作；
[0070]
激活层：对输入的每个数值通过激活函数进行修改，得到相同大小的输出，该函数使用relu函数：
[0071]
f(x)＝max(0,x)；
[0072]
池化层：对输入数据按比例进行采样，其采样方法表示为：
[0073]
f(x)＝max([x])。
[0074]
在进一步的实施例中，所述步骤3中的规范化输出包括2个阶段，训练阶段和应用阶段。
[0075]
在进一步的实施例中，所述训练阶段的图像分割处理方具体步骤为：
[0076]
步骤31、将目标框的标注转换为图像表示，其中目标框内的区域设置为1，框外区域设置为0；
[0077]
步骤32、采用三种方法来指导模型学习目标框提供的目标信息，三种指导方法分别是向量指导、点指导和平面指导；
[0078]
步骤33、统合三个指导方法带来的误差和损失，根据梯度反向传播原理，将误差和损失层层传递到各个深度学习的基础计算操作中，再经过梯度下降法，使各基础计算操作的参数向更优的方向收敛，逐渐减小误差和损失，使模型达到最优的性能和最好的结果。
[0079]
在进一步的实施例中，所述向量指导方法指导模型学习目标框提供的目标信息具体实现为：
[0080]
步骤41、将目标框在原图像上进行向量投影，分别做横向和纵向的投影，投影的方法是取各方向上的最大值，具体计算方法如下：
[0081]
l
x
＝vect
x
(l)＝max
x
(l)，
[0082]
ly＝vecty(l)＝maxy(l)；
[0083]
步骤42、通过这种投影方式，将二维的目标标注映射到一维的目标指导信息；
[0084]
步骤43、然后本文采用同样的方法，将之前的深度学习模型的计算结果映射相应
的横向和纵向的预测向量；
[0085]
步骤44、之后本文将横向和纵向的目标指导信息与其相应的预测向量来计算各自的误差，损失函数采用二元交叉熵或者dice损失：
[0086][0087]
在进一步的实施例中，所述点指导方法是对某个或多个点提供明确的指导信息，使模型在这些点的指导信息中学习具体的目标特征，在训练中加强模型对这些点的重视程度，即分别对框内和框外的预测图取最小值和最大值，并使它们两个值趋于背景类0值，其损失计算公式如下：
[0088][0089]
在进一步的实施例中，所述平面指导方法具体为：
[0090]
步骤51、首先在原图像上计算每个像素对的颜色相似度，将颜色相似的像素对当作正样本，颜色相似度计算如下：
[0091][0092]
步骤52、然后对预测掩码使用相同的方法计算概率相似度，概率相似度计算如下：
[0093][0094]
步骤53、最后使正样本的概率相似度趋于一致，平面指导的损失计算如下：
[0095][0096]
在进一步的实施例中，所述应用阶段直接使用本文训练的模型进行推理，然后对于推理的结果进行色彩填充，色彩填充的方法：将推理得到的预测概率分布到[0,255]，以符合图像像素的显示要求。
[0097]
以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜振涛;程健
技术所有人：中科南京人工智能创新研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。