一种基于标签分布学习的图像分割方法

文档序号:31030068发布日期:2022-08-06 01:48阅读:105来源:国知局
一种基于标签分布学习的图像分割方法

1.本发明属于图像处理技术领域,具体涉及一种基于标签分布学习的图像分割方法。


背景技术:

2.当前,图像语义分割任务在许多应用场景(例如物体识别、自动驾驶、计算机辅助诊断等)中具有重要的作用。图像语义分割主要是对于给定的图像,对图像的每一个像素进行分类进而得到整张图像的稠密分割结果,实现对于图像/场景的解析。现有基于深度学习的图像语义分割方法无法充分利用神经网络中捕捉的先验信息并且分割结果边界存在不连续等问题。因此急需开发一种全自动的图像分割算法,该方法能够更好的利用神经网络中捕捉到的先验信息进而提高分割结果的准确性,并且能够解决分割结果边界不连续等问题。


技术实现要素:

3.本发明的目的是为解决现有方法无法充分利用神经网络中捕捉的先验信息导致分割结果的准确率低,且分割结果边界不连续的问题,而提出一种基于标签分布学习的图像分割方法。
4.本发明为解决上述技术问题所采取的技术方案是:
5.一种基于标签分布学习的图像分割方法,所述方法具体包括以下步骤:
6.步骤s1、对训练图像进行预处理操作,获得预处理后的训练图像;
7.步骤s2、根据训练图像的分割标签分别生成各分辨率下的标签分布;
8.步骤s3、将训练图像输入编解码分割网络的编码器部分进行特征提取处理,通过编码器部分的各下采样层分别输出各尺度的特征图;
9.步骤s4、编码器部分的最后一个下采样层输出的特征图通过上采样获得上采样后的特征图;
10.步骤s5、上采样后的特征图经过softmax层后得到预测区域分布;
11.通过最小化预测区域分布与对应分辨率下的标签分布之间的kl散度误差来训练网络的参数;
[0012][0013]
其中,w表示预测区域分布的宽,h表示预测区域分布的高,d表示预测区域分布的深;m表示预测区域分布中所有的体素数量,m=w
×h×
d,表示在体素(i,j,k)位置的目标标签分布,表示在体素(i,j,k)位置的预测区域分布,表示与之间的kl散度;
[0014]
步骤s6、利用步骤s5中得到的预测区域分布,通过逐体素求取信息熵来获取预测区域的边界先验;
[0015]
步骤s7、将预测区域分布、边界先验以及上采样之前的特征图作为先验感知模块的输入,得到最终的特征表示;
[0016]
步骤s8、将倒数第二个下采样层输出的特征图与步骤s7得到的最终特征进行融合,将融合结果作为下一个上采样层的输入特征图;
[0017]
步骤s9、共执行三次步骤s5至步骤s8的过程,将最后一次执行步骤s8时所获得的融合结果作为最后一个上采样层的输入特征图;
[0018]
步骤s10、将最后一个上采样层的输出结果通过softmax层得到逐体素的预测概率;
[0019]
步骤s11、利用步骤s10中得到的逐体素预测概率与训练图像的分割标签进行监督学习,训练网络参数;
[0020]
步骤s12、对待分割图像进行预处理操作后,利用训练好的网络参数对预处理后的待分割图像进行分割。
[0021]
进一步地,所述步骤s1中对训练图像进行预处理操作,预处理操作包括数据标准化和图像裁剪。
[0022]
进一步地,所述步骤s2的具体过程为:
[0023]
步骤s21、给定一个体素块大小,按照给定的体素块大小并采用滑动窗口方法对训练图像进行标签频率统计,获得训练图像在当前分辨率下的标签分布;
[0024]
步骤s22、调整体素块大小,再重复步骤s21的过程,获得训练图像在各分辨率下的标签分布。
[0025]
进一步地,所述标签频率统计的具体方法为:
[0026][0027]
其中,bn代表训练图像中的一个体素块,|bn|代表体素块bn中体素的个数,y
ijk
是体素块bn中(i,j,k)位置的标签,c∈[0,nc-1]表示类别标签,nc是总类别数量,表示体素块bn中类别标签c的频率,δ(
·
)代表冲激函数。
[0028]
进一步地,所述编解码分割网络为u-net或seg-net。
[0029]
进一步地,所述步骤s6的具体过程为:
[0030][0031]
其中,表示在体素(i,j,k)位置的信息熵,表示在体素(i,j,k)位置的预测分布在类别c上的预测概率,ln代表自然对数。
[0032]
进一步地,所述先验感知模块的工作过程为:
[0033]
步骤s71、将上采样之前的特征图与边界先验相乘,得到边界增强后的特征图
[0034][0035]
其中,f为上采样之前的特征图,为边界先验;
[0036]
步骤s72、将上采样之前的特征图与经过编码操作之后的预测区域分布相乘,得到区域分布先验增强的特征图fd:
[0037][0038]
其中,为预测区域分布,tf(
·
)为编码函数操作,编码函数包括两个卷积单元,每个卷积单元均包括一个3*3卷积、一个批归一化层和relu激活函数;
[0039]
步骤s73、通过融合上采样之前的特征图、边界增强后的特征图和区域分布先验增强的特征图得到最终的特征表示:
[0040][0041]
其中,fe是最终的特征表示。
[0042]
更进一步地,所述步骤s11中采用的损失函数包括区域分布损失和稠密预测损失两个部分,其中:
[0043]
区域分布损失为:
[0044][0045]
其中,ψr表示第r个阶段的权重,r表示所有阶段的数量,表示第r个阶段的kl散度损失;
[0046]
稠密预测损失为:
[0047][0048]
其中,表示体素m属于类别c的概率,m表示总的体素数量,表示体素m的标签,wc为类别c的权重,权重wc计算方法为:
[0049][0050]
其中,vc表示类别c的体素数量。
[0051]
本发明的有益效果是:
[0052]
本发明利用标签分布学习方法,通过在编解码框架的不同上采样层加入对应的标签分布监督,实现了逐步从粗糙的区域分布到最终的稠密预测结果的输出。本发明方法的优势在于,通过在不同的阶段加入标签分布监督,促进了网络的训练,同时也充分利用了网络中生成的区域分布与边界先验信息,进一步促进了网络的分割,提高了分割结果的准确率,并解决了分割结果边界不连续的问题。
附图说明
[0053]
图1为本发明标签分布生成(ldg)原理图;
[0054]
图2为本发明先验感知分割模型原理图;
[0055]
其中,先验感知分割模型包括编解码分割网络和解码部分每个上采样层后面接的softmax层,且解码部分的前三个softmax层后均接一个先验感知模块ppm;
[0056]
图3为本发明中先验感知模块(ppm)原理图。
具体实施方式
[0057]
具体实施方式一:结合图2说明本实施方式。本实施方式的一种基于标签分布学习的图像分割方法,该方法的具体过程为:
[0058]
步骤s1、对训练图像进行预处理操作,获得预处理后的训练图像;
[0059]
步骤s2、根据训练图像的分割标签分别生成各分辨率下的标签分布;
[0060]
步骤s3、将训练图像输入编解码分割网络的编码器部分进行特征提取处理,通过编码器部分的各下采样层分别输出各尺度的特征图;
[0061]
步骤s4、编码器部分的最后一个下采样层输出的特征图通过上采样获得上采样后的特征图;
[0062]
步骤s5、上采样后的特征图经过softmax层后得到预测区域分布;
[0063]
通过最小化预测区域分布与对应分辨率下的标签分布之间的kl散度误差来训练网络的参数;
[0064][0065]
其中,w表示预测区域分布的宽,h表示预测区域分布的高,d表示预测区域分布的深;m表示预测区域分布中所有的体素数量,m=w
×h×
d,表示在体素(i,j,k)位置的目标标签分布(即步骤s2获得),表示在体素(i,j,k)位置的预测区域分布,表示与之间的kl散度;
[0066]
步骤s6、利用步骤s5中得到的预测区域分布,通过逐体素求取信息熵来获取预测区域的边界先验;
[0067]
步骤s7、将预测区域分布、边界先验以及上采样之前的特征图作为先验感知模块的输入,得到最终的特征表示;
[0068]
步骤s8、将倒数第二个下采样层输出的特征图与步骤s7得到的最终特征进行融合,将融合结果作为下一个上采样层的输入特征图;
[0069]
步骤s9、共执行三次步骤s5至步骤s8的过程,将最后一次执行步骤s8时所获得的融合结果作为最后一个上采样层的输入特征图;
[0070]
步骤s10、将最后一个上采样层的输出结果通过softmax层得到逐体素的预测概率;
[0071]
步骤s11、利用步骤s10中得到的逐体素预测概率与训练图像的分割标签进行监督学习,训练网络参数;
[0072]
步骤s12、对待分割图像进行预处理操作后,利用训练好的网络参数对预处理后的待分割图像进行分割。
[0073]
本发明首先利用语义分割标签生成多分辨率的标签分布,在此基础之上,通过在分割网络不同的上采样层加入对应分辨率的标签分布监督,利用标签分布学习的方法训练网络,并得到不同细节的预测区域分布,最后基于上述预测区域分布实现逐像素的稠密分
布预测。本发明所阐述的方法能够充分利用分割网络中生成的先验信息,并能够有效的捕捉边界信息进而促进边界的分割。本发明代替人工处理准确且高效地实现图像的语义分割任务,在基于相对较小的模型的条件下,保证了图像分割的准确性。
[0074]
具体实施方式二、本实施方式与具体实施方式一不同的是:所述步骤s1中对训练图像进行预处理操作,预处理操作包括数据标准化和图像裁剪。
[0075]
其它步骤及参数与具体实施方式一相同。
[0076]
具体实施方式三、结合图1说明本实施方式。本实施方式与具体实施方式一或二不同的是:所述步骤s2的具体过程为:
[0077]
步骤s21、给定一个体素块大小,按照给定的体素块大小并采用滑动窗口方法对训练图像进行标签频率统计,获得训练图像在当前分辨率下的标签分布;
[0078]
步骤s22、调整体素块大小,再重复步骤s21的过程,获得训练图像在各分辨率下的标签分布。
[0079]
其它步骤及参数与具体实施方式一或二相同。
[0080]
具体实施方式四、本实施方式与具体实施方式一至三之一不同的是:所述标签频率统计的具体方法为:
[0081][0082]
其中,bn代表训练图像中的一个体素块,|bn|代表体素块bn中体素的个数,y
ijk
是体素块bn中(i,j,k)位置的标签,c∈[0,nc-1]表示类别标签,nc是总类别数量,表示体素块bn中类别标签c的频率,δ(
·
)代表冲激函数。
[0083]
其它步骤及参数与具体实施方式一至三之一相同。
[0084]
具体实施方式五、本实施方式与具体实施方式一至四之一不同的是:所述编解码分割网络为u-net或seg-net。
[0085]
以u-net网络为例,编码部分包括4个下采样层,训练图像经过各下采样层分别输出各尺度的特征图,从输入端开始,按照输入顺序依次对各下采样层和上采样层进行编号,依次编号为第1下采样层、第2下采样层、第3下采样层、第4下采样层、第1上采样层、第2上采样层、第3上采样层和第4上采样层。将第4个下采样层输出的特征图通过第1个上采样层获得上采样后的特征图,在第1个上采样层后设置有softmax层,第1个上采样层上采样后的特征图经过softmax层输出预测区域分布,根据预测区域分布获取边界先验,再利用先验感知模块对预测区域分布、边界先验以及当前上采样层上采样之前的特征图进行处理得到最终特征表示。
[0086]
再将第3下采样层输出的特征图与最终表示进行融合,将融合结果作为第2个上采样层的输入,并对第2个上采样层的输入进行上述处理(且生成预测区域分布时所利用的标签分布“是与当前上采样层的输入相对应的分辨率下标签分布”,随着分辨率逐渐增高,预测区域分布逐步过度到具有更多细节的预测结果),得到第3个上采样层的输入(即对第2个上采样层的输入进行处理得到的最终表示与第2下采样层输出的特征图的融合结果)。
[0087]
最后对第3个上采样层的输入进行上述处理,得到第4个上采样层的输入(即对第3个上采样层的输入进行处理得到的最终表示与第1下采样层输出的特征图的融合结果),再
将第4个上采样层的输出通过softmax层得到逐体素的预测概率。
[0088]
其它步骤及参数与具体实施方式一至四之一相同。
[0089]
具体实施方式六、本实施方式与具体实施方式一至五之一不同的是:所述步骤s6的具体过程为:
[0090][0091]
其中,表示在体素(i,j,k)位置的信息熵,表示在体素(i,j,k)位置的预测分布在类别c上的预测概率,ln代表自然对数。
[0092]
其它步骤及参数与具体实施方式一至五之一相同。
[0093]
具体实施方式七、结合图3说明本实施方式。本实施方式与具体实施方式一至六之一不同的是:所述先验感知模块的工作过程为:
[0094]
步骤s71、将上采样之前的特征图与边界先验相乘,得到边界增强后的特征图
[0095][0096]
其中,f为上采样之前的特征图,为边界先验;
[0097]
步骤s72、将上采样之前的特征图与经过编码操作之后的预测区域分布相乘,得到区域分布先验增强的特征图fd:
[0098][0099]
其中,为预测区域分布,tf(
·
)为编码函数操作,编码函数包括两个卷积单元,每个卷积单元均包括一个3*3卷积、一个批归一化层和relu激活函数;
[0100]
步骤s73、通过融合上采样之前的特征图、边界增强后的特征图和区域分布先验增强的特征图得到最终的特征表示:
[0101][0102]
其中,fe是最终的特征表示。
[0103]
其它步骤及参数与具体实施方式一至六之一相同。
[0104]
具体实施方式八、本实施方式与具体实施方式一至七之一不同的是:所述步骤s11中采用的损失函数包括区域分布损失和稠密预测损失两个部分,其中:
[0105]
区域分布损失为:
[0106][0107]
其中,ψr表示第r个阶段(执行一次步骤s5至步骤s8的过程代表一个阶段)的权重,r表示所有阶段的数量,表示第r个阶段的kl(kullback-leibler)散度损失;
[0108]
稠密预测损失为:
[0109]
[0110]
其中,表示体素m属于类别c的概率,m表示总的体素数量,表示体素m的标签,wc为类别c的权重,权重wc计算方法为:
[0111][0112]
其中,vc表示类别c的体素数量。
[0113]
其它步骤及参数与具体实施方式一至七之一相同。
[0114]
实施例
[0115]
本实施例提供了一种基于标签分布学习的图像分割方法,所述方法包括以下步骤:
[0116]
步骤s1、首先对输入图像(本实施例以医学图像为例)进行预处理操作,其中包括数据标准化、图像裁剪等;
[0117]
该过程主要是通过数据标准化,使得输入到神经网络中的数据满足均值为1,方差为0,促进网络的收敛。另外,由于输入图像大小不一致,通过图像裁剪的方式裁成相同的图像块送入神经网络之中。
[0118]
步骤s2、对于训练图像的分割标签,利用标签分布生成方法生成多分辨率的标签分布;
[0119]
该过程主要是对原始分割标签进行逐块的标签频率统计,并且以滑动窗口的方法得到整个图像的分布标签。在步骤s2中进行逐块的标签频率统计时,像素块的大小可以根据实际情况适当调整。
[0120]
步骤s3、输入图像通过一个编码器子网络进行特征提取处理,得到分层的多尺度特征图;其中编码器子网络为常见的编解码分割框架中的编码器部分,如u-net,seg-net等结构,还可以使用任意的多层cnn叠加的形式进行特征提取。
[0121]
步骤s4、利用步骤s2中得到的标签分布,基于标签分布学习方法,通过上采样特征图,并经过一个softmax层之后得到粗糙的预测区域分布;上述标签分布学习方法,其核心在于利用网络输出的预测区域分布与实际对应分辨率下的标签分布,通过最小化两者之间的误差来训练网络参数,该误差使用kl散度来衡量。
[0122]
在步骤s4中通过最小化预测区域分布和标签分布的kl散度损失来训练网络参数,其中,的kl散度损失可以视情况进行具体调整,可以利用其他衡量分布之间的差异的损失函数,如js散度损失,cosine距离损失等。
[0123]
步骤s5、利用步骤s4中得到的预测区域分布,通过求取逐像素的信息熵,可获取到预测区域的边界先验;
[0124]
步骤s6、将步骤s4,步骤s5中的区域分布先验和边界先验以及编码器的输入特征图作为输入,送入一个先验感知模块之中,进而得到经过先验信息增强之后的特征图。该先验感知模块是一种基于注意力机制的特征增强模块,通过融合边界增强特征以及区域分布先验增强的特征最终得到更加具有判别性的特征。
[0125]
步骤s7、重复步骤s4-s6的操作三次,每一次得到的增强之后的输出特征图作为下一次的输入特征图,同时每一次均会得到特定分辨率下的预测区域分布,随着分辨率逐渐增高,预测区域分布逐步过度到具有更多细节的预测结果。
[0126]
步骤s8、最后通过一个上采样层,恢复到与原始输入图像一样的分辨率,并通过一个softmax层得到逐像素的预测概率。
[0127]
步骤s9、利用步骤s8中最终获得的逐像素的预测概率与分割任务的标签进行监督学习,训练网络参数。最终训练的损失函数包括两个部分:中间结果(区域分布)损失与最终结果(稠密预测)损失
[0128]
在步骤s9中进行网络模型的训练时,可以根据训练的具体情况对损失函数进行适当的调整,如下式所示:
[0129][0130]
其中,α控制损失函数中和的影响占比,其取值范围为(0,1)。
[0131]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1