一种基于膨胀卷积的图像分割方法与流程

文档序号:23224682发布日期:2020-12-08 15:08阅读:157来源:国知局
一种基于膨胀卷积的图像分割方法与流程

本发明涉及图像处理技术领域,具体涉及一种基于膨胀卷积的图像分割方法。



背景技术:

图像分割是指计算机自动的分割出图像中的所有类别,并标示出每个类别的像素点。该技术的应用场景非常广泛,比如辅助医生做医学诊断,自动的在医学影像中标出病变位置,还能应用在自动驾驶领域,帮助自动驾驶系统判断道路上的各种目标。

为了获得准确的图像分割结果,传统的方法是采用手工设计的特征,对图像进行特征提取,然后根据特征进行像素分类。

已有的图像分割方法,不能充分利用图像中的多尺度特征,导致分割准确度不是很高。因此,本文提出能充分利用多尺度特征的方法。



技术实现要素:

本发明所要解决的技术问题是:针对一张图像,如何使用计算机自动分割出图像中的类别,本发明提出了一种基于膨胀卷积的图像分割方法。

本发明的方法是设计分割图像的网络,并在网络中使用膨胀卷积。

一种基于膨胀卷积的图像分割方法,具体包括以下步骤:

步骤(1).构建图像分割网络;

步骤(2).通过在图像分割网络中进行膨胀卷积操作,完成图像分割;

步骤(3).选择训练集数据,训练图像分割网络;

步骤(1)具体方法如下:

构建图像分割网络,结构参数如表1所示。首先将图像输入到conv1卷积层中,卷积后得到特征图分辨率为原图的1/2。后接一个pool1最大池化层,池化后得到特征图分辨率为原图的1/4。后接block1,经过该模块后得到特征图分辨率为原图的1/8。后接block2,经过该模块后得到特征图分辨率为原图的1/16。后接block3,经过该模块后得到特征图分辨率为原图的1/16。后接block4并在该模块中使用膨胀率为2的膨胀卷积,经过该模块后得到特征图分辨率为原图的1/16。后接block5并在该模块中使用膨胀率为4的膨胀卷积,经过该模块后得到特征图分辨率为原图的1/16。然后将block3、block4和block5所生成的特征图,分别使用deconv转置卷积层升采样,经过该层后得到特征图分辨率与原图相同。后接concat层将3个分支的特征在通道维上连接。后接1×1卷积conv1对连接特征组合,组合成最终的特征图。后接一层1×1卷积conv2用于预测每个像素的类别概率。

表1分割网络参数

步骤(2)具体方法如下:

首先将图像输入到conv1卷积层中,该卷积层有64个7*7的卷积核,卷积步幅为2,卷积后得到特征图分辨率为原图的1/2。后接一个pool1最大池化层,该池化层使用3*3的最大值池化核,池化步幅为2,池化后得到特征图分辨率为原图的1/4。后接block1,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数分别为64、64、128,卷积步幅分别为1、1、2,经过该模块后得到特征图分辨率为原图的1/8。后接block2,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数分别为128、128、256,卷积步幅分别为1、1、2,经过该模块后得到特征图分辨率为原图的1/16。后接block3,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。后接block4并在该模块中使用膨胀率为2的膨胀卷积,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。后接block5并在该模块中使用膨胀率为4的膨胀卷积,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。然后将block3、block4和block5所生成的特征图,分别使用deconv转置卷积层升采样,该转置卷积层有64个3*3的转置卷积核,转置卷积步幅为16,经过该层后得到特征图分辨率与原图相同。后接concat层将3个分支的特征在通道维上连接。后接1×1卷积conv1对连接特征组合,组合成最终的特征图,该层有256个1*1的卷积核,卷积步幅是1。后接一层1×1卷积conv2用于预测每个像素的类别概率,该层卷积核的个数等于待分割类别数,卷积核大小是1*1,卷积步幅是1。

在block4和block5模块中分别使用了膨胀比率为2和4的膨胀卷积,接下来详细介绍膨胀卷积的原理。

输入特征图为x,卷积核权重为w,则输出特征图位置i处的特征y[i]为

式(1)中,膨胀比率r表示采样输入信号时的步幅。标准卷积是膨胀卷积的一种特殊情形(r=1)。膨胀卷积通过改变r的值,可以有效调整卷积核的感受野。

在block4模块中使用了比率为2的膨胀卷积,所以三层卷积核的感受野都是5*5,卷积核在特征图的横向上和纵向上都是每隔2个元素进行卷积,所以block4生成的特征图每个位置处的元素,都是由前一个特征图中5*5范围的元素卷积而来,因此每个元素包含了范围5*5的局部信息,相较于使用膨胀卷积之前3*3的局部信息,所包含信息范围更大。在block5模块中使用比率为4的膨胀卷积,三层卷积核的感受野都是9*9。卷积核在特征图的横向上和纵向上都是每隔4个元素进行卷积,所以block5生成的特征图每个位置处的元素,都是由前一个特征图中9*9范围的元素卷积而来,因而每个元素包含了范围9*9的局部信息,相较于使用膨胀卷积之前3*3的局部信息,所包含信息范围更大。这种更大范围的信息,有助于网络更好的学习图像中较大的目标特征,因此使用膨胀卷积是非常必要的。

步骤(3)具体方法如下:

采用以下策略训练网络:

训练集采用pascalvoc2012。因为该数据集前景类别数为20,加上1类背景类别数,共有21类待分割类别数,所以使用该数据集训练时,将1×1卷积conv2的卷积核个数设置为21。

在网络中使用小批量标准化策略进行训练;将小批量设置为16。

损失函数采用交叉熵损失,共训练60k次。

本发明的有益效果如下:

本发明所述的方法,可以提高图像分割的性能。通过改变膨胀比率的大小,可以有效控制卷积核的感受野,从而提取出多尺度的图像特征。将不同尺度的特征图进行组合,能充分利用图像中的信息,有助于提高图像分割准确度。

附图说明

图1为本发明的不同膨胀比率的膨胀卷积原理图

图2为本发明的分割图像的网络

具体实施方式

以下结合附图,对本发明进行进一步的详细说明。

本发明提出的一种语义图像分割方法,针对一张图像,计算机自动分割出图像中的语义类别。

一种基于膨胀卷积的图像分割方法,具体包括以下步骤:

步骤(1).构建图像分割网络;

构建图像分割网络,网络结构如图2所示(图中参数outputstride,是指输入原始图像与输出特征图空间分辨率的比值),结构参数如表1所示。首先将图像输入到conv1卷积层中,卷积后得到特征图分辨率为原图的1/2。后接一个pool1最大池化层,池化后得到特征图分辨率为原图的1/4。后接block1,经过该模块后得到特征图分辨率为原图的1/8。后接block2,经过该模块后得到特征图分辨率为原图的1/16。后接block3,经过该模块后得到特征图分辨率为原图的1/16。后接block4并在该模块中使用膨胀率为2的膨胀卷积,经过该模块后得到特征图分辨率为原图的1/16。后接block5并在该模块中使用膨胀率为4的膨胀卷积,经过该模块后得到特征图分辨率为原图的1/16。然后将block3、block4和block5所生成的特征图,分别使用deconv转置卷积层升采样,经过该层后得到特征图分辨率与原图相同。后接concat层将3个分支的特征在通道维上连接。后接1×1卷积conv1对连接特征组合,组合成最终的特征图。后接一层1×1卷积conv2用于预测每个像素的类别概率。

表1分割网络参数

步骤(2).通过图像分割网络进行膨胀卷积操作,完成图像分割;

首先将图像输入到conv1卷积层中,该卷积层有64个7*7的卷积核,卷积步幅为2,卷积后得到特征图分辨率为原图的1/2。后接一个pool1最大池化层,该池化层使用3*3的最大值池化核,池化步幅为2,池化后得到特征图分辨率为原图的1/4。后接block1,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数分别为64、64、128,卷积步幅分别为1、1、2,经过该模块后得到特征图分辨率为原图的1/8。后接block2,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数分别为128、128、256,卷积步幅分别为1、1、2,经过该模块后得到特征图分辨率为原图的1/16。后接block3,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。后接block4并在该模块中使用膨胀率为2的膨胀卷积,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。后接block5并在该模块中使用膨胀率为4的膨胀卷积,该模块由3个卷积层构成,3个卷积层的卷积核大小都是3*3,卷积核个数都是256,卷积步幅都是1,经过该模块后得到特征图分辨率为原图的1/16。然后将block3、block4和block5所生成的特征图,分别使用deconv转置卷积层升采样,该转置卷积层有64个3*3的转置卷积核,转置卷积步幅为16,经过该层后得到特征图分辨率与原图相同。后接concat层将3个分支的特征在通道维上连接。后接1×1卷积conv1对连接特征组合,组合成最终的特征图,该层有256个1*1的卷积核,卷积步幅是1。后接一层1×1卷积conv2用于预测每个像素的类别概率,该层卷积核的个数等于待分割类别数,卷积核大小是1*1,卷积步幅是1。

在block4和block5模块中分别使用了膨胀比率为2和4的膨胀卷积,接下来详细介绍膨胀卷积的原理。

输入特征图为x,卷积核权重为w,则输出特征图位置i处的特征y[i]为

式(1)中,膨胀比率r表示采样输入信号时的步幅。标准卷积是膨胀卷积的一种特殊情形(r=1)。膨胀卷积通过改变r的值,可以有效调整卷积核的感受野。如图1所示,当膨胀比率大小为1时,一个3*3卷积核的感受野为3*3,而当把膨胀比率改成3时,一个3*3卷积核的感受野为7*7,此时卷积核只与特征图中黑色块位置处的对应元素卷积,由此可见,增加膨胀比率后,可以在不增加卷积核参数的情况下(卷积核都是3*3的,都是9个权重参数,因此并没有引入额外的参数),扩大卷积核的感受野,从而更有效的捕获特征图中的上下文信息。

在block4模块中使用了比率为2的膨胀卷积,所以三层卷积核的感受野都是5*5,卷积核在特征图的横向上和纵向上都是每隔2个元素进行卷积,所以block4生成的特征图每个位置处的元素,都是由前一个特征图中5*5范围的元素卷积而来,因此每个元素包含了范围5*5的局部信息,相较于使用膨胀卷积之前3*3的局部信息,所包含信息范围更大。在block5模块中使用比率为4的膨胀卷积,三层卷积核的感受野都是9*9。卷积核在特征图的横向上和纵向上都是每隔4个元素进行卷积,所以block5生成的特征图每个位置处的元素,都是由前一个特征图中9*9范围的元素卷积而来,因而每个元素包含了范围9*9的局部信息,相较于使用膨胀卷积之前3*3的局部信息,所包含信息范围更大。这种更大范围的信息,有助于网络更好的学习图像中较大的目标特征,因此使用膨胀卷积是非常必要的。

步骤(3).选择训练集数据,训练图像分割网络;

采用以下策略训练网络:

训练集采用pascalvoc2012。因为该数据集前景类别数为20,加上1类背景类别数,共有21类待分割类别数,所以使用该数据集训练时,将1×1卷积conv2的卷积核个数设置为21。

在网络中使用小批量标准化策略进行训练;将小批量设置为16。

损失函数采用交叉熵损失,共训练60k次。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1