一种带上下文信息编码的语义分割卷积神经网络的制作方法

文档序号：16432255发布日期：2018-12-28 20:14阅读：783来源：国知局

本发明属于机器学习和神经网络领域，特别涉及一种带上下文信息编码的语义分割卷积神经网络。

背景技术

卷积神经网络(convolutionalneuralnetwork,cnn)在图像和视频的语义分割任务中取得了当前最好的效果。主流的网络结构包含全卷及网络类似结构和编码器-解码器结构，已有一些方法在语义分割网络中建模上下文信息，但是效果非常有限。

条件随机场(criteriarandomfield，简称crf)是一种可以建模上下文信息的后处理方法(shuaizhengetal.2015；andkoltun2011；chen,papandreou,kokkinos,etal.2017)，但是需要额外的迭代步骤来训练crf。另外作为一种后处理方法，crf对神经网络特征提取和表达没有帮助。

parsenets(liu,rabinovich,andberg2015)使用提前融合的策略，将上下文信息编码为向量，并上采样到与特征图相同的尺寸与特征图融合。这种方法使用向量作为上下文编码，导致上下文特征的表达能力很有限。

chen,liang-chieh,georgepapandreou,iasonaskokkinos,kevinmurphy,andalanl.yuille.2017.“deeplab:semanticimagesegmentationwithdeepconvolutionalnets,atrousconvolution,andfullyconnectedcrfs.”ieeetransactionsonpatternanalysisandmachineintelligence40(4):834–48.https://doi.org/10.1109/tpami.2017.2699184.

chen,liang-chieh,georgepapandreou,florianschroff,andhartwigadam.2017.“rethinkingatrousconvolutionforsemanticimagesegmentation.”arxiv:1706.05587[cs],june.http://arxiv.org/abs/1706.05587.

philipp,andvladlenkoltun.2011.“efficientinferenceinfullyconnectedcrfswithgaussianedgepotentials.”inadvancesinneuralinformationprocessingsystems24,editedbyj.shawe-taylor,r.s.zemel,p.l.bartlett,f.pereira,andk.q.weinberger,109–117.curranassociates,inc.http://papers.nips.cc/paper/4296-efficient-inference-in-fully-connected-crfs-with-gaussian-edge-potentials.pdf.

liu,wei,andrewrabinovich,andalexanderc.berg.2015.“parsenet:lookingwidertoseebetter.”arxiv:1506.04579[cs],june.http://arxiv.org/abs/1506.04579.

ran,lingyan,yanningzhang,andganghua.2015.“cannet:contextawarenonlocalconvolutionalnetworksforsemanticimagesegmentation.”inproceedingsof2015ieeeinternationalconferenceonimageprocessing,4669–73.https://doi.org/10.1109/icip.2015.7351692.

zheng,shuai,sadeepjayasumana,bernardinoromera-paredes,vibhavvineet,zhizhongsu,dalongdu,changhuang,andphiliph.s.torr.2015.“conditionalrandomfieldsasrecurrentneuralnetworks.”inproceedingsof2015ieeeinternationalconferenceoncomputervision,1529–37.santiago,chile:ieee.https://doi.org/10.1109/iccv.2015.179.

技术实现要素：

本发明目的在于提供一种上下文信息表达能力较强的带上下文信息编码的语义分割卷积神经网络。本发明是一种具有特征表示能力强、信息丰富的上下文信息建模方法，能够动态地、交互地融合全局特征和局部特征。本发明的技术方案如下：

一种带上下文信息编码的语义分割卷积神经网络，改造已有的segnet语义分割卷积神经网络，将全局特征提取器、全局特征融合器加入到segnet中，并定义segnet原始结构中得到的特征为局部特征，与之相对地，全局特征提取器提取到的特征称为全局特征，全局特征与局部特征统称为上下文信息，具体步骤如下：

(1)准备训练数据，包括训练图像和逐像素的语义分割标注；

(2)基于segnet搭建语义分割卷积神经网络架构；

(3)选定需要提取全局特征的位置；

(4)选定需要融合全局特征的位置；

(5)确定全局特征张量的统一维度；

(6)确定每一个全局特征提取器和每一个全局特征融合器的构造；

(7)将每个全局特征提取器提取得到的新全局特征，与已有的全局特征逐元素相加；

(8)将每个全局特征融合器输出的全局特征，与当前的局部特征连接作为新的特征信息，得到的带全局信息编码的segnet。

(9)利用步骤1中的训练数据训练所得到的神经网络，使用迷你批量随机梯度下降的优化方法，选用交叉熵损失和权重衰减损失的和作为损失项，并设置权重衰减系数和学习率训练至损失函数值收敛；

(10)将步骤(9)训练得到的神经网络权重保存，得到带全局信息编码的语义分割卷积神经网络。

本发明实质性的特点是：通过引入全局特征提取器和全局特征融合器，提供了一种特征表达灵活、信息丰富、能够动态交互地更新的全局上下文信息编码模块，进而构成所发明的带上下文信息编码的语义分割卷积神经网络。这种神经网络能够对图像或视频语义分割中的全局上下文信息进行细粒度建模和提取，并能够细粒度地融合全局特征与局部特征，可用于改进已有的语义分割卷积神经网络模型。有益效果如下：

1.与已有的上下文信息建模方法对比，本发明的上下文模块能够提供丰富的全局特征表达。

2.通过发明提取器和融合器，本发明的全局上下文特征能够灵活、交互地与局部特征进行更新和融合，从而提高总体的分割效果，尤其是避免了传统方法分割边缘不清、分割小物体困难、容易出现成片或孔洞错误的情况。

3.本发明实现方便，与现有神经网络训练和预测方法相容。

附图说明

图1本发明的结构示意

图2实施案例中的使用的整体网络结构

图3实施案例中的提取器/融合器结构

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，描述中将以用于图像语义分割的卷积神经网络为例，显然，所描述的实施例仅是本发明的一部分实例，而不是全部的实例。

本部分将以(badrinarayanan,vijay,alexkendall,androbertocipolla.2017.“segnet:adeepconvolutionalencoder-decoderarchitectureforscenesegmentation.”ieeetransactionsonpatternanalysisandmachineintelligence39(12):2481–95.https://doi.org/10.1109/tpami.2016.2644615.)中提出的segnet方法作为基础，显然，本发明不限制基础结构，该基础结构仅是一个示例。

(1)准备适合的训练数据，本示例的训练数据包括训练图像和逐像素的语义分割标注。

(2)搭建基础网络，即segnet结构。

(3)选定需要从局部特征提取全局特征的位置，本实施例中选取的提取位置如图2所示，即从segnet的第2至第8个卷积层输出提取全局特征；

(4)选定需要将全局特征融合到局部特征的位置，本实施例中选取的融合位置如图2所示，即将全局特征通过全局特征融合器按顺序接入到segnet的第5至第10个卷积层作为输入的一部分；

(5)本实施例中全局上下文信息张量的维度与segnet第4个卷积层的输出维度一致，并且使用带跨度的卷积层来降低维度，使用反卷积(deconvolution)来提升维度；

(6)确定每一个全局特征提取器和每一个全局特征融合器的构造，为了节省计算量，本实施例中选用如图3所示的提取器(图3-a)和融合器(图3-b)，具体地，示例全局特征提取器/融合器依次由卷积层、批归一化(batch-normalization，简称bn)层和整流线性单元(rectifiedlinearunit，简称relu)层组成；

(7)特别地，为了降低维度，本例中第1、第2、第7个全局特征提取器和第1、第2个全局特征融合器使用了带跨度的3×3膨胀率2的膨胀卷积(跨度分别为4、2、2、2、2)，为了提升维度，第4、第5个全局特征提取器和第4、第5、第6个全局特征融合器使用了3×3的反卷积(上采样倍率分别为2、2、2、4、8)；

(8)将每个全局特征提取器提取得到的新全局特征，与已有的全局特征逐元素相加(特别地，把第一个全局特征提取器的输出作为初始全局特征，不需要进行加法操作)；

(9)将每个全局特征融合器输出的全局特征，与当前的局部特征连接(concatenation)作为新的特征信息；

(10)至此，本发明上下文信息建模模块、全局特征提取器、全局特征融合器构造完毕，得到的带上下文信息编码的segnet。

(11)将步骤1中的训练数据输入所得到的神经网络，使用迷你批量随机梯度下降(mini-batchsgd)的优化方法，选用交叉熵损失和权重衰减损失的和作为损失项，并设置权重衰减系数0.01，学习率从0.001开始每隔1代以0.95次幂的指数形式下降，训练至损失函数值收敛。

(12)将步骤11训练得到的神经网络权重保存。

(13)将待测图像输入步骤12得到的神经网络模型中，得到的预测结果即为待测图像的语义分割结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：庞彦伟;孙汉卿
技术所有人：天津大学
我是此专利的发明人

上一篇：一种血浆中功能性蛋白质的分离纯化方法与流程
上一篇：一种市政工程快速展开隔离装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。