一种基于多接受野的交替更新网络的场景分割方法与流程

文档序号：21785939发布日期：2020-08-07 20:30阅读：8659来源：国知局

本发明涉及计算机视觉领域，具体涉及一种基于多接受野的交替更新网络的场景分割方法。

背景技术：

卷积网络一直在推动计算机视觉领域各个方向的进步，例如目标定位、目标检测、图像识别。同时人们也将卷积网络引入到语义分割的问题上，从而取代传统的手工标记方法，实现端到端的分割输出。图像识别的作用是识别出一幅图像里面有什么东西，目标定位的结果是目标的位置，语义分割则是从像素级的角度来回答图像里面有什么类别以及这些类别的具体位置。语义分割包括了许多子方向，例如：衣物解析，场景分割，任务解析等，其一直是计算机视觉领域上很有挑战性方向，虽然国内外对这个方向投入了大量的研究，但仍然存在着许多挑战。场景语义分割是语义分割的关键问题之一，其功能是将一张场景图里面的街景、人物和建筑等进行像素级分类。

一直以来，人们致力于提高场景语义分割的准确性，然而一些问题还是没有能够很好地解决，主要的挑战和缺点有：

(1)特征分辨率减小：在神经网络重复池化和降采样过程中，图像的特征分辨率会减小，从而导致一些语义信息损失。

(2)网络参数过多，增大训练的代价：随着卷积神经网络的发展，为了得到更好的分割效果，人们不惜增加网络层数从而获得更好的分割效果，结果造成了网络参数随着层数的增加大幅度增加，增大了网络的训练难度，提高了对计算资源的要求。

(3)接受野的大小受限：场景图里面包括了很多场景目标，小到一颗路上的路灯，大到一幢高楼，在图片中他们的尺寸差异很大，所以需要大小不同的接受野的卷积核才能有更好的分割效果。

(4)特征信息的利用率低：随着网络的加深，更高层次的语义信息被提取，但是浅层网络的特征图信息却没能够被充分的利用。

技术实现要素：

本发明的目的在于克服现有技术的不足，提出了一种基于特征选择的目标检测算法，具有稳定性强、效率高的优点。

一种基于多接受野的交替更新网络的场景分割方法，包括以下步骤：

s1、将输入图像通过一个预训练好的卷积神经网络，进行特征图的提取；

s2、通过预训练好的集合网络空洞金字塔模块，得到包含高层语义信息的特征图；

s3、在步骤s2中得到的特征图的基础上对逐个像素计算分类的损失，获得分割热图。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，在所述步骤s1中提取得到的特征图为输入图像上经过1/8降采样得到的特征图。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，对在步骤s2中得到的特征图按照取值为8的上采样率进行上采样。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，所述集合网络空洞金字塔模块具有扩张卷积核，在特征图输入时，输入特征逐层进行卷积计算，并作为输入拼接在该所述集合网络空洞金字塔模块中的其他神经层中。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，在同一个所述集合网络空洞金字塔模块的任意两个网络层中，其信息流包括前传部分和后传部分，通过其后面的网络层级输出对前面的层级输出进行优化。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，所述集合网络空洞金字塔模块内的前传部分，其相邻两层之间进行空洞卷积，通过多尺度扩张核提取多尺度的特征。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，在空洞卷积的过程中，其表达式为：

其中，x[i]为输入，w[k]为卷积核的第k个参数，k是卷积核的大小，d为扩张率，y[i]则是经过空洞卷积之后的输出特征像素。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，在所述集合网络空洞金字塔模块中网络层参数的更新分为两个阶段，在第一阶段中，相邻的网络层的卷积为空洞卷积，在该第一阶段中每一层输出的表达式为：

其中，dl代表第l层的扩张率，[yl-1,yl-2,…,y0]表示将l层之前的所有层的输出都连接起来的操作，h表示对拼接后的所有层进行非线性变换操作，每个网络层的输出特征数相同；

在第二阶段中，用前面刚更新的3个层的输出作为输入去更新相应的权值，交替更新的第i层和第j个循环的表达式为：

其中k≥2，w*y表示卷积操作，w⊙y表示空洞卷积操作，h(·)为非线性变换函数，取为：bn+relu+conv(3*3)，每一个神经层的输出设置了用于使每一层输出都有相同的特征数的生长率。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，空洞卷积采用扩张率大小不同的卷积核进行叠加，其接受野的计算公式为：r(d,k)＝(d-1)×(k-1)；

其中，d为扩张率，而k为卷积核的大小。

优选地，在上述的基于多接受野的交替更新网络的场景分割方法中，最大接受野的计算公式为：rmax＝max{rd01,k01,rd12,k12,rd23,k23,rd34,k34,rd41,k41}；其中dij表示第从第i层到第j层空洞卷积核的扩张率，而kij表示第从第i层到第j层未扩张之前的卷积核的大小。

本发明的有益效果：本发明的一种基于多接受野的交替更换的场景分割方法使用空洞金字塔池化网络进行场景的语义分割，集合网络空洞金字塔模块一方面能对特征图进行充分利用，改善网络中信息的流动，减少模型参数，从而达到压缩模型的效果，另一方面又结合扩张卷积的方法，从而增加了卷积核的接受野尺寸，以实现对场景图里面不同大小目标的分割，可以应用在场景语义分割领域，具有鲁棒性强、计算效率高等特性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的流程示意图；

图2为本发明的多尺度空洞卷核的接受野比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提出的一种基于多接受野的交替更新网络的场景分割方法，包括以下步骤：

s1、将输入图像通过一个预训练好的卷积神经网络，进行特征图的提取。在步骤s1中提取得到的特征图为输入图像上经过1/8降采样得到的特征图采用全卷积网络中的卷积部分，并把最后一层池化层移除，以减少特征图信息的损失。

s2、通过预训练好的集合网络空洞金字塔模块，得到包含高层语义信息的特征图；

s3、在步骤s2中得到的特征图的基础上对逐个像素计算分类的损失，获得分割热图。

在本发明的实施例中，在步骤s1中提取得到的特征图为输入图像上经过1/8降采样得到的特征图，对在步骤s2中得到的特征图按照取值为8的上采样率进行上采样。

在本发明的实施例中，集合网络空洞金字塔模块具有扩张卷积核，在特征图输入时，输入特征逐层进行卷积计算，并作为输入拼接在该所述集合网络空洞金字塔模块中的其他神经层中。在同一个所述集合网络空洞金字塔模块的任意两个网络层中，其信息流包括前传部分和后传部分，通过其后面的网络层级输出对前面的层级输出进行优化。集合网络空洞金字塔模块内的前传部分，其相邻两层之间进行空洞卷积，在扩张率为1时表示为普通卷积，从而可以扩大卷积核的接受野，从而引入更大范围的图像信息，同时多尺度扩张核可以提取多尺度的特征，这将有利于多尺度目标物的分割以及模棱两可的像素的分割。该集合网络空洞金字塔模块一方面能对特征图进行充分利用，改善网络中的信息的流动，减少模型参数，从而达到压缩模型的效果；另一方面又结合扩张卷积的方法从增加了卷积核的接受野尺寸，以实现对场景图里面大大小小的目标的分割。

如图1所示，为该集合网络空洞金字塔模块展开之后的信息流图，其中靠右一侧的斜向上延伸的方块为扩张卷积核，当输入特征图传入模块中时，输入特征不仅进行一层层地进行卷积计算，而且也会作为输入拼接在该网络模块中的其他神经层中。根据该模块的两大特点可以总结出两个优势：充分利用特征和更大的接受野以及更密集的特征信息。

在本发明的实施例中，在空洞卷积的过程中，其表达式为：

其中，x[i]为输入，w[k]为卷积核的第k个参数，k是卷积核的大小，d为扩张率，y[i]则是经过空洞卷积之后的输出特征像素。

在集合网络空洞金字塔模块中网络层参数的更新分为两个阶段，在第一阶段中，相邻的网络层的卷积为空洞卷积，在该第一阶段中每一层输出的表达式为：

在第二阶段中，用前面刚更新的3个层的输出作为输入去更新相应的权值，交替更新的第i层和第j个循环的表达式为：

其中k≥2，w*y表示卷积操作，w⊙y表示空洞卷积操作，即在前向传播过程中相邻两层之间才有空洞卷积操作，当其扩张率为1时即为普通卷积，h(·)为非线性变换函数，取为：bn+relu+conv(3*3)，每一个神经层的输出设置了用于使每一层输出都有相同的特征数的生长率。

本专利中采用具有四个卷积层的cliqueasppblock，其信息流传播如下：

表1.四层集合网络空洞金字塔模块的信息流图

其中wij表示从yi层到yj层的权重，并重复利用。{}表示串联操作。第一个阶段即为第一次循环，而从第二次循环开始，就只有第二个阶段，第一个阶段将不再重复。这样的反馈循环操作，充分地利用了整个网络层次的信息，从而增强了网络的鲁棒性。

在本发明的实施例中，空洞卷积采用扩张率大小不同的卷积核进行叠加，其接受野的计算公式为：r(d,k)＝(d-1)×(k-1)；

其中，d为扩张率，而k为卷积核的大小。

在传统的空洞金字塔池化网络中，多扩张率不同的卷积核所能感受的接受野大小为最大扩张率的卷积核的接受野，例如空洞金字塔池化采用扩张率分别为{3,6}的3*3卷积核进行空洞卷积，所能得到的最大感受野为：r＝max{r(3),r(6)}。相对而言，在本发明的集合网络空洞金字塔模块中，空洞卷积的最大接受野为：

r＝r(3)+r(6)-1。

采用的集合网络空洞金字塔模块的最大接受野在采用相同扩张率的卷积核的条件下，所能接收到的视野是比较大的。从而可以结合图像中更大范围的上下文信息。

在本发明的方法中，可以得到的最大接受野的计算公式为：rmax＝max{rd01,k01,rd12,k12,rd23,k23,rd34,k34,rd41,k41}；其中dij表示第从第i层到第j层空洞卷积核的扩张率，而kij表示第从第i层到第j层未扩张之前的卷积核的大小。从下图还可以直观地看出，本发明所采用的方法对图像中的特征采样更密集，从而使特征信息被充分地利用。如图2所示，为多尺度空洞卷核的接受野比较图，从中可以直观地看出，本发明所采用的方法对图像中的特征采样更密集，从而使特征信息被充分地利用。本发明中的集合网络空洞金字塔模块中的循环步骤极大地促进了特征信息流动，提高了特征信息采用的密集度，充分地利用了网络参数，为打造一个轻量级的网络提供了可能性，同时增强了网络的鲁棒性。采用多扩张率空洞卷积与循环网络相结合，有效地增大了卷积核的接受野，极大地结合了图像中的上下文信息，有利于图像中大小差异很大的多尺度目标物的分割。具有较高的场景语义分割表现以及对图像中的复杂环境具有更好的鲁棒性。

另外，以上对本发明实施例所提供的一种基于多接受野的交替更新网络的场景分割方法进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王金桥;林佳玲;胡建国;唐明;朱贵波;蔡佳辉
技术所有人：杰创智能科技股份有限公司;广州智慧城市发展研究院;中山大学
我是此专利的发明人

上一篇：改性氯化聚丙烯及水性乳液和其制备方法及BOPP薄膜与流程
上一篇：用于压缩机的补气装置及空调器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。