一种改进的滑动式分组卷积神经网络的制作方法

文档序号：19788175发布日期：2020-01-24 13:53阅读：601来源：国知局

本发明涉及图像处理技术领域，尤其是一种改进的滑动式分组卷积神经网络。

背景技术：

卷积神经网络(cnn)由人工神经网络发展而来，独特的权值共享的结构减小了网络的规模，更容易训练。由于图像平移、缩放和旋转的不变性，卷积神经网络广泛应用于图像识别领域。卷积神经网络对图像的平移、缩放、旋转等形式的变形具有高度的适应性，在图像识别和目标检测等领域应用广泛，如微软利用卷积神经网络做阿拉伯文和中文的手写识别系统，谷歌使用卷积神经网络来识别街景图片中的人脸和车牌等等。

cnn的性能正在迅速提高：imagenet挑战的获胜者将分类准确率开始的84.7％(alexnet)提高到96.5％(resnet-152)。然而，精度的提高是以高计算复杂度为代价的。例如，alexnet需要1.4×10¹⁰flops来处理单个224×224图像，resnet-152需要2.26×10¹¹flops。在移动嵌入式设备端，一个最主要的挑战在于大量的运算需要过多的硬件资源并且功耗巨大。

为了解决与计算能力相关的这一系列问题，已经有大量的研究试图优化它们的性能。这些研究工作方法可以分为两种：使用预先训练的模型压缩现有网络结构，以及设计新的高效的网络结构，这些结构将从头开始训练。

模型压缩方法通常基于传统的压缩技术，如哈希(hashing)、赫夫曼编码(huffmancoding)、因式分解(factorization)、剪枝(pruning)和模型量化(quantization)。

实际上，第二种方法比第一种方法更早地被研究。googlenet中提出了inception模块，希望在不增加模型大小和计算成本的情况下构建更深的网络结构，然后在inception模块中通过分解卷积进一步改进。深度可分离卷积(depthwiseseparableconvolution，dwconvolution)更加体现因式分解的思想，将标准卷积分解为深度卷积(depthwiseconvolution)，再用1×1卷积核进行常规卷积。mobilenet为基于dwconvolution的移动设备设计了卷积神经网络，该操作能够以较少的参数获得了较好的结果。

技术实现要素：

发明目的：本发明的目的在于解决现有的卷积神经网络，计算精度的提升必然导致系统的计算复杂度提高，进一步地，大量的运算需要过多的硬件资源并且功耗巨大的问题

技术方案：为解决上述问题，本发明采用以下技术方案：

一种改进的滑动式分组卷积神经网络，包括以下步骤：

(1)将总通道分为n个分组，对输入的全部通道按照两个参数g和s来进行分组卷积，在全部通道中取第一个通道到第g个通道为第一个组的输入进行卷积，这一组中包含g个通道，经过卷积操作之后输出s个通道，接下来在总通道上进行滑动操作，以s作为滑动的步长，然后第二组卷积操作的的输入为总通道数的第s+1个通道到第s+g，依旧是g个通道作为第二组输入进行卷积操作，并且输出s个通道，以此类推；若最后组剩余的总通道数不足g个，则从位于总通道开头部分的通道继续取，直到最后一组的输入通道数到达g个为止；

(2)对步骤(1)的每次输出通道进行堆叠操作，确保得到的通道数等于或者大于所需的通道数；

(3)对步骤(2)堆叠后所得到的通道进行剪切，堆叠后得到的通道数可能会超出本身所需要的，所以这里进行剪切操作将超出的通道舍弃，得到所需要的通道数。

进一步地，步骤(1)中，相邻的两个分组卷积，具有g-s个共享卷积。

进一步地，所述步骤(1)中，输出通道s的数量小于输入通道g的数量。

进一步地，所述步骤(1)中，每个分组均有且仅有g个通道。

进一步地，每组的输出通道均为当前分组的第一个通道到第s个通道。

进一步地，所有组的输入通道数g相同，输出通道数s也相同。

有益效果：本发明相对于现有技术而言：

本发明提出了一种基于深度卷积的神经网络改进方法，将网络中用滑动组卷积操作去替换普通的3×3卷积核的深度卷积操作来减小参数和计算量，提出ogc卷积网络结构，可以更好的提取特征图的空间特征，使用了更少的参数，提高了卷积神经网络的计算效率，加快了神经网络的传播速度，并且测试结果有明显提高。实验结果表明，与resnet网络以及其他神经神经网络相比，所用参数与测试结果均有改善，证明提取特征图空间信息比组合通道信息更为重要。本结构采用cifar-10和cifar-100数据集验证了算法的良好效果。

附图说明

图1为作为对比的常规卷积操作和深度卷积操作的示意图；

图2为本发明的滑动组卷积(以g＝3时，s＝1和s＝2为例)操作示意图；

图3为本发明的ogc模块应用在ogcnet的示意图；

图4为本发明的ogc模块内部示意图；

图5为本发明的ogcnet的网络表。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

一种基于分组卷积神经网络的改进方法，在一般的群组卷积中，不同群体之间没有滑动，这限制了信息的交换。所述改进方法滑动分组卷积结构完成，其算法包括以下步骤：

(1)相对于一般卷积和组卷积网络而言，分析了ogc在参数和计算方面的优势，发现组卷积的不足在于任何两组的输入通道都是完全不同的。这也就是说，群体卷积限制了不同群体之间的信息传递，因此我们提出了有滑动的组卷积。

(2)对输入的全部通道按照两个参数g和s来进行分组卷积，每次输入通道数为g(分组卷积中每组卷积的通道数)，输出通道数为s(s<g)，即在全部通道中取第一个通道到第g个通道为第一个组输入进行卷积，这一组中包含g个通道，经过卷积操作之后输出s个通道，接下来在总通道上进行滑动操作，以s作为滑动的步长，然后下组卷积操作的的输入为总通道数的第s+1个通道到第s+g，总共依旧是g个通道作为一个组输入进行卷积操作，并且输出s个通道，依次类推；若最后剩余的总通道数不足g个，则从位于总通道开头部分的通道继续取，直到最后一组的输入通道数到达g个为止。

即最后一组的输入通道如果数量不够，可以与第一组的输入通道共享取整，使得最后一组的输入通道数也达到g。

(3)对步骤(2)的每次输出通道进行堆叠操作，确保得到的通道数等于或者大于我们所需的通道数。

(4)对步骤(3)堆叠后所得到的通道进行裁剪，堆叠后得到的通道数会超出本身所需要的，所以这里进行剪切操作将超出的通道舍弃，得到所需要的通道数。

如图3所示，本发明所用的ogc卷积块在resnet上替换过后的结构相对比的示意图，先对输入特征图进行批量归一化处理，然后用非线性函数进行激活处理。再用1×1卷积对输入特征图进行标准卷积运算；再经过批量归一化处理，然后用非线性函数进行激活处理，用ogc去替代3×3卷积核的标准卷积，ogc的内部如图4所示，每组有三个通道，组与组之间的滑动为1，并且输出特征图通道数与输入通道数相同；同样的，对输入层经过批归一化处理，然后用非线性函数relu进行激活处理，对输入特征图进行常规卷积操作，卷积核尺寸为1×1，步长为1，并在这一步扩张特征图的通道数。

本发明使用tensorflow搭建神经网络，称为ogcnet网络结构，训练cifar-10与cifar-100数据集。cifar-10与cifar-100数据集均是图像大小为32×32的三通道彩色图片，其中cifar-10数据集是10分类，cifar-100是100分类。具体操作如下，首先输入图像尺寸是32×32×3，经过1阶段，使用标准卷积操作，卷积核尺寸为7×7，输出通道为32，步长为1，输出尺寸为32×32；在第2阶段，经过5个图5所示的单元块，单元块中三个卷积层的输出通道数分别为32、32、128，步长为1，输出尺寸仍为32×32，其中在中间那层卷积替换成了滑动组卷积；第3阶段，经过6个单元块，单元块中三个卷积层的输出通道数分别为64、64、256，其中在中间那层卷积替换成了卷积，在第一个单元块中第二个3×3标准卷积操作的步长为2，所以经过第3阶段输出特征图尺寸为16×16；第4阶段，经过5个单元块，单元块中三个卷积层的输出通道数分别为128、128、512，其中在中间那层卷积替换成了滑动组卷积，在第一个单元块中第二个3×3标准卷积操作的步长为2，所以经过第4阶段输出特征图尺寸为8×8；第5阶段，经过全局平均池化层，输出特征图尺寸为1×1，输出通道数仍为512，对cifar-10最后一个全连接层的输出通道数为10，对于cifar-100输出通道数为100，最后接入归一化指数函数层来完成图像分类。

根据以上推导，不难看出，如下规律：每个ogc结构的参数个数为k×k×g×s×n和计算量k×k×g×m×h×w×n，其中k是卷积核的尺寸，h和w的特征图的尺寸，m是输出通道的总数，n为参与卷积组数。通过本发明基于分组卷积神经网络改进方法，所构建的网络结构ogcnet50，在调整参数g和s的多种组合的情况下，通过训练cifar-10与cifar-100数据集，在经过164轮训练之后，发现当g和s不同组合的时候所取得的效果也是不一样，所得结果如表1，并与resnet和resnext网络结构相比，所用参数更少，测试准确率更高，说明本发明所提出的基于组卷积的神经网络改进方法有效。

表1网络模型对比准确率测试结果

通过以上数据可以发现滑动组卷积,相比于常规卷积和普通分组卷积，ogcnet的优势比较明显。其中通过调整g与s的值我们可以发现，当g越大的时候，准确率就越高，当s越大的时候准确率就越高，但当g＝s的时候(resnext)准确率会比有滑动时的要低，故关于s的选择，建议在g/2<s<g内，s尽可能的大；g的选择上，不要超出总通道数；ogcnet不仅在提升了精度上效果明显，而且还很大程度的降低了参数量与计算量，帮助了我们在做硬件实现的时候，提供了一种更为可行的思路。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段斌;张萌;李国庆;吕峰;李娇杰
技术所有人：东南大学
我是此专利的发明人

上一篇：卷烟包装机在线生产过程视觉外观检测装置状态监测方法与流程
上一篇：一种便携式打包机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。