一种基于多路特征加权的残差卷积神经网络图像分类方法与流程

文档序号:15853083发布日期:2018-11-07 10:28阅读:1443来源:国知局
一种基于多路特征加权的残差卷积神经网络图像分类方法与流程

本发明涉及计算机视觉领域,是深度学习技术的一种,主要用于训练深度图像分类模型,尤其是一种图像分类方法。

背景技术

近几年,随着计算机计算能力的指数级增长和新型神经网络架构的出现,深度学习技术开始在计算机视觉、语音识别、自然语言处理等领域大放光彩。在计算机视觉领域,卷积神经网络的出现大大提高了计算机在图像分割,图像识别任务中的性能,其识别准确率远远高于传统的机器学习算法。目前,基于卷积神经网络的图像识别技术已经获得了广泛的使用。

常规的卷积神经网络包括卷积层、池化层、全连接层和分类层,其基本结构为上述单元的串联组合。卷积层用于学习图像中的低层和高层特征,而池化层可以对这些特征进行提取并不断减少特征图的尺寸。全连接层与分类层位于整个神经网络的末尾,用于对最终提取的高层特征进行分类。在具体的图像分类任务中,图像中被识别物体的特征类型较多而且特征结构较复杂。为了应对这一情况,需要对常规的卷积神经网络在宽度和深度两个方面进行提升。首先,单一的卷积层往往无法学习到所有的有效特征,所以现有的网络结构通过增加网络宽度,即增加网络中某一层的输出特征数来解决这一问题。但是通道数的增加可能导致网络学习到重复或无用的特征,导致模型发生冗余,不仅不利于分类还增加了无用的计算量。另外,为了使神经网络可以学习到更加复杂的特征,网络的深度也被设计的较深。但是随着网络深度的增加,网络训练过程中更容易发生梯度消失和梯度爆炸问题,从而导致学习过程无法收敛。针对此问题,微软亚洲研究院的研究团队提出了基于残差结构的卷积神经网络,其基本思想是在低层与高层特征之间引入快速连接通道。该结构一方面在高层特征中引入了低层特征,增加了特征提取的多样性,另一方面,额外增加的前向通道避免了反向传播过程中发生的的梯度消失问题。

上述两种方案分别从网络宽度和深度两个方面对常规的卷积神经网络进行了优化。但是为了更好地解决图像分类问题的复杂情况,卷积神经网络模型需要学习更加复杂的特征表达。同时,网络宽度增加带来的冗余问题仍然需要解决。



技术实现要素:

为了克服现有的图像分类方法应用于复杂图像时性能较差的不足,本发明提出了一种基于多路特征加权的残差卷积神经网络图像分类方法。该方法是解决神经网络宽度与深度方法的融合。在增加神经网络宽度的基础上,以加权的方式对多路特征进行融合,从而强化了关键特征的表达并去除了多余的特征,避免了输出重复、无用特征带来的模型冗余问题。同时,该网络结构还融合了用于解决深度问题的残差结构。残差结构的加入增加了更多的前向通道,近一步丰富了特征的表达,并且避免了梯度问题的发生。

本发明解决其技术问题所采用的技术方案是:

一种基于多路特征加权的残差卷积神经网络图像分类方法,所述方法包括以下步骤:

1)首先,模型的输入图像为经过预处理的原始图像,经过预处理的图像裁剪为一个固定尺寸;

2)对图像进行较大尺寸的卷积操作和池化操作;

3)将步骤2)中输出的特征送入第一个多路特征加权残差模块,所述多路特征加权残差模块由多个卷积组和一个加权组合模块构成:每个卷积组内都包含一个或多个卷积层,每一个卷积组之间的卷积层配置应该各不相同,以保证卷积核尺寸的多样性;同时,网络中的特征图像在经过某些多路特征加权残差模块时,特征图像的尺寸会相应减小,所以为了保证每个卷积组的输出特征图尺寸保持一致,有些卷积组内也包含池化层;

所有卷积组的输出会被送入加权组合模块进行整合,具体的加权组合方法是对每一个卷积组的输出特征乘以一个随机初始化的不同参数k,并将上述经过加权后的卷积组输出在特征通道进行拼接;拼接后的组合特征将与多路特征加权残差模块的输入相加作为整个多路特征加权残差模块的输出;

4)将步骤3)中多路特征加权残差模块的输出继续送入下一个多路特征加权残差模块。在经过多个多路特征加权残差模块后,输出的特征图像尺寸会逐渐缩小直至变为一个10×10以内的较小尺寸,最后经过一个平均池化层缩小为特征点;所得特征点直接送入分类层进行分类或经过全连接层后再进行分类。

进一步,所述方法还包括以下步骤:

5)在模型训练开始阶段,加权系数k和卷积核内系数通过多种方式随机初始化,最终用于分类的网络参数将在反向传播过程中不断优化直至获得最优值;

再进一步,所述步骤2)中,卷积核尺寸可以设置为7×7、步长为2的卷积和尺寸为3×3、步长为2的最大池化;根据步骤1)中裁剪后的输入图像做尺寸上的修改。选取较大卷积核尺寸的目地在于以较大的视野提取底层特征,并尽可能的防止细节特征的丢失。同时,在卷积与池化过程中选取较大的步长可以将特征图像的尺寸近一步缩小以减小计算量;

更进一步,所述步骤3)中,卷积组内卷积核尺寸的选取方式:一种是在计算资源允许的情况下选择尽量多的卷积核尺寸的组合,以覆盖所有可能的特征类型;另一种方案是根据需要分类的图像特征,人工设计较为有利的卷积核尺寸参数;还可以采用上述两种方式的结合。

本发明的基于多路特征加权的残差卷积神经网络图像分类方法,其主要特点在于对卷积神经网络中宽度提升方案与深度提升方案的融合与改进。其基本结构包括卷积层、池化层、全连接层和多路特征加权残差模块。其具体结构为卷积层、池化层、和多个多路特征加权残差模块的串联使用,并在最后通过全连接层与分类层获得最终的分类结果。卷积层与池化层的主要作用在于提取低级特征的同时缩小特征图像的尺寸。该网络的核心在于多路特征加权残差模块,该模块包含多个并联的卷积组,每一个卷积组中又包含一个或多个卷积层。卷积组内具体的卷积层数量应该根据需要学习的神经网络总层数进行调整,而卷积核尺寸的选取应该保证每个卷积组之间的卷积核尺寸互不相同。所有卷积组的输出将被送入加权组合处理,具体的处理方案是对每一个卷积块的输出分别乘以一个不同的可学习参数k,然后将加权后的输出在特征通道进行拼接。通过给每一个卷积组的输出赋予一个可学习的权重,该网络可以强化重要特征的表达并去除多余或重复的特征,从而避免模型发生冗余。

本发明的有益效果主要表现在:能够使卷积神经网络同时在宽度和深度上进行提升,从而获得更好的特征提权效果,进而提高图像分类任务在应用于复杂图像时的性能。

附图说明

图1为基于多路特征加权的残差卷积神经网络总流程图。

图2为多路特征加权残差模块内部结构图。

具体实施方式

下面结合流程图对本发明做进一步描述。

参照图1和图2,一种基于多路特征加权的残差卷积神经网络图像分类方法,包括以下步骤:

1)首先,模型的输入图像为经过预处理的原始图像,经过预处理的图像必须全部裁剪为一个固定尺寸,为了利于模型训练,固定尺寸的长和宽最好保持一致,其具体尺寸由模型的具体应用和模型大小确定。常见的输入图像尺寸有:512、299、224等。

2)对图像进行较大尺寸的卷积操作和池化操作,例如卷积核尺寸为7×7、步长为2的卷积和尺寸为3×3、步长为2的最大池化。选取较大卷积核尺寸的意义在于以较大的视野提取底层特征,并尽可能的防止细节特征的丢失。同时,在卷积与池化过程中选取较大的步长可以将特征图像的尺寸近一步缩小。

3)将步骤2)中输出的特征送入第一个多路特征加权残差模块。多路特征加权残差模块的详细构成如图2所示:该模块包含多个卷积组,每个卷积组将包含一个或多个卷积层,且每个卷积组内的卷积层尺寸参数应该互不相同以保证特征提取的多样性。例如:卷积组1的构成为一个7×1加1×7的卷积层,卷积组2的构成为3×3加1×1的卷积层,卷积组3为5×5加1×1的卷积。具体的尺寸设计可以在计算资源允许的情况下选择较多的尺寸组合,也可以根据具体的分类任务手工设计卷积核尺寸。另外,当特征图像经过某些多路特征加权残差模块时,图像尺寸应该减小,所以有些卷积组内还包含池化层用于压缩特征图尺寸。

4)步骤3)中所有卷积组的输出将会被送入加权组合模块进行特征融合。图2中的加权组合模块的具体实现方式为:为每一个卷积组的输出定义一个随机初始化的系数值k,每一个卷积组的输出先乘以各自的系数值,然后将加权后的特征在特征通道进行拼接;

将步骤4)中融合后的特征与步骤3)中多路特征加权残差模块的输入相加作为整个多路特征加权残差模块的输出。

将步骤3)中多路特征加权残差模块的输出继续送入下一个多路特征加权残差模块。在经过多个多路特征加权残差模块后,特征图像尺寸将不断缩小为一个10×10以内的较小尺寸,并经过一个平均池化层缩小为特征点;所得特征点可以直接送入分类层进行分类或经过全连接层后再进行分类。

5)在模型训练开始阶段,加权参数k和卷积核内参数可以通过多种方式随机初始化。最终用于分类的参数将在反向传播过程中不断优化直至获得最优值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1