基于多模型和多尺度特征的图像场景分类方法与流程

文档序号：14266390阅读：1983来源：国知局

本发明涉及图像识别领域，尤其涉及卷积神经网络深度学习技术领域，更具体是指一种基于多模型和多尺度特征的图像场景分类方法。

背景技术：

移动互联网时代的开启使得图片的获取与分享越来越容易，图片已经成为人们交互的重要媒介。如何根据图像的视觉内容为图像赋予一个语义类别(例如，教室、街道等)是图像场景分类的目标，也是图像检索、图像内容分析和目标识别等问题的基础。但由于图片的尺度、角度、光照等因素的多样性以及场景定义的复杂性，场景分类一直是计算机视觉中的一个挑战性问题。

目前的场景识别分类方法主要包括空间金字塔法、基于高层次语义信息的方法和基于结构简单的卷积神经网络(alexnet、googlenet)的方法.

这些方法有着明显的缺陷，空间金字塔法的特征表示只依赖于低层次的几何信息，缺少对高层次语义信息的提取，识别场景的能力很受限制，基于高层次语义信息的场景识别方法受限于所选物体的范围，大大地影响了模型分类的能力，基于结构简单的卷积神经网络的方法主要缺点在于由于特征提取的不充分从而导致较低的识别率。

技术实现要素：

本发明要解决的技术问题是现有图像场景分类准确率低的问题，提供了一种基于多模型和多尺度特征的图像场景分类方法，其能够较大幅度提升分类精度。

为解决上述问题，本发明是通过以下技术方案实现的：

基于多模型和多尺度特征的图像场景分类方法，包括以下步骤：

步骤1)样本场景图像的训练阶段；

1.1)、将所有训练图像按照长宽比不变的原则，短边缩放成395像素的长度；

1.2)、按照特定规则进行图像增强，生成训练数据集；

1.3)、将训练集分别输入至三种不同架构神经网络resnet50、resnet152、dpns92按照特定的训练方法进行模型参数更新，保存训练效果最好的模型；

步骤2)待分类场景图像的预处理阶段；

2.1)、将任意一张不限尺寸场景图像通过按照长宽比不变缩放成不同尺度m×n的图像，其中m为图像最短边，有四种取值(365,395,425,455),n为图像另一边对应比例的缩放；

2.2)、从m×n的图像中，若m>n切割出左中右三个正方形图像m*m，若m<n切割出上中下三个正方形图像n*n；

2.3)、从每一个正方形图像中按照左上角、右上角、左下角、右下角裁剪出5个320×320大小的图像，以及将该正方形图像缩小至320×320图像；

2.4)、将1.3)中产生的6幅320×320图像水平翻转生成6幅镜像图像；

步骤3)待分类图像的分类阶段；

3.1)、将待分类通过步骤2)生成的144个子图像送入到resnet50的卷积神经网络进行概率预测，按照概率平均策略集成144个子图像预测概率，得到模型产生的分类结果；

3.2)、将待分类通过步骤2)生成的144个子图像送入到resnet152的卷积神经网络进行概率预测，按照概率平均策略集成144个子图像预测概率，得到模型产生的分类结果；

3.3)、将待分类通过步骤2)生成的144个子图像送入到dpns92的卷积神经网络进行概率预测，按照概率平均策略集成144个子图像预测概率，得到模型产生的分类结果；3.4)、将3.1)、3.2)、3.3)产生的分类结果按照投票策略得到最终分类结果

上述步骤1.2)中，所述图像增强规则是：训练图像随机水平镜像、按照8％-100％比例随机裁剪、宽高比按照3/4-4/3中任意随机数进行变化、hsl通道按照20,40,50随机变化。

上述步骤1.3)中，所述特定训练方法是指：所述的resnet50、resnet152、dpns92神经网络，通过对所有的训练样本在强数据增强下，在0.001的学习率下更新模型参数50代，然后再以0.0001的学习率更新模型参数50代；对所有的训练样本在弱数据增强下，以0.0001的学习率更新模型参数50代，再在没有数据增强的情况下，以0.0001的学习率更新模型参数50代，训练得到能够对常见的80个场景图片分类的深度学习模型。

在上述方法中提到的强数据增强是指：训练图像随机水平镜像、按照8％-100％比例随机裁剪、宽高比按照3/4-4/3中任意随机数进行变化、hsl通道按照20,40,50随机变化；弱数据增强是指：训练图像随机水平镜像、按照60％-100％比例随机裁剪、宽高比按照3/4-4/3中任意随机数进行变化、hsl通道按照20,40,50随机变化；没有数据增强是指对训练图片仅仅做随机水平增强操作。

上述步骤1.3)中，所述resnet50神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定16个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

上述步骤1.3)中，所述resnet152神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定50个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

上述步骤1.3)中，所述dpns92神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定50个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

附图说明

图1为本发明的基于多模型和多尺度特征的图像场景分类方法的流程图

图2为本发明的图像预处理模块工作的流程图

具体实施方式

为了能够更清楚的描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

为了实现上述目的，基于多模型和多尺度特征的图像场景分类方法，包括以下步骤：

步骤1)样本场景图像的训练阶段；

1.1)、将所有训练图像按照长宽比不变的原则，短边缩放成395像素的长度；

1.2)、按照特定规则进行图像增强，生成训练数据集；

1.3)、将训练集分别输入至三种不同架构神经网络resnet50、resnet152、dpns92进行单独训练，保存训练效果最好的模型；

步骤2)待分类场景图像的预处理阶段；

2.2)、从m×n的图像中，若m>n切割出左中右三个正方形图像m*m，若m<n切割出上中下三个正方形图像n*n；

2.3)、从每一个正方形图像中按照左上角、右上角、左下角、右下角裁剪出5个320×320大小的图像，以及将该正方形图像缩小至320×320图像；

2.4)、将1.3)中产生的6幅320×320图像水平翻转生成6幅镜像图像；

步骤3)待分类图像的分类阶段；

上述步骤1.3)中，所述resnet50神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定16个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

上述步骤1.3)中，所述resnet152神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定50个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

上述步骤1.3)中，所述dpns92神经网络模型包括：

第一块：输入图像经过一个卷积核为7×7的卷积层；

第二块：设定50个包含3个卷积核为3×3的卷积层的卷积块；

第三块：设定一个输出为80类别的全连接层。

在一种更进一步的实施方式中，所述的resnet50、resnet152、dpns92神经网络，通过对所有的训练样本在强数据增强下，在0.001的学习率下更新模型参数50代，然后再以0.0001的学习率更新模型参数50代；对所有的训练样本在弱数据增强下，以0.0001的学习率更新模型参数50代，再在没有数据增强的情况下，以0.0001的学习率更新模型参数50代，训练得到能够对常见的80个场景图片分类的深度学习模型。

在此说明书中，本发明已参照特定的实施例作了描述。但是，显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：漆进;史鹏;张通
技术所有人：电子科技大学
我是此专利的发明人

上一篇：一种基于卷积神经网络的人体运动步态分类方法与流程
上一篇：一种实时手势识别的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。