一种基于单网络多任务学习的车辆多属性检测方法与流程

文档序号：17928608发布日期：2019-06-15 00:37阅读：205来源：国知局

本发明涉及计算机视觉方向的目标检测技术领域，具体是指一种基于单网络多任务学习的车辆多属性检测方法。

背景技术：

随着经济的不断发展，汽车已成为人们最主要的交通工具，在给人们提供便利的同时，其导致的道路交通拥堵、车辆监管等问题也日趋严重。智能交通系统、车辆监管系统已普遍被大众所认可，作为智慧城市的一部分，其主要应用于道路交通管理、公安刑侦调查、停车场监控、小区智能管理等方面。随着信息化时代的到来，如何高效地做到车辆实时检测(即车辆的定位与识别)、人车精确匹配是智能车管理亟待解决的问题。

传统的车辆识别方法主要以车牌检测为主，但是车牌磨损、遮挡、易变动和受光照环境等影响成为其有效检测的绊脚石，另外在刑侦领域，仅仅依靠车牌单一属性的检测已不足以精确识别车辆的真实身份，在此情况下，车辆多属性识别技术的应用则显得异常重要，它可以弥补车牌等单属性识别的不足，从而进一步提高智能交通系统和车管系统的可靠性。现有的车辆属性检测技术主要是基于传统的图形处理算法，其准确率低、漏检性高且实时性差；近年来，随着深度学习的高速发展，基于神经网络进行车辆属性识别的技术越来越多，但是多属性的识别研究依旧很少；并且现有的“基于多任务学习的车辆多属性识别”技术的准确率、查全率和实时性仍难令人满意，无法对车辆属性进行准确检测。

申请号cn201610067290.0，一种基于深度学习的车辆多属性联合分析方法与申请号cn201711107713.8，一种基于卷积神经网络的细粒度车辆多属性识别方法都将多任务学习方法的内部监听机制和权值共享策略引入深度卷积神经网络，以期实现车辆多属性联合分析，然而第一：两者的基础网络都是简单的直连网络，且都没有考虑网络对诸如车身车型、车牌等不同属性尺度差异的适应性；第二，两个网络都使用了较大尺寸的卷积核，导致网络参数过多，容易过拟合；第三，训练过程中没有根据实际场景对数据图片进行数据增强处理(dataaugmentation)，导致网络的鲁棒性差，泛化能力弱。

综上所述，已有车辆多属性检测技术存在如下缺陷：

(1)没有考虑车辆不同属性的尺度差异问题。

(2)网络所使用的卷积核尺寸过大，导致网络训练的参数过多，计算量增大的同时极易出现过拟合。

(3)没有考虑实际场景下车辆照片易受分辨率、旋转角度、饱和度、曝光度、色调等因素的影响。

(4)以上三个方面的缺陷导致车辆多属性检测复杂性高、准确率低、漏检率高、实时性差。

技术实现要素：

本发明的目的在于提供一种基于单网络多任务学习的车辆多属性检测方法，该方法基于darknet的深度学习框架平台进行设计、搭建网络模型，采用一种端到端的一阶段非级联结构，网络通过采用数据增强技术、卷积核分离技术以及多尺度特征融合技术，提升车辆多属性的检测效果，在实现较高检测精确率和查全率的同时，具有较好的实时性。

本发明通过下述技术方案实现：

一种基于单网络多任务学习的车辆多属性检测方法，该方法包括：

步骤一：图片收集与筛选；

步骤二：数据集制作，根据voc标准数据集格式制作车辆多属性数据集；

步骤三：网络设计，基于darknet深度学习框架，根据车辆多属性的特点采用端到端的、一阶段非级联模式设计网络结构，搭建网络模型；

步骤四：模型训练，设定并调整模型参数，根据设计的网络模型训练车辆多属性数据集，并在训练时，进行数据增强和多尺度训练；

步骤五：模型测试，利用训练好的网络模型进行车辆多属性测试；

步骤六：模型评估。

进一步的为了更好的实现本发明，所述步骤一利用监控摄像，获取车辆照片。作为优选方案，采用小区监控摄像，以便获取实际场景下的车辆照片。获取并筛选后的车辆照片包括轿车、suv、mpv等各种车型的15种常见品牌种类的车辆照片。

进一步的为了更好的实现本发明，对获取的车辆照片进行人工初筛，筛除车辆背景区域较大、车辆属性严重模糊不清的车辆照片。

进一步的为了更好的实现本发明，所述步骤二具体实现过程如下：

利用labelimg工具，根据深度学习标准voc数据集格式制作车辆多属性数据集，并将车辆多属性数据集按10:1的比例分为训练集和测试集。

进一步的为了更好的实现本发明，所述车辆数据集的具体制作方法如下：

首先新建annotation、imagesets以及jpegimages三个文件夹，imagesets文件夹中包括main文件夹，设定车标图片目录与.xml标签文件目录，设定车辆属性标签名，将步骤一中获取并筛选后的车辆照片均存入jpegimages文件夹中。打开labelimg工具对车辆照片进行多属性标注，并将生成的.xml文件中的样本图片名称以10:1的比例分别存入trainval.txt与test.txt文件中，然后将trainval.txt与test.txt文件存入main文件夹。.xml文件存入annotation文件夹中。

进一步的为了更好的实现本发明，所述步骤三的具体实现过程如下：

以darknet深度学习框架为平台，根据车辆多属性的特点，采用端到端的模式设计主干网络，作为优选方案，设计的主干网络包括16个不同卷积层(每层卷积层后添加batchnormalization层和相应的激活层)和3个不同的最大值池化层，主干网络分别由包含1、3、5、7个不同卷积层的四个block(块)组成，相邻block之间各有一个最大值池化层进行上下连接；

为模拟实际场景下车辆照片的复杂性，提高模型的泛化能力，在主干网络前(训练样本输入后)，设有样本数据增强模块，从颜色与光照、旋转角度、噪声干扰等三方面对样本数据进行增强处理；

为减少参数、降低计算量，在各卷积层中利用卷积核分离技术，将大卷积核拆分成两个或两个以上的小卷积核的级连，作为优选方案，本发明的卷积层全部使用1*1和3*3的卷积核进行交替连接，并以此代替尺寸超过3*3的较大的卷积核；

输入图片尺寸固定resize为416*416*3，针对车辆的不同属性(即车标、车牌、车型)的特点，采用多尺度特征融合的方法，将特征层13*13*1024(如图4中序号第19)、13*13*256(如图4中序号第21)、13*13*256(如图4中序号第23)三个支路融合组成13*13*1536(如图4中序号第25)的特征层，融合后的特征层13*13*1536经过最后一个的卷积层变换，输出相应的检测维度(含softmax分类、定位的结果数据)13*13*n(n与样本类别数等有关，本发明的n为135，如图4中序号第25)；

为有效降低模型的复杂度并提高精确性，本发明同时采用一阶段非级联结构设计模式，即利用预测框(anchorbox)同时预测类别和坐标，将最终特征图划分为s*s的格子(gridcell)，作为优选方案，本发明为13*13，每个格子预测b个边界框(boundingbox)和c类判别属性，最终输出s*s*[b*(5+c)]维向量(这里的s*s*[b*(5+c)]与网络输出13*13*n相互对应，5表示每个框的4个坐标和1个置信度，置信度为格子在包含目标情况下的iou，设真实框(groundtruth)为a，预测框(anchorbox)为b，则iou＝a∩b/a∪b)，每个边界框通过对应格子的类别概率和该box置信度相乘得到该类别的置信分数，先滤掉置信分数低的boxes，再对保留的boxes进行nms(非极大值抑制)处理，得到最终的检测结果。

进一步的为了更好的实现本发明，所述步骤四的具体实现过程如下：

(1)首先进行参数设置：

分别设定batch、subdivisions、momentum、decay以及初始学习率的值，batch表示批次，subdivisions表示子批次，momentum表示权重更新系数，decay表示权重衰减参数，实际训练中每次送入的样本数量为batch/subdivisions，即每个batch样本更新一次参数，将batch分割为subdivisions个子batch，能够有效减轻gpu计算压力，防止内存溢出；作为优选方案，设定batch＝32，subdivisions＝8，即实际训练中每次送入的样本数量为batch/subdivisions＝4，设定权重更新系数momentum＝0.9、权重衰减参数decay＝0.0005，调节模型复杂度对损失函数的影响，防止模型过拟合，将初始学习率设置为0.001，当网络迭代分别迭代到第100和130个epoch(将所有的训练样本迭代一次的样本量为一个epoch)时，将学习率相应变化为原来的0.1倍和0.01倍，以便加快网络收敛到全局最优，共训练140个epoch后停止训练。

(2)设定参数后，开始进行网络训练，输入的训练样本进入网络前端中加入的数据增强处理模块，对于输入网络的训练样本进行颜色与光照变换、角度旋转变换以及添加噪声干扰等操作，具体为：

(a)颜色与光照，调整样本图片的饱和度、曝光度和色调，并根据设定值产生新的训练样本，使得在增加训练集的同时，可以明显提高模型对不同饱和度、曝光度和色调的车辆照片的检测效果，增强模型的鲁棒性；

(b)角度旋转，设定样本图片的水平或垂直方向的旋转角度，并根据设定值产生新的训练样本，使得模型可以适应多角度样本目标的检测，能更好地模拟实际场景下车辆照片的真实状态；

(c)噪声干扰，给样本图片加入随机抖动噪声，并根据设定值产生新的训练样本，使得模型可以更好地应对外界环境的干扰，防止过拟合的同时又增强了模型的泛化能力。

(3)在迭代训练的过程中，对模型进行多尺度训练：

因本网络只用到了卷积层和池化层(基于尺寸改变)，故可以动态调整样本图片的尺寸大小，进而使网络模型具有更强的泛化能力和鲁棒性，具体操作为：每经过10批训练(即10batches)就会随机选择新的图片尺寸；网络使用的采样参数为32，于是图片尺寸使用32的倍数，最小的尺寸为320*320，最大的尺寸为608*608。调整网络到相应维度然后继续进行训练；这种机制使得网络可以更好地预测不同尺寸的图片，同一个网络可以进行不同分辨率的检测任务。

(4)利用损失函数判断模型训练情况，损失函数包括分类误差和定位误差两大模块，根据样本集的均衡性和影响大小设置不同的权重系数，损失函数采用：

其中w，h分别代表特征图的宽与高，a代表先验框数目，优选a＝5，λ代表权重系数，第一项loss是计算background的置信度误差，需要先计算各个预测框(anchorbox)和所有真实框(groundtruth)的iou值，并且取最大值max_iou，如果该值小于一定的阈值，作为优选方案，设定阈值为0.5，即：若max_iou的值小于0.5，那么这个预测框就标记为background，需要计算noobj的置信度误差；第二项是计算先验框与预测框的坐标误差，但是只在前12800个iterations间计算，目的是在训练前期使预测框快速学习到先验框的形状；第三大项计算与某个真实框(groundtruth)匹配的预测框各部分loss值，包括坐标误差、置信度误差以及分类误差。设真实框(groundtruth)为a，预测框(anchorbox)为b，则iou＝a∩b/a∪b。每个属性分别按照上述loss进行计算，最终求和即为总的loss损失，以通过损失函数判断模型的性能。

(5)训练停止：采用sgd梯度更新策略，基于让损失函数最小化的反向传播原理，让模型在服务器上进行训练，当损失函数的loss值下降到小数点后百分位，且基本不再变化，此时停止训练，表示模型已达到最优。

进一步的为了更好的实现本发明，所述步骤五的具体实现过程如下：

对测试集中的车辆照片进行多尺度测试，作为优选方案，在416*416～1024*1024范围内，以32为步长，依次对测试集内的所有车辆照片进行尺寸的随机resize初始化，并以每一次resize后的车辆照片为一组进行测试，每经过一组测试，就随机选择新的图片尺寸，以此进行多次测试，以便达到最好的检测效果，防止漏检和误检；最后选取测试效果最好的一组尺寸值即查全率(recall)与平均精确率均值(meanaverageprecision)最大的一组，并记录测试尺寸、指标和结果。

进一步的为了更好的实现本发明，所述步骤六的具体实现过程如下：

根据测试结果，检验查全率(recall)、平均精确率(averageprecision)、平均精确率均值(meanaverageprecision)，评估模型的预测效果。

本发明与现有技术相比，具有的有益效果为：

(1)本发明设计模式是一种端到端的、一阶段非级联结构，采用端到端的设计思想可以舍弃网络训练之前的所有预处理环节，降低模型的复杂度；一阶段非级联的设计思想体现在直接利用anchorbox同时预测类别和坐标，而不需要滑动窗口生成候选框的过程，有效地降低了模型的计算量；两者的结合直接提升了检测的实时性，间接提高了查全率和精确率。

(2)本发明采用多尺度特征融合的方法，设计了四个不同的卷积块(卷积block)，根据不同特征层感受野大小的差异，和其对不同尺寸目标检测的适应性，将多尺度特征进行融合，使网络对不同尺寸目标的检测性能更具鲁棒性。

(3)本发明采用卷积核分离技术，将大的卷积核拆分成两个或两个以上小卷积核的级连，在不改变输出维度的同时，此技术一方面可以适当加深网络深度，使得模型的学习能力和学习效果更好，另一方面可以在减少参数计算量的同时避免过拟合。

(4)本发明采用数据增强技术，在网络训练的过程中，可以自动随机调整训练样本水平或垂直旋转角度、饱和度、曝光度、色调和噪声干扰，生成的新样本既可以增加训练集又能充分模拟真实场景，进而增强模型的鲁棒性和稳定性。

(5)本发明将batch分割为subdivisions个子batch，能够有效减轻gpu计算压力，防止内存溢出。

(6)本发明通过设置权重更新(momentum)及权重衰减(decay)，调节模型复杂度对损失函数的影响，在防止模型过拟合的同时可驱使模型加速收敛、达到全局最优。

(7)本发明通过设置步进学习率策略，迭代不同次数的epochs时，调整相应的学习率，加快网络的全局收敛。

(8)本发明运用了多尺度训练和多尺度测试技巧，因本发明的网络只用到了卷积层和池化层(基于尺寸改变)，故可以对检测图片进行任意调整，每经过n*batches训练就会随机选择新的图片尺寸，调整网络到相应维度然后继续进行训练，这种机制使得网络可以进一步更好地预测不同尺寸的车标图片，降低漏检率和误检率；模型测试时运用类似的思想，可以找到测试效果最好时，测试照片resize的最佳输入尺寸，以便达到更好的检测效果，防止漏检和误检。

(9)本发明模型采用的语言是c语言和cuda，在相同硬件平台和检测任务和下，执行速度更快、更稳定。

附图说明

图1为本发明的流程图。

图2为本发明网络设计的概念图。

图3为本发明卷积核分离示意图。

图4为本发明网络设计的结构图。

图5为本发明模型测试结果图。

图6为本发明单车辆检测的效果图。

图7为本发明多车辆检测的效果图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

如图1-7所示，本发明为了克服现有技术的缺陷，基于darknet的深度学习框架平台进行设计和搭建网络模型，采用一种端到端的一阶段非级联结构，网络通过采用数据增强、卷积核分离、多尺度特征融合等技术，提升车辆多属性的检测效果，在实现较高检测精确率和查全率的同时，具有较好的实时性。

一种基于单网络多任务学习的车辆多属性检测方法，该方法包括：

步骤一：图片收集与筛选；

步骤二：数据集制作，根据voc标准数据集格式制作车辆多属性数据集；

步骤三：网络设计，基于darknet深度学习框架，根据车辆多属性的特点采用端到端的、一阶段非级联的模式设计网络结构，搭建网络模型；

步骤四：模型训练，设定并调整模型参数，根据设计的网络模型训练车辆多属性数据集，并在训练时，进行数据增强和多尺度训练；

步骤五：模型测试，利用训练好的网络模型进行车辆多属性测试；

步骤六：模型评估，根据测试结果评估模型效果。

进一步的为了更好的实现本发明，所述步骤一利用监控摄像，获取车辆照片。作为优选方案，采用小区监控摄像，以便获取实际场景下的车辆照片。获取并筛选后的车辆照片包括轿车、suv、mpv等各种车型的15种常见品牌种类的车辆照片共计3300张，每种车辆照片约220张。

进一步的为了更好的实现本发明，对获取的车辆照片进行人工初筛，筛除车辆背景区域较大、车辆属性严重模糊不清的车辆照片。

进一步的为了更好的实现本发明，所述步骤二具体实现过程如下：

利用labelimg工具，根据深度学习标准voc数据集格式制作车辆多属性数据集，并将车辆多属性数据集按10:1的比例分为训练集和测试集，即训练集中包含3000个车辆多属性数据，测试集中包含300个车辆多属性数据。

进一步的为了更好的实现本发明，所述车辆数据集的具体制作方法如下：

首先新建annotation、imagesets以及jpegimages三个文件夹，imagesets文件夹中包括main文件夹，设定车标图片目录与.xml标签文件目录(目录均为英文名)，设定车辆属性标签名(标签名共有22个且均为英文名，其中车标标签为15种，车牌标签2种，车型标签5种，标签总数为22种)并存入文件labelimg-master\data\predefined_classes.txt中，将步骤一中获取并筛选后的车辆照片均存入jpegimages文件夹中。打开labelimg工具对车辆照片进行多属性标注，并将生成的.xml文件中的样本图片名称一部分存入trainval.txt中用于训练，另一部分存入test.txt文件中用于测试，将trainval.txt与test.txt文件存入main文件夹。其中，存入trainval.txt文件中的图片名称数量与存入test.txt文件中的图片名称数量的比例为10:1，即trainval.txt文件中共有3000个样本图片名称，test.txt文件中共有300个样本图片名称。.xml文件存入annotation文件夹中。

进一步的为了更好的实现本发明，所述步骤三的具体实现过程如下：

以darknet深度学习框架为平台，根据车辆多属性的特点采用端到端的结构设计主干网络(用于特征提取)，作为优选方案，设计的主干网络包括16个不同卷积层(每层卷积层后添加batchnormalization层和相应的激活层)和3个不同的最大值池化层，主干网络分别由包含1、3、5、7个不同卷积层的四个block(块)组成，相邻block之间各有一个最大值池化层进行上下连接；

为减少参数、降低计算量，在各卷积层中利用卷积核分离技术，将大卷积核拆分成两个或两个以上的小卷积核的级连(即：将kernel_size＝n*n等价变换为kernel_size＝n1*n1、kernel_size＝n2*n2，其中，n*n>n1*n1+n2*n2)，作为优选方案，本发明的卷积层全部使用1*1和3*3的卷积核进行交替连接，并以此代替尺寸超过3*3的较大的卷积核；

为有效降低模型的复杂度并提高精确性，本发明同时采用一阶段非级联结构设计模式，即利用预测框(anchorbox)同时预测类别和坐标，将最终特征图划分为s*s的格子(gridcell)，作为优选方案，本发明为13*13，每个格子预测b(本发明为5)个边界框(boundingbox)和c(本发明为22)类判别属性，最终输出s*s*[b*(5+c)]维向量(这里的s*s*[b*(5+c)]与网络输出13*13*135相互对应，5表示每个框的4个坐标和1个置信度，置信度为格子在包含目标情况下的iou，设真实框(groundtruth)为a，预测框(anchorbox)为b，则iou＝a∩b/a∪b)，每个边界框通过对应格子的类别概率和该box置信度相乘得到该类别的置信分数，先滤掉置信分数低的boxes，再对保留的boxes进行nms(非极大值抑制)处理，得到最终的检测结果。

进一步的为了更好的实现本发明，所述步骤四的具体实现过程如下：

(1)首先进行参数设置：

(2)设定参数后，开始进行网络训练，输入的训练样本进入网络前端中的数据增强处理模块，该模块对于输入网络的训练样本进行颜色与光照变换、角度旋转变换以及添加噪声干扰等操作，在增加训练样本基数的同时，可以大大提高模型的泛化能力，增强模型的稳定性，以便更好地模拟各种实际场景下车辆照片的真实状态、增强模型的环境抗干扰能力，数据增强的具体方法为：

(3)在迭代训练的过程中，对模型进行多尺度训练：

因本网络只用到了卷积层和池化层(基于尺寸改变)，因此可以动态调整样本图片的尺寸大小，进而使网络模型具有更强的泛化能力和鲁棒性，具体操作为：每经过10批训练(即10batches)就会随机选择新的图片尺寸；网络使用的采样参数为32，于是图片尺寸使用32的倍数，最小的尺寸为320*320，最大的尺寸为608*608。调整网络到相应维度然后继续进行训练；这种机制使得网络可以更好地预测不同尺寸的图片，同一个网络可以进行不同分辨率的检测任务。

其中w，h分别代表特征图的宽与高，a代表先验框数目，优选a＝5，λ代表权重系数，第一项loss是计算background的置信度误差，需要先计算各个预测框(anchorboxe)和所有真实框(groundtruth)的iou值，并且取最大值max_iou，如果该值小于设定的阈值，作为优选方案，设定阈值为0.5，即：若max_iou的值小于0.5，那么这个预测框就标记为background，需要计算noobj的置信度误差；第二项是计算先验框与预测框的坐标误差，但是只在前12800个iterations间计算，目的是在训练前期使预测框快速学习到先验框的形状；第三大项计算与某个真实框(groundtruth)匹配的预测框各部分loss值，包括坐标误差、置信度误差以及分类误差。设真实框(groundtruth)为a，预测框(anchorboxe)为b，则iou＝a∩b/a∪b。每个属性分别按照上述loss进行计算，最终求和即为总的loss损失。通过损失函数值，判断模型的检测性能。

(5)训练停止：利用sgd梯度更新策略，基于让损失函数最小化的反向传播原理，让模型在服务器上进行训练，当迭代140个epoch(迭代11250次)时，损失函数的loss值下降到小数点后百分位，且基本不再变化，此时停止训练，即此时的模型已为最优模型。

进一步的为了更好的实现本发明，所述步骤五的具体实现过程如下：

对测试集中的车辆照片进行多尺度测试，作为优选方案，在416*416～1024*1024范围内，以32为步长，依次对测试集内的所有车辆照片进行尺寸的随机resize初始化，并以每一次resize后的车辆照片为一组进行测试，每经过一组测试，就随机选择新的图片尺寸，以此进行多次测试，以便达到最好的检测效果，防止漏检和误检；最后选取测试效果最好的一组尺寸值即查全率(recall)与平均精确率均值(map)最大的一组，并记录测试尺寸、指标和结果。

进一步的为了更好的实现本发明，所述步骤六的具体实现过程如下：

根据测试结果，测试结果最好的照片尺寸为640*640，对应的查全率(recall)和平均精确率均值(map)最大。测试集共300张车辆照片(车辆照片的各类属性均匀，照片编号从0开始)，测试结果如图5所示，查全率recall＝96.10％，平均精确率均值map＝90.4％。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：候少麒;殷光强;石方炎;向凯;杨晓宇
技术所有人：电子科技大学
我是此专利的发明人

上一篇：游戏APP的登录方法及设备与流程
上一篇：一种利用大直径钢沉井纠偏施工方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。