基于深度学习的交通目标图像检索方法、装置及可读介质与流程

文档序号:24352792发布日期:2021-03-19 12:38阅读:132来源:国知局
基于深度学习的交通目标图像检索方法、装置及可读介质与流程

本发明涉及智能交通、计算机视觉领域,特别是涉及一种基于深度学习的交通目标图像检索方法、装置及可读介质。



背景技术:

随着深度学习领域的不断发展,给智能交通领域带来了革命性的突破,比如无人驾驶、车辆跟踪等领域正在全面落地应用。交通目标图像检索是一种利用计算机视觉方法判断图像或者视频序列中是否存在特定目标的技术,通过给定一张摄像设备拍摄下的行人或车辆图像,旨在从大量图片、视频中搜索跨摄像机下的同一行人或车辆图像,将目标的不同姿态、位置、时间的图像相关联。交通目标图像数据采集方式主要通过道路摄像头、无人机和卫星设备,研究的对象的是交通目标整体特征,包括目标外观、姿态等等。在计算机视觉领域中,图像检索可以作为目标跟踪技术的补充,并相互作用,应用于更多场景。



技术实现要素:

1、本发明的目的

本发明旨在提高交通目标图像检索准确率、鲁棒性。基于此,有必要针对上述技术问题,在拍摄图像含有大量噪声的情况下,实现一种跨摄像头的交通目标检索方法、装置。

本发明提出了一种基于深度学习的交通目标图像检索方法,包括以下步骤:

s100,采集不同种类交通目标图像,建立各类交通目标图像对应的交通目标标签:

使用one-hot编码方式对交通目标图像标签进行编码,将交通目标图像与对应标签信息构造交通目标图像数据信息底库;将图像数据信息底库划分为训练数据、测试数据、查询数据;其中训练数据中含有每一类的交通目标对应标签信息,测试数据与查询数据不含有交通目标的对应标签信息;

s200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片;

s300,设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略;图像检测模型的网络结构使用resnest网络作为图像特征提取模块;

使用bifpn融合由resnest网络中不同模块提取的特征矩阵;

采用随机梯度下降法与三元组损失法构造损失函数优化器;

使用的交叉熵损失法计算不同交通目标之间的类别误差,将批归一化后的特征向量输入到分类层中,分类层使用线性分类器进行分类,其模型接受输入参数大小为bx2048大小的特征向量,其中b为一个批次输入图片的数量,输出为2048乘上训练数据类别数量;使用softmax将线性层输出进行计算,使其多个分类的预测值和为1,再通过交叉熵来计算损失;通过交叉熵损失法计算每种交通目标图片信息的标签损失,记为

其中为训练数据中标签信息,m为交通目标类别标签数目;是对交通目标图片信息的标签进行了softmax操作,公式为:

使用三元组损失法对交通目标特征图信息细节进行区分,三元组损失法由一个三元组<a,p,n>构成,需要三张交通目标图片作为输入,其中a:anchor表示交通目标图片对应标签的基准样本,p:positive表示与anchor相同类别但不同的正样本,n:negative表示与基准样本不同类别的负样本;利用生成的每个triplet,就能够创建出对应的正样本<a,p>和负样本<a,n>;网络结构在进行训练的时候设置阈值来控制正负样本的距离在一定的距离上,将正样本和负样本分开,先使用一个预设值对网络进行初始化训练,之后再根据测试的结果对预设值的值进行适当的增大或缩小;设样本为x,f(x)为映射函数,整个训练集的大小为n,则每个三元组的输入为为对应的正、负样本案例,为与相同类别但样本不同的正样本案例,三元组损失法公式为:

通过预热学习率与余弦退火结合动态调整学习率;通过预热学习率,即使得学习率逐步上升到设定的学习率,在使用梯度下降算法来优化目标函数的时候,当越来越接近loss值的全局最小值时,学习率变得更小,从而使得模型接近全局最小值,而余弦退火通过余弦函数来降低学习率;余弦函数中随着x的增加余弦值,首先缓慢下降,然后加速下降,再次缓慢下降;

使用随机权重平均配合sgd损失函数优化器,改进模型训练过程的稳定性,

使用冻结模型法冻结特征提取模型,在训练时固定网络的底层,令固定网络对应子图的参数requires_grad为false;步骤s400,提取交通目标图像特征;

特征矩阵接收传入的缩放交通目标图像;卷积神经网络先使用卷积层对输入的交通目标图像进行下采样,将特征图输入到一个批归一化层,一个relu激活层与一个最大值池化层,得到特征图;

对不同像素的特征图进行卷积;

步骤s500,将交通目标图像特征与图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;

使用重排序法和查询扩展法对计算出的特征距离结果进行后处理,其中重排序的方法,对每一个p值对应的top-10查询结果相似,则视为匹配,即给定图像,通过将k个倒数相邻的目标编码为单个向量来计算k-reciprocal特征,使用原始距离与杰卡德距离组合来作为衡量两个集合相似度指标,并按照相似度进行重排序。

优选的,预处理即对图像重新调整分辨率,包括对图像进行一种或多种图像随机变换,其中图像变换有图像剪裁改变x轴、y轴角度,提高/降低图像清晰度、明亮度、曝光度、图像饱和度,改变图像颜色、色调,旋转、翻转图像,图像像素平均化,自动对比度调整。

优选的,所述的步骤200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片,其网络结构包括输入层、卷积层、特征图处理层、输出层;输入层接收图像矩阵大小为b*c*h*w,其中b为一个批次输入交通目标图像的数量,c为图像的通道数,使用rgb图像作为输入数据,h,w分别为图像的高和宽;卷积层使用resnest网络作为特征图提取器,特征图处理层中的池化层使用最大值池化对特征图进行池化操作,即对于每一个通道的特征图的像素值选取其中最大值作为该通道的代表,从而得到一个n维向量表示;将池化后的特征向量输入到标准化层bn,使得结果的均值为0,方差为1。

优选的,所述的步骤300,深度学习模型的网络结构使用resnest网络作为图像特征提取模块,其中resnest中的4个层数目分别设置为3、4、6、3;使用池化层的最大值池化,对特征图进行池化操作,将池化后的特征向量输入到标准化层,使得输出信号各个维度的均值为0,方差为1。

优选的,所述的步骤300,图像特征提取模块采用深度学习方法提取所述交通目标图像特征信息,所述交通目标图像特征信息至少包括交通目标颜色、姿态。

优选的,所述的步骤400卷积神经网络层对128*128的特征图进行卷积,得到256*64*64的特征图;

卷积神经网络层对256*256的特征图进行卷积,得到512*64*64的特征图;

卷积神经网络层对512*512的特征图进行卷积,得到1024*64*64的特征图;

卷积神经网络层对128*128的特征图进行卷积,得到2048*64*64的特征图;

将2048*2048的特征图输入到一个最大值池化层和一个批归一化层,得到2048*1*1的特征向量,最后将特征向量输入到包含所有类别的线性分类器,进行分类。

优选的,所述的步骤500距离判定包括:

获取交通目标图像特征与图像数据信息底库中的每个交通目标图像特征;

计算交通目标图像特征与图像数据信息底库中的每个交通目标图像特征的相似度;

使用欧式、余弦距离将距离列表排名对应的图像数据信息底库中的交通目标图像匹配为图像检索信息。

本发明提出了一种检索装置,包括:

采集模块,用于采集交通目标图像,包括道路摄像头、无人机、卫星;

图像增广模块,输入图像在通道上的图像矩阵大小为b*c*h*w,其中b为一个批次输入交通目标图像的数量,c为图像的通道数,处理需求用于指示对输入图像进行数据预处理得到的目标特征图组进行目标处理,以得到目标图像;

特征提取模块,用于对输入图像与图像数据库输入到卷积模块进行特征提取,通过池化模块与归一化模块,得到特征图;对特征图将与图像数据库提取的特征图输入到后处理模块进行后处理得到输出结果,并计算分数排名得到top-10的图像数据信息,将top-10的图像数据信息进行结果。

优选的,包括:采集模块,图像处理装置中的摄像头或者i/o接口,处理模块为图像处理装置中的cpu或cpu配合其他处理器实现。

本发明一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现所述的方法步骤。

3、本发明所采用的有益效果

(1)本发明在生成数据阶段,通过均衡采样器均匀采样图像数据信息底库不同类别交通目标图像,将采样过后的交通目标图像输入到所述的深度学习模型中,保持了交通目标各类别之间在训练过程中模型的稳定性。

(2)本发明通过图像增广的方式,解决各类别图像数据不足的问题,大幅度提高模型精度。

(3)本发明特征提取阶段,采用深度学习的方法,设计一种端到端的深度学习模型,融合多层次特征,针对解决交通目标图像由于不用环境下所产生的规格,大小,照明等带来的问题,从而可以提高交通目标检索效率、模型精度,并且提升该模型在其他图像检索领域的延展性。

(4)本发明在匹配阶段为进一步提升识别的精度,采用后处理(post-process)技术对提取得到的特征矩阵进行处理,采用后处理技术能在不增加数据和多余操作的基础上提升性能。

(5)本发明通过输入不同分辨率的交通目标图像信息,使得卷积神经网络能够采样更准确的图像特征,提高模型精度。本发明通过大量实验,设计总结一系列提高模型精度的策略,并可适用于其他领域。

附图说明

图1为本发明实施例提供的交通目标检测方法的流程示意图;

图2为本发明实施例提供的卷积神经网络模块示意图;

图3为本发明实施例加入特征融合的卷积神经网络模块示意图;

图4为本发明实施例图像处理装置的结构示意图;

图5为本发明实施例特征提取模块403的结构示意图。

具体实施方式

下面结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例1

本发明提供的一种交通目标图像检索方法,可以解决交通目标图像检索准确率、鲁棒性低问题,在一个实施例中,如图1所示,包括以下步骤:

s100,采集不同种类交通目标图像,建立每类交通目标图像对应的交通目标标签,具体为:使用one-hot编码方式对交通目标图像标签进行编码,将交通目标图像与对应标签信息构造交通目标图像数据信息底库。

在本实施例中,采集道路交通摄像头拍摄下的行人与车辆图像,将采集到的图像建立一个图像数据信息底库,并将图像数据信息底库划分为训练数据、测试数据、查询数据。其中训练数据中含有每一类的交通目标对应标签信息,测试数据与查询数据不含有交通目标的对应标签信息,其中训练数据用于后序的特征提取,交通目标类别验证,测试数据与查询数据用于后序的模型测试。

s200,对训练数据进行数据预处理,获取进行数据预处理后的交通目标图片。

在本实施例中,对图像重新调整分辨率为256*256/384*384/512*512;

在本实施例中,对图像进行一种或多种图像随机变换,其中图像变换有图像剪裁改变x轴、y轴角度,提高/降低图像清晰度、明亮度、曝光度、图像饱和度,改变图像颜色、色调,旋转、翻转图像,图像像素平均化,自动对比度调整等。

s300,设计深度学习模型、模型优化器、数据输入器、损失函数、深度学习模型优化策略,加速模型收敛,提高模型准确率;

在本发明的一个实施例中,图像检测模型的网络结构使用resnest网络作为图像特征提取模块,该网络结构包括以下模块,如图2所示,其中包含输入层210,卷积层220,特征图处理层230,输出层240。输入层210接收图像矩阵大小为b*c*h*w,其中b(batch)为一个批次输入交通目标图像的数量,c(channel)为图像的通道数,本发明使用rgb图像作为输入数据,c设置为3,h(height),w(weight)分别为图像的高和宽。卷积层220使用resnest网络作为特征图提取器,其中resnest网络中的4个layer层221-224数目分别设置为3、4、6、3。特征图处理层230处理卷积层220提取的特征图,池化层231使用最大值池化对特征图进行池化操作,最大值池化指的是对于每一个通道的特征图的像素值选取其中最大值作为该通道的代表,从而得到一个n维向量表示。将池化后的特征向量输入到标准化层bn(批归一化)232,使得特征向量(输出信号各个维度)的均值为0,方差为1;将标准化后的结果输出到分类层233计算id误差,最后输出层240输出结果。

在本发明的另一个实施例中,图像检测模型的网络结构使用resnest网络作为图像特征提取模块,并且使用bifpn融合由resnest网络中不同模块提取的特征矩阵。该网络结构加入了bifpn特征融合模块350,如图3所示,适用于解决有效的提取交通目标复杂场景下的特征表示,如多目标场景、遮挡场景、相似环境场景等,在复杂场景下提高检测精确度。

在本发明实施例中,本发明的模型优化器使用带有动量(momentum)的随机梯度下降法(stochasticgradientdescent)构造损失函数优化器。随机梯度下降(sgd)也称为增量梯度下降,是一种迭代方法,用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。随机梯度下降在本发明实施例中相较于adam优化器更快的达到收敛效果,并且生成较小的模型。使用动量(momentum)的随机梯度下降法(sgd),主要思想是引入一个积攒历史梯度信息动量来加速sgd。

在本发明实施例中,本发明的图像检测模型使用的损失函数为交叉熵损失法和三元组损失法。

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中表示真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。通过交叉熵损失法计算每种交通目标图片信息的标签损失,记为,将通过批归一化后的特征向量输入到分类层233中,在本发明实施例中,分类层233使用线性分类器(linear)进行分类,其模型接受输入参数大小为bx2048大小的特征向量,其中b为一个批次输入图片的数量,输出为2048乘上训练数据类别数量。交叉熵公式如下,其中是对交通目标图片信息的标签进行了softmax操作,公式为为训练数据中标签信息,m为交通目标类别标签数目;

在本发明实施例中,使用三元组损失法对交通目标图片信息细节进行区分,当两个交通目标图片信息很相似的时候,三元组损失法对这两个差异性较小的输入向量可以学习到更好的表示,从而在分类任务中表现出色。三元组损失法由一个三元组<a,p,n>构成,需要三张交通目标图片作为输入,其中a:anchor表示交通目标图片对应标签的基准样本,p:positive表示与anchor相同类别但不同的正样本,n:negative表示与基准样本不同类别的负样本。利用生成的每个triplet,就能够创建出对应的正样本<a,p>和负样本<a,n>。本发明实施例网络结构在进行训练的时候设置阈值来控制正负样本的距离在一定的距离上,将正样本和负样本分开,通过优化保证嵌入空间中类别相同的样本点之间距离足够近,而类别不同的样本点间距离足够远,即基准样本与负样本的距离要远远大于基准样本与正样本间的距离。

本发明实施例在模型训练初期先使用一个较小的阈值对网络进行初始化训练,之后再根据测试的结果对阈值进行适当的增大或缩小,这样可以在保证网络收敛的同时让模型也能拥有一个较好的性能。设样本为x,f(x)为映射函数,整个训练集的大小为n,为对应的正,、负样本案例为与相同类别但不同的正样本案例,三元组损失法公式为:

在一个实施例中,设计包含如下的一项或多项优化策略:

(1)通过预热学习率(warmup)与余弦退火结合动态调整学习率,通过先预热模型,即以一个很小的学习率逐步上升到设定的学习率,是模型的收敛更好,在本申请实施例中,初始学习率设置为0.00035,随后学习率上涨到0.001。其中学习率的更新,使用梯度下降算法来优化目标函数的时候,当越来越接近loss值的全局最小值时,学习率应该变得更小来使得模型尽可能接近全局最小值,而余弦退火(cosineannealing)可以通过余弦函数来降低学习率。余弦函数中随着x的增加余弦值,首先缓慢下降,然后加速下降,再次缓慢下降。

(2)使用随机权重平均(stochasticweightaveraging)配合sgd损失函数优化器改进模型训练过程的稳定性,随机权重平均的扩展方法可以达到高精度的贝叶斯模型平均的效果,同时对深度学习模型进行校准。即便是在低精度下训练的随机权重平均,也可以达到全精度下sgd训练的效果。

(3)使用冻结模型法,冻结特征提取模型,冻结的意思是在训练时如果想要固定网络的底层,那么可以令这部分网络对应子图的参数requires_grad为false。这样,在反向过程中就不会计算这些参数对应的梯度。

在本实施例中,具体如下,模型如图3所示,冻结特征提取模型(310-340)十个批次,在前十个批次中训练池化层360,批标准化层370,分类层380中的参数。步骤s400,提取交通目标图像特征。

在本发明的一个实施例中,如图3所示,特征矩阵300接收传入的缩放后为256*256*3/384*384*3/512*512*3的交通目标图像。卷积神经网络先使用一个卷积核为3*3步幅为2的卷积层对输入的交通目标图像进行下采样,将图像下采样到128*128,并将128*128的特征图输入到一个批归一化层,一个relu激活层与一个最大值池化层,得到64*64*64的特征图。

卷积神经网络310层对128*128的特征图进行卷积,得到256*64*64的特征图。

卷积神经网络320层对256*256的特征图进行卷积,得到512*64*64的特征图。

卷积神经网络330层对512*512的特征图进行卷积,得到1024*64*64的特征图。

卷积神经网络340层对128*128的特征图进行卷积,得到2048*64*64的特征图。

将2048*2048的特征图输入到一个最大值池化层360和一个批归一化层370,得到2048*1*1的特征向量,最后将特征向量输入到包含所有类别的分类层380,进行分类。

步骤s500,将所述的交通目标图像特征与所述的图像数据库进行距离判定,并进行后处理得到输出结果,完成匹配;

在本实施例中,使用重排序法(re-ranking)和查询扩展法(queryexpansion)对计算出的特征距离结果进行后处理,其中重排序(re-ranking)的方法,对每一个p值(probe)对应的top-10查询结果相似,就有可能是真正的匹配。具体地,给定图像,通过将k个倒数相邻的目标编码为单个向量来计算k-reciprocal特征,使用原始距离与杰卡德距离组合来作为衡量两个集合相似度指标,并按照相似度进行重排序。

前述实施例介绍了交通目标图像检索方法,下面介绍实现交通目标图像检索方法装置的结构,并结合其结构进一步介绍该实现交通目标图像检索方法所执行的操作。交通目标图像检索装置即为执行设备。如图4所示,该交通目标图像检索装置400包括:

采集模块401,用于采集交通目标图像,可以为道路摄像头、无人机、卫星等;

图像增广模块402,输入图像在通道上的图像矩阵大小为b*c*h*w,其中b(batch)为一个批次输入交通目标图像的数量,c(channel)为图像的通道数,所述处理需求用于指示对所述输入图像进行数据预处理得到的目标特征图组进行目标处理以得到目标图像;

特征提取模块403的结构如图5所示,输入图像与图像数据库输入到如图5所示的卷积模块501进行特征提取,并进通过池化模块502与批归一化模块503,得到特征图;对所述特征图将与所述的图像数据库提取的特征图输入到后处理模块504进行后处理(post-process)得到输出结果,并计算分数排名得到top-10的图像数据信息,将top-10的图像数据信息进行结果。

采集模块401的功能可以由图像处理装置中的摄像头或者i/o接口实现。处理模块402-404的功能可以由图像处理装置中的cpu实现,也可以由cpu配合其他处理器(例如npu、tpu、gpu等)实现。

本发明的交通目标图像检索方法、装置及可读介质,在交通目标数据集上进行评测。在本实施例中,使用的深度学习框架为pytorch1.6,操作系统为linux,实验所用到的gpu型号为nvidiateslav100,cuda版本为10.2。特征提取模型使用resnest-50,该网络的输入图像大小是256*256。使用sgd损失函数优化器,动量、衰减率和初始学习率分别设置为0、5、0.0005和0.00035。通过rank-1,rank-5,map对模型准确度进行评价。其中rank-i表示为查询结果中前i张图片的准确度;map反应了检索性能的精度与召回率;在该实施例中,使用re-ranking后处理后rank-1为78.82%,rank-5为90.10%。

实施例2:

在本发明实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是384*384。该实施例,经过后处理后rank-1为80.04%,rank-5为92.57%。

相比于实施例1,该实施例中,图片大小调整为384x384,后rank-1相较于实施例1约提升2%,说明图片大小的提高对训练精度提高有较明显的作用。

实施例3:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未经过后处理。其该实施例,经过后处理后rank-1为72.16%,rank-5为85.01%。

相比于实施例1,该实施例中,未经过后处理,rank-1约降低6%,说明后处理方法对训练精度提高有较明显的作用。

实施例4:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未使用数据增广。其该实施例,经过后处理后rank-1为76.21%,rank-5为98.33%。相比于实施例1,该实施例中,未经过后处理,rank-1约降低了2%,说明数据增广方法对训练精度提高有较明显的作用。

实施例5:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未使用随机权重平均。其该实施例,经过后处理后rank-1为rank-1为78.62%,rank-5为89.77%。相比于实施例1,rank-1约降低了0.2%,说明随机权重平均方法对训练精度提高有提高作用。

实施例6:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未使用模型冻结,相比于实施例1,该实施例中,rank-1约降低0.1%,说明模型冻结方法对训练精度提高有提高的作用。

实施例7:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未使用余弦退火算法动态调整学习率,相比于实施例1,该实施例中,rank-1约降低1%,说明用余弦退火算法对训练精度提高有提高的作用。

实施例8:

在实施例中,特征提取模型使用resnest-50,该网络的输入图像大小是256*256,未使用动态调整学习率,相比于实施例1,该实施例中,rank-1约降低1%,说明用余弦退火算法对训练精度提高有提高的作用。

本发明的交通目标图像检索方法、装置及可读介质可用于其他场景的检索任务,比如行人检索,车辆检索等应用场景。

实施例9:

在实施例中,模型使用加入bifpn特征融合网络,该网络的输入图像大小是256*256,挑选了图像底库中复杂场景下的交通目标图片进行训练,相比于实施例1,该实施例中,rank-1约提高3%,说明使用bifpn特征融合网络对训练精度提高有提高的作用。

本发明的交通目标图像检索方法、装置可用于其他场景的检索任务,比如无人店行人检索、地下车库车辆检索等应用场景。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1