基于目标检测网络的多标签物体检测方法、系统、装置与流程

文档序号:17865796发布日期:2019-06-11 23:12阅读:334来源:国知局
基于目标检测网络的多标签物体检测方法、系统、装置与流程
本发明属于计算机视觉领域,具体涉及了一种基于目标检测网络的多标签物体检测方法、系统、装置。
背景技术
:随着人工智能、机器学习技术的迅速发展和日趋成熟,自主目标检测技术成为了近年来国内外深度学习研究的热点问题,在智能交通、医学图像处理、机器人技术、农业物联网方面拥有着广泛的应用前景。现实生活中,物体种类繁多、个体分布方式复杂,人类可以通过感知物体形状、颜色、纹理和距离等信息,准确判断物体的类别和位置,但这对于计算机视觉来说是极大的挑战。因此,使计算机拥有与人类相似甚至超过人类的目标检测能力,已经成为当前目标检测技术的重要方向和主要挑战。目标检测的主要研究方法是提取目标颜色、形状、纹理等特征实现目标描述,然后利用一定的机器学习算法进行目标类型和目标位置、轮廓的学习,最后对目标进行分类、定位及画框,实现目标检测。但是待检测的目标存在类内差异大、类间相似度高的情况,这种情况下提取的特征通常很难反映出类间差异和类内共性。尤其在物体具有多个标签的情况下,由于传统特征提取方式的限制,不同标签所使用的特征之间往往是没有关联的,这使物体识别起来更加困难。在实际目标检测的过程中,目标物之间的相互重叠、存在遮挡等情况使得目标类间分类边界不明显,类内区分困难,这也对目标的实际检测带来很大的挑战。多标签物体检测问题目前主要依靠两种类型的方法来处理。一种是基于传统图像处理的方法,首先对物体图像提取一些haar、sift、hog、surf、dpm等特征,然后采用传统的分类器获取物体类别的预测结果及位置信息,该方法的识别速度比较快,但是识别准确率比较低,并且特征一般由人工提取,工作量大、不具备普适性;另一种是使用深度学习方法进行目标检测。目前的深度学习的目标检测方法主要分为两类:一类是以r-cnn为代表的基于候选区域的目标检测网络,在精度和速度上有了很大的提升,但在高分辨率图像检测问题上难以实现实时检测;一类是以yolo为代表的将目标检测问题转换为回归问题的目标检测网络,检测速度快,但算法检测精度略低。总的来说,虽然该领域提出了很多目标检测网络,但无法兼顾检测速度与精度的要求,不能取得理想的结果。技术实现要素:为了解决现有技术中的上述问题,即现有目标检测技术不能兼顾检测速度和高精度要求的问题,本发明提供了一种基于目标检测网络的多标签物体检测方法,包括:步骤s10,获取待检测物体的图像作为输入图像;步骤s20,基于训练后的目标检测网络,依据所述输入图像,获取待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;步骤s30,输出待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;其中,所述的目标检测网络,为采用密集连接卷积网络替代yolo-v3网络中分辨率低的特征层所得到的网络。在一些优选的实施例中,所述目标检测网络的训练步骤为:步骤b10,将获取的训练图像集中每一个图像根据标准格式调整图像属性,获得标准化训练图像集;步骤b20,采用所述目标检测网络检测标准化训练图像集中一个批次的图像,并计算所述目标检测网络各分类器的训练误差值;步骤b30,当未达到预设的训练次数或者所述训练误差值不低于预设的阈值时,采用误差反向传播的方法,获得各层参数的变化量并更新所述目标检测网络的参数;步骤b40,采用所述更新后的目标检测网络按批次顺序检测标准化训练图像集,并采用步骤b30的方法迭代更新所述目标检测网络的参数,直至达到预设的训练次数或者所述训练损失值低于预设的阈值,获得训练好的目标检测网络。在一些优选的实施例中,所述训练误差,其计算方法为:loss=errorcoord+erroriou+errorcls其中,loss为训练误差,errorcoord为坐标预测误差,erroriou为预测边界框和真实边界框的重合度误差,errorcls为分类误差。在一些优选的实施例中,所述坐标预测误差,其计算方法为:其中,λcorrd为坐标误差的权重,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,分别为边界框的中心坐标的预测值,分别为边界框的长度和宽度的预测值,xi、yi分别为边界框的中心坐标的真实值,wi、hi分别为边界框的长度和宽度的真实值。在一些优选的实施例中,所述预测边界框和真实边界框的重合度误差,其计算方法为:其中,λnoobj为预测边界框和真实边界框的重合度误差的权重,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,ci为置信度的真实值。在一些优选的实施例中,所述分类误差,其计算方法为:其中,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,代表第i个格子中的物体是类别c的概率的预测值,pi(c)代表第i个格子中的物体是类别c的概率的真实值。在一些优选的实施例中,步骤b10中“将获取的训练图像集中每一个图像根据标准格式调整图像属性”之前,还包括对训练图像集的增强处理步骤:采用颜色均衡、亮度变换、角度变换、模糊处理中的一种或多种方法对所述训练图像集中的图像进行数据增强,获得增强后的训练图像集。本发明的另一方面,提出了一种基于目标检测网络的多标签物体检测系统,包括输入模块、目标检测模块、图像增强模块、图像格式标准化模块、输出模块;所述输入模块,配置为获取待检测物体图像并输入;所述目标检测模块,配置为处理待检测物体图像,获得待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;图像增强模块,配置为采用颜色均衡、亮度变换、角度变换、模糊处理中的一种或多种方法对训练图像集进行数据增强;所述图像格式标准化模块,配置为根据标准格式调整训练图像集的图像属性;所述输出模块,配置为输出待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度。本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于目标检测网络的多标签物体检测方法。本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于目标检测网络的多标签物体检测方法。本发明的有益效果:(1)本发明方法针对图像中不同类别目标实时检测问题,使用densenet方法改进了yolo-v3网络,实现了对不同类别目标的实时、精确检测。(2)本发明方法相比于fasterr-cnn等方法,在目标检测问题上速度更快、精度更高,可以对目标检测中相互重叠、存在遮挡的情况进行很好的处理。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本发明基于目标检测网络的多标签物体检测方法的流程示意图;图2是本发明基于目标检测网络的多标签物体检测方法的一种实施例的训练图像集优化流程示意图;图3是本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络训练的流程示意图;图4是本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络结构示意图;图5是本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络测试的流程示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。本发明提供一种基于目标检测网络的多标签物体检测方法,针对传统卷积神经网络在进行目标检测问题上存在的精度较低、速度较慢的问题,使用回归的方法对目标进行快速检测,并采用densenet方法改进现有的目标检测网络中分辨率低的特征层,实现特征的复用,提高特征利用率,提高检测精度。本发明的一种基于目标检测网络的多标签物体检测方法,包括:步骤s10,获取待检测物体的图像作为输入图像;步骤s20,基于训练后的目标检测网络,依据所述输入图像,获取待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;步骤s30,输出待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;其中,所述的目标检测网络,为采用密集连接卷积网络替代yolo-v3网络中分辨率低的特征层所得到的网络。为了更清晰地对本发明基于目标检测网络的多标签物体检测方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。本发明一种实施例的基于目标检测网络的多标签物体检测方法,包括步骤s10-步骤s30,各步骤详细描述如下:步骤s10,获取待检测物体的图像作为输入图像。步骤s20,基于训练后的目标检测网络,依据所述输入图像,获取待检测物体的类别以及待检测物体中心坐标、检测矩形边界框长度和宽度。所述的目标检测网络,为采用密集连接卷积网络替代yolo-v3网络中分辨率低的特征层所得到的网络。如图3所示,为本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络训练的流程示意图,其步骤为:步骤b10,将获取的训练图像集中每一个图像根据标准格式调整图像属性,获得标准化训练图像集。本发明的实施例中采用果园中不同生长阶段的苹果图像检测为例,训练图像集包含幼果期、膨大期、成熟期三种时期的苹果图像。本发明将训练图像集中图像的格式标准化为pascalvoc格式,其步骤为:(1)将待训练图像集中的图像调整为长边500像素,短边按照长边的缩放比例调整的图像。(2)将调整后的图像按照pascalvoc的格式进行重命名。(3)重命名后的图像进行标注,对图像中的苹果画出边界框,并对框内苹果进行分类,分类类别包括幼果期、膨大期、成熟期苹果三种类别,分别用1、2、3表示。(4)生成pascalvoc格式的标准化训练图像集。(5)使用darknet网络将标准化训练图像集中的图像调整为24n×24n像素大小,n为正整数。步骤b10中“将获取的训练图像集中每一个图像根据标准格式调整图像属性”之前,还包括对训练图像集的增强处理步骤:采用颜色均衡、亮度变换、角度变换、模糊处理中的一种或多种方法对所述训练图像集中的图像进行数据增强,获得增强后的训练图像集。为了增强检测效果,可以对训练图像集中的图像做图像增强处理,如图2所示,为本发明基于目标检测网络的多标签物体检测方法的一种实施例的训练图像集优化流程示意图,图像优化包括了图像增强以及图像格式标准化。图像增强处理包括颜色均衡、亮度变换、角度变换、模糊处理中的一种或几种,图像增强处理的方法包括但不仅限为颜色均衡、亮度变换、角度变换、模糊处理,还有其他多种处理方法,在此不再一一列举。颜色均衡、亮度变换、角度变换、模糊处理几种图像增强的处理方法,其具体过程为:颜色均衡,为采用颜色平衡算法(grayworld)进行颜色均衡处理,grayworld算法以grayworld假设为基础,该假设认为:对于一幅有着大量色彩变化的图像,r、g、b三个分量的平均值趋于同一灰度值。从物理意义上讲,灰色世界法假设自然界景物对于光线的平均反射的均值在总体上是个定值,这个定值近似地为“灰色”。颜色平衡算法将这一假设强制应用于训练集图像,可以从图像中消除环境光的影响,获得训练集图像的原始场景图像。亮度变换,在预设的亮度范围内随机选取不同亮度值对训练集图像进行亮度处理。本发明实施例中,在0.6至1.4倍于原始图像亮度的范围内随机选取两个值对训练集图像亮度进行处理。角度变换,将训练集图像进行镜像以及不同角度的旋转操作。本发明实施例中对原始图像进行旋转90°、180°、270°以及镜像处理。模糊处理,将训练集图像或经过颜色均衡、亮度变换、角度变换后中一种或多种处理的图像进行随机模糊处理。采用上述方法,对480张在果园内采集得到的原始图像进行处理,得到4800张增强并标准化后的训练图像集,其中包括幼果期、膨大期、成熟期苹果图像各1600张。步骤b20,采用所述目标检测网络检测标准化训练图像集中一个批次的图像,并计算所述目标检测网络各分类器的训练误差值。为了提高检测网络中分辨率较低的特征层的特征利用率,本发明将检测网络中分辨率大小为的32×32和16×16的下采样层用密集连接卷积网络(densenet)代替。如图4所示,为本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络结构示意图,convolutionallayers代表卷积层,scale代表卷积层尺寸,convs代表卷积运算操作。densenet层的hl函数使用批量归一化、线性整流函数、卷积的组合函数bn-relu-conv(1×1)-bn-relu-conv(3×3)结构,实现xi-1层的非线性变换。在分辨率大小为32×32的特征层,xi由64个子特征层组成。h1对x0进行bn-relu-conv(1×1)非线性运算,运算后的结果再进行bn-relu-conv(3×3)运算,h2对[x0,x1]拼接成的特征图同样进行如上运算,得到结果x2与[x0,x1]拼接为[x0,x1,x2],作为h3的输入,得到的结果x3同样与[x0,x1,x2]拼接为[x0,x1,x2,x3],作为h4的输入。最终,由[x0,x1,x2,x3,x4]拼接成32×32×512的特征层继续向前传播,进行训练。在分辨率大小为16×16的特征层,xi由128个子特征层组成,同样进行如上的特征传播与特征层拼接,最后拼接成16×16×1024的特征层向前传播,进行训练。初始化构建好的目标检测网络,本发明的实施例中将一批次送入训练模型的图片数量设为8,用于根据误差微调梯度更新方向的参数动量设为0.9,初始学习率设为0.001,权重衰减正则项设为0.0005,最大训练步数设为70000步。采用获得的标准化训练图像集训练构建的目标检测网络,将图像在所述目标检测网络中进行前馈传导,获得训练误差;不断对读取的各个图像依次进行卷积和池化运算操作,直到述目标检测网络输出各分类器的训练误差值。训练误差的计算方法如式(1)所示:loss=errorcoord+erroriou+errorcls式(1)其中,loss为训练误差,errorcoord为坐标预测误差,erroriou为预测边界框和真实边界框的重合度误差,errorcls为分类误差。坐标预测误差的计算方法如式(2)所示:其中,λcorrd为坐标误差的权重,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,分别为边界框的中心坐标的预测值,分别为边界框的长度和宽度的预测值,xi、yi分别为边界框的中心坐标的真实值,wi、hi分别为边界框的长度和宽度的真实值。iou误差的计算方法如式(3)所示:其中,λnoobj为iou误差的权重,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,为预测类别置信度的预测值,ci为置信度的真实值。分类误差的计算方法如式(4)所示:其中,s2为输入图像分割的格子数量,b为每个格子生成的边界框数量,代表物体落入第i个格子的第j个边界框内,代表第i个格子中的物体是类别c的概率的预测值,pi(c)代表第i个格子中的物体是类别c的概率的真实值。步骤b30,当未达到预设的训练次数或者所述训练误差值不低于预设的阈值时,采用误差反向传播的方法,获得各层参数的变化量并更新所述目标检测网络的参数。步骤b40,采用所述更新后的目标检测网络按批次顺序检测标准化训练图像集,并采用步骤b30的方法迭代更新所述目标检测网络的参数,直至达到预设的训练次数或者所述训练损失值低于预设的阈值,获得训练好的目标检测网络。本发明实施例设置的最大训练步数设为70000步,当训练次数达到70000次或者计算的训练误差值低于设定阈值时,目标检测网络训练完成,用于检测待检测物体的类别。步骤s30,输出待检测物体的类别以及待检测物体中心坐标、检测矩形边界框长宽等参数。本发明实施例中,对训练后的目标检测网络做了测试评估,如图5所示,为本发明基于目标检测网络的多标签物体检测方法的一种实施例的目标检测网络测试的流程示意图,其步骤为:(1)采用上述训练图像集的图像优化方法,对测试图像集的图像做图像格式标准化处理以及图像增强处理。本发明的实施例中使用90张分辨率为3000×3000的在果园现场采集的不同周期苹果图像作为测试图像集检测优化的目标检测网络的性能。(2)分别使用yolo-v2、yolo-v3、faster-cnn以及本发明优化的目标检测网络检测处理后的测试图像集,获得对应的测试图像集图像的目标分类以及查准率、查全率、查准率和查全率的调和平均数f1值、预测边界框和真实边界框的重合度iou值、平均检测时间。其结果如表1所示:表1模型类别yolo-v2yolo-v3fasterr-cnn本发明方法f1值0.7380.7930.8010.817iou0.8050.8690.8730.896平均时间(s)0.2730.2962.420.304如表1所示,在目标检测性能方面,本发明提出的训练好的目标检测网络,f1值为0.817,相比其它三种模型f1值最高的faster-rcnn模型高0.016,说明本发明优化的目标检测网络的查全性和查准性的综合性能高于其它三种模型;iou值0.896,高于其他三种模型,说明本发明优化的目标检测网络检测的准确度高于其他三种模型;平均检测时间为0.304s,能够实现高分辨率图像中苹果的实时检测。在实际检测当中,本发明优化的目标检测网络检测的准确度明显高于其它三种模型,体现了本发明方法的优越性。本发明第二实施例的基于目标检测网络的多标签物体检测系统,包括输入模块、目标检测模块、图像增强模块、图像格式标准化模块、输出模块;所述输入模块,配置为获取待检测物体图像并输入;所述目标检测模块,配置为处理待检测物体图像,获得待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度;图像增强模块,配置为采用颜色均衡、亮度变换、角度变换、模糊处理中的一种或一种方法对训练集图像进行数据增强;所述图像格式标准化模块,配置为根据标准格式调整训练图像集中图像属性;所述输出模块,配置为输出待检测物体的类别以及待检测物体中心坐标、检测矩形框长度和宽度。所属
技术领域
的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。需要说明的是,上述实施例提供的基于目标检测网络的多标签物体检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于目标检测网络的多标签物体检测方法。本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于目标检测网络的多标签物体检测方法。所属
技术领域
的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域
内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1