基于交替更新密集连通从零训练网络的目标检测方法与流程

文档序号:16933413发布日期:2019-02-22 20:28阅读:406来源:国知局
基于交替更新密集连通从零训练网络的目标检测方法与流程

本发明涉及基于注意力导向的交替更新密集连通从零训练网络的水下形变运动目标检测方法,属于智能信息处理和目标检测与识别技术领域。



背景技术:

目标检测与识别是视觉系统中重要的环节,目标检测技术在视频监控、智能机器人导航、自动驾驶、姿态识别、形状检索等领域具有广阔的应用前景。目标检测与识别为合理利用和保护海洋资源、长期有效的多角度监控海洋,也为养殖渔业、海洋捕捞和鱼类行为分析等提供基本的数据和信息支撑。然而对水下形变运动目标而言,由于海洋光学成像条件制约,且易受光照、视角、遮挡、形态及尺度变化等因素影响,使得目标的外观特征发生极大变化,从而给图像检测与识别带来极大的挑战。

近年来,目标检测取得了巨大突破,得益于深度学习——主要是卷积神经网络(convolutionneuralnetwork,cnn)和候选区域(regionproposal)算法。目标检测与识别的主流方法包括:传统目标检测,基于regionproposal的深度学习目标检测和基于回归方法的深度学习目标检测。目前最先进的目标检测识别网络十分依赖于在imagenet这类大型分类数据集上预先训练分类任务得到特征提取网络进而训练目标检测识别,但由于分类和检测识别在损失函数和类别上的差异会导致学习偏差,模型微调可以缓解这种偏差但不会从根本上解决这种偏差,而且将预训练模型从分类任务迁移到差异域更大的检测识别领域更加困难。2017年提出的dsod方法给出了一个很好的解决思路,利用densenet优秀的梯度传输机制可以不依赖预训练分类模型从零开始训练检测识别网络。

目标检测是计算机视觉领域中极其重要的一部分,物体之间的遮挡形变、背景的复杂性,光照变化,尺度变化等是检测过程中亟待解决的问题。即现有技术中存在的主要问题:(1)由于海洋光学成像条件制约,且易受光照、视角、遮挡、形态及尺度变化等因素影响,使得目标的外观特征发生极大变化的问题;(2)由于图像目标缺乏上下文信息,在图像目标发生部分遮挡或形变的情况下,会导致目标检测差错的问题。



技术实现要素:

针对上述问题,本发明的目的是提供一种基于注意力导向的交替更新密集连通从零训练网络的水下形变运动目标检测与识别方法,以实现对于形变运动目标特征提取、特征精炼、注意力的统一,试图从海量、高速、价值密度低的水下观测数据中快速挖掘和检测形变运动目标,以弥补现有技术的不足。

为达到上述目的,本发明采用如下技术方案:

一种基于注意力导向的交替更新密集连通从零训练网络的水下形变运动目标检测与识别方法,包括以下步骤:

(1)收集目标图像制作数据集,并进行标注;

(2)密集连通交替更新模块:为了不依赖分类预训练模型从零训练,避免分类和检测识别在损失函数和类别上的差异导致的学习偏差和数据集跨领域问题,尤其针对从水上数据集过渡到水下数据集的问题,使用密集连通交替更新模块,依赖其优秀的梯度传输机制、高效的特征提取和特征精炼作用、自带的注意力效果,实现了特征提取、特征精炼、注意力的统一;

(3)有界可形变卷积模块:为了克服形变目标的检测识别困难问题,在密集连通交替更新模块之后使用有界可形变卷积模块,可形变卷积不存在感受野的限制,具有学习感受野偏移的作用,随着输入图像的变化具有变化的感受野,可以有效的关注目标区域,并且可形变卷积对于目标形变具有很强的适应力,网络的检测效果将不受目标形变制约;

(4)基于自注意力和通道注意力的横纵结合的注意力模块:为了更好的优化传递密集连通交替更新模块提取的特征,使用基于自注意力和通道注意力的横纵结合的注意力模块,横向旨在关注感兴趣区域和明确目标间的关系,纵向旨在关注不同通道特征的重要性,加强重要特征,弱化不重要特征,为特征提取模块输送精良的特征,使用注意力特性引导特征传输,显性的进行特征优化;

(5)尺度转换特征金字塔模块:为提高检测识别精度,在网络头部特征金字塔模块中使用尺度转换代替上采样,在不破坏特征的前提下进行不同分辨率特征之间的融合,同时极大减少了网络头部的计算量;

(6)可变分段解耦卷积:为解决从零训练的检测识别网络收敛慢的问题以及普通卷积难以分清类内差异和类间差异的问题,使用解耦卷积的幅度和角度,使用幅度度量类内差异,角度度量类间差异,采取直接学习幅度和角度代替进行拟合;

(7)获取训练图像,并对其进行尺度扩增和随机隐藏获得{in,n=1,2,...,n};

(8)模型训练的目标检测识别:使用{in,n=1,2,...,n}以及训练好的模型对目标图像进行检测识别。

进一步的,所述步骤(2)中的密集连通交替更新模块:

x表示特征图,k代表交替更新的次数,i代表某次交替更新中的第i层,w代表待训练的权重,*代表卷积操作,g代表非线性函数,m,l均为累加符号的索引。

进一步的,所述步骤(3)中的有界可形变卷积模块:

x表示特征图,p表示特征图x的p0位置感受野偏移之后的位置,及p=p0+δp,其中δp为可学习的变量,q表示位于p周围的四个整数点的位置,g(q,p)为求p和q的插值,通过插值的方式求出偏移后的特征图。

进一步的,所述步骤(4)中的基于自注意力和通道注意力的横纵结合的注意力模块,其中横向注意力:

f(x)=wfx

g(x)=wgx

yi=γoi

其中,x为输入的特征图,w为待训练的权重,f,g,h分别为横向注意力模块的三种特征提取方式,γ为横向注意力的重要程度,是一个可训练的变量,yi为横向注意力模块的输出;

纵向注意力为:

s=σ(w2δ(w1z))

其中,z为全局平均池化的特征,h,w为特征图的行列尺寸,u为输入纵向注意力的特征图,σ,δ为非线性函数,w为待训练的权重,s为纵向注意力模块的输出;

最终,横向注意力和纵向注意力进行融合:

y=(x+yi)*(1+s)

其中,x为横纵向注意力模块的输入,y为横纵向注意力模块的输出。

进一步的,所述步骤(5)中的尺度转换特征金字塔模块:

其中i为特征图,lr为尺度转换之前,sr为尺度转换之后,r为转换的步长,x,y,c分别为列坐标,行坐标,深度坐标。

进一步的,所述步骤(6)中的可变分段解耦卷积:

其中,x为输入的特征图,w为待训练权重,β,ρ为可训练变量,e为求期望值。

进一步的,所述步骤(7)中的多尺度训练方法采用网络最终获得的特征图的尺寸7~10倍作为网络输入,这有利于网络对于不同尺度的目标检测精度,同时对图像的像素进行随机遮挡,这在训练过程中可以提高网络的检测识别精度,促使网络关注目标的整体而不是某一部位。

本发明的有益效果:

本发明从深度学习角度辅助水下形变运动目标检测与追踪研究,也将促进高效从零训练学习机制的发展,实现形变、姿态、尺度变化大及有遮挡水下运动目标的高精度识别。从零训练学习机制可以避免分类和检测识别在损失函数和类别上的差异导致的学习偏差和数据集跨领域问题,并且提出的密集连通交替更新模块还实现了特征提取、特征精炼、注意力的统一。可形变卷积和横纵向注意力模块的结合有效地克服了形变目标的检测识别,同时使用注意力引导特征的传输,有进一步精炼特征的作用。尺度转换特征金字塔模块可以在不破坏特征的前提下进行不同分辨率特征的融合,提高检测识别的精度。可变分段解耦卷积可以解决从零训练的检测识别网络收敛慢以及普通卷积难以分清类内差异和类间差异的问题。最后,多尺度和随机隐藏的训练方法可以提高网络对于目标尺度和遮挡的鲁棒性。

附图说明

图1是本发明的整体流程图。

图2是实施例1中海洋环境待检测与识别图像。

图3是本发明的密集连通交替更新模块图。

图4是本发明的有界可形变卷积模块图。

图5是本发明的自注意力和通道注意力的横纵结合的注意力模块图。

图6是本发明的尺度转换特征金字塔模块图。

图7是本发明的多尺度和随机隐藏训练方法示意图。

图8是实例1中的检测识别结果图。

具体实施方式

为使本发明的目的、实施方案和优点更为清晰,下面结合附图并通过具体实施例来进一步详细说明本发明。

实施例1:以海洋水下环境中鱼类的动态为检测识别对象。

本实施例的具体流程图如图1所示。

本实施例中具体采用一段如图2所示,从山东省海洋牧场拍摄得到的海洋环境下日间鱼类活动视频(1920*1080像素,每秒25帧)作为待检测和识别视频。

以下步骤应当结合附图,以及具体结果进行详细描述,并应当只是发明内容里概况的步骤。

步骤一、将在海洋牧场拍摄到的大量鱼类图像制作数据集,标注图像中所有鱼的位置、种类;

步骤二、如图3所示,通过密集连通交替更新模块实现特征提取、特征精炼、注意力的统一:

x表示特征图,k代表交替更新的次数,i代表某次次交替更新中的第i层,w代表待训练的权重,*代表卷积操作,g代表非线性函数。

步骤三、为了克服形变目标的检测识别困难问题,在步骤二之后使用有界可形变卷积模块,如图4所示,可形变卷积不存在感受野的限制,具有学习感受野偏移的作用,随着输入图像的变化具有变化的感受野,可以有效的关注目标区域,并且可形变卷积对于目标形变具有很强的适应力,网络的检测效果将不受目标形变制约,其公式如下:

x表示特征图,p表示特征图x的p0位置感受野偏移之后的位置,及p=p0+δp,其中δp为可学习的变量,q表示位于p周围的四个整数点的位置,g(q,p)为求p和q的插值,通过插值的方式求出偏移后的特征图。

步骤四、在步骤三后使用基于自注意力和通道注意力的横纵结合的注意力模块,如图5所示,来更好的优化传递密集连通交替更新模块提取的特征,其中横向注意力:

f(x)=wfx

g(x)=wgx

yi=γoi

其中x为输入的特征图,w为待训练的权重,f,g,h分别为横向注意力模块的三种特征提取方式,γ为横向注意力的重要程度,是一个可训练的变量,yi为横向注意力模块的输出。

纵向注意力为:

s=σ(w2δ(w1z))

其中,z为全局平均池化的特征,h,w为特征图的行列尺寸,u为输入纵向注意力的特征图,σ,δ为非线性函数,w为待训练的权重,s为纵向注意力模块的输出。

最终,横向注意力和纵向注意力进行融合:

y=x+s*x+yi

其中,x为横纵向注意力模块的输入,y为横纵向注意力模块的输出。

步骤五、将步骤二至步骤四中的模块循环三次,然后使用尺度转换特征金字塔模块来提高检测识别精度,在网络头部特征金字塔模块中使用尺度转换代替上采样,在不破坏特征的前提下进行不同分辨率特征之间的融合,同时大大减少了网络头部的计算量。

尺度转换特征金字塔模块,如图6所示:

其中i为特征图,lr为尺度转换之前,sr为尺度转换之后,r为转换的步长,x,y,c分别为列坐标,行坐标,深度坐标。

注:本发明中所有卷积都是采用的可变分段解耦卷积,能够解决从零训练的检测识别网络收敛慢的问题以及普通卷积难以分清类内差异和类间差异的问题,使用解耦卷积的幅度和角度,使用幅度度量类内差异,角度度量类间差异,直接学习幅度和角度从而代替进行拟合。

步骤六、获取训练图像,并对其进行尺度扩增和随机隐藏获得{in,n=1,2,...,n},如图7所示;

步骤七、模型训练的目标检测识别:使用{in,n=1,2,...,n}对基于注意力导向的交替更新密集连通从零训练网络进行训练以获得训练模型,使用训练好的模型对目标图像进行检测识别。

检测,识别和统计结果见图8,矩形框内为所识别的鱼类,并在矩形框上方进行了目标类别和置信度结果的显示,经验证检测识别结果与真实结果基本相同,即说明了本发明提供检测方法的可行性和高准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1