一种基于混合卷积残差结构的视觉目标检测方法及装置

文档序号:31147248发布日期:2022-08-17 00:15阅读:48来源:国知局
一种基于混合卷积残差结构的视觉目标检测方法及装置

1.本发明属于机器视觉检测技术领域,涉及轮胎吊安全作业,具体为一种基于混合卷积残差结构的视觉目标检测方法及装置。


背景技术:

2.轮胎式起重机是港口装卸集装箱的大型起重机设备,简称轮胎吊。常规轮胎吊安全防撞自动化方案基于激光雷达目标检测技术实现,通过激光雷达自动探测障碍物,检测轮胎吊行驶轨道上行人、集卡车障碍物,而激光雷达目标检测技术在雨雾天环境中,检测性能衰减严重,导致系统失效。基于视觉的目标检测技术,物料成本低,部署简单,但是现有视觉检测技术对于轮胎吊场景中距离5-10m目标检测不稳定,对于远距离10-20m目标检测能力差的问题,相关学者提出许多方法去提升目标检测能力,大多数集中在通过优化网络结构方法提升近距离大目标检测能力,对于远距离的小目标检测方法也有一些,如fpn建立多尺度特征金字塔保留小目标特征、scale match[1]方法通过多尺度预训练提升微小目标场景等。但没有能够综合同时提升远近距离检测能力的方案。本发明从卷积核的方向出发,通过混合空洞卷积提高神经网络感受野的方式,在保证近距离的检测效果基础上,增强中距离和远距离的检测能力,从而提升对轮胎吊0-20m整体检测能力。
[0003]
传统卷积神经网络通过堆叠卷积、池化层增加网络深度,提高目标检测性能。其中,池化层导致图像尺寸变小,后续必须借助上采样还原图像原始尺寸才能进行再处理。池化和上采样的过程中会丢失部分像素信息,进而使得检测精度降低。yu[2]等人提出了空洞卷积模型具有在参数量不变的情况下增大感受野,提高网络性能的能力。
[0004]
轮胎吊防撞视觉检测选型为轻量级模型centernet,在近距离大目标和中远距离小目标检测性能优异,模型损失函数由热力图损失、偏置损失和尺寸损失构成,其中热力图损失是focal loss[3]的变种,能够有效解决正负样本不平衡的问题,但无法处理不同类别的不平衡,当出现不常见类别时候,会降低类别判定精度。因此,本发明对热力图损失进行一步设计,使用类别权重进行修正。
[0005]
参考文献
[0006]
[1]yu x,gong y,jiang n,et al.scale match for tiny person detection[c]//proceedings of the ieee/cvf winter conference on applications of computer vision.2020:1257-1265.
[0007]
[2]yu.f.,koltun.v.,multi-scale context aggregation by dilated convolutions[c].international conference on learning representations(iclr).2016.
[0008]
[3]lin t y,goyal p,girshick r,et al.focal loss for dense object detection[c]//proceedings of the ieee international conference on computer vision.2017:2980-2988.


技术实现要素:

[0009]
本发明要解决的问题是:轮胎吊安全防撞检测场景中不同距离目标尺寸不同,现有视觉检测性能有差异,在同一视觉场景下对0-20m的不同远近距离障碍物检测性能不佳,影响预警效果,轮胎吊安全防撞需要对检测场景中大小目标同时具备优秀检测性能的视觉检测技术。
[0010]
本发明的技术方案为:一种基于混合卷积残差结构的视觉目标检测方法,以目标检测网络centernet构建视觉检测模型,以混合空洞卷积残差网络hdresnet作为视觉检测模型的主干网络,所述hdresnet具体为:将resnet101的bottleneck中的3
×
3卷积替换为混合空洞卷积,混合空洞卷积为并列的三个空洞卷积核,空洞率分别为1、2、5,然后使用concat模块将三个空洞卷积核输出的特征进行拼接;
[0011]
采用图像训练集对视觉检测模型进行训练,训练集中的图像中包括不同视觉距离的目标,训练得到的模型用于输入图像中不同视觉距离的目标同时进行视觉检测。
[0012]
进一步的,在hdresnet的conv3、conv4组以及conv4、conv5卷积组之间进行残差链接,使用1
×
1卷积核调整维度和尺寸。
[0013]
进一步的,对视觉检测模型进行训练时,使用类别平衡损失函数bloss,bloss由三部分组成,偏置损失l
off
、尺寸损失l
size
和热力图类别损失l
bk
,其中偏置损失和尺寸损失不变,考虑到训练集中样本类别不平衡的问题,对热力图类别损失设计如下:
[0014][0015]
其中α,β为超参数,用来均衡难易样本和正负样本,n是图像中热力图的数量,y
xyc
是热力图定位分支的输出,基于训练集统计信息的类加权损失算法,类的权重wc计算见公式如下:
[0016][0017]
其中,其中mi表示第i个类的标签数,m
max
和m
min
分别为最大数和最小数,γ,w为超参;
[0018]
总损失函数bloss=l
bk

size l
size

offset l
offset
,λ
size
=0.1,λ
offset
=1。
[0019]
进一步的,图像训练集为轮胎吊防撞图像,利用部署在轮胎吊防护栏的相机采集,检测目标为轮胎吊场景中的障碍物,将检测目标与轮胎吊距离划分为三段,分别是0-5m近距离,5-10m中距离,10-20m远距离,由图像训练集训练得到的视觉检测模型,对于新输入的轮胎吊防撞图像,输出检测到的视觉目标,用于轮胎吊的防撞预警。
[0020]
本发明还提出一种基于混合卷积残差结构的视觉目标检测装置,所述检测装置具有计算机可读存储介质,所述计算机可读存储介质内配置有计算机程序,所述计算机程序被执行时实现上述的视觉目标检测方法。
[0021]
本发明以centernet为检测模型,能很好地适应包含不同距离目标的检测场景,尤其是轮胎吊防撞工作场景。本发明基于resnet-101,提出了混合空洞卷积残差网络hdresnet,并从卷积核角度出发,设计一种混合空洞卷积组hdc-125,具备在不丢失信息连
续性情况下,获得更大的感受野的特性;并设计了一种二次残差结构,在网络向下传递过程中,具备连续的特征,保留了更大感受野;同时针对训练集的数据类别平衡问题,提出一种类别平衡损失函数bloss,用来处理训练中类别不平衡的情况,降低因为训练集因为类别不平衡的影响,从而增加检测精度。经过实验验证,本发明的视觉目标检测方法,在近、中、远距离检测综合检测精度更高,且检测速度快,尤其是在轮胎吊防撞工作场景中,能够有效增强轮胎吊0-20m内不同目标的综合检测精度,并满足轮胎吊防撞的实时性要求。
[0022]
本发明使用视觉检测技术实现轮胎吊安全防撞,比激光雷达防撞成本更低,并且具有实时性,在面向轮胎吊0-20m距离场景中,比现有视觉检测技术容错性更强,在远距离检测中性能更强。
附图说明
[0023]
图1为轮胎吊防撞场景示意图。
[0024]
图2为本发明目标检测网络的结构示意图。
[0025]
图3(a)为现有resnet结构示意图。
[0026]
图3(b)为本发明hdresnet的结构示意图。
[0027]
图4为本发明hdresnet的残差结构示意图。
[0028]
图5为本发明实施例,本发明在轮胎吊防撞场景具体应用布置的示意图。
具体实施方式
[0029]
本发明提出一种基于混合卷积残差结构的视觉目标检测方法,针对检测场景中不同距离的被检测物,均具有优秀的检测精度,尤其适用于轮胎吊工作中自动防撞场景,利用视觉检测技术保证在轮胎吊工作场景0-20m距离的目标检测性能。
[0030]
本发明方法以目标检测网络centernet构建视觉检测模型,如图2所示,以混合空洞卷积残差网络hdresnet作为视觉检测模型的主干网络,所述hdresnet具体为:将resnet101的bottleneck中的3
×
3卷积替换为混合空洞卷积,如图3所示,图3(a)为resnet101的网络结构,混合空洞卷积如图3(b)所示,为并列的三个空洞卷积核,空洞率分别为1、2、5,保证了卷积过程中尽可能大的保留感受野,然后使用concat模块将三个空洞卷积核输出的特征进行拼接。空洞卷积具备保留更大感受野地特性,但是容易丧失信息的连续性,本发明的混合空洞卷积保证了两者的平衡。将resnet101中的3
×
3卷积替换为混合空洞卷积,经过研究分析,使用三个空洞率分别为1、2、5的卷积结构最佳,然后将三个空洞卷积使用concat进行特征拼接,然后使用1
×
1卷积核进行维度尺寸调整,保证了卷积过程中尽可能大的保留感受野。对于hdresnet,优选对conv3、conv4组以及conv4、conv5卷积组之间进行残差链接,即直接进行短接,并使用1
×
1卷积核调整维度和尺寸,如图4所示,进一步增强表层网络特征,提高小目标检测能力。模型构建后,采用图像训练集对视觉检测模型进行训练,训练集中的图像中包括不同视觉距离的目标,训练得到的模型用于输入图像中不同视觉距离的目标同时进行视觉检测。
[0031]
针对图像训练集中容易存在类别不平衡的问题,本发明还设计了类别平衡损失函数bloss,bloss由三部分组成,偏置损失l
off
、尺寸损失l
size
和热力图类别损失l
bk
。其中偏置损失和尺寸损失不变,与常用损失函数相同,考虑到训练集中样本类别不平衡的问题,调整
热力图损失。基于训练集统计信息的类加权损失算法,其中类的权重wc计算见公式如下:
[0032][0033]
其中,其中mi表示第i个类的标签数,m
max
和m
min
分别为最大数和最小数,γ,w为超参。最常见的类的类权重为1,最少的类为w。热力图损失设计如下:
[0034][0035]
其中α,β为超参数,用来均衡难易样本和正负样本。n是图像中热力图的数量。y
xyc
是热力图定位分支的输出。其中,wc下标c代表类别个数,n是图像热力图或者目标关键点个数。在y
xyc
=1的情况下,对于容易区分样本,预测值接近于1,而变小,保证损失结果很小,从而起到矫正惩罚作用。对难分样本,预测值接近于0,增大,需要增加其训练的比重。
[0036]
在l
bk
公式中的otherwise的情况下,为了防止预测值值接近于1,使用来惩罚损失。而(1-y
xyc
)
β
,β这个参数距离中心越近,其值越小,这个权重是用来减轻惩罚力度。如果预测值接近0时,y
xycα
缩小,可以降低这种情况下的损失。
[0037]
bloss中的偏置损失l
off
为:在整个训练的流程中,假设n个目标中第k个目标,为c类别中的某一类,目标框表示为计算真实目标中心点p用于训练,计算方式为对于下采样后的坐标设为其中r表示下采样倍数4。原图目标经过四倍下采样后映射到原始图像有较大的误差,因此对每个中心点额外采用了local offset,为网络输出的偏置值,用l1loss训练。偏置损失见公式如下,其中为预测出的偏置值,为训练过程中计算出的偏差值。
[0038][0039]
bloss中的尺寸损失l
size
为:第k个目标的中心点p坐标位置为目标的长和宽大小为通过l1loss训练长款=宽,损失函数如下。为网络输出的中心点为p的第k个目标的预测尺寸。
[0040][0041]
总损失函数bloss公式如下:
[0042]
bloss=l
bk

size l
size

off l
off
[0043]
其中,整体损失函数为目标类别损失、大小损失与偏置损失的和,每个损失都有相应的权重,这里取值λ
size
=0.1,λ
off
=1。
[0044]
本发明尤其适用于轮胎吊防撞场景,在基于视觉检测的轮胎吊安全防撞场景中,障碍物位于不同距离位置时轮胎吊处理不同,一般按照距离范围不同执行三类操作,障碍物位于0-5m时需要轮胎吊紧急停止的,5-10m时需要轮胎吊减速停止,10-20m时需要轮胎吊预警。由于障碍物距轮胎吊不同距离位置时,在图像中显示的尺寸不同,0-5m障碍物显示较大,10-20m障碍物显示较小。现有视觉检测对大目标检测性能优异,但是小目标检测性能不佳。因此,轮胎吊安全防撞需要对大小目标同时具备优秀检测性能的视觉检测技术。下面以轮胎吊防撞场景具体说明本发明的实施。
[0045]
获取图像训练集训练构建的视觉检测模型,包括:
[0046]
数据集采集:利用部署在轮胎吊相机采集数据,主要目标障碍物为行人、集卡车占比超过80%,其他类别包括工具箱、皮卡车等。
[0047]
数据集划分:将数据集划分为训练集、验证集、测试集,占比为7:2:1用于模型训练和模型评价。为了有效评价网络对不同距离的检测效果,将目标与轮胎吊距离划分为三段,分别是0-5m近距离,5-10m中距离,10-20m远距离。
[0048]
在训练以及实际检测过程中,优选对图像进行预处理:将图像数据进行畸变矫正,调整图像尺寸,保持和训练时的图像尺寸一致,模型输入图像尺寸为640
×
480;然后再将预处理图像加载到视觉目标检测模型进行检测。
[0049]
图1轮胎吊检测距离示意图,图5为轮胎吊安全防撞系统示意图。摄像头部署在轮胎吊的防护栏处,用于图像处理的工控机设备部署在电器房内部。基于本技术实现的轮胎吊安全防撞系统具体实施包括硬件部署阶段、系统准备阶段、检测模型部署阶段、轮胎吊自动防撞阶段,具体如下。
[0050]
1)硬件部署阶段。在轮胎吊电器房内布置工控机,用于处理图像数据,执行轮胎吊安全防撞系统的程序;在轮胎吊前后防护栏各自安装一个相机采集图像数据,图像数据利用poe交换机传送到工控机;轮胎吊安全防撞系统检测到目标和测量出的距离转换为相应的二进制预警信号,经过plc发送给轮胎吊控制系统进行自动防撞操作。系统运行阶段的所有日志数据与监控数据存储在硬盘刻录机中,便于进行系统调试。
[0051]
2)系统准备阶段。为了对轮胎吊安全防撞控制操作,本发明搭建的系统需要获取轮胎吊的运行状态。工控机从plc接收来自轮胎吊控制系统发送的轮胎吊运行状态,主要包括轮胎吊运行状态,轮胎吊运行速度,轮胎吊行驶方向。本发明搭建的系统需要针对系统启动后的不同方向开启不同方向的摄像头。
[0052]
3)检测模型部署阶段,即将根据本发明视觉目标检测方法训练好的视觉检测模型部署到轮胎吊的工控机,用于实时防撞检测。此阶段主要包含数据预处理、目标检测与测距、检测结果融合。
[0053]
3.1)数据预处理。图像数据与激光数据经过交换机传输到工控机后,首先需要对图像数据与工控机进行时间同步,基于以太网的ieee1588时钟同步协议对轮胎吊前后相机与工控机进行时间同步,为每一帧图像数据增加时间戳。
[0054]
3.2)目标检测与测距。其中视觉目标检测是通过本发明方法训练好的目标检测模型进行图像数据处理,输出检测结果。
[0055]
具体地,目标测量通过定点标定法进行测距,对本发明视觉检测模型检测到的目标矩形框,通过坐标系转换为真实目标与轮胎吊的距离,首先利用相机采集行驶道路目标障碍物图像,利用目标检测算法进行检测;然后对检测的目标绘制相应的贴合矩形框,获取矩形框底部左右角点在像素坐标系中的位置,记为(u1,v1),(u2,v2);利用预先对相机进行客观世界坐标系与相机坐标系的标定转换矩阵,将平面坐标点(u1,v1),(u2,v2)转换出客观世界三维坐标系中(x1,y1,z1),(x2,y2,z2),其中z1,z2即为所求距离,只考虑地面上的障碍物,则y1=0,y2=0;
[0056]
4)轮胎吊自动防撞阶段。将基于混合卷积目标检测在轮胎吊安全防撞应用计算得目标位置和距离转换为相应的减速、停止二进制码流信号,经过plc发送给轮胎吊控制系统。轮胎吊控制系统根据预警信号进行自动防撞控制操作。
[0057]
基于上述场景,为了有效评价本发明的混合卷积残差网络、二次残差、类别平衡损失函数bloss,在轮胎吊场景中进行分析测试。
[0058]
表1
[0059][0060]
混合空洞卷积hd能有效增加感受野,5-10m中距离检测效果均优于现有resnet。由表1可见,标准卷积resnet能够有效保证近、中距离的大目标的检测效果,混合空洞卷积hd在中、远距离有更好的表现,但是随着空洞卷积堆叠层数越高,一定程度又会降低网络学习能力,例如hd1257,相对其他混合空洞卷积检测性能有一定的下降。本发明hd125在近距离和标准卷积检测性能相近,在中、远距离中各项评价指标最佳。
[0061]
相比现有视觉目标检测方法,本发明改进方案在面向轮胎吊0-20m目标数据集中,综合性能更强,如表2所示。fps和map是目标检测算法的两个重要评估指标,fps用来评估目标检测的速度,即每秒内可以处理的图片数量,map是目标检测准确度。
[0062]
表2
[0063][0064]
从表中可以看出,faster-rcnn虽然平均检测精度表现不错,但是实时帧率仅为6fps,不到one-stage检测模型的一半,不满足实时检测的需求。基于本发明提出视觉检测算法可达到76.2%平均检测精度,比centernet高出3.6%,比efficientnet高出3.9%,比scale match高4.4%,检测帧率为14fps,满足轮胎吊实时检测需求。其中,hdresnet+centernet的平均精度比resnet+centernet提高了3%,二次残差结构和类别平衡损失函数bloss也带来一定检测精度的提升。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1