1.本发明涉及钢卷层数检测技术领域,具体为一种基于视觉感知的钢卷层数检测方法。
背景技术:
2.随着人工智能技术中的不断发展,依赖于计算机视觉技术的无人天车系统在钢厂中得到了越来越广泛的应用。无人天车系统基于传统的人工天车系统将视觉技术、信息技术和网络技术结合在一起形成一套完整的基于视觉感知的无人化作业的库区综合管理系统。目前无人天车系统已相对成熟,然而在钢卷层数检测方面仍需要一定的人力成本,例如天车吊钩在置放钢卷的时候需要人为地设定置放高度,这在一定程度上限制了天车的全自动化管理。面对此视觉场景,理想的无人天车系统需要自动地对钢厂中钢卷层数检测任务进行建模、分析和判断,同时将观察信息传递到后台,后台驱动控制电机来自动调整吊钩的置放高度。目前已经有大量先进且成熟的基于视觉感知的检测技术可以用于场景识别,然而这些方法存在以下的几点不足:
3.(1)、这些方法通常使用多种场景下的图像对模型进行训练,这会导致模型无法对一些特定的视觉场景定向地识别和理解,因此使用包含特定场景的图像对模型进行重新调整是必要的;
4.(2)、目前的场景识别模型缺少较好的可解释性,对于背景信息和前景信息不容易区分的场景,训练好的模型很难关注到真正影响识别结果的关键区域,因此通过模型训练过程中产生的梯度信息定位到图像中的关键区域并以此进一步增强场景识别能力;
5.(3)、现有的分类模型对图像的处理一般是采用卷积网络,卷积网络通过对局部邻近像素点进行线性组合来实现信息的聚合,然而这忽略了非局部像素点之间的关系。
技术实现要素:
6.(一)解决的技术问题
7.针对现有技术的不足,本发明提供了一种基于视觉感知的钢卷层数检测方法,解决了上述背景技术中提出的问题。
8.(二)技术方案
9.为实现以上目的,本发明通过以下技术方案予以实现:一种基于视觉感知的钢卷层数检测方法,该基于视觉感知的钢卷层数检测方法,包括以下步骤:
10.s1、对收集到的检测钢卷层数的视频进行抽帧处理,获取用于对钢卷监测模型进行优化的特定场景数据集;
11.s2、拿到钢卷厂数据后,基于alexnet图像分类模型做进一步的优化,在已经加载预训练权重的基础上,用收集到的包含钢卷场景专用数据集进行微调,加强其在特定钢厂场景中的应用效果;
12.s3、该权重对当前特征图进行加权求和,经过relu激活函数得到σr:
[0013][0014]
s4、将计算机视觉技术与网络技术有机地融为一体。
[0015]
优选的,所述s3中经过grad-cam操作,最初的特征图经过加权调整进行更新,包括了不同区域的重要性程度。
[0016]
优选的,所述s2的过程中还包括:
[0017]
步骤一、采用的分类模型alexnet由5个卷积层和3个池化层以及3个全连接层构成,更加具体地来说,卷积层中包含一个11x11,96维的卷积核,一个5x5,256维的卷积核和三个3x3,384维的卷积核,另外包含了2个4096维的全连接层,考虑到在任务中钢卷识别中最多只有2层的钢卷数,因此将最后一个分类层的神经元数量设置为3,额外地,每个卷积层后都会添加relu激活函数,加快网络的收敛;
[0018]
步骤二、引入非局部non-local机制,对传动卷积网络的识别能力进行增强,对non-local的通用算子进行形式上的表达:
[0019][0020]
步骤三、假设有n张钢卷场景图片对于每张图片x∈χ,将其输入到alexnet神经网络中,其中θ表示网络的带学习参数,代表映射函数,得到预测类结果yc;
[0021]
步骤四、损失函数的计算公式:
[0022][0023]
优选的,所述步骤一中relu的函数如下:relu(x)=max(0,x);
[0024]
同时通过dropout随机丢弃技术来避免网络过拟合,dropout函数如下:
[0025]
m=bernoulli(p)
[0026][0027]
优选的,所述步骤二中在non-local算子的公式中,响应值是通过计算不同区域之间的关系得到,而在在非局部关系建模中,是通过赋予每个成对的局部关系一个可学习的权重。
[0028]
优选的,所述步骤二中对连个函数的具体形式f和g进行展开,函数f本质上用来描述点与点之间的相似关系:
[0029][0030]
优选的,所述s4中将计算机视觉技术与网络技术有机地融为一体包括以下步骤:
[0031]
步骤一1、将训练好的模型至于生产环境中,摄像头端实时地向无人天车系统传输视频流;
[0032]
步骤二、当天车系统需要放置钢卷的时候,通过系统与服务端进行通信,并将当前帧传出给服务器;
[0033]
步骤三、服务器调用后台的分类模型,对当前场帧中的钢卷层数进行判断;
[0034]
步骤四、判断结果由服务器传输给天车系统,驱动天车系统的吊钩控制置放高度,此过程无需人工参与,将计算机视觉技术与网络技术有机地融为一体。
[0035]
优选的,所述s3中经过grad-cam操作,最初的特征图经过加权调整进行更新,包括不同区域的重要性程度。
[0036]
优选的,所述步骤二中,ak是属入的特征图,代表特征图中第i个像素点,函数f计算i和j之间的关系,一元函数g计算输入特征图在位置j处的表示,最终的相应值通过相应因子c进行标准化处理得到。
[0037]
(三)有益效果
[0038]
本发明提供了一种基于视觉感知的钢卷层数检测方法。具备以下有益效果:
[0039]
(1)、该基于视觉感知的钢卷层数检测方法,利用钢厂现场摄像头中产生的图片标注产生用于微调模型的特定场景数据集,同时在模型训练的阶段,利用grad-cam来对不同的特征图的重要性差异进行建模,从而在训练分类器的同时,还可以关注到影响分类结果的关键区域以能够地进一步提升分类精度。这不仅在一定程度上增加了深度学习模型对于工作人员的透明度和友好程度,也解放了钢厂工作人员的劳动力。
[0040]
(2)、该基于视觉感知的钢卷层数检测方法,通过该方法训练模型,可以准确地对钢卷层数进行分类,解决卷积网络在捕捉非局部信息方面的局限性问题。
具体实施方式
[0041]
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
本发明提供一种技术方案:一种基于视觉感知的钢卷层数检测方法,该基于视觉感知的钢卷层数检测方法,包括以下步骤:
[0043]
s1、对收集到的检测钢卷层数的视频进行抽帧处理,获取用于对钢卷监测模型进行优化的特定场景数据集,由于钢卷层数检测很容易受到背景信息的影响,又因为摄像头的位置通常是固定的,因此利用这些信息对图片的关键区域进行裁剪从而提高模型的鲁棒性和准确率;
[0044]
s2、拿到钢卷厂数据后,基于alexnet图像分类模型做进一步的优化,在已经加载预训练权重的基础上,用收集到的包含钢卷场景专用数据集进行微调,加强其在特定钢厂场景中的应用效果;
[0045]
s3、该权重对当前特征图进行加权求和,经过relu激活函数得到σr:
[0046][0047]
经过grad-cam操作,最初的特征图经过加权调整进行更新,包括了不同区域的重要性程度,经过grad-cam操作,最初的特征图经过加权调整进行更新,包括不同区域的重要性程度,通过引入这种注意力机制可以很好地让模型关注到对模型预测重要的区域;
[0048]
s4、将计算机视觉技术与网络技术有机地融为一体。
[0049]
s2的过程中还包括:
[0050]
步骤一、采用的分类模型alexnet由5个卷积层和3个池化层以及3个全连接层构成,更加具体地来说,卷积层中包含一个11x11,96维的卷积核,一个5x5,256维的卷积核和三个3x3,384维的卷积核,另外包含了2个4096维的全连接层,考虑到在任务中钢卷识别中
最多只有2层的钢卷数,因此将最后一个分类层的神经元数量设置为3,额外地,每个卷积层后都会添加relu激活函数,加快网络的收敛,relu的函数如下:
[0051]
relu(x)=max(0,x)
[0052]
同时通过dropout随机丢弃技术来避免网络过拟合,dropout函数如下:
[0053]
m=bernoulli(p)
[0054][0055]
从而增强网络对钢铁数据中复杂场景的泛化能力;
[0056]
步骤二、为了解决卷积网络在捕捉非局部信息方面的局限性问题,引入非局部non-local机制,对传动卷积网络的识别能力进行增强,对non-local的通用算子进行形式上的表达:
[0057][0058]
其中,ak是属入的特征图,代表特征图中第i个像素点,函数f计算i和j之间的关系,一元函数g计算输入特征图在位置j处的表示,最终的相应值通过相应因子c进行标准化处理得到,在上式中,图像中的每一个位置j都被考虑到,与之相对应的,可以考虑一下卷积的过程,一个3x3的卷积核,能覆盖到的位置只是位置的相邻点,只能在相邻局部进行操作;
[0059]
综上,基于non-local的卷积网络有以下几点不同:
[0060]
一、在non-local算子的公式中,响应值是通过计算不同区域之间的关系得到,而在在非局部关系建模中,是通过赋予每个成对的局部关系一个可学习的权重,换而言之,和的关系可以通过函数f得到;
[0061]
二、在与卷积网络结合位置来看,non-local算子非常灵活,可以添加到深度神经网络中的前半部分,能够构建一个更丰富的层次结构,将local信息和non-local信息结合起来,对两个函数的具体形式f和g进行展开,函数f本质上用来描述点与点之间的相似关系:
[0062][0063]
步骤三、假设有n张钢卷场景图片对于每张图片x∈χ,将其输入到alexnet神经网络中,其中θ表示网络的带学习参数,代表映射函数,得到预测类结果yc;
[0064]
步骤四、损失函数的计算公式:
[0065][0066]
通过以上的方法训练模型,可以准确地对钢卷层数进行分类,然而对于背景信息较为复杂的钢厂场景,仅凭预测的量化结果很难对模型学习到的东西有一个清楚的认知,因此对于原始的alexnet,引入一种新的注意力机制grad-cam来解决上述问题。具体地来说,对于网络中间层得到的特征图ak,计算预测类别分布yc在特征图ak中第(i,j)个像素点产生的梯度信息在这里梯度信息代表了不同像素点对预测结果的贡献程度。接着对梯度图进行全局池化,来表示不同特征图产生的梯度信息大小:
[0067][0068]
得到的表示表示不同特征图对预测结果的重要程度,通过引入重要性差异从而更高效和准确地定位到影响分类结果的关键特征区域;
[0069]
s4中将计算机视觉技术与网络技术有机地融为一体包括以下步骤:
[0070]
步骤一、将训练好的模型至于生产环境中,摄像头端实时地向无人天车系统传输视频流;
[0071]
步骤二、当天车系统需要放置钢卷的时候,通过系统与服务端进行通信,并将当前帧传出给服务器;
[0072]
步骤三、服务器调用后台的分类模型,对当前场帧中的钢卷层数进行判断;
[0073]
步骤四、判断结果由服务器传输给天车系统,驱动天车系统的吊钩控制置放高度,此过程无需人工参与,将计算机视觉技术与网络技术有机地融为一体。
[0074]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。