基于残差注意力机制和动态特征融合的不规则异物识别方法

文档序号:35907905发布日期:2023-10-29 06:15阅读:38来源:国知局
基于残差注意力机制和动态特征融合的不规则异物识别方法

本发明属于不规则异物识别方法,涉及计算机视觉和工业化生产的。


背景技术:

1、传送带运输是我国工厂物料运输的关键一环,其具有载量大、经济成本低等优势,在我国工业化生产中占有重要地位。然而,传送带在运输过程中发生过各种各样的事故,其中由于不规则异物进入传送带而造成传送带损毁的事故占事故总数的61%。随着检测技术的现代化与智能化,为了降低传送带发生事故的概率,利用深度学习构建不规则异物检测网络成为了该领域的重点发展目标。不规则异物识别是工厂工业化生产应用中一个重要的计算机视觉任务。准确的说,它是利用深度学习模型检测传送带上的不规则异物并进行预警。但是由于工厂车间的环境与自然环境相比较为恶劣,且异物的种类、形状以及大小多种多样,因此不规则异物识别任务对网络的特征提取以及融合表征能力要求很高。

2、来自人类知觉过程的证据表明了注意力机制的重要性,该机制利用顶部信息引导自上而下的前馈过程。近年来,注意力机制已经被广泛应用到各种领域中。larochelle等人提出的深度玻尔兹曼机在训练阶段将自上而下的注意力机制进行了重构,注意力机制也广泛应用于循环神经网络和长短期记忆网络来处理顺序决策任务。上述方法在对图像的特征提取方面都取得了较好的效果,但缺乏对网络可能存在的梯度爆炸以及梯度消失问题的考虑及解决。

3、深度学习模型是一个数据流图,其中数据流入每一个模块,再初始阶段,融合模块结构简单,只进行路径融合。anguelov提出的ssd网络仅在单一尺度上进行融合,而多尺度融合使用多尺度图像生成不同尺度的特征图进行检测。ren等人提出的faster rcnn,代表了two-stage算法网络,它使用一定尺度的特征图生成多尺度锚点来检测多尺度物体。zhou等人提出的fssd网络将网络中不同尺度的特征图调整到相同大小,然后将相同尺度的特征层进行接触,以接触层为基础层生成金字塔特征图。虽然这些工作都取得了良好的效果,但缺乏对不同尺度的图像特征的分析。

4、不规则异物任务与传统目标检测任务不同,传送带上的不规则异物相对面积通常较小且有些异物的视觉特征与物料相似,因此不规则异物识别任务对网络的特征提取能力要求很高。卢学明等通过计算原始图像与重构图像之间的重构误差来检测异物。wang等人提出了一种基于ssd的异物识别方法,通过改进ssd中的损失函数来提高检测精度。xiao等人基于cnn的异物检测、分类和定位,通过考虑anchor之间的图像特征的差异改进非极大值抑制并获得了准确率的提升。然而,上述方法采用的范式大都为“单一cnn”或“单一cnn+newloss”,对网络的改动有限,而且并未考虑解决不规则异物检测任务的核心问题,即应当增强网络的特征提取及融合表征能力。

5、不同于现有的方法,我们的模型(dfdrn)将残差机制与注意力机制融合,在更好的提取图像特征的同时,可以避免网络梯度爆炸以及梯度消失的问题;同时使用基于动态卷积的动态特征融合模块,根据关注度动态聚合多个平行卷积核,在不使用网络深度和宽度增加的情况下增强了模型的融合表征能力。并且,动态卷积以非线性的方式聚合多个尺寸较小的卷积核,使得网络计算的效率大大提高,并可以动态聚合图像的多尺度特征,从而得到更好的识别效果。


技术实现思路

1、本发明的目的是为了解决不规则异物识别方法中,只对网络损失函数进行改进,或只是用单一卷积网络,而并未考虑不规则异物检测任务的核心,即应当增强网络特征提取及融合表征能力的问题。

2、本发明为解决上述技术问题采取的技术方案是:

3、s1.构建特征提取模块,提取图像中不规则异物的特征矩阵,具体过程为:

4、对于图像部分,将不规则异物图像表示为一个矩阵,经过一个卷积操作得到了图像特征f,之后f分别经过全局最大池化层及全局平均池化层,得到两个1*1*c大小的特征图,之后将它们分别送入一个双层的多层感知机中,第一层神经元个数为c/r,其中r为减少率,第二层神经元个数为c。多层感知机输出层的输出值可由以下过程得到:

5、首先计算节点的输入加权之和:

6、

7、其中,i代表上一层的输入层节点,j代表当前的隐藏层的神经元,wij表示上一层各神经元到当前神经元的权重,也就是神经元j的权重,hj表示当前节点的所有输入加权之和。

8、之后计算隐藏层神经元的输出值:

9、

10、其中,aj表示隐藏层神经元的输出值,g()代表激活函数,w是权重,x是输入,wij和xij表示偏移节点,aj=xjk,即当前层神经元的输出值,等于下一层神经元的输入值。

11、最后计算得出输出层的输出值y:

12、

13、其中,y表示输出层的值,也就是多层感知机的最终结果,hk表示输出层神经元k的输入加权之和,wjk表示输出层神经元k的权重。

14、之后将多层感知机输出的特征图进行基于element-wise的加和操作,在经过sigmoid操作,生成重定义特征f′。总过程为:

15、f′=σ(mlp(avgpool(f))+mlp(maxpool(f))) (4)

16、其中,σ代表sigmoid函数,avgpool和maxpool分别代表全局最大池化和全局平均池化操作。mlp代表多层感知机。

17、然后将f′与原始的图像特征f做element-wise乘法操作,得到特征m,将所得特征m分两路,分别输入到全局平均池化层和全局最大池化层,得到两个h*w*1大小的特征图,然后将这两个得到的特征图进行contact操作,之后经过一个7*7的卷积操作,再经过sigmoid操作生成重定义特征f″:

18、f″=σ(f7*7(c(avgpool(f′),maxpool(f′)))) (5)

19、其中,σ代表sigmoid函数,c代表concat操作,avgpool和maxpool分别代表全局最大池化和全局平均池化操作,f7*7代表卷积核大小为7*7的卷积操作。

20、s2.构建动态特征融合模块,获取不规则异物图像特征的多尺度特征并进行动态融合,具体过程为:

21、将特征提取模块所得的特征f″,通过两个不同的卷积操作,分别得到上分支特征f1和下分支特征f2,过程可被概括为公式(3);

22、f1=b1(f″),f2=b2(f″) (6)

23、其中,b1、b2分别代表不同的卷积操作。

24、下分支所得的特征f2经过注意力模块后得到核注意力α(x),注意力模块包括两个全连接层、一个relu激活层和一个softmax层,之后核注意力将通过一个由4个并行卷积核组成的模块,获得动态特征fα,过程可被概括为公式(4);

25、fα=π1w1+π2w2+…+πnwn (5)

26、得到的特征fα与特征f2同时输入到一个卷积层中,并经过一个批量归一化层以及relu层,并于上分支所得的特征f1做contact操作,得到动态特征融合模块的最终输出f3,过程可被概括为公式(5);

27、

28、其中,代表卷积操作,代表批量归一化,代表激活函数relu,c代表contact操作。最后通过一个由多个卷积层组成的检测层,得到不规则异物的位置以及类别。

29、s3.结合s1中的网络、s2中的网络和s3中的检测器构建基于残差注意力机制和动态特征融合的不规则异物识别方法的整体架构;

30、s4.基于残差注意力机制和动态特征融合的不规则异物识别方法的训练。

31、基于残差注意力机制和动态特征融合网络包含一个特征提取模块和一个动态特征融合模块。

32、最后,所述的基于残差注意力机制和动态特征融合网络的训练方法如下:

33、模型由pytorch 1.9实现,每个图像作为一个整体输入网络;对于模型的训练,分为图像匹配文本和文本匹配图像两部分;在图像到文本部分,使用gdiou函数来计算训练损失,使用sgd优化器来训练模型,在自定义不规则异物检测数据集上,训练600个批次,学习率设置为0.0004,权重衰减为0.00036;在coco数据集上训练300个批次,学习率设置为0.0032,权重衰减为0.00036,同样使用gdiou函数计算训练损失,使用sgd优化器训练模型。

34、与现有的技术相比,本发明的有益效果是:

35、1.本发明提出了一种新的不规则异物识别网络dfdrn,该网络不仅可以更好的提取不规则异物图像的特征,还可以将图像的不同尺度的特征进行动态融合,避免了网络的梯度消失以及梯度爆炸问题,也使得网络可以更好的利用图像的多尺度特征,从而更好的检测图像中的异物。

36、2.本发明提出了一种特征提取模块,通过残差机制以及注意力机制使得网络可以更好的捕获两个信息源(query和query context)从而使得网络获得更好的特征提取能力。

37、3.本发明提出了一种动态特征融合模块,通过多分支网络提取图像的多个尺度的特征,通过动态卷积以非线性的方式聚合多个卷积核,从而使网络拥有了更强的特征融合及表征能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1