基于多域对抗视觉Transformer的工业图像缺陷智能检测系统

文档序号:35864917发布日期:2023-10-26 22:26阅读:47来源:国知局
基于多域对抗视觉Transformer的工业图像缺陷智能检测系统

本发明涉及工业机器视觉中的目标检测及分类算法领域,具体是一种基于多域对抗视觉transformer(multi-domain adversarial vision transformer,mavit)的工业图像缺陷智能检测系统。


背景技术:

1、高端装备制造是我国经济的支柱产业,山西省作为重要的工业装备生产基地,需要积极发展高端装备制造业智能化转型升级。在装备制造过程中,不可避免的会产生一些工业缺陷,影响产品的使用,受极端工业生产环境的影响,传统的人工检测方法往往难以满足检测需求,因此将基于计算机视觉的非接触式智能测量技术应用工业图像缺陷检测具有重要意义。在工业生产过程中,通过高清摄像机,电镜,ct等设备进行图像采集,结合计算机图像处理和人工智能技术,可以自动精确评估产品是否存在缺陷,辅助工业生产过程。

2、近年来,无监督的异常检测算法在工业检测任务中应用越来越广泛。无监督意味着训练阶段只包含正常图像,没有使用任何有缺陷的样本,这样避免了收集异常或有缺陷样本的困难,这是因为在工业场景下,没有缺陷的正常图像数量远远超过异常样本;其次,无监督方法下,可以消除有监督方法中训练样本的标记成本,同时也避免了标签偏差的影响。因此,通过无监督异常检测算法对工业图像进行二分类,准确区分正常和异常图像的细微特征对提高工业生产质量和效率具有重要意义。

3、基于视觉的transformer(vit)是一种视觉领域深度学习模型,可以比传统的卷积神经网络(cnns)实现更好的可扩展性和预测能力。vit网络通过自注意力机制,把图像分割为一系列的图像块,并对他们的依赖关系进行建模,这样可以对图像进行全局的上下文感知,但是这种处理方法会导致vit模型无法有效的利用局部结构。在工业缺陷图片中,有缺陷往往是局部有缺陷,vit模型对局部信息的利用不够充分可能会导致检测正确率低的问题。


技术实现思路

1、基于上述想法,本发明提出一种基于多域对抗视觉transformer(multi-domainadversarial vision transformer,mavit)的工业图像缺陷智能检测系统,针对装备制造业无法实现实时非接触式测量的问题,此系统可以通过高清摄像头远程捕捉工业产品的特征,对工业产品的表面纹理异常进行检测,最终判定产品是否有缺陷,从而解决非接触式测量的问题。

2、为实现上述目的,采用了如下的技术方案:

3、一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,包括数据预处理模块、基于注意力的空间转换模块(csam)、对抗性扰动模块(hat),vit模块和分类器模块:

4、数据预处理模块:根据jpeg压缩标准wallace(1992),把工业正常样本的jpeg图像,转换为亮度分量y,蓝色色度分量cb和红色色度分量cr组成的颜色空间,通过离散余弦变换(dct)计算得到图像在空间位置上的频域系数。

5、基于注意力的坐标空间转换模块(csam):所述系统网络模块包括多频谱通道注意力单元和协调注意力单元,用于对所有输入的频率通道自适应调整权重系数,捕捉对视觉任务至关重要的全局依赖关系,以获得具有方位感和位置灵敏度的全频信息。

6、多频谱通道注意力单元:采用注意力机制对原图像多个频段内的信息,自动的调整每个频段的权重或关注度。

7、协调注意力单元:沿着两个空间方向聚合特征,一个用于捕捉远程依赖关系,另一个用来保留精准的位置信息,这样就得到一对具有方向感知的特征图。

8、对抗性扰动模块:通过对特征图添加对抗性扰动来增强其高频分量,提高vit模型对细节的识别能力。

9、vit模块:利用注意力机制,对图像全局信息进行建模,通过将图像分割成一系列的图像块,用来对全局进行上下文感知,进一步捕捉图像中的关键特征,提高后续分类器的分类准确性。

10、分类器模块:将vit模块输出的特征经过分类器得到精准的分类预测。

11、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的数据预处理模块,通过将原始jpeg图片转换到ycbcr空间,将亮度分量、色度分量分成8×8的块分量。然后对三个通道每一个8×8的块分量使用离散余弦变换(dct)将空间域转换到频域,换句话说二维dct变换会将每个8×8块表示为一组8×8的dct系数,用于表示不同频率的图像特征。dct的函数如下公式:

12、

13、在上述公式中f(h,w)是dct变换后的系数,xx,j为原始输入,h为xx,j的高度,w为xx,j的宽度。把所有dct系数合并到同一通道,这意味着将y通道中的所有dct系数组合成一个通道,cb通道中的所有dct系数组合成一个通道,cr通道中的所有dct系数组合成一个通道。因此每一个y,cb,cr提供8×8=64个通道。假设原始rgb输入图像具有h×w×c的形状,其中c=3,图像的高度和宽度分别是h和w。转换到频域后,y,cb和cr的通道特征形状变为h/8×w/8×64,得到y,cb,cr通道的特征后,使用csam对不同的通道分配不同的权重,用来最大化表示函数轮廓的低频信息,同时保留决定详细信息的其他高频信息。

14、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的基于注意力的坐标空间转换模块(csam):为了保留图像的全局关系,同时保留精确位置信息。将通道注意力与坐标注意力相结合。坐标空间转换模块(csam)的计算过程可以被下面的公式表示:

15、f=f×fc×zh×zw

16、其中,f是输入特征,fc为多光谱通道注意力单元产生的权重,zh,zw为坐标注意力单元产生的水平和垂直方向的注意力权重,f是csam的输出特征。

17、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的多频谱通道注意力单元,将输入的频率通道f=[f0,f1,…fn-1]经过全连接层fc,并经过sigmoid激活函数,对频率通道进行全局平均池化时,只保留最低频率的通道。也就是说,对于由不同频率通道组成的输入特征f,只对最低频率通道进行全局平均池化操作,得到一个标量值作为低频率的全局池化结果,也就是fc,用公式表示为:

18、fc=sigmoid(fc(f))

19、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的协调注意力单元,在两个空间方向上分别聚合特征,一个方向捕捉远程依赖关系,另一个方向保留精确的位置信息,从而得到一对具有方向感知性的特征图。首先对于给定的输入特征f,分别使用两个不同的池化核在水平和垂直坐标上对每个通道进行编码,获得一对一维特征fh和fw。然后将它们连接并送入共享的1×1卷积激活函数,再沿空间维度将其分割成两个单独的张量,分别经过卷积转换成与输入f具有相同通道数的张量。激活函数产生注意力权重,因此,整个坐标注意力可以表示如下公式:

20、f→fh,fw

21、y=sigmoid[w1concat(fh,fw)]

22、y→yh,yw

23、zh=sigmoid(whyh)

24、zw=sigmoid(wwyw)

25、其中sigmoid是激活函数,wi(i=1,w,h)是1×1卷积核,用于对特征进行线性变换。concat(·)是连接函数,用于将两个张量按照空间维度进行连接。y是中间向量,表示两个方向上的特征连接后的结果。yh和yw是水平和垂直方向上的一维特征。这些操作和函数的目的是帮助网络更准确地生成具有空间选择性的注意力图。通过引入激活函数和线性变换,可以对特征进行非线性变换和维度映射,增强网络的表达能力。通过连接函数的使用,将水平和垂直方向上的特征进行连接,使得网络可以同时考虑和利用不同方向上的特征信息。这样,网络可以更精确地生成针对不同位置的注意力图,进而更好地关注感兴趣的区域和目标。与通道注意力生成独立的特征向量不同,这些操作有助于网络更准确地生成具有空间选择性的注意力图,从而提高模型的感知能力和性能。

26、经过上述的频谱通道注意力单元和协调注意力单元的处理,得到一个维度为c×h×w的重新分配权重后的特征图。

27、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的对抗性扰动模块,针对训练样本,通过添加对抗扰动来改变训练图像的高频成分,具体实施时,对每个训练样本,通过生成对抗样本来计算对抗扰动,并将扰动应用于输入图像的高频成分。然后,使用修改后的图像进行模型训练,优化目标函数。这样,在训练过程中,模型逐渐学习到对高频成分更加敏感的特征表示,提升模型在处理高频信息方面的能力,从而提高vit模型的性能。高频扰动的对抗性训练目标函数如下:

28、

29、l(θ,x,y)=ce(fθ(x),y)

30、

31、其中,ε表示最大扰动强度。ce(·)和kl(·)分别计算交叉熵和kl散度,α和β是两个超参数。我们使用高通滤波器来限制高频域中的扰动。

32、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的vit模块,是将图像数据转换为可用于分类的向量表示。它将输入图像分割成一组小的图像块,然后给每一个模块添加一个位置编码,将其输入堆叠的transformer编码器来对每个图像块进行特征提取和建模。这些编码器逐渐将图像块的特征映射为更高级的特征表示,最终生成整个图像的表示向量,这个生成的向量可以传递给后续的分类器模块。其中,添加位置编码的公式如下:

33、

34、

35、其中,pos表示图像patch在序列中的位置,i表示位置编码的位置索引,dmodel表示transformer编码器中隐藏状态的维度。

36、除此之外,transfomer中的自注意力机制用于捕捉图像patch之间的关系,基于输入向量会生成三个不同的向量,分别是query、key、value。dk注意力权重的缩放因子。自注意力机制计算注意力权重和加权聚合的过程如下:

37、

38、为了增加模型的表示能力,vit使用多头注意力机制,它对不同的投影矩阵进行并行计算,然后将它们在最后一层进行拼接。多头注意力机制的计算公式如下:

39、multihead(q,k,v)=concat(head1,head2,…,headh)wo

40、headi=attention(qwqi,kwki,vwvi)

41、其中,h是头的数量,wo是输出变换矩阵,wqi、wki、wvi分别是第i个头的查询、键、值变换矩阵。

42、所述的一种基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统,所述的分类器模块:由三个全连接层和一个softmax函数组成,损失函数定义为交叉熵损失,公式如下,其中,m为图片数量,y为已知的分类标签:

43、

44、在该算法训练过程中,通过梯度下降法来计算损失函数的最小值,并根据计算得到的梯度方向对参数进行更新:经过完整的训练过程,会得到较为理想的预测分类效果。

45、本发明的有益效果是:

46、本发明方法通过结合相关领域最新研究,构建并训练了一个可以实现精准预测碳纤维材料表面形貌是否异常的模型。训练得到的模型可以用于工业图像(如纳米纤维材料等纤维复合材料)的表面微观纹理特征缺陷检测,并且可以与不同设备集成适配,全面改善了表面纹理异常对纤维复合等工业材料质量的影响。本发明成果将会运用于多个领域且实现成本很低,一般工业生产商利用采购的高清摄像头和计算机设备即可完成整个流程;本项目也可以为工业材料表面微观形貌特征理论体系事业培养一批重要的技术骨干,这些研究人员将成为支持项目课题组可持续发展的核心成员,并将他们的科研成果如论文、专著等应用于表面微观形貌特征理论体系的研究与应用。

47、基于多域对抗视觉transformer(mavit)的工业图像缺陷智能检测系统的模型分类结果auc为96.2%,完成一个分类任务响应时间通常小于等于1.5秒。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1