一种基于快速傅里叶卷积的工业图像异常检测方法

文档序号:31050560发布日期:2022-08-06 07:00阅读:64来源:国知局
一种基于快速傅里叶卷积的工业图像异常检测方法

1.本发明涉及一种基于快速傅里叶卷积的工业图像异常检测方法,属于计算机视觉技术领域。


背景技术:

2.计算机视觉领域中异常检测和定位的目的是识别异常图像并定位异常区域,广泛应用于工业缺陷检测、医学图像检测和安全检查等领域。然而,由于异常的概率密度较低,正常和异常数据通常表现出严重的长尾分布,甚至在某些情况下,没有异常样本可用。因此,在实践中很难收集和注释大量异常数据用于监督学习。为了解决这一问题,人们提出了无监督异常检测,它也被称为一分类检测或分布外检测。具体来说就是在训练过程中只使用含有正常样本的数据集进行网络训练,在测试过程中检测出与正常样本差别较大的样本,即为异常样本。
3.深度学习中尤其是卷积神经网络(cnn)和残差网络(resnet),为在多个层次上自动构建综合表示提供了一个强大的替代方案,它们通过搜索特征空间来逼近二元分类问题的决策边界,在特征空间中正态数据的分布被精确建模。事实证明,这种深层特征在捕捉正常数据流形的内在特征方面非常有效。尽管这些方法在各自领域都取得了很好的结果,但它们都只是在图像水平上预测异常,而无需进行空间定位。而在空间定位方面,即像素级异常检测主要通过对图像块及其重建进行像素级比较或对整个图像的概率密度进行逐像素估计来推进异常检测,其中自动编码器、生成性对抗网络(gan)及其变体是主要模型。然而在以cnn卷积网络为主的异常检测模型中,感受野对于异常图像检测的效果影响极大。感受野指的是一个过滤器可以访问的图像部分。大多数cnn都采用了深度叠加许多具有小感受野的卷积的架构来确保所有图像对网络深层保持可见。然而这种通过多层网络叠加深度来实现网络模型对图像的全局与局部信息的把握理解,一方面增加了模型的复杂度与参数量,另一方面针对工业产品图像异常检测这种小感受野不利于模型理解图像的高级语义信息。


技术实现要素:

4.本发明的目的在于克服现有技术中的检测精度不足问题,提供一种基于快速傅里叶卷积的工业图像异常检测方法,在大多数类别异常检测中均具有优异的检测效果。
5.为达到上述目的,本发明是采用下述技术方案实现的:
6.第一方面,本发明提供了一种基于快速傅里叶卷积的工业图像异常检测方法,包括:
7.获取异常图片;
8.将所述异常图片输入预先训练过的基于快速傅里叶卷积搭建的图像异常检测模型中,获取重建图片;
9.使用l2函数计算所述异常图片与重建图片的差值;
10.将所述差值与预先设置的阈值进行比较,获取最终检测结果。
11.进一步的,所述图像异常检测模型的训练方法,包括:
12.获取正常样本图片,将正常样本图片经过随机掩码变成异常图片;
13.将异常图片输入预先构建的图像异常检测模型中进行训练,其中,高频注意力模块和编码器-解码器模块。
14.进一步的,所述将异常图片输入预先构建的图像异常检测模型中进行训练,包括:
15.将异常图片送入高频注意力模块提取正常样本出现次数较高的图像细节信息,得到包含高频注意力的特征图;
16.将所述包含高频注意力的特征图送入类u型结构的编码器-解码器中,获取复原重建的无异常图片;
17.计算所述正常样本图片和所述复原重建的无异常图片之间的l2差值损失,通过随机梯度下降方法优化l2差值损失,获取最优的图像异常检测模型。
18.进一步的,所述将所述包含高频注意力的特征图送入类u型结构的编码器-解码器中,获取复原重建的无异常图片,包括:
19.通过编码器对输入的特征图执行编码操作,提取特征图的深层语义信息;
20.通过解码器操作,对提取到的深层语义信息进行特征重建,使得特征图重塑为和输入特征图尺寸相同,且将异常区域的信息重塑为正常信息,获取复原重建的无异常图片。
21.进一步的,所述计算所述正常样本图片和所述复原重建的无异常图片之间的l2差值损失,公式如下:
[0022][0023]
其中,n表示当前卷积层输出的神经元个数对应输出图像的每个像素点,f
oi
表示输出图像在位置i的像素值,f
ii
表示输入图像在位置i的像素值。
[0024]
进一步的,所述将所述差值与预先设置的阈值进行比较,获取最终检测结果,包括:
[0025]
对计算得到的差值特征图设置阈值,当差值大于阈值时,认定为异常值,当差值小于阈值时,认定为正常值,最终得到异常检测效果图。
[0026]
进一步的,所述高频注意力模块包括用于降低信道维数的3
×
3卷积层、用于捕捉全局与局部的交互的ffc层、将值将值限制在0到1之间的sigmoid层。
[0027]
进一步的,所述编码器由经典resnet50结构组成,其中,将resnet中的3
×
3卷积核替换成快速傅里叶卷积算子组成新的残差块连接;所述解码器包括4个反卷积层和1个上采样层。
[0028]
第二方面,本发明提供一种工业产品图像异常检测装置,包括:
[0029]
异常图片获取单元,用于获取异常图片;
[0030]
重建图片获取单元,用于将所述异常图片输入预先训练过的图像异常检测模型中,获取重建图片;
[0031]
差值计算单元,用于使用l2函数计算所述异常图片与重建图片的差值;
[0032]
检测结果获取单元,用于将所述差值与预先设置的阈值进行比较,获取最终检测结果。
[0033]
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
[0034]
与现有技术相比,本发明所达到的有益效果:
[0035]
本发明提供一种基于快速傅里叶卷积的工业图像异常检测方法,主要利用快速傅里叶卷积来更好的提取全局与局部之间的关系,使得模型可以高质量修复异常区域的信息,生成一张高质量的无异常图片,进而可以加大输入的原始异常图片与重建图片之间的差值,起到提高异常检测精度的效果,同时也能提高异常的定位精度。
附图说明
[0036]
图1是本发明实施例提供的一种基于快速傅里叶卷积的工业图像异常检测方法的模型示意图;
[0037]
图2是本发明实施例提供的高频注意力模块的示意图;
[0038]
图3是本发明实施例提供的快速傅里叶卷积示意图。
具体实施方式
[0039]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0040]
实施例1
[0041]
本实施例介绍一种基于快速傅里叶卷积的工业图像异常检测方法,包括:
[0042]
获取异常图片;
[0043]
将所述异常图片输入预先训练过的基于快速傅里叶卷积搭建的图像异常检测模型中,获取重建图片;
[0044]
使用l2函数计算所述异常图片与重建图片的差值;
[0045]
将所述差值与预先设置的阈值进行比较,获取最终检测结果。
[0046]
本实施例提供的基于快速傅里叶卷积的工业图像异常检测方法,其应用过程具体涉及如下步骤:
[0047]
步骤一:在训练阶段首先将正常样本经过随机掩码,使得输入的正常图片变成带有异常的图片,并将异常图片输入本发明设计的图像异常检测模型中。
[0048]
步骤二:将步骤一输入的异常图片送入高频注意力模块提取正常样本出现次数较高的图像细节信息,并使图像异常检测模型对于正常样本的关注度提高,输出包含高频注意力特征图。
[0049]
步骤三:将步骤二的输出送入类u型结构的编码器-解码器中。将输入的特征图执行编码操作,提取特征图的深层语义信息。通过解码器操作,对提取到的深层语义信息进行特征重建,使得特征图重塑为和输入特征图一样的尺寸。在重塑的过程中,解码器将异常区域的信息也重塑为了正常信息,使得输出的特征图是一张正常的图片,不带有异常信息。
[0050]
步骤四:通过计算原始输入的正常样本图片和步骤三得到的复原重建的无异常图片之间的l2差值损失来约束训练过程,差值损失越小,模型的掩码重建能力越强。通过随机梯度下降方法(sgd)来最优化l2差值损失,使得模型获得最佳的建模能力。具体的损失计算如下公式,其损失函数采用l2距离损失函数,n表示当前卷积层输出的神经元个数对应输出
图像的每个像素点,f
oi
表示输出图像在位置i的像素值,f
ii
表示输入图像在位置i的像素值:
[0051][0052]
步骤五:使用训练好的模型作为测试阶段的模型。在训练阶段,由于本发明设计的图像异常检测模型在训练时学习过带有掩码信息的样本,并能很好的将掩码信息修复为正常信息。这里我们将异常样本图片中的异常区域可以看成是训练阶段中的掩码区域,从而实现异常检测。首先将输入的异常图片送入模型,进过模型的重建后得到一张重建后的图片。
[0053]
步骤六:通过使用l2函数计算输入的异常图片与模型重建图片之间的差值。
[0054]
步骤七:对计算得到的差值特征图设置阈值,当差值大于阈值时,认定为异常值,当差值小于阈值时,认定为正常值。最终得到异常检测效果图。
[0055]
如图2所示高频注意力模块。近年来,注意机制在计算机视觉领域得到了广泛的研究。根据关注点的不同,它可以分为通道注意、空间注意、像素注意和层注意。之前的注意块是多分支拓扑结构,包含低效的运算符,这会导致额外的内存消耗,并降低推理速度。考虑到这两个方面,本发明设计了一个高频注意块,如图2所示。注意分支负责为每个像素分配一个比例因子,高频区域预计会被分配更大的值,因为它们主要影响恢复精度。我们首先通过3
×
3卷积而不是1
×
1卷积来降低信道维数以提高效率。然后应用ffc来捕捉全局与局部的交互。接下来,通道尺寸增加到原始级别,并使用sigmoid层将值限制在0到1之间。最后,通过以像素方式乘以注意力图,重新校准输入特征。上述步骤的动机主要来自边缘检测,其中可以使用附近像素的线性组合来检测边缘。卷积带来的感受野是非常有限的,这意味着只有本地范围依赖被建模来确定每个像素的重要性。因此,批量归一化(bn)被注入到连续层中,以引入全局交互,同时有利于sigmoid函数的非饱和区域。
[0056]
编码器的组成是由经典resnet50结构组成,不同之处在于,本发明将resnet中的3
×
3卷积核换成快速傅里叶卷积(ffc)算子组成新的残差块连接。如图3所示,ffc是最近提出的一种方法,允许在神经网络浅层中使用全局上下文。ffc基于通道快速傅里叶变换(fast fourier transform,fft),具有覆盖整个图像的图像范围感受野。ffc将通道分成两个并行分支:i)局部分支使用常规卷积,ii)全局分支使用fft来解释全局上下文。实fft只能应用于实值信号,而逆变换fft可以确保输出是实值的。与fft相比,真正的fft只使用了频谱的一半。从概念上讲,ffc由两条相互连接的路径组成:一条在部分输入特征通道上进行普通卷积的空间(或局部)路径,以及一条在光谱域中运行的光谱(或全局)路径。每一条通路都能捕捉到具有不同感受野的互补信息。这些路径之间的信息交换是在内部执行的。解码器则是4个反卷积层和1个上采样组成,目的是将图像复原至与输入图像一致的尺度大小。
[0057]
实施例2
[0058]
本实施例提供一种工业产品图像异常检测装置,包括:
[0059]
异常图片获取单元,用于获取异常图片;
[0060]
重建图片获取单元,用于将所述异常图片输入预先训练过的图像异常检测模型中,获取重建图片;
[0061]
差值计算单元,用于使用l2函数计算所述异常图片与重建图片的差值;
[0062]
检测结果获取单元,用于将所述差值与预先设置的阈值进行比较,获取最终检测结果。
[0063]
实施例3
[0064]
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
[0065]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1