基于多域对抗视觉Transformer的工业图像缺陷智能检测系统

文档序号：35864917发布日期：2023-10-26 22:26阅读：来源：国知局

技术特征：

1.一种基于多域对抗视觉transformer的工业图像缺陷智能检测系统，其特征在于，包括数据预处理模块、基于注意力的空间转换模块(csam)、对抗性扰动模块(hat)、vit模块和分类器模块；

2.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的数据预处理模块输入是多分支输入，通过将原始jpeg图片转换到ycbcr空间，分别是亮度分量y，蓝色色度分量cb和红色色度分量cr，然后将亮度分量、色度分量分成8×8的块分量。然后对三个通道每一个8×8的块分量使用离散余弦变换(dct)将空间域转换到频域，即二维dct变换会将每个8×8块表示为一组8×8的dct系数，用于表示不同频率的图像特征；dct的函数如下公式：

3.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的基于注意力的坐标空间转换模块(csam)：为了保留图像的全局关系，同时保留精确位置信息，将通道注意力与坐标注意力相结合；坐标空间转换模块(csam)的计算过程可以被下面的公式表示：

4.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的多频谱通道注意力单元，将输入的频率通道f＝[f0,f1,…fn-1]经过全连接层fc，并经过sigmoid激活函数，对频率通道进行全局平均池化时，只保留最低频率的通道；也就是说，对于由不同频率通道组成的输入特征f，只对最低频率通道进行全局平均池化操作，得到一个标量值作为低频率的全局池化结果，也就是fc，用公式表示为：

5.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的协调注意力单元，在两个空间方向上分别聚合特征，一个方向捕捉远程依赖关系，另一个方向保留精确的位置信息，从而得到一对具有方向感知性的特征图；首先对于给定的输入特征f，分别使用两个不同的池化核在水平和垂直坐标上对每个通道进行编码，获得一对一维特征fh和fw。然后将它们连接并送入共享的1×1卷积激活函数，再沿空间维度将其分割成两个单独的张量，分别经过卷积转换成与输入f具有相同通道数的张量。激活函数产生注意力权重，因此，整个坐标注意力可以表示如下公式：

6.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的对抗性扰动模块，针对训练样本，通过添加对抗扰动来改变训练图像的高频成分，对每个训练样本，通过生成对抗样本来计算对抗扰动，并将扰动应用于输入图像的高频成分；然后，使用修改后的图像进行模型训练，优化目标函数；高频扰动的对抗性训练目标函数如下：

7.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的vit模块,是将图像数据转换为可用于分类的向量表示。它将输入图像分割成一组小的图像块，然后给每一个模块添加一个位置编码，将其输入堆叠的transformer编码器来对每个图像块进行特征提取和建模；这些编码器逐渐将图像块的特征映射为更高级的特征表示，最终生成整个图像的表示向量，这个生成的向量可以传递给后续的分类器模块；其中，添加位置编码的公式如下：

8.根据权利要求1所述的工业图像缺陷智能检测系统，其特征在于，所述的分类器模块：由三个全连接层和一个softmax函数组成，损失函数定义为交叉熵损失，公式如下，其中，m为图片数量，y为已知的分类标签：

技术总结
本发明公开了基于多域对抗视觉Transformer的工业图像缺陷智能检测系统，包括数据预处理模块，基于注意力的空间转换模块，对抗性扰动模块，VIT模块和分类器模块。基于注意力的坐标空间转换模块包括：多频谱通道注意力单元和协调注意力单元。MAViT一种是适用于计算机视觉领域的基于注意力的网络模型，它可以很好的执行图像分类任务，在工业有缺陷的图像数量不足的条件下，快速稳定的评估复合纤维等工业材料表面形貌特征；该模型利用了注意力机制，注意力机制是一种在深度学习模型中用于增强对重要信息的关注及利用的技术，它可以被看作是模拟人类注意力机制的一种方式，使模型能够在处理输入数据时集中关注特定的部分或特征。

技术研发人员：强彦,荀昶杰,蔡美龄,赵涓涓,赵俊
受保护的技术使用者：太原理工大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2