语义引导的缺陷图像生成方法、装置、设备及存储介质与流程

文档序号：32395453发布日期：2022-11-30 10:10阅读：54来源：国知局

1.本发明涉及图像生成领域，尤其涉及一种语义引导的缺陷图像生成方法、装置、设备及存储介质。

背景技术：

2.在工业实际生产场景中，工业产品所使用的材质和工艺流程多样，难免会出现表面缺陷的样品。表面缺陷会影响产品的品质，造成原材料的浪费，应尽量避免。随着工业智能化的发展，使用缺陷检测模型检测产品表面图像的技术有可能成为人工观测缺陷的替代方案。
3.模型训练是使缺陷检测模型具备足够的检测能力的关键阶段，此阶段往往需要使用大量的训练样本。然而，实际生产中无缺陷良品的数量总是远远超过有缺陷产品，导致材料表面缺陷图像数据量少，难以快速构建满足性能需求的缺陷检测模型。目前，图像生成是扩充缺陷图像的数据量的可行方式之一，但有些生成的图像在人眼观测下真实性不高，可能对缺陷检测模型的实际检测准确度存在较大影响。

技术实现要素：

4.本发明的主要目的在于提供一种语义引导的缺陷图像生成方法、装置、设备及存储介质，旨在解决通过图像生成的方式产生的缺陷图像真实性低的问题。
5.为实现上述目的，本发明提供一种语义引导的缺陷图像生成方法，该方法包括：获取真实样本图像，将所述真实样本图像转换为语义引导的隐变量；对所述隐变量进行重参数化处理，得到随机变量；获取预设的掩膜图像，将所述随机变量和所述掩膜图像合成为第一缺陷图像。
6.可选地，所述将所述真实样本图像转换为语义引导的隐变量的步骤包括：提取所述真实样本图像的语义特征；根据所述语义特征将所述真实样本图像编码为隐变量，以对所述隐变量进行语义引导。
7.可选地，所述对所述隐变量进行重参数化处理的步骤包括：确定所述隐变量在图像语义范围内的概率分布特征；根据所述概率分布特征对所述隐变量进行随机分布采样。
8.可选地，所述将所述随机变量和所述掩膜图像合成为第一缺陷图像的步骤包括：将所述随机变量解码重构为背景图像；确定所述掩膜图像中的指示区域，在所述背景图像与所述指示区域的对应位置生成缺陷区域图像，得到完整的第一缺陷图像。
9.可选地，所述语义引导的缺陷图像生成方法还包括：获取待训练缺陷图像，将所述待训练缺陷图像输入初始对抗学习网络中，对所述初始对抗学习网络进行迭代训练，其中，所述初始对抗学习网络包括初始生成器和初始判
别器；当迭代训练次数超过预设的迭代次数阈值，或者预设的总损失函数收敛时，结束训练，得到目标生成器和目标判别器。
10.可选地，所述对所述初始对抗学习网络进行迭代训练的步骤包括：固定所述初始生成器的生成参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第二缺陷图像；分别将真实缺陷图像和所述第二缺陷图像输入所述初始判别器，得到第一判别结果；根据所述第一判别结果确定所述初始生成器的特征匹配损失，根据所述特征匹配损失更新所述初始判别器的判别参数。
11.可选地，所述训练所述初始判别器的步骤包括：固定所述初始判别器的判别参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第三缺陷图像；将所述第三缺陷图像输入所述初始判别器，得到第二判别结果；根据所述第二判别结果和所述第三缺陷图像之间的差异确定所述初始生成器的图像生成损失，根据所述图像生成损失更新所述初始生成器的生成参数。
12.此外，为实现上述目的，本发明还提供一种语义引导的缺陷图像生成装置，所述语义引导的缺陷图像生成装置包括：转换模块，用于获取真实样本图像，将所述真实样本图像转换为语义引导的隐变量；处理模块，用于对所述隐变量进行重参数化处理，得到随机变量；合成模块，用于获取预设的掩膜图像，将所述随机变量和所述掩膜图像合成为第一缺陷图像。
13.此外，为实现上述目的，本发明还提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语义引导的缺陷图像生成程序，所述语义引导的缺陷图像生成程序配置为实现如上文所述的语义引导的缺陷图像生成方法的步骤。
14.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语义引导的缺陷图像生成程序，所述语义引导的缺陷图像生成程序被处理器执行时实现如权上文所述的语义引导的缺陷图像生成方法的步骤。
15.本发明提供的语义引导的缺陷图像生成方法，获取真实样本图像，将真实样本图像转换为语义引导的隐变量，对隐变量进行重参数化处理，得到随机变量，获取预设的掩膜图像，将随机变量和掩膜图像合成为第一缺陷图像，通过真实图像对生成的第一缺陷图像进行语义引导，使生成的第一缺陷图像语义真实度更高，且通过重参数化处理使第一缺陷图像的多样性更加丰富，即使在相同的输入下也能得到不同的输出结果，为缺陷检测模型的构建提供了有利条件。
附图说明
16.图1为本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图；
图2为本发明语义引导的缺陷图像生成方法第一实施例的流程示意图；图3为本发明语义引导的缺陷图像生成方法涉及的基于对抗学习的网络结构示意图；图4为本发明语义引导的缺陷图像生成方法第二实施例的流程示意图；图5为本发明语义引导的缺陷图像生成装置的示意图。
17.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
18.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
19.在工业实际生产场景中，真实的材料表面缺陷图像数据量少，难以快速构建满足性能需求的缺陷检测模型。图像生成方法的出现为解决图像数据量少的问题提供了新的思路。生成对抗网络（gan，generative adversarial networks ）支持无监督方法实现数据生成，在图像生成方面具有一定的优势。比如，将服从均匀分布的随机噪声输入具有反卷积结构的生成器中，输出生成样本，但是生成样本的真实度不高。还有将无缺陷样本与掩膜标注输入生成网络，使网络输出一张残差图，将残差图与无缺陷样本叠加后得到生成缺陷样本的方式，而残差图与无缺陷样本叠加可能会导致伪迹现象，单一的无缺陷图像输入生成网络，生成的缺陷样本缺乏多样性。
20.本发明的主要技术方案是：获取真实样本图像，将所述真实样本图像转换为语义引导的隐变量；对所述隐变量进行重参数化处理，得到随机变量；获取预设的掩膜图像，将所述随机变量和所述掩膜图像合成为第一缺陷图像。通过真实缺陷图像对生成的缺陷图像进行语义引导，提高语义真实度，重参数化处理丰富缺陷图像的多样性。
21.参照图1，图1为本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。
22.如图1所示，该电子设备可以包括：处理器1001，例如中央处理器（central processing unit，cpu），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（display）、输入单元比如键盘（keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（wireless-fidelity，wi-fi）接口）。存储器1005可以是高速的随机存取存储器（random access memory，ram）存储器，也可以是稳定的非易失性存储器（non-volatile memory，nvm），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
23.本领域技术人员可以理解，图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
24.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语义引导的缺陷图像生成程序。
25.在图1所示的电子设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中，所述电子设备通过处理器1001调用存储器1005中存储的语义引导的缺陷图像生成程序，并执行本发明实施例提供的语义引导的缺陷图像生成方法。
26.本发明实施例提供了一种语义引导的缺陷图像生成方法，参照图2，图2为本发明
一种语义引导的缺陷图像生成方法第一实施例的流程示意图。
27.本实施例中，所述语义引导的缺陷图像生成方法包括：步骤s10，获取真实样本图像，将所述真实样本图像转换为语义引导的隐变量；在图像处理中，比较常见的任务有识别、检测、追踪等，这些任务的模型通常在训练阶段通过参数估计学得如何提取输入图像的特征，并建立输入图像与输出之间的映射，在应用阶段之间提取输入图像的特征，以得到相应的结果。但有些特殊的模型，其参数估计的目的不是通过提取特征来建立输入输出之间的映射，而是学习训练数据的分布，从而模型在应用阶段能够生成与训练数据相似的图像，通常这些图像与真实图像极为相似，可以称之为生成式模型。
28.本发明实施例采用生成式模型的技术思路结合对抗学习生成语义引导的缺陷图像。基于对抗学习的网络结构示意图如图3所示，第一缺陷图像的生成过程可以对应图3中的推理阶段。在网络结构中，生成器的输入为真实样本图像和掩膜图像，输出为第一缺陷图像。
29.真实样本图像可视为实际工业生产制造的产品的图像。真实样本图像可以分为真实缺陷图像和真实无缺陷图像，真实缺陷图像可以反映不良品的表面缺陷情况。隐变量可视为无法直接观测的变量，机器却可以通过隐变量了解图像的各项语义特征。
30.本实施例中的缺陷图像生成可以使用基于对抗学习的网络结构，进一步来说，通过网络结构中的目标生成器实现生成的过程。目标生成器可以为已经过训练，达到使用性能要求的生成器。
31.在一些可行的实施方式中，将真实样本图像转换为语义引导的隐变量的步骤可以包括：步骤a，提取所述真实样本图像的语义特征；步骤b，根据所述语义特征将所述真实样本图像编码为隐变量，以对所述隐变量进行语义引导。
32.对于真实样本图像来说，语义可视为描述其图像内容的含义。语义特征可以使用自然语言或者符号语言来表达，比如对于一张猫的图像，其包含的语义特征可以包括自然语言“猫”，或者表示猫的符号。真实样本图像的语义特征可以为颜色、背景、纹理和形状中的至少一项。隐变量的编码过程可以由目标生成器中的编码器实现。隐变量的生成过程可视为编码器将输入的真实样本图像编码为隐空间中的分布的过程。输入编码器的真实样本图像可以为真实缺陷图像，也可以为真实无缺陷图像。编码得到的隐变量可以在聚集于样本语义范围内呈现一定的概率分布特征，即完成对隐变量的语义引导，隐变量具有真实样本图像的语义特征。
33.步骤s20，对所述隐变量进行重参数化处理，得到随机变量；对隐变量的重参数化过程可视为用可导的网络操作模拟隐变量的抽样过程。直接的采样操作无法参与梯度下降，使网络不可反向传播训练，故可以在网络结构中设置重参数化模块，位于编码器和解码器之间，使采样的结果参与梯度下降，网络可反向传播训练。重参数化得到的随机变量可视为隐空间中的点。
34.在一些可行的实施方式中，对隐变量进行重参数化处理的步骤可以包括：步骤c，确定所述隐变量在图像语义范围内的概率分布特征；
步骤d，根据所述概率分布特征对所述隐变量进行随机分布采样。
35.可以使用正态分布作为隐变量的概率分布特征，编码器则可以拟合出输入的图像数据的正态分布的均值和方差。隐空间结构可以通过将编码器返回的分布约束为接近标准正态而得以规范化。重参数化的过程中，从正态分布中采样一个，相当于从标准正态分布中采样一个，其等效近似于以下公式1：公式1：。
36.其中，μ表示均值，σ表示方差。
37.重参数化模块使得每次相同输入能够获得不同的输出结果，从而达到生成缺陷的多样性。
38.步骤s30，获取预设的掩膜图像，将所述随机变量和所述掩膜图像合成为第一缺陷图像。
39.掩模是由0和1组成的二进制图像。数字图像处理中，掩模多为二维矩阵数组。在应用掩模时，1值区域被处理，被屏蔽的0值区域不被包括在计算中。通过指定的数据值、数据范围、有限或无限值、感兴趣区和注释文件来定义图像掩模，也可以应用上述选项的任意组合作为输入来建立掩模。本实施例中的掩膜图像可以用于指示缺陷在图像中的具体位置。
40.在一些可行的实施方式中，将随机变量和掩膜图像合成为第一缺陷图像的步骤可以包括：步骤e，将所述随机变量解码重构为背景图像；步骤f，确定所述掩膜图像中的指示区域，在所述背景图像与所述指示区域的对应位置生成缺陷区域图像，得到完整的第一缺陷图像。
41.重参数化模块输出的随机变量可以输入至解码器，掩膜图像也输入至解码器中，解码器将随机变量重构为背景图像之后，可以将掩膜图像与背景图像重合，则可以确定缺陷区域在背景图像中的位置，与掩膜图像的知识区域位置对应。背景图像与缺陷区域图像组成完整的第一缺陷图像。第一缺陷图像在语义上与真实样本图像相似，真实性得到提高。掩膜图像中指示区域的位置可以是随机生成的，也可以是预先设置的，掩膜图像位置的不同使得第一缺项图像中的缺陷位置也具有多样性。
42.在本实施例中，获取真实样本图像，将真实样本图像转换为语义引导的隐变量，对隐变量进行重参数化处理，得到随机变量，获取预设的掩膜图像，将随机变量和掩膜图像合成为第一缺陷图像，通过真实图像对生成的第一缺陷图像进行语义引导，使生成的第一缺陷图像语义真实度更高，且通过重参数化处理使第一缺陷图像的多样性更加丰富，即使在相同的输入下也能得到不同的输出结果，为缺陷检测模型的构建提供了有利条件。
43.进一步的，在本发明语义引导的缺陷图像生成方法的第二实施例中，参照图4，该方法包括：步骤s40，获取待训练缺陷图像，将所述待训练缺陷图像输入初始对抗学习网络中，对所述初始对抗学习网络进行迭代训练，其中，所述初始对抗学习网络包括初始生成器和初始判别器；参照图3，初始对抗学习网络的训练主要为初始生成器和初始判别器的训练。训练过程中，初始生成器的目的是生成与真实缺陷图像接近的缺陷图像，初始判别器的目的是
判别出输入的图像是真实缺陷图像还是由初始生成器生成的缺陷图像，初始生成器和初始判别器交替训练，直到初始生成器能够生成效果真实的缺陷图像，而初始判别器无法判别生成图像是真实的还是生成的，达到均衡的状态。
44.在一些可行的实施方式中，对初始对抗学习网络进行迭代训练的步骤可以包括：步骤g，固定所述初始生成器的生成参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第二缺陷图像；步骤h，分别将真实缺陷图像和所述第二缺陷图像输入所述初始判别器，得到第一判别结果；步骤i，根据所述第一判别结果确定所述初始生成器的特征匹配损失，根据所述特征匹配损失更新所述初始判别器的判别参数。
45.初始判别器可以包含两个结构相同的4层卷积结构，引入谱范数正则技术，激活函数采用leakyrelu。在对初始判别器进行训练的过程中，保持初始生成器结构中各层的生成参数不变，生成参数可以包括卷积层数量、大小以及激活函数等。尽管生成参数不变，掩膜图像中的指示区域位置可以发生变化，重参数化操作也可以使生成的背景图像在接近真实缺陷图像的情况下发生变化，初始判别器需要对第二缺陷图像和真实缺陷图像作出判断。在初始生成器的训练程度较低时，初始判别器趋向于能够对真实缺陷图像和第二缺陷图像作出较为正确的判断，即输入为真实缺陷图像时第一判别结果表示缺陷图像为真，输入为第二缺陷图像时第一判别结果表示缺陷图像为假。随着初始生成器训练程度的提升，初始判别器逐渐无法判别输入的图像是真实的还是生成的。特征匹配损失目的是使得初始生成器与初始判别器之间的各层输出在掩模外的位置尽量相似，避免因为训练集过小而造成的过拟合。
46.在一些可行的实施方式中，对初始对抗学习网络进行迭代训练的步骤可以包括：步骤j，固定所述初始判别器的判别参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第三缺陷图像；步骤k，将所述第三缺陷图像输入所述初始判别器，得到第二判别结果；步骤l，根据所述第二判别结果和所述第三缺陷图像之间的差异确定所述初始生成器的图像生成损失，根据所述图像生成损失更新所述初始生成器的生成参数。
47.初始生成器可以由编码器、重参数化模块以及解码器构成。编码器可以包括6个步长为2的卷积层，激活函数可以为leakyrelu。解码器可以包括6个空间自适应归一化的上采样层，最后一层的输出经过tanh激活函数。
48.在对初始生成器进行训练的过程中，保持初始判别器各层结构的判别参数不变，判别参数可以包括卷积层数量、大小以及激活函数等。在将训练集中的待训练缺陷图像输入编码器，得到隐变量，对隐变量进行重参数化操作，将掩膜图像和重参数化后的随机变量输入解码器，得到生成的第三缺陷图像。重参数化模块对于每次相同的输入能够获得不同的输出结果，在训练过程中相当于对训练集进行了抽样扩充，可以使网络更加鲁棒。将第三缺陷图像输入初始判别器中，初始判别器判断第三缺陷图像是否为真。初始生成器的训练目的是要使输入图像分布与输出隐变量分布相近，可以引入kl散度（kullback-leibler divergence）度量两个变量分布，即使用kl散度损失作为图像生成损失，定义如下公式2：
公式2：。
49.其中，z为编码器输出的隐变量，x为编码器输入图像，表示z服从标准正态分布，是一个由均值向量和方差向量确定的变分分布。
50.步骤s50，当迭代训练次数超过预设的迭代次数阈值，或者预设的总损失函数收敛时，结束训练，得到目标生成器和目标判别器。
51.初始生成器和初始判别器的训练过程可以是交替进行的。总损失函数可以设置如下公式3：公式3：其中，g表示生成器，dk表示第k个判别器，l
gan
为生成对抗损失，l
fm
为特征匹配损失，l
kld
为kl散度损失，λ
fm
和λ
kld
分别为特征匹配损失和kl散度损失的系数。
52.在迭代训练次数超过迭代次数阈值或者总损失函数收敛时，表示整个对抗学习网络的训练程度已达到训练要求，初始判别器无法判别输入的图像是真实的还是生成的，可以结束训练，使用得到的目标生成器进行缺陷图像生成。目标生成器输出的缺陷图像经过语义引导，生成的缺陷图像语义真实度得到提高，重参数化处理使生成缺陷图像的多样性更加丰富。
53.在本实施例中，设计基于生成器和判别器的对抗学习网络，通过真实图像与损失函数训练的配合，对随机的隐变量进行总体分布的约束，语义引导使生成的缺陷图像接近真实图像，重参数化处理在训练过程中还可以起到数据增广的作用，在小样本情况下也能使网络训练更加稳定，防止过拟合。
54.本发明实施例还提供一种语义引导的缺陷图像生成装置，如图5所示，所述语义引导的缺陷图像生成装置包括：转换模块101，用于获取真实样本图像，将所述真实样本图像转换为语义引导的隐变量；处理模块102，用于对所述隐变量进行重参数化处理，得到随机变量；合成模块103，用于获取预设的掩膜图像，将所述随机变量和所述掩膜图像合成为第一缺陷图像。
55.可选地，转换模块101还用于：提取所述真实样本图像的语义特征；根据所述语义特征将所述真实样本图像编码为隐变量，以对所述隐变量进行语义引导。
56.可选地，处理模块102还用于：确定所述隐变量在图像语义范围内的概率分布特征；根据所述概率分布特征对所述隐变量进行随机分布采样。
57.可选地，合成模块103还用于：将所述随机变量解码重构为背景图像；确定所述掩膜图像中的指示区域，在所述背景图像与所述指示区域的对应位置生
成缺陷区域图像，得到完整的第一缺陷图像。
58.可选地，语义引导的缺陷图像生成装置还包括训练模块，用于：获取待训练缺陷图像，将所述待训练缺陷图像输入初始对抗学习网络中，对所述初始对抗学习网络进行迭代训练，其中，所述初始对抗学习网络包括初始生成器和初始判别器；当迭代训练次数超过预设的迭代次数阈值，或者预设的总损失函数收敛时，结束训练，得到目标生成器和目标判别器。
59.可选地，训练模块还用于：固定所述初始生成器的生成参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第二缺陷图像；分别将真实缺陷图像和所述第二缺陷图像输入所述初始判别器，得到第一判别结果；根据所述第一判别结果确定所述初始生成器的特征匹配损失，根据所述特征匹配损失更新所述初始判别器的判别参数。
60.可选地，训练模块还用于：固定所述初始判别器的判别参数，将所述待训练缺陷图像和所述掩膜图像输入所述初始生成器中，得到第三缺陷图像；将所述第三缺陷图像输入所述初始判别器，得到第二判别结果；根据所述第二判别结果和所述第三缺陷图像之间的差异确定所述初始生成器的图像生成损失，根据所述图像生成损失更新所述初始生成器的生成参数。
61.本发明实施例还提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语义引导的缺陷图像生成程序，所述语义引导的缺陷图像生成程序配置为实现如上文所述的语义引导的缺陷图像生成方法的步骤。本发明实施例电子设备的具体实施方式参见上述语义引导的缺陷图像生成方法各实施例，在此不再赘述。
62.本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语义引导的缺陷图像生成程序，所述语义引导的缺陷图像生成程序被处理器执行时实现如上文所述的语义引导的缺陷图像生成方法的步骤。本发明实施例计算机可读存储介质的具体实施方式参见上述语义引导的缺陷图像生成方法各实施例，在此不再赘述。
63.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
64.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
65.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个
存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
66.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱云龙郑杨婷李佩文陈殷齐
技术所有人：季华实验室
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。