图像生成模型训练、图像生成方法、系统以及电子设备与流程

文档序号：37087013发布日期：2024-02-20 21:43阅读：23来源：国知局

本技术涉及图像生成，具体而言，涉及一种图像生成模型训练、图像生成方法、系统以及电子设备。

背景技术：

1、图像信息相比单纯的语义信息（例如，文字信息）更加直观，更易让人理解，图像在当前信息传递中扮演一个至关重要的角色。

2、语义图像生成是指基于语义分割结果，生成真实图像。目前存在不少可以基于语义图像生成真实图像的方法，例如，smis、pix2pixhd、spade模型等。但是，基于现有的图像生成模型所生成的图像仍不够真实，与实际采集图像之间还存在一定差距。

技术实现思路

1、有鉴于此，本技术实施例的目的在于提供一种图像生成模型训练、图像生成方法、系统以及电子设备，用以解决现有的图像生成模型所生成图像不够真实的技术问题。

2、第一方面，本技术实施例提供了一种图像生成模型训练方法，该图像生成模型训练方法包括：

3、获取训练数据集；其中，所述训练数据集包括多个语义标签图像和与所述语义标签图像对应的实际采集图像；

4、将所述语义标签图像以及所述实际采集图像输入到待训练图像生成模型，获得所述待训练图像生成模型所输出的模型生成图像；

5、基于最优传输理论、所述模型生成图像和所述实际采集图像，确定损失函数值；

6、根据所述损失函数值对所述待训练图像生成模型的内部参数进行优化，以获得训练后的图像生成模型。

7、在上述的实现过程中，该图像生成模型训练方法，通过获取包括多个语义标签图像和与所述语义标签图像对应的实际采集图像的训练数据集；将语义标签图像以及实际采集图像输入到待训练图像生成模型，并获得所述待训练图像生成模型所输出的模型生成图像；基于最优传输理论、所述模型生成图像和所述实际采集图像，确定损失函数值；根据损失函数值对上述待训练图像生成模型的内部参数进行优化，以获得训练后的图像生成模型。由于损失函数值是基于最优传输理论、模型生成图像和实际采集图像所确定的，基于最优传输理论所确定的损失函数值可以更加贴近人的感知；基于该损失函数值对待训练图像生成模型的内部参数进行优化，所获得的训练后的图像生成模型，可以生成更加真实的贴近人眼感知的图像。解决了现有的图像生成模型所生成的图像不够真实的技术问题。

8、可选地，在本技术实施例中，所述损失函数值包括：传输损失值和惩罚损失值；所述基于最优传输理论、所述模型生成图像和所述实际采集图像，确定损失函数值，包括：基于所述最优传输理论、所述模型生成图像和所述实际采集图像，确定所述传输损失值；基于利普希茨约束、所述模型生成图像和所述实际采集图像，确定所述惩罚损失值。

9、在上述的实现过程中，由于损失函数值包括“基于最优传输理论、模型生成图像和实际采集图像所确定的传输损失值”以及“基于利普希茨约束、模型生成图像和实际采集图像所确定的惩罚损失值”，可以改善“对待训练图像生成模型的内部参数进行优化”过程中的误导性收敛，进而基于训练后的图像生成模型，生成更加真实的贴近人眼感知的图像。

10、可选地，在本技术实施例中，所述待训练图像生成模型的生成方法，包括：基于生成对抗网络，生成所述待训练图像生成模型；其中，所述生成对抗网络包括生成器和鉴别器。

11、在上述的实现过程中，相较于传统的训练方法，基于生成对抗网络，生成上述待训练图像生成模型，无需利用马尔科夫链反复采样，没有复杂的变分下界，可以避免概率计算的难题，还可以产生更加清晰的模型生成图像，在提高模型生成图像质量的同时，降低了模型的训练难度。

12、可选地，在本技术实施例中，所述待训练图像生成模型具体包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；最大池化层，所述最大池化层配置为对所述图像特征数据进行最大池化操作，获得第一降维特征数据；平均池化层，所述平均池化层配置为对所述图像特征数据进行平均池化操作，获得第二降维特征数据；最小池化层，所述最小池化层配置为对所述图像特征数据进行最小池化操作，获得第三降维特征数据；共享多层感知器，所述共享多层感知器配置为对所述第一降维特征数据、所述第二降维特征数据和所述第三降维特征数据进行特征共享，并输出第一共享特征数据、第二共享特征数据以及第三共享特征数据；第一激活函数层，所述第一激活函数层配置为对所述第一共享特征数据、第二共享特征数据以及第三共享特征数据进行加权求和，获得第一求和特征数据；第一生成器，所述第一生成器配置为根据所述第一求和特征数据以及所述语义标签图像，确定所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

13、在上述的实现过程中，在图像编码器和第一生成器之间，增加最大池化层、平均池化层、最小池化层、共享多层感知器以及第一激活函数层；通过多个池化层对图像特征数据进行聚合，再通过共享多层感知器对所得到的第一降维特征数据、第二降维特征数据和第三降维特征数据进行特征共享，获得更丰富的共享特征数据；进而基于更加丰富的共享特征数据，生成更加真实的贴近人眼感知的模型生成图像。

14、可选地，在本技术实施例中，所述待训练图像生成模型具体包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；第二生成器，所述第二生成器包括：重塑模块、注意力模块和上采样模块；其中，所述重塑模块配置为对所述图像特征数据以及所述语义标签图像进行数据重塑，获得多个初始图像数据；所述注意力模块包括：多个卷积核大小不同的卷积层以及第二激活函数层；所述多个卷积核大小不同的卷积层配置为对每一所述初始图像数据进行不同尺寸的特征提取，获得多个不同尺寸的第一特征提取数据；所述第二激活函数层配置为对所述多个不同尺寸的特征提取数据进行加权求和，获得第二求和特征数据；所述上采样模块配置为对多个所述第二求和特征数据进行上采样处理，获得所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

15、在上述的实现过程中，第二生成器包括重塑模块、注意力模块和上采样模块，注意力模块包括多个卷积核大小不同的卷积层以及第二激活函数层；通过多个卷积核大小不同的卷积层可以获得多个不同尺寸的特征提取数据，再通过第二激活函数层对多个不同尺寸的特征提取数据进行加权求和，以获得具备更多空间信息的第二求和特征数据，进而生成更加真实的贴近人眼感知的模型生成图像。

16、可选地，在本技术实施例中，所述待训练图像生成模型具体包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；最大池化层，所述最大池化层配置为对所述图像特征数据进行最大池化操作，获得第一降维特征数据；平均池化层，所述平均池化层配置为对所述图像特征数据进行平均池化操作，获得第二降维特征数据；最小池化层，所述最小池化层配置为对所述图像特征数据进行最小池化操作，获得第三降维特征数据；共享多层感知器，所述共享多层感知器配置为对所述第一降维特征数据、所述第二降维特征数据和所述第三降维特征数据进行特征共享，并输出第一共享特征数据、第二共享特征数据以及第三共享特征数据；第一激活函数层，所述第一激活函数层配置为对所述第一共享特征数据、第二共享特征数据以及第三共享特征数据进行加权求和，获得第一求和特征数据；第二生成器，所述第二生成器包括：重塑模块、注意力模块和上采样模块；其中，所述重塑模块配置为对所述第一求和特征数据以及所述语义标签图像进行数据重塑，获得多个初始图像数据；所述注意力模块包括：多个卷积核大小不同的卷积层以及第二激活函数层；所述多个卷积核大小不同的卷积层配置为对每一所述初始图像数据进行不同尺寸的特征提取，获得多个不同尺寸的特征提取数据；所述第二激活函数层配置为对所述多个不同尺寸的特征提取数据进行加权求和，获得第二求和特征数据；所述上采样模块配置为对多个所述第二求和特征数据进行上采样处理，获得所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

17、在上述的实现过程中，在图像编码器和第二生成器之间，增加最大池化层、平均池化层、最小池化层、共享多层感知器以及第一激活函数层；通过多个池化层对图像特征数据进行聚合，再通过共享多层感知器对所得到的第一降维特征数据、第二降维特征数据和第三降维特征数据进行特征共享，获得更丰富的共享特征数据；此外，第二生成器包括重塑模块、注意力模块和上采样模块，注意力模块包括多个卷积核大小不同的卷积层以及第二激活函数层；通过多个卷积核大小不同的卷积层可以获得多个不同尺寸的特征提取数据，再通过第二激活函数层对多个不同尺寸的特征提取数据进行加权求和，以获得具备更多空间信息的第二求和特征数据；基于更加丰富的共享特征数据，以及具备更多空间信息的第二求和特征数据，可以生成更加真实的贴近人眼感知的模型生成图像。

18、可选地，在本技术实施例中，所述语义标签图像至少包括：背景语义标签、建筑语义标签、道路语义标签、水域语义标签、荒地语义标签、森林语义标签和农业语义标签中的一种或多种组合；与所述语义标签图像相对应的，所述实际采集图像至少包括实际背景采集图像、实际建筑采集图像、实际道路采集图像、实际水域采集图像、实际荒地采集图像、实际森林采集图像和实际农业采集图像中的一种或多种组合。

19、在上述的实现过程中，基于包括“背景语义标签、建筑语义标签、道路语义标签、水域语义标签、荒地语义标签、森林语义标签和农业语义标签” 中的一种或多种组合的语义标签图像，以及，包括“实际背景采集图像、实际建筑采集图像、实际道路采集图像、实际水域采集图像、实际荒地采集图像、实际森林采集图像和实际农业采集图像” 中的一种或多种组合的实际采集图像，所获得的训练后的图像生成模型，可以用于实现遥感图像的生成。

20、第二方面，本技术实施例提供了一种图像生成方法，该图像生成方法包括：

21、获取待输入的语义标签图像；

22、将所述语义标签图像，输入训练后的图像生成模型，获取所述训练后的图像生成模型所输出的图像生成结果；其中，基于如第一方面任一所述图像生成模型训练方法，确定所述训练后的图像生成模型。

23、第三方面，本技术实施例提供了一种图像生成模型训练系统，该图像生成模型训练系统包括：

24、训练数据集获取模块，用于获取训练数据集；其中，所述训练数据集多个语义标签图像和与所述语义标签图像对应的实际采集图像；

25、生成图像获取模块，用于将所述语义标签图像以及所述实际采集图像输入到待训练图像生成模型，获得所述待训练图像生成模型所输出的模型生成图像；

26、损失函数确定模块，用于基于最优传输理论、所述模型生成图像和所述实际采集图像，确定损失函数值；

27、参数优化模块，用于根据所述损失函数值对所述待训练图像生成模型的内部参数进行优化，以获得训练后的图像生成模型。

28、可选地，在本技术实施例中，该图像生成模型训练系统中的损失函数值包括：传输损失值和惩罚损失值；上述损失函数确定模块具体用于：基于所述最优传输理论、所述模型生成图像和所述实际采集图像，确定所述传输损失值；基于利普希茨约束、所述模型生成图像和所述实际采集图像，确定所述惩罚损失值。

29、可选地，在本技术实施例中，该图像生成模型训练系统还包括：模型生成模块，用于基于生成对抗网络，生成所述待训练图像生成模型；其中，所述生成对抗网络包括生成器和鉴别器。

30、可选地，在本技术实施例中，上述待训练图像生成模型具体可以包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；最大池化层，所述最大池化层配置为对所述图像特征数据进行最大池化操作，获得第一降维特征数据；平均池化层，所述平均池化层配置为对所述图像特征数据进行平均池化操作，获得第二降维特征数据；最小池化层，所述最小池化层配置为对所述图像特征数据进行最小池化操作，获得第三降维特征数据；共享多层感知器，所述共享多层感知器配置为对所述第一降维特征数据、所述第二降维特征数据和所述第三降维特征数据进行特征共享，并输出第一共享特征数据、第二共享特征数据以及第三共享特征数据；第一激活函数层，所述第一激活函数层配置为对所述第一共享特征数据、第二共享特征数据以及第三共享特征数据进行加权求和，获得第一求和特征数据；第一生成器，所述第一生成器配置为根据所述第一求和特征数据以及所述语义标签图像，确定所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

31、可选地，在本技术实施例中，上述待训练图像生成模型具体可以包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；第二生成器，所述第二生成器包括：重塑模块、注意力模块和上采样模块；其中，所述重塑模块配置为对所述图像特征数据以及所述语义标签图像进行数据重塑，获得多个初始图像数据；所述注意力模块包括：多个卷积核大小不同的卷积层以及第二激活函数层；所述多个卷积核大小不同的卷积层配置为对每一所述初始图像数据进行不同尺寸的特征提取，获得多个不同尺寸的特征提取数据；所述第二激活函数层配置为对所述多个不同尺寸的特征提取数据进行加权求和，获得第二求和特征数据；所述上采样模块配置为对多个所述第二求和特征数据进行上采样处理，获得所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

32、可选地，在本技术实施例中，上述待训练图像生成模型具体可以包括：图像编码器，所述图像编码器配置为根据所述实际采集图像，获取图像特征数据；最大池化层，所述最大池化层配置为对所述图像特征数据进行最大池化操作，获得第一降维特征数据；平均池化层，所述平均池化层配置为对所述图像特征数据进行平均池化操作，获得第二降维特征数据；最小池化层，所述最小池化层配置为对所述图像特征数据进行最小池化操作，获得第三降维特征数据；共享多层感知器，所述共享多层感知器配置为对所述第一降维特征数据、所述第二降维特征数据和所述第三降维特征数据进行特征共享，并输出第一共享特征数据、第二共享特征数据以及第三共享特征数据；第一激活函数层，所述第一激活函数层配置为对所述第一共享特征数据、第二共享特征数据以及第三共享特征数据进行加权求和，获得第一求和特征数据；第二生成器，所述第二生成器包括：重塑模块、注意力模块和上采样模块；其中，所述重塑模块配置为对所述第一求和特征数据以及所述语义标签图像进行数据重塑，获得多个初始图像数据；所述注意力模块包括：多个卷积核大小不同的卷积层以及第二激活函数层；所述多个卷积核大小不同的卷积层配置为对每一所述初始图像数据进行不同尺寸的特征提取，获得多个不同尺寸的特征提取数据；所述第二激活函数层配置为对所述多个不同尺寸的特征提取数据进行加权求和，获得第二求和特征数据；所述上采样模块配置为对多个所述第二求和特征数据进行上采样处理，获得所述模型生成图像；鉴别器，所述鉴别器配置为鉴别所述模型生成图像以及所述实际采集图像。

33、可选地，在本技术实施例中，该图像生成模型训练系统中的语义标签图像至少包括：背景语义标签、建筑语义标签、道路语义标签、水域语义标签、荒地语义标签、森林语义标签和农业语义标签中的一种或多种组合；与所述语义标签图像相对应的，实际采集图像至少包括实际背景采集图像、实际建筑采集图像、实际道路采集图像、实际水域采集图像、实际荒地采集图像、实际森林采集图像和实际农业采集图像中的一种或多种组合。

34、第四方面，本技术实施例提供了一种图像生成系统，该图像生成系统包括：

35、语义图像获取模块，用于获取待输入的语义标签图像；

36、生成结果获取模块，用于将所述语义标签图像，输入训练后的图像生成模型，获取所述训练后的图像生成模型所输出的图像生成结果；其中，基于如第一方面任一所述图像生成模型训练方法，确定所述训练后的图像生成模型。

37、第五方面，本技术实施例还提供了一种电子设备，包括：存储器和处理器，存储器存储有处理器可执行的计算机程序，计算机程序被处理器执行时，执行如上面第一方面所描述的图像生成模型训练方法或者第二方面所描述的图像生成方法。

38、第六方面，本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，该计算机程序指令被一处理器运行时，执行如上面第一方面所描述的图像生成模型训练方法或者第二方面所描述的图像生成方法。

39、本技术的有益效果为：通过获取包括多个语义标签图像和与所述语义标签图像对应的实际采集图像的训练数据集；将语义标签图像以及实际采集图像输入到待训练图像生成模型，并获得所述待训练图像生成模型所输出的模型生成图像；基于最优传输理论、所述模型生成图像和所述实际采集图像，确定损失函数值；根据损失函数值对上述待训练图像生成模型的内部参数进行优化，以获得训练后的图像生成模型。由于损失函数值是基于最优传输理论、模型生成图像和实际采集图像所确定的，基于最优传输理论所确定的损失函数值可以更加贴近人的感知；基于该损失函数值对待训练图像生成模型的内部参数进行优化，所获得的训练后的图像生成模型，可以生成更加真实的贴近人眼感知的图像。解决了现有的图像生成模型所生成的图像不够真实的技术问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何金龙,高旻,寇勇,彭林春,陶李,许馨月
技术所有人：四川见山科技有限责任公司
我是此专利的发明人

上一篇：一种用于市政压力管道的消能装置的制作方法
上一篇：一种飞机起落架的缓冲结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。