模型训练及图像处理方法、装置、设备及存储介质与流程

文档序号：34252070发布日期：2023-05-25 02:41阅读：64来源：国知局

本技术涉及但不限于计算机视觉，尤其涉及一种模型训练及图像处理方法、装置、设备及存储介质。

背景技术：

1、人像编辑，即对输入的人脸图像进行生成和编辑，例如包含人脸风格化、人脸超分辨率重建、人脸属性编辑、根据线稿生成人脸图像等。目前行业主流的技术采用图像转换的方法，训练网络学习输入的与人脸相关的图像和目标人脸之间的映射关系。为了获得更好地效果，通常会引入基于样式的生成对抗网络生成器结构(a style-based generatorarchitecture for generative adversarial networks，stylegan)的解码器实现高清人像的编辑处理。但受限于stylegan解码器本身只能处理固定尺寸的图像且要求人脸对齐，相关技术只能对输入照片中视野有限的人脸区域进行编辑，而在人脸区域的外侧无法做相应的编辑，从而在人脸区域的边界处存在明显不一致的问题。如何设计一个普适的图像转换框架，以支持常规视野的高清人像编辑成为一个难题。

技术实现思路

1、有鉴于此，本技术实施例至少提供一种模型训练及图像处理方法、装置、设备及存储介质。

2、第一方面，本技术实施例提供一种模型训练方法，所述模型包括编码器和第一解码器，所述编码器包括全卷积网络，所述方法包括：获取内容样本集合、风格样本集合和真实样本集合，其中，所述内容样本集合中的内容样本为具有第一分辨率的图像，且所述第一分辨率与预设的第二分辨率之间存在倍数关系；通过所述编码器获取每一内容样本的内容特征，以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码；基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码，通过所述第一解码器，生成可调的具有所述第二分辨率的风格图像，并得到包括所述风格图像的风格图像集合；基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本，对所述模型进行迭代训练，直至满足收敛条件。

3、在一些实施例中，所述第一解码器为基于stylegan解码器重构的，采用与所述stylegan解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征，以生成第二非固定分辨率的风格图像的解码器。

4、这样，将固定分辨率下内容特征的操作方法用在第一非固定分辨率下的内容特征上，实现第一非固定分辨率下内容特征的操作与原来固定分辨率下内容特征的操作等价，从而巧妙的重构了stylegan解码器，使得重构后的stylegan解码器没有改变原版stylegan解码器的功能和操作方法，能够处理第一非固定分辨率下的对齐或不对齐的图像对应的内容特征，从而生成第二非固定分辨率下的对齐或不对齐的图像。

5、在一些实施例中，所述编码器包括第一特征层模块和转化模块，所述通过所述编码器获取每一内容样本的内容特征，包括：针对所述每一内容样本，基于所述预设的第二分辨率和所述内容样本的第一分辨率，在所述第一特征层模块中确定至少一个中间特征层；基于所述每一内容样本，通过所述至少一个中间特征层获取与所述内容样本对应风格图像的第一中间特征；基于所述第一中间特征，通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征，以获取所述每一内容样本的内容特征。

6、这样，首先在第一特征层模块中确定出用于获取第一中间特征的至少一个中间特征层；然后利用至少一个中间特征层输出的特征得到第一中间特征；最后通过转化模块将第一中间特征转化为与第一解码器的第一特征层通道数相同的特征，从而得到方便第一解码器处理的内容样本的内容特征。

7、在一些实施例中，所述第一解码器包括第二特征层模块，所述基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码，通过所述第一解码器，生成可调的具有所述第二分辨率的风格图像，包括：在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合；在所述目标特征层集合中，确定每一分辨率下的至少一个目标特征层；将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层；基于每一所述内容样本的内容特征、与所述内容特征对应的风格编码、以及输入所述第二特征层模块中的第二中间特征，通过所述第一解码器，生成可调的具有所述第二分辨率的风格图像。

8、这样，通过将第一特征层模块中的目标特征层输出的第二中间特征输入第二特征层模块中分辨率相同的至少一个特征层中，实现为第一解码器生成的风格图像提供更多的结构信息，从而使得生成的风格图像包括更多的细节信息。

9、在一些实施例中，所述在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合，包括：基于生成所述风格图像的任务内容，确定m的取值；在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。

10、这样，根据生成风格图像的任务内容，来分别确定前m个特征层中m的数值，实现针对不同任务内容，设置输入第二特征层模块中的特征层的数量，以便更好的训练模型完成任务。

11、在一些实施例中，所述基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本，对所述模型进行迭代训练，直至满足收敛条件，包括：基于生成所述风格图像的任务内容，确定用于训练所述模型的损失函数；基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本，确定所述损失函数对应的损失值；在所述损失值满足收敛条件的情况下，完成对所述模型的训练。

12、这样，针对不同的任务内容，确定不同的损失函数；然后通过确定损失函数对应的损失值，来实现对模型的训练，使得模型能够满足收敛条件。

13、在一些实施例中，在生成所述风格图像的任务内容包括图像编解码或根据线稿生成人脸图像的情况下，所述损失函数包括重建损失，其中，所述重建损失用于表征生成的风格图像与对应真实样本之间的相似程度；和/或，在生成所述风格图像的任务内容包括人脸超分辨率重建的情况下，所述损失函数包括所述重建损失和对抗损失，其中，所述对抗损失为所述第一解码器的对抗损失；和/或，在生成所述风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下，所述损失函数包括所述重建损失、所述对抗损失和时域连续性损失，其中，所述时域连续性损失用于表征所述视频中不同图像帧生成的风格图像中语义相同部分像素的一致性。

14、这样，通过对生成风格图像的任务内容进行分类，并针对不同的任务内容设置不同的损失函数，以便更好的训练模型，提高模型的鲁棒性。

15、第二方面，本技术实施例提供一种图像处理方法，所述方法应用于包括编码器和第一解码器的模型，所述编码器包括全卷积网络，所述方法包括：获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率，其中，所述第一分辨率与所述第二分辨率之间存在倍数关系；通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码；基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。

16、在一些实施例中，所述编码器包括第一特征层模块和转化模块，所述通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码，包括：基于所述预设的第二分辨率和所述内容样本的第一分辨率，在所述第一特征层模块中确定至少一个中间特征层；基于所述内容图像，通过所述至少一个中间特征层获取所述风格图像的第一中间特征；基于所述第一中间特征，通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征，以获取所述风格图像的内容特征。

17、在一些实施例中，所述第一解码器包括第二特征层模块，所述基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像，包括：在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合；在所述目标特征层集合中，确定每一分辨率下的至少一个目标特征层；将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层；基于所述内容特征、所述第一风格编码、以及输入所述第二特征层模块中的第二中间特征，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。

18、在一些实施例中，所述在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合，包括：基于生成所述风格图像的任务内容，确定m的取值；在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。

19、在一些实施例中，在生成所述风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下，所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例，包括：获取待处理的具有第一分辨率的第一图像；基于所述第一图像，裁剪获取具有预设尺寸的对齐的第二图像；将所述第一图像作为所述内容图像，将所述第二图像作为所述风格样例。

20、在一些实施例中，在生成所述风格图像的任务内容包括图像编解码的情况下，在通过所述编码器获取所述风格样例的第一风格编码之后，还包括：对所述第一风格编码进行编辑，得到编辑后的第二风格编码；所述基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像，包括：基于所述内容特征和所述第二风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。

21、在一些实施例中，在生成所述风格图像的任务内容包括为根据线稿生成人脸图像的情况下，所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例，包括：获取待处理的线稿图像和具有待生成风格的第三图像；分别基于所述线稿图像和所述第三图像，裁剪获取具有预设尺寸的对齐的第四图像和第五图像；将所述线稿图像作为所述内容图像，将所述第四图像和所述第五图像均作为所述风格样例；对应地，所述通过所述编码器获取所述风格样例的第一风格编码，包括：将所述第四图像输入所述编码器，获取用于影响所述风格图像结构的第三风格编码；将所述第五图像输入所述编码器，获取用于影响所述风格图像颜色的第四风格编码；将所述第三风格编码和所述第四风格编码串联后，得到所述风格样例的第一风格编码。

22、在一些实施例中，在生成所述风格图像的任务内容包括视频人脸属性编辑或视频人脸风格化的情况下，所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例，包括：获取待处理的视频；针对所述视频中的每一帧图像，裁剪获取具有预设尺寸的对齐的第六图像；将所述视频中的每一帧图像作为所述内容图像，将与所述每一帧图像对应的第六图像作为所述风格样例。

23、在一些实施例中，在生成所述风格图像的任务内容包括视频人脸属性编辑的情况下，所述方法还包括：获取对所述视频中人脸属性进行编辑的编辑向量；对应地，在通过所述编码器获取所述风格样例的第一风格编码之后，还包括：将所述第一风格编码和所述编辑向量相加后，得到第五风格编码；所述基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像，包括：基于所述内容特征和所述第五风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。

24、在一些实施例中，在生成所述风格图像的任务内容包括视频人脸风格化的情况下，所述基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像，包括：基于所述内容特征和所述第一风格编码，通过第二解码器生成可调的具有所述第二分辨率的风格图像，其中，所述第二解码器为采用风格样本集合对所述第一解码器进行微调后得到的解码器。

25、第三方面，本技术实施例提供一种模型训练装置，所述模型训练模型包括编码器和第一解码器，所述编码器包括全卷积网络，所述模型训练装置包括：第一获取模块，用于获取内容样本集合、风格样本集合和真实样本集合，其中，所述内容样本集合中的内容样本为具有第一分辨率的图像，且所述第一分辨率与预设的第二分辨率之间存在倍数关系；第二获取模块，用于通过所述编码器获取每一内容样本的内容特征，以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码；第一生成模块，用于基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码，通过所述第一解码器，生成可调的具有所述第二分辨率的风格图像，并得到包括所述风格图像的风格图像集合；训练模块，用于基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本，对所述模型进行迭代训练，直至满足收敛条件。

26、第四方面，本技术实施例提供一种图像处理装置，所述图像处理装置应用于包括编码器和第一解码器的模型，所述编码器包括全卷积网络，所述图像处理装置包括：第三获取模块，用于获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率，其中，所述第一分辨率与所述第二分辨率之间存在倍数关系；第四获取模块，用于通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码；第二生成模块，用于基于所述内容特征和所述第一风格编码，通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。

27、第五方面，本技术实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

28、第六方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

29、相关技术中，解码器例如stylegan只能处理固定尺寸的图像，且处理的图像需要进行人脸对齐。本技术实施例提供的模型包括编码器和第一解码器，编码器包括全卷积网络。首先，根据全卷积网络的平移不变性和全卷积网络中卷积核的可复用性，使得编码器在输出风格编码的同时，可以输出可变分辨率下的内容特征。其次，第一解码器可以为基于stylegan解码器重构得到的可输入第一非固定分辨率下的内容特征，生成第二非固定分辨率图像的解码器，如此一来，可以实现生成和编辑非固定分辨率下对齐或不对齐的图像，从而解决了相关技术中只能处理固定尺寸的图像，且需要进行人脸对齐的问题。最后，本技术实施例提供的编码器可以同时编码内容特征和风格编码，进行端到端一起训练，因此能更好地完成学习任务。

30、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨帅蒋李鸣刘子纬吕健勤张俊哲
技术所有人：南洋理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。