一种图像处理方法、装置、电子设备及存储介质与流程

文档序号:28946102发布日期:2022-02-19 08:59阅读:75来源:国知局
一种图像处理方法、装置、电子设备及存储介质与流程

1.本公开涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。


背景技术:

2.随着深度学习的兴起,深度学习架构和算法使得计算机视觉,模式识别和自然语言处理得到了很大的发展。其中,卷积神经网络(cnn,convolutional neural networks)在图像处理方面的应用效果最为显著。
3.相关技术中,通常采用深度学习网络提取特征用于辅助图像风格迁移。也就是通过cnn网络提取输入图片的内容和风格图片的特征,构建格莱姆矩阵,从而定义内容损失函数和风格损失函数,然后,通过优化求解得到风格化的目标图片。但是,该方法中,虽然可以得到真实度很好的风格化目标图片,但是,因为优化求解过程需要花费很长时间,且计算量大,无法实现快速的风格迁移,降低了风格迁移效率及用户体验差。


技术实现要素:

4.本公开提供一种图像处理方法、装置、电子设备及存储介质,以至少解决相关技术中由于图像风格迁移计算量大,耗时长,导致图像风格迁移效率低的技术问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种图像处理方法,包括:
6.获取待处理图像;
7.对所述待处理图像中的对象进行分割,得到分割后的对象;
8.通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。
9.可选的,在所述通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理前,所述方法还包括:
10.基于卷积神经网络的深度可分离卷积层生成超网络,以及确定所述超网络的参数;
11.根据确定的所述超网络的参数训练卷积神经网络模型,得到所述图像转换模型。
12.可选的,所述基于卷积神经网络的深度可分离卷积层生成超网络,及确定超网络的参数,包括:
13.将所述卷积神经网络的深度可分离卷积层的输入通道数c扩大成2的整数倍,得到2xnxc个通道,其中n为卷积核的个数;
14.将扩大的所述深度可分离卷积层拆分成卷积单元i,并为每个卷积单元i赋予参数g_i;
15.将扩大后的每个输入通道分别与对应卷积核做卷积处理,得到对应的卷积结果;
16.将每个卷积结果分别乘以对应卷积单元i的参数g_i,得到对应通道的卷积参数;
17.将所有通道的卷积参数组合在一起,作为超网络的参数。
18.可选的,所述卷积神经网络模型包括:具有深度可分离卷积层的第一生成网络、第一判别网络和第二生成网络;
19.所述根据确定的所述超网络的参数训练卷积神经网络模型,得到所述图像转换模型,包括:
20.选取第一类型的普通图像训练样本和第二类型的风格图像训练样本;
21.将所述第一类型的普通图像训练样本输入到所述第一生成网络进行生成处理,输出第二类型的图像;
22.将所述第二类型的图像分别输入到第一判别网络,得到所述第二类型的图像属于第二类型的风格图像训练样本的概率,所述概率称为交叉熵损失;
23.将所述第二类型的图像分别输入到第二生成网络,得到所述第二类型的图像通过第二生成网络时的图像损失称为一致性损失;
24.计算所述一致性损失和交叉熵损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和;
25.根据所述损失之和计算梯度域上的特征图;
26.根据所述特征图更新所述超网络的参数;
27.对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
28.可选的,所述对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型,包括:
29.响应于所述超网络的参数小于设定参数阈值时,删除小于所述设定参数阈值的参数对应的通道;
30.响应于所述超网络的参数不小于设定参数阈值时,保留不小于所述设定参数阈值的参数对应的通道;
31.反复进行下一次的迭代训练,直到生成图像转换模型。
32.根据本公开实施例的第二方面,提供一种图像处理装置,包括:
33.获取模块,被配置为执行获取待处理图像;
34.分割模块,被配置为执行对所述待处理图像中的对象进行分割,得到分割后的对象;
35.风格转换处理模块,被配置为执行通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。
36.可选的,所述装置还包括:
37.确定模块,被配置为执行在所述风格转换处理模块通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理前,基于卷积神经网络的深度可分离卷积层生成超网络,以及确定超网络的参数;
38.训练模块,被配置为执行根据确定的所述超网络的参数训练卷积神经网络模型,得到所述图像转换模型。
39.可选的,所述确定模块包括:
40.通道扩大模块,被配置为执行将超网络的深度可分离卷积层的输入通道数c扩大成2的整数倍,得到2xnxc个通道,其中n为卷积核的个数;
41.拆分模块,被配置为执行将扩大的所述深度可分离卷积层拆分成卷积单元i,并为每个卷积单元i赋予参数g_i;
42.卷积模块,被配置为执行将扩大后的每个输入通道分别与对应卷积核做卷积处理,得到对应的卷积结果;
43.乘积模块,被配置为执行将每个卷积结果分别乘以对应卷积单元i的参数g_i,得到对应通道的卷积参数;
44.组合模块,被配置为执行将所有通道的卷积参数结合在一起,作为超网络的参数。
45.可选的,所述卷积神经网络模型包括:具有深度可分离卷积层的第一生成网络和第一判别网络和第二生成网络;
46.所述训练模块包括:
47.选取模块,被配置为执行选取第一类型的普通图像训练样本和第二类型的风格图像训练样本;
48.第一图像处理模块,被配置为执行将所述第一类型的普通图像训练样本输入到所述第一生成网络进行生成处理,输出第二类型的图像;
49.第一损失确定模块,被配置为将所述第二类型的图像分别输入到第一判别网络进行判断,得到所述第二类型的图像属于第二类型的风格图像训练样本的概率,所述概率称为交叉熵损失;
50.第二损失确定模块,被配置为执行将所述第二类型的图像分别输入到第二生成网络,得到所述第二类型的图像通过第二生成网络时的图像损失称为一致性损失;
51.计算模块,被配置为执行计算所述一致性损失和交叉熵损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和;
52.特征图计算模块,被配置为执行根据所述损失之和计算梯度域上的特征图;
53.更新模块,被配置为执行根据所述特征图更新所述超网络的参数;
54.迭代模块,被配置为执行对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
55.可选的,所述迭代模块包括:
56.通道删除模块,被配置为执行响应于所述超网络的参数小于设定参数阈值时,删除小于所述设定参数阈值的参数对应的通道;
57.通道保留模块,被配置为执行响应于所述超网络的参数不小于设定参数阈值,保留不小于所述设定参数阈值的参数对应的通道;
58.迭代训练做模块,反复被配置为执行反复进行下一次的迭代训练,直到生成图像转换模型。
59.根据本公开实施例的第三方面,提供一种电子设备,包括:
60.处理器;
61.用于存储所述处理器可执行指令的存储器;
62.其中,所述处理器被配置为执行所述指令,以实现如上所述的图像处理方法。
63.根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上所述的图像处理方法。
64.根据本公开实施例的第五方面,提供根据一种计算机程序产品,当所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如上所述的图像处理方法。
65.本公开的实施例提供的技术方案至少可以包括以下有益效果:
66.本公开中,将待处理图像进行分割,得到分割后的对象;通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。本公开通过对超网络中的深度可分离卷积层的通道数先增加在减少的方式,在视觉可以接受的情况下不但增减了网络的表达能力,还减少了模型内部处理的计算量,提高了图像风格转换的效率,以及用户对图像转换的满意度。
67.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
68.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
69.图1是根据一示例性实施例示出的一种图像处理方法的流程图。
70.图2是根据一示例性实施例示出的一个深度可分离卷积层拆分示意图。
71.图3是本公开提供的一种将第一类型的图像转化为第二类型的图像的训练示意图。
72.图4是本公开提供的一种将第二类型的图像转化为第一类型的图像的训练示意图。
73.图5是根据一示例性实施例示出的一种图像处理装置框图。
74.图6是根据一示例性实施例示出的一种图像处理装置的另一框图。
75.图7是根据一示例性实施例示出的一种确定模块的框图。
76.图8是根据一示例性实施例示出的一种训练模块的框图。
77.图9是根据一示例性实施例示出的一种电子设备的框图。
78.图10是根据一示例性实施例示出的一种用于图像处理的装置的框图。
具体实施方式
79.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
80.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
81.为了便于理解本公开,在介绍本公开之前先对下述名词术语进行解释。
82.本公开是对现有模型的主体的结构进行划分和修改,将现有模型的通道变成多通道,且可选择模型。具体来说,现有卷积神经网络cnn生成式模型都是基于传统conv2d操作,计算量很大。本公开提出,将深度可分离卷积层(dscl,depthwise separable convolutional layer)替换掉现有卷积神经网络生产式模型中的传统卷积层(convolutional layer),其中,替换的方式,可以选择完全替换,也可以根据实际需求替换卷积神经网络中的某些特定的卷积层。
83.图1是根据一示例性实施例示出的一种图像处理方法的流程图,如图1所示,图像处理方法包括以下步骤:
84.在步骤101中,获取待处理图像。
85.在步骤102中,对所述待处理图像中的对象进行分割,得到分割后的对象;
86.在步骤103中,通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。
87.本公开所述的图像处理方法可以应用于终端、服务器等,在此不作限制,其终端实施设备可以是智能手机,笔记本电脑、平板电脑等电子设备,在此不作限制。
88.下面结合图1,对本公开实施例提供的一种图像处理方法的具体实施步骤进行详细说明。
89.首先,执行步骤101,获取待处理图像。
90.该步骤中,获取的待处理图像,就是需要进行风格转换的图像,该图像可以是从相册中选择的一幅图像,也可以是刚拍摄的图像等,通常情况下,选择的图像中包括人像或人脸等对象,当然,也可以是动物头像等。本实施例不做限制。
91.其次,执行步骤102,对所述待处理图像中的对象进行分割,得到分割后的对象。
92.该步骤中,先对待处理图像进行人脸识别检测,如果检测到人脸图像或头像,则对检测到的人脸图像或头像进行分割,通常情况可以现在设定的大小进行分割,比如,将人脸或头像分割成512*512图像块等。其通过人脸识别算法对图像进行识别的过程对于本领域技术人员来说,已是熟知技术,在此不在赘述。
93.其中,本公开中,对图像可以采用多种分割方式,比如,平均分割方式或者固定分割方式,当然,还可以采用图像分割软件来分割,本实施例不作限制。其中,平均分割方式,可以按照平均行数和列数进行平均拆分,即根据行数和列数将图像分成几个相等的部分;而固定分割方式,就是将图像划分为指定图像块的像素大小。在分割完成后,就可以得到需要的图像块的文件格式。
94.最后,执行步骤103,通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中
的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。
95.该步骤中,将分割后的所述对象输入到图像转换模型,由所述图像转换模型按照选定图像风格进行图像风格转换处理,输出处理后同样大小的目标对象,所述目标对象为具有选定图像风格的目标对象,且与所述对象属于不同类型的图像;其中,所述图像转换模型为通过对超网络的深度可分离卷积层进行迭代训练后得到的模型,也就是说,通过对所述超网络的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。其中,不满足预设条件可以是不满于超网络的参数阈值,或者不满足深度可分离卷积层的通道的通道参数阈值等。
96.比如,如果输入的当前对象为512*512的人脸图像,选定的图像风格为512*512的卡通脸,则将人脸图像输入图像转换模型进行图像风格转换处理后,输出的就是512*512的卡通脸风格。
97.需要说明的是,本实施例中的图像转换模型是预先训练好的模型,其训练的过程详见下述。
98.进一步,所述方法还可以包括,将处理后得到的所述目标对象替换掉所述待处理图像中对应的所述对象,得到风格图像。
99.该步骤中,在步骤103得到风格转换处理后得到的目标对象替换到待处理图像中的对象,从而得到完整的一幅风格图像。也就是说,得到这幅完整的风格图像,与原来的待处理图像有着内在联系,却属于不同类型的风格图像,比如,将自然人脸通过图像转换模型处理后生成娃娃脸,或者将自然人脸通过图像转换模型处理生成卡通脸,或者是漫画通过图像转换模型处理,从素描风格变成油画风格等等。
100.本公开中,将获取的待处理图像进行分割,得到分割后的对象,对得到的所述对象通过图像转换模型按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型,进一步,还可以将所述目标对象替换掉所述待处理图像中对应的所述对象,得到完整的风格图像。也就是说,本公开通过对超网络中的深度可分离卷积层的通道数先增加在减少的方式,在视觉可以接受的情况下不但增减了网络的表达能力,还减少了模型内部处理的计算量,提高了图像风格转换的效率,以及用户对图像转换的满意度。
101.可选的,在另一实施例中,该实施例在上述实施例的基础上,在通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理前,所述方法还可以包括:
102.1)基于卷积神经网络的深度可分离卷积层生成超网络,以及确定所述超网络的参数;
103.具体的包括:将超卷积神经网络的深度可分离卷积层的输入通道数c扩大成2整数倍,得到2xnxc个通道,其中n为卷积核的个数;将扩大的所述深度可分离卷积层拆分成卷积单元(每个卷积单元由滤波器组成)i,并为每个卷积单元i赋予参数g_i;将扩大后的每个输入通道分别与对应卷积核做卷积处理,得到对应的卷积结果;将每个卷积结果分别乘以对应卷积单元i的参数g_i,得到对应通道的卷积参数,每个卷积参数就是个张量(tensor);将所有通道的卷积参数组合在一起,作为超网络的参数。也即是是,上述过程确定超网络的参
数作为初始参数。
104.需要说明的是,本公开中深度可分离卷积层的的通道,有两种不同的含义,第一种是对于样本图像(图像作为训练样本),通道是指颜色通道,将用颜色通道来表示样本图像的通道;第二种是输出空间的维数,例如,卷积操作中输出通道的个数,或者,每个卷积层中卷积核的数量。
105.也即是说,该步骤就是基于卷积神经网络的深度可分离卷积层定义超网络(supernet)结构。具体来讲,首先,将cnn网络的深度可分离卷积层(depthwise separable convolutional layer)的通道(channel)数扩大成2的整数倍。即将输入和输出(input和output)通道数都乘以2的整数倍就行。假设这层原来的channel数为c,我们将其扩增成2xnxc,其中n为卷积核的个数。其中,每个nxc分别用(3x3 kernel,5x5 kernel),或者(3x3 kernel 7x7 kernel)。这样就够造出表达能力足够强的超网络。
106.其次,将每个深度可分离卷积层(depthwise separable convolutional layer)拆分成多个小单元(即卷积单元),用i表示,并为每个卷积单元i赋予参数g_i,其拆分示意图如图2所示,图2中,假设卷积单元i以三个为例,即为每个卷积单元赋予的参数以g_1,g_2,g_3为例,但是在实际应用中,并不限于此。传统的可分离卷积层separable conv的小单元的参数都是1,即gi=1的情况,而本公开中,为拆分后的每个卷积单元i赋予对应的参数g_i,其中,i可以等于1,2,3,
……
等等多个值。在切除卷积(depthwise convolution)当中,每个channel独立的和一个3x3的内核(kernel)做卷积。即c_out_i=c_in_i*(3x3 kernel),然后将一个正的参数g_i乘在c_out_i上面,即将每个卷积结果分别乘以对应卷积单元的赋值参数g_i,得到对应通道的卷积参数,每个卷积参数就是一个张量。其中,一个张量由一组形成阵列(任意维数)的原始值组成,张量的阶是它的维数,而它的形状是一个整数元组,指定了阵列每个维度的长度;最后,将所有这些channel的卷积参数结合在一起,作为超网络的参数的输出。通过本公开的上述定义,超网络的参数不仅可以进行本身学习,而且g_i作为对应kernel的参数也可以进行学习。
107.2)根据确定的所述超网络参数训练卷积神经网络模型,得到所述图像转换模型。
108.其中,该步骤中,所述卷积神经网络模型可以包括:具有深度可分离卷积层的第一生成网络、第一判别网络和第二生成网络,所述根据确定的所述超网络的参数训练卷积神经网络模型,得到所述图像转换模型包括:
109.先选取第一类型的普通图像训练样本和第二类型的风格图像训练样本;再将所述第一类型的普通图像训练样本输入到所述第一生成网络进行生成处理,输出第二类型的图像;然后,将所述第二类型的图像分别输入到第一判别网络,得到所述第二类型的图像属于第二类型的风格图像训练样本的概率,所述概率称为交叉熵损失;以及将所述第二类型的图像分别输入到第二生成网络,得到所述第二类型的图像通过第二生成网络时的图像损失称为一致性损失;并计算所述一致性损失和交叉熵损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和;最后,根据所述损失之和计算梯度域上的特征图;根据所述特征图更新所述超网络的参数;并对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
110.也就是说,将选择所述第一类型的普通图像训练样本输入到所述第一生成网络进行生成处理,输出第二类型的图像,将所述第二类型的图像分别输入到第一判别网络和第
二生成网络,由所述第一判别网络进行图像领域的相似度判断,并输出生成的所述第二类型的图像属于第二类型的风格图像训练样本的概率,所述概率称为交叉熵损失。由所述第二生成网络进行风格转换处理,输出具有第二类型图像的风格图像,此时,得到所述第二类型的图像通过第二生成网络时的图像损失称为一致性损失。再后,计算所述一致性损失和交叉熵损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和,根据所述损失之和计算梯度域上的特征图;根据所述特征图更新所述超网络的参数;对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
111.同理,将所述第二类型的风格图像训练样本输入到所述第二生成网络进行生成处理,输出第一类型的风格图像,将所述第一类型的风格图像分别输入到二判别网络和第一生成网络,由所述第二判别网络进行图像类型相似度的判断,并输出生成的所述第一类型的风格图像属于第一类型风格图像的概率;由所述第一生成网络进行风格转换处理,输出具有第一类型图像的图像;计算所述第二类型的图像生成和判断时的交叉熵损失,与所述第一类型的风格图像生成和判断时的一致性损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和;根据所述损失之和计算梯度域上的特征图;根据所述特征图更新确定的超网络参数,对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
112.其中,所述对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型,包括:响应于所述超网络的参数小于设定参数阈值时,删除小于所述设定参数阈值的参数对应的通道;或者,响应于所述超网络的参数不小于设定参数阈值时,保留不小于所述设定参数阈值的参数对应的通道;反复进行下一次的迭代训练,直到生成图像转换模型。
113.本公开中,超网络的参数可以包括深度可分离卷积层的所有通道的卷积参数,当然,也可以包括位置(weight)和之前定义卷积单元的参数g_i等,本实施例不做限制。
114.其中,设定参数阈值,即λ(lambda),其可以随着每次的训练,选择不同的值,其初始值是预先设定后,后续迭代训练中,也可以是设定的值,当然,也可以选取所有通道对应参数的中间值,本实施例不做限制,其目的就是减少通道,进一步减小超网络。比如,通过判断通道的卷积参数是否小于lambda,并对小于lambda的卷积参数对应的通道的进行删除,就是把不重要的分支减掉,再进行下一次数据前传,并将更新超网络的参数,再进行下一次迭代(iteration)的训练。
115.也就是说,判断更新后的所述超网络的参数是否小于设定参数阈值,如果小于,则删除小于所述设定参数阈值的参数对应的通道;如果不小于,则保留不小于所述设定参数阈值的参数对应的通道,进行下一次的迭代训练,直到生成图像转换模型。
116.本公开中,该卷积神经网络模型至少包括四个网络,这四个网络分别为两个生成网络和两个判别网络,其中,第一类型包括的生成网络为g_a2b(generator_a2b_super),本公开称为第一生成网络,判别网络为:d_a2b(discriminator_a2b_super),本公开称为第一判别网络;第二类型包括的生成网络为:g_b2a(generator_b2a_super),本公开称为第二生成网络,判别网络为d_b2a(discriminator_b2a super),本公开称为第二判别式。
117.其中,g_a2b是将第一类型的图像转化为第二类型的图像的网络;d_a2b是判断g_a2b转化后得到的第二类型的图像属于第二类型的概率的判别网络同理,g_b2a将第二类型
的图像转化为第一类型的图像的网络;d_b2a是判断g_b2a转化后得到的第一类型的图像属于第一类型的概率的判别网络。也就是说,训练时,输入为两个类型的单帧图像各一张成对,为生成和原始图像有内在联系的另一种风格图像。需要说明的是,上述第一生成网络也称为第一生成器,第一判别网络称为第一判别器,第二生成网络称为第二生成器,第二判别网络称为第二判别器,其训练的具体过程如图3和图4所示,图3是本公开提供的一种将第一类型的图像转化为第二类型的图像的训练示意图:图4是本公开提供的一种将第二类型的图像转化为第一类型的图像的训练示意图。
118.如图3所示:首先,选取不同类型的各一张图像,即选取类型a(domain a)的一张图像,称为图像a(input image_a);
119.然后,input image_a输入到第一生成网络(g_a2b,generator_a2b_super),第一生成网络对该图像a进行转换处理,输出图像a2b(image_a2b),然后将图像a2b分别输入到第一判别器(d_a2b,discriminator_a2b_super)和第二生成器(g_b2a,generator_b2a_super),由第一判别器判断图像a2b是否属于类型b(domain b)的图片的概率,并输出判定的概率,其中,第一判别器就是一个二分类的分类网络,输出就是这张图像属于domain b的概率,在判别时,产生对应一个交叉熵损失(cross entropy loss),该交叉熵损失是分类问题常用的损失函数。
120.同时,g_b2a对输入的image_a2b按照选的的风格图像进行转换,生成图像a2b2a(image_a2b2a),其目的就是希望image_a和image_a2b2a非常像,但二者属于不同类型的风格。此时,在生成时产生损失loss,即一致性的损失(consistency loss),一般来说,损失就是l1范数或者l2范数,其中,l1范数就是从imagea-imagea2b2a这个矩阵中的loss,即每一个元素的绝对值的和,比如(1,-1)的l1范数就是:1+1=2。之后,网络总的损失loss就是这两个loss之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和,然后根据损失之和计算梯度域上的特征图,根据特征图更新确定的超网络的参数。其中,损失之和的计算方式以及根据损失之和计算梯度域上的特征图,对对于本领域技术人员来说,已是公知技术,在此不再赘述。
121.同理,如图4所示,先选取类型b(domainb)的一张图像,称为图像b(input image_b),将第二类型的图像b(image_b)输入到第二生成器(g_b2a),第二生成器对该图像b进行转换处理,输出图像b2a(image_b2a),然后,将图像b2a分别输入到第二判别器(d_b2a)和第一生成器(g_a2b),由第二判别器判断图像b2a是否属于类型a(domain a)的图片的概率,并输出判定的概率,其中,第二判别器也是一个二分类的分类网络,输出就是这张图像属于domain b的概率,在判别时,产生对应一个交叉熵损失(cross entropy loss),该交叉熵损失是分类问题常用的损失函数。
122.同时,g_b2a对输入的image_b2a按照选定的风格图像进行转换,生成图像b2a2b(image_b2a2b),其目的就是希望image_b和image_b2a2b非常像,但二者属于不同类型的风格。
123.也就是说,卷积神经网络模型分别称为两个类型的生成式模型和两个类型的判别式模型。其中生成式模型的生成方法通过观测数据学习样本与标签的联合概率分布p(x,y),训练好的模型能够生成符合样本分布的新数据,它可以用于有监督学习和无监督学习。而判别式模型:将跟踪问题看成一个二分类问题,然后找到目标和背景的决策边界。它不管
目标是怎么描述的,那只要知道目标和背景的差别在哪,然后对于输入一个图像,看它处于边界的那一边,就归为哪一类,即属于哪一类型的风格。
124.本公开先对待处理图像中的对象进行分割,然后将分割后的对象输入到按照超网络的参数训练好的图像风格转换模型按照选定图像风格进行转换处理,从而生成选定风格的目标对象,即在视觉可以接受的情况下减少了模型内部处理的计算量,不但提高了图像风格转换的效率,还提供了用户满意度。
125.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本实施公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开所必须的。
126.图5是根据一示例性实施例示出的一种图像处理装置框图。参照图5,该装置包括获取模块501,分割模块502和风格转换处理模块503,其中,
127.该获取模块501,被配置为执行获取待处理图像;
128.该分割模块502,被配置为执行对所述待处理图像中的对象进行分割,得到分割后的对象;
129.该风格转换处理模块503,被配置为执行通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理,得到处理后的目标对象,其中,所述图像转换模型为通过对超网络中的深度可分离卷积层的通道数先增加,再删除增加后不满足预设条件的通道的方式进行迭代训练得到的模型。
130.可选的,在另一实施例中,该实施例在上述实施例的基础上,所述装置还包括:确定模块601和训练模块602,其结构示意如图如图6所示,其中,
131.该确定模块601,被配置为执行在所述风格转换处理模块503通过图像转换模型对分割后的所述对象按照选定图像风格进行图像风格转换处理前,基于卷积神经网络的深度可分离卷积层生成超网络,以及确定超网络的参数;
132.该训练模块602,被配置为执行根据确定的所述超网络的参数训练卷积神经网络模型,得到所述图像转换模型。
133.可选的,在另一实施例中,该实施例在上述实施例的基础上,所述确定模块601包括:通道扩大模块701,拆分模块702,卷积模块703,乘积模块704和组合模块705,其结构示意图如图7所示,其中,
134.该通道扩大模块701,被配置为执行将超网络的深度可分离卷积层的输入通道数c扩大成2的整数倍,得到2xnxc个通道,其中n为卷积核的个数;
135.该拆分模块702,被配置为执行将扩大的所述深度可分离卷积层拆分成卷积单元i,并为每个卷积单元i赋予参数g_i;
136.该卷积模块703,被配置为执行将扩大后的每个输入通道分别与对应卷积核做卷积处理,得到对应的卷积结果;
137.该乘积模块704,被配置为执行将每个卷积结果分别乘以对应卷积单元i的参数g_i,得到对应通道的卷积参数;
138.该组合模块705,被配置为执行将所有通道的卷积参数结合在一起,作为超网络的参数。
139.可选的,在另一实施例中,该实施例在上述实施例的基础上,所述对抗性神经网络模型包括:具有深度可分离卷积层的第一生成网络、第二生成网络和第一判别网络;
140.所述训练模块包602括:选取模块801,第一图像处理模块802,第一损失确定模块803,第二损失确定模块804,计算模块805,特征图计算模块806,更新模块807和迭代模块808,其结构示意图如图8所示,其中,
141.该选取模块801,被配置为执行选取第一类型的普通图像训练样本和第二类型的风格图像训练样本;
142.该第一图像处理模块802,被配置为执行将所述第一类型的普通图像训练样本输入到所述第一生成网络进行生成处理,输出第二类型的图像;
143.该第一损失确定803,被配置为将所述第二类型的图像分别输入到第一判别网络进行判断,得到所述第二类型的图像属于第二类型的风格图像训练样本的概率,所述概率称为交叉熵损失;
144.该第二损失确定模块804,被配置为执行将所述第二类型的图像分别输入到第二生成网络,得到所述第二类型的图像通过第二生成网络时的图像损失称为一致性损失;
145.该计算模块805,被配置为执行计算所述一致性损失和交叉熵损失的损失之和,或对所述一致性损失和交叉熵损失的损失进行加权求和,得到损失之和;
146.该特征图计算806,被配置为执行根据所述损失之和计算梯度域上的特征图;
147.该更新模块807,被配置为执行根据所述特征图更新所述超网络的参数;
148.该迭代模块808,被配置为执行对更新后的所述超网络的参数对应的通道进行迭代训练,直到生成图像转换模型。
149.可选的,在另一实施例中,该实施例在上述实施例的基础上,所述迭代模块包括:通道删除模块和通道保留模块,其中,
150.该通道删除模块,被配置为执行响应于所述超网络的参数小于设定参数阈值时,删除小于所述设定参数阈值的参数对应的通道;
151.该通道保留模块,被配置为执行响应于所述超网络的参数不小于设定参数阈值,保留不小于所述设定参数阈值的参数对应的通道;
152.迭代训练做模块,反复被配置为执行反复进行下一次的迭代训练,直到生成图像转换模型。
153.本公开还提供一种电子设备,包括:
154.处理器;
155.用于存储所述处理器可执行指令的存储器;
156.其中,所述处理器被配置为执行所述指令,以实现如上所述的图像处理方法。
157.本公开还一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上所述的图像处理方法。
158.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,相关之处参见方法实施例的部分说明即可,此处将不做详细阐述说明。
159.在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述方法。可选地,存储介质可以是非临时性
计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
160.图9是根据一示例性实施例示出的一种电子设备900的框图。例如,电子设备900可以为移动终端也可以为服务器,本公开实施例中以电子设备为移动终端为例进行说明。例如,电子设备900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
161.参照图9,电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电力组件906,多媒体组件908,音频组件910,输入/输出(i/o)的接口912,传感器组件914,以及通信组件916。
162.处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
163.存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
164.电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
165.多媒体组件908包括在所述电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
166.音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(mic),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
167.i/o接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
168.传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所
述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
169.通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
170.在示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述所示的图像处理方法。
171.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述所示的图像处理方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
172.在示例性实施例中,还提供了一种计算机程序产品,当计算机程序产品中的指令由电子设备900的处理器920执行时,使得电子设备900执行上述所示的图像处理方法。
173.图10是根据一示例性实施例示出的一种用于图像处理的装置1000的框图。例如,装置1000可以被提供为一服务器。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行上述图像处理方法。
174.装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(i/o)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
175.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
176.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1