图像处理方法、处理装置和处理设备与流程

文档序号:13878059阅读:121来源:国知局
图像处理方法、处理装置和处理设备与流程

本发明涉及图像处理,尤其涉及一种图像处理方法、处理装置和处理设备。



背景技术:

利用深度神经网络进行图像处理和转换是随着深度学习技术的发展而新兴起来的技术。然而,现有技术中的图像处理和转换系统的结构复杂且难于训练,并且输出图像缺乏多样性。因此,需要一种实现图像转换的图像处理方法、装置和设备,其既能保证输出图像与输入图像之间具有一致性,又能保证不同输出图像之间具有多样性。



技术实现要素:

本发明提供一种图像处理方法、处理装置和处理设备,利用生成神经网络结合图像内容特征、风格特征实现图像转换,在此基础上,利用超分辨率神经网络提升生成神经网络输出的转换图像的分辨率,获得高分辨率的转换图像。

本发明实施例提供一种图像处理方法,包括:获取输入图像;获取第一噪声图像和第二噪声图像;利用生成神经网络根据输入图像和第一噪声图像对所述输入图像进行图像转换处理,以输出转换后的第一输出图像;利用超分辨率神经网络对第一输出图像和第二噪声图像进行高分辨率转换处理,输出第二输出图像,其中,所述第一噪声图像和所述第二噪声图像不相同。

根据本发明实施例,所述输入图像包括第一颜色通道、第二颜色通道和第三颜色通道;所述第一噪声图像包括n个通道,n为大于等于1的正整数,所述第二噪声图像包括m个通道,m为大于等于1的正整数,所述第一噪声图像和第二噪声图像不相同;所述生成神经网络的输入包括第一噪声图像通道以及输入图像的第一颜色通道、第二颜色通道和第三颜色通道;所述生成神经网络的输出为第一输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道。

根据本发明实施例,所述生成神经网络包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,其中:所述上采样模块的个数与所述下采样模块的个数相等。

根据本发明实施例,所述超分辨率神经网络的输入包括第二噪声图像通道以及第一输出图像的第一颜色通道、第二颜色通道和第三颜色通道;所述超分辨率神经网络的输出为第二输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道。

根据本发明实施例,所述超分辨率神经网络包括依次连接的提升模块和变换模块,并且利用超分辨率神经网络进行高分辨率转换处理包括:利用所述提升模块对第一输出图像和第二噪声图像进行上采样处理,并输出包括亮度通道、第一色差通道和第二色差通道的第一中间图像;利用所述变换模块将提升模块输出的第一中间图像变换为包括第一颜色通道、第二颜色通道和第三颜色通道的第二输出图像。

根据本发明实施例,所述提升模块包括第一子网络、第二子网络和第三子网络,其中:每个子网络的输入均为第一输出图像和第二噪声图像;每个子网络具有相同的结构,包含相同个数的卷积层和提升层。

根据本发明实施例,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述第一输出图像作为第一训练输出图像,所述图像处理方法还包括:获取第二训练噪声图像;利用所述生成神经网络根据所述第一训练图像和第二训练噪声图像,生成第二训练输出图像;基于第一训练图像、第一训练输出图像和第二训练输出图像训练所述生成神经网络。

根据本发明实施例,训练所述生成神经网络包括:将所述第一训练输出图像输入至鉴别神经网络,输出所述第一训练输出图像是否具有转换特征的鉴别标签;利用第一损失计算单元根据所述第一训练图像、第一训练输出图像、第二训练输出图像和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数。其中:所述第一损失计算单元包括分析网络、第一损失计算器和优化器,并且利用所述第一损失计算单元计算所述生成神经网络的损失值包括:利用分析网络输出所述第一训练图像、第一训练输出图像、第二训练输出图像的内容特征以及利用分析网络输出所述第一训练输出图像和第二训练输出图像的风格特征;利用第一损失计算器根据分析网络提取的内容特征、风格特征和所述第一训练输出图像的鉴别标签按照第一损失函数计算所述生成神经网络的损失值;利用优化器根据所述生成神经网络的损失值优化所述生成神经网络的参数。

根据本发明实施例,所述第一损失函数包括风格差异损失函数,并且,计算所述生成神经网络的损失值包括:利用所述第一损失计算器根据第一训练输出图像的风格特征和第二训练输出图像的风格特征按照风格差异损失函数计算所述生成神经网络的风格损失值。所述第一损失函数还包括内容损失函数,并且,计算所述生成神经网络的损失值包括:根据第一训练图像、第一训练输出图像和第二训练输出图像的内容特征按照内容损失函数计算所述生成神经网络的内容损失值。

根据本发明实施例,所述第一输出图像作为第一样本图像,所述图像处理方法还包括:获取超分辨训练噪声图像;从第一样本图像提取低分辨率图像作为超分辨训练图像,所述超分辨训练图像的分辨率低于所述第一样本图像的分辨率;利用超分辨率神经网络根据超分辨训练图像和超分辨训练噪声图像输出第二样本图像,所述第二样本图像的分辨率等于所述第一样本图像的分辨率;根据第一样本图像和第二样本图像,通过减少所述超分辨率神经网络的成本函数优化超分辨率神经网络的参数。

本发明实施例还提供一种图像处理装置,包括:生成神经网络模块,用于根据输入图像和第一噪声图像对所述输入图像进行图像转换处理,以输出转换后的第一输出图像,其中,所述第一噪声图像包括n个通道,n为大于等于1的正整数;超分辨率神经网络模块,用于对第一输出图像和第二噪声图像进行高分辨率转换处理,输出第二输出图像,其中,所述第二噪声图像包括m个通道,m为大于等于1的正整数,并且,所述第一噪声图像和所述第二噪声图像不相同。

根据本发明实施例,所述输入图像包括第一颜色通道、第二颜色通道和第三颜色通道;所述生成神经网络模块的输入包括第一噪声图像通道以及输入图像的第一颜色通道、第二颜色通道和第三颜色通道;所述生成神经网络模块的输出为第一输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道。

根据本发明实施例,所述生成神经网络模块包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,所述上采样模块的个数与所述下采样模块的个数相等。

根据本发明实施例,所述超分辨率神经网络模块的输入包括第二噪声图像通道以及第一输出图像的第一颜色通道、第二颜色通道和第三颜色通道;所述超分辨率神经网络模块的输出为第二输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道。

根据本发明实施例,所述超分辨率神经网络模块包括依次连接的提升模块和变换模块:所述提升模块用于对第一输出图像和第二噪声图像进行上采样处理,并输出包括亮度通道、第一色差通道和第二色差通道的第一中间图像;所述变换模块用于将提升模块输出的第一中间图像变换为包括第一颜色通道、第二颜色通道和第三颜色通道的第二输出图像。其中:所述提升模块包括第一子网络、第二子网络和第三子网络。

根据本发明实施例,所述第一子网络、第二子网络和第三子网络的输入为第一输出图像和第二噪声图像,并且,输出图像具有3个通道,包括亮度通道、第一色差通道和第二色差通道;所述第一子网络、第二子网络和第三子网络具有相同的结构,并且每个包括至少一个提升子模块,每个提升子模块包括依次连接的一个或多个卷积层和一个提升层。

根据本发明实施例,所述图像处理装置还包括训练神经网络模块,用于根据所述生成神经网络模块的输出图像来训练所述生成神经网络模块。其中,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述第一输出图像作为第一训练输出图像,所述生成神经网络模块还根据第一训练图像和获取的第二训练噪声图像,对超分辨训练图像进行图像转换处理,以输出转换后的第二训练输出图像,其中,所述第二训练噪声图像不同于所述第一训练噪声图像;所述训练神经网络模块基于第一训练图像、第一训练输出图像和第二训练输出图像训练所述生成神经网络模块。

其中,所述训练神经网络模块包括:鉴别神经网络模块,用于输出所述第一训练输出图像是否具有转换特征的鉴别标签;第一损失计算单元,用于根据所述第一训练图像、第一训练输出图像、第二训练输出图像和鉴别标签计算所述生成神经网络模块的损失值,优化所述生成神经网络模块的参数,其中所述第一损失计算单元包括:分析网络,用于输出所述第一训练图像、第一训练输出图像、第二训练输出图像的内容特征;第一损失计算器,用于根据分析网络提取的内容特征、风格特征和所述第一训练输出图像的鉴别标签按照第一损失函数计算所述生成神经网络模块的损失值;优化器,用于根据所述生成神经网络模块的损失值优化所述生成神经网络模块的参数。

根据本发明实施例,所述第一损失函数包括风格差异损失函数,用于根据第一训练输出图像的风格特征和第二训练输出图像的风格特征计算所述生成神经网络模块的风格损失值;所述第一损失函数还包括内容损失函数,用于根据第一训练图像、第一训练输出图像和第二训练输出图像的内容特征计算所述生成神经网络模块的内容损失值。

根据本发明实施例,训练神经网络模块还用于根据超分辨率神经网络的输出来训练超分辨率神经网络模块,其中,所述第一输出图像作为第一样本图像,所述超分辨率神经网络模块还根据超分辨训练图像和获取的超分辨训练噪声图像输出第二样本图像,其中,所述超分辨训练图像是从第一样本图像提取的低分辨率图像,其中,所述训练神经网络模块还包括:第二鉴别神经网络模块,用于基于第一样本图像和第二样本图像输出鉴别标签;其中,所述优化器通过减少所述超分辨率神经网络模块的成本函数优化所述超分辨率神经网络模块的参数。

本发明实施例还提供一种图像处理设备包括一个或多个处理器和一个或多个存储器。其中所述存储器存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时执行上述图像处理方法或实现上述图像处理装置。

本发明提出一种基于生成神经网络、超分辨率神经网络和内容感知的图像转换方法。通过在输入中加入噪声图像以生成转换图像的细节信息。利用内容特征损失函数来训练生成神经网络,保证转换后的输出图像与输入图像具有内容一致性,利用处理结果之间的风格差异损失函数训练生成神经网络,保证输出结果之间的多样性,使得系统简单,易于训练。在此基础上,利用超分辨率神经网络提升生成神经输出的转换图像的分辨率,获得高分辨率的转换图像,以满足产品对于图像分辨率的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提供的图像处理方法的流程图;

图2示出了用于实现图1中所述图像处理方法的神经网络的结构示意图;

图3示出了图2中生成神经网络的具体结构图;

图4示出了提升层的示意图;

图5示出了图2中超分辨率神经网络的结构示意图;

图6示出了图5中超分辨率神经网络的具体结构图;

图7示出了训练生成神经网络的流程图;

图8示出了训练生成神经网络的框图;

图9示出了分析网络的具体结构图;

图10示出了鉴别神经网络的具体结构图;

图11示出了训练超分辨率神经网络的流程图;

图12示出了第二鉴别神经网络的具体结构图;

图13示出了本发明实施例提供的图像处理装置的示意性框图;

图14示出了本发明实施例提供的图像处理设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种图像处理方法、处理装置和处理设备,用于实现图像转换。所述图像处理方法、处理装置和处理设备基于生成神经网络、超分辨率神经网络和内容感知进行图像转换。通过在输入中加入噪声图像以生成转换图像的细节信息。利用内容特征损失函数来训练生成神经网络,保证转换后的输出图像与输入图像具有内容一致性,利用处理结果之间的风格差异损失函数训练生成神经网络,保证输出结果之间的多样性,使得系统简单,易于训练。在此基础上,利用超分辨率神经网络提升生成神经网络输出的转换图像的分辨率,获得高分辨率的转换图像,以满足产品对于图像分辨率的需求。

本发明实施例提供的图像处理方法的流程图如图1所示,在步骤s110,获取要接受图像转换处理的输入图像,该输入图像作为原始信息包括第一颜色通道、第二颜色通道和第三颜色通道,在本发明实施例中为rgb三通道。接着,在步骤s120,获取第一噪声图像和第二噪声图像,其中,所述第一噪声图像包括n个通道,n为大于等于1的正整数第一噪声图像和第二噪声图像不相同。在本发明实施例中,例如n可以为1,即所述第一噪声图像作为第4通道,与输入图像的rgb通道信息一起输入至生成神经网络。所述噪声可以是例如高斯噪声的随机噪声。在本发明的其它实施例中,例如,n可以为3,通过将第一噪声图像的3个通道分别添加至期望进行图像转换处理的原始图像的rgb通道中,生成包含噪声信息的输入图像,所述生成神经网络根据所述输入图像对所述原始图像进行图像转换处理此种情形在本说明书中不在赘述。由于每次输入的噪声图像包含随机噪声,使得利用同一组生成神经网络根据同一幅输入图像进行的多次图像处理操作可以得到具有不同细节信息的转换结果,即带来转换结果的多样性。此外,获取输入图像和获取噪声图像在流程上的先后顺序不影响图像处理结果。

在步骤s130,将获取的输入图像与第一噪声图像一起输入至生成神经网络,完成图像处理操作。在步骤s140,该生成神经网络输出经过图像转换处理的第一输出图像,所述第一输出图像具有3个通道,在本发明实施例中为rgb三通道。该生成神经网络经过不同的训练过程可以实现不同的图像处理,例如图像风格、场景、季节、效果或基于其他特征的图像转换。在步骤s150,将生成神经网络输出的第一输出图像与第二噪声图像一起输入至超分辨率神经网络,完成高分辨率转换处理,提升第一输出图像的分辨率,其中,所述第二噪声图像包括m个通道,m为大于等于1的正整数,在本发明实施例中,例如m可以为1,即所述第二噪声图像作为单独的通道输入至超分辨率神经网络,用于在超分辨转换过程中生成图像细节信息。在本发明的其它实施例中,例如,m也可以为3,通过将第二噪声图像的3个通道分别添加至所述第一输出图像的rgb通道中,生成包含噪声信息的第一输出图像,所述超分辨率神经网络根据所述输入图像对所述第一输出图像进行图像转换处理,此种情形在本说明书中不在赘述。

在步骤s160,该超分辨率神经网络输出提升了分辨率的第二输出图像。由于超分辨率神经网络在进行提升分辨率处理的过程中结合了第二噪声图像的信息,使得利用同一组超分辨率神经网络根据同一幅输入的图像进行的多次图像处理操作可以得到具有不同细节信息的输出结果,进一步带来转换结果的多样性。

图2中示出了用于实现上述图像处理方法的神经网络的结构示意图,其包括生成神经网络和超分辨率神经网络两部分,图3示出了图2中所述生成神经网络的具体结构图,下面将结合图2和图3对所述生成神经网络进行详细描述。

如图2所示,所述生成神经网络的输入包括输入图像的三个通道(特征),具体包括第一颜色通道、第二颜色通道和第三颜色通道,在本发明实施例中为rgb三通道,还包括所述第一噪声图像。所述生成神经网络的输出为具有3个通道的第一输出图像,在本发明实施例中为rgb三通道。所述生成神经网络包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块。生成神经网络的深度由所述下采样模块、残差模块、下采样模块的个数决定,根据具体的转换应用确定。此外,所述下采样模块和上采样模块的个数应相同,以保证输出图像与输入图像具有相同的图像尺寸。

所述下采样模块用于对输入图像和噪声图像进行卷积处理以提取图像特征,并减小特征图像的尺寸。所述残差模块在不改变特征图像尺寸的基础上通过卷积进一步处理下采样模块输出的特征图像。所述上采样模块用于对残差模块输出的所述特征图像进行放大和标准化处理,输出转换特征后的输出图像。该输出图像的转换特征由所述生成神经网络的参数决定,根据转换应用,通过使用训练图像对所述生成神经网络进行训练,优化所述参数,以实现转换目的。所述图像转换应用可以是图像风格、季节、效果、场景等的转换,例如将一幅风景图像转换为具有梵高作品特征的图像、将一幅具有夏季特征的图像转换为具有冬季特征的图像、将棕色马的图像转换为斑马的特征等,甚至可以是将猫转换为狗。

如图3所示,下采样模块包括依次连接的卷积层、下采样层和实例标准化层。

在卷积层中,一个神经元只与部分相邻层的神经元连接,卷积层可以对输入的图像应用若干个卷积核,以提取多种类型的特征。每个卷积核可以提取一种类型的特征,在训练生成神经网络的过程中,卷积核通过学习达到合理的权值。对输入的图像应用一个卷积核之后得到的结果被称为特征图像,其数目与卷积核的数目相同。每个特征图像由一些矩形排列的神经元组成,同一特征图像的神经元共享权值,即卷积核。经过一层卷积层输出的特征图像经由下一层卷积层处理后可以得到新的特征图像。例如,输入的图像经过一层卷积层处理后可以得到其内容特征,所述内容特征经由下一层的卷积层处理后可以得到风格特征。

下采样层可以对图像进行下采样处理(例如,可以是池化层),可以在不改变特征图像数量的基础上减少特征图像的尺寸,进行特征压缩,提取主要特征。此外,下采样层其可以缩减特征图像的规模,以简化计算的复杂度,在一定程度上减小过拟合的现象。

实例标准化层用于对上一层级输出的特征图像进行标准化处理,本发明实施例中为根据每个特征图像的均值和方差进行标准化。假设选定特征图像(mini-batch)的个数为t,某卷积层输出的特征数量为c,每个特征图像均为h行w列的矩阵,特征图像表示为(t,c,w,h),则标准化公式如下:

其中xtijk为某卷积层输出的特征图像集合中的第t个特征块(patch)的第i个特征图像、第j列、第k行的值。ytijk表示xtijk经过实例标准化层处理得到的结果,ε为值很小的整数,以避免分母为0。

如图3所示,在残差模块中,既包括卷积层和实例标准化层,而且还包括跨层连接,使得残差模块具有两部分,一部分为具有卷积层和实例标准化层的处理部分,另一部分为对输入的图像不进行处理的跨层部分,该跨层连接将残差模块的输入直接叠加到所述处理部分的输出。在残差模块中引入跨层连接可以给生成神经网络带来更大的灵活性。当对生成神经网络的训练完成后,在系统的部署阶段,可以判断残差模块中处理部分与跨层部分对于图像处理结果的影响程度。根据该影响程度可以对生成神经网络的结构进行一定的裁剪,以提高网络的运行效率和处理速率。例如,若通过判断,跨层连接部分对于图像处理结果的影响远大于处理部分,则在利用该生成神经网络进行图像处理时可以只使用残差模块中的跨层部分,提高网络的处理效率。

如图3所示,上采样模块包括依次连接的上采样层、实例标准化层和卷积层,用于提取输入的图像的特征,并对特征图像进行标准化处理。

所述上采样层,例如,可以是提升层(mux层),其可以对输入的若干图像进行像素交错重排处理,使得在图像数量不变的基础上,增加每个图像的尺寸。由此,mux层通过不同图像间像素的排列组合,增加了每幅图像的像素数目。图4示出了使用2*2mux层进行上采样的示意图。对于输入的4幅图像input4n、input4n+1、input4n+2和input4n+3,假设输入的图像的像素数目为a*b,经过2*2mux层的像素重排处理后,输出4幅像素数目为2a*2b的图像output4n、output4n+1、output4n+2和output4n+3,增加了每幅图像的像素信息。

在本发明实施例中,第一噪声图像通道和输入图像的n个通道(本发明实施例中为rgb通道)一起输入到所述生成神经网络中,所述输入图像和噪声图像经过上述下采样模块、残差模块和上采样模块的处理,提取其特征图像,并最终输出具有转换特征的输出图像。所述噪声图像具有随机噪声,用于生成输出图像中的细节信息,并且由于每次输入的噪声图像不同,即使对同一生成神经网络先后输入两次相同的输入图像,也可以得到具有细节差异的转换图像,丰富了转换图像中的细节信息,可以提供更好的用户体验。

图5示出了图2中所示超分辨率神经网络的结构示意图,图6示出了图2中所示超分辨率神经网络的具体结构图,下面将结合图2、图5和图6对所述超分辨率神经网络进行详细描述。

如图2所示,所述超分辨率神经网络的输入包括第二噪声图像通道以及第一输出图像的第一颜色通道、第二颜色通道和第三颜色通道。所述超分辨率神经网络的输出为经过高分辨率转换处理的第二输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道。在本发明实施例中,所述第一颜色通道、第二颜色通道和第三颜色通道为rgb通道。所述第二噪声图像具有例如高斯噪声的随机噪声,用于在超分辨率神经网络进行图像高分辨率转换的过程中生成图像细节信息,使得输出的第二输出图像既具有较高分辨率,又包括图像细节信息,即输出结果具有图像多样性。

如图5所示,所述超分辨率神经网络包括依次连接的提升模块和变换模块,其中,利用超分辨率神经网络进行高分辨率转换处理包括:利用所述提升模块对第一输出图像和第二噪声图像进行上采样处理,并输出包括亮度通道、第一色差通道和第二色差通道的第一中间图像,本发明实施例中为yuv三通道;利用所述变换模块将提升模块输出的第一中间图像变换为包括第一颜色通道、第二颜色通道和第三颜色通道的第二输出图像,本发明实施例中为rgb三通道。其中,所述第一中间图像与所述第一输出图像相比,具有提高了的图像分辨率,所述图像分辨率提高的倍数由所述提升模块的具体结构决定。在本发明实施例中,例如,所述提升模块可以将输入的图像的像素数目提升4倍,称为4*4提升模块,即,若所述第一输出图像的像素数目为m*n,则经过4*4提升模块处理后输出的第一中间图像的像素数目为4m*4n。所述增加了分辨率和图像细节信息的第一中间图像经由变换模块转换为具有rgb三通道的第二输出图像。

图6中示出了包括4*4提升模块的超分辨率神经网络的具体结构图。其中,所述4*4提升模块包括第一子网络、第二子网络和第三子网络,其中:每个子网络的输入均为第一输出图像和第二噪声图像,并且每个子网络具有相同的结构,即,包含相同个数的卷积层co和提升层mux。应了解,每个子网络的具体参数不同。在本发明实施例中,超分辨率神经网络可以包括多个提升模块,所述提升模块可以包括多个子网络,在本发明实施例中为3个子网络。应了解,所述提升模块在其他实施例中可以包括一个或多个子网络,也可以包括例如bicubic的标准技术实现图像分辨率的放大。并且,每个子网络包括至少一个提升子模块,每个提升子模块包括依次连接的至少一个卷积层和一个mux层。而且,每个子网络在多个提升子模块之后还可以包括至少一个卷积层。例如,所述每个子网络中的每个提升子模块具体包括依次连接的两个卷积层co和mux层(具体结构图如图6所示),所述卷积层co用于提取图像特征,所述mux层用于对所述卷积层提取的特征图像进行上采样处理。所述卷积层和mux层的具体功能与上述生成神经网络中的相同,在此不再赘述。

在本发明实施例中,所述第一子网络输出第一中间图像的亮度通道信息,即y通道信息,所述第二子网络输出第一中间图像的第一色差通道信息,即u通道信息,所述第三子网络输出第一中间图像的第二色差通道信息,即v通道信息。包括yuv通道的第一中间图像经过所述变换模块处理变换为包括rgb通道的第二输出图像。

本发明实施例中,通过超分辨率网络提升生成神经网络输出的具有较低分辨率的第一输出图像的分辨率,最终输出较高分辨率的第二输出图像,使得图像转换结果更能满足显示产品对于图像分辨率的要求,获得更好的用户体验。

图7示出了训练所述生成神经网络的流程图,图8示出了训练所述生成神经网络的框图。下面,结合图7和图8来具体地描述训练所述生成神经网络的过程。

在本发明实施例提供的图像处理方法中,如图7所示,所述输入图像作为第一训练图像i1,所述第一噪声图像作为第一训练噪声图像n1,在步骤s710,获取包括3个通道的第一训练图像i1,在步骤s720,获取第一训练噪声图像n1以及第二训练噪声图像n2,其中,所述噪声图像n1和n2具有不相同的随机噪声,例如,可以是随机噪声。

在步骤s730,所述生成神经网络根据所述第一训练图像i1和第一训练噪声图像n1,生成第一训练输出图像ra,并且根据所述第一训练图像i1和第二训练噪声图像n2,生成第二训练输出图像rb,利用生成神经网络根据输入图像和噪声图像对输入图像进行转换处理以输出转换图像的流程与图1中所示流程相同,在此不再具体描述。

然后,在步骤s740,基于第一训练图像i1、第一训练输出图像ra和第二训练输出图像rb训练所述生成神经网络。该训练旨在根据生成神经网络的处理结果,优化该网络中的参数,使得其可以完成转换目标。

如图8所示,步骤s740的训练所述生成神经网络的具体过程包括:将所述第一训练输出图像ra输入至鉴别神经网络,用于输出所述第一训练输出图像ra是否具有转换特征的鉴别标签;利用第一损失计算单元根据所述第一训练图像i1、第一训练输出图像ra、第二训练输出图像rb和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数。在本发明的实施例中,可以将第一训练输出图像ra与第二训练输出图像rb一起输入至鉴别神经网络,分别输出鉴别标签,一起用于训练所述生成神经网络。

如图8所示,所述第一损失计算单元包括分析网络、第一损失计算器、优化器三部分。所述分析网络的具体结构如图9所示,其由若干个卷积网络和池化层组成,用于提取输入的图像的内容特征。其中每一个卷积层的输出都是从输入的图像中提出的特征,池化层用于降低特征图像的分辨率并传递给下一个卷积层。经过每个卷积层后的特征图像都表征了输入图像在不同级别上的特征(如纹理、边缘、物体等)。在本发明实施例中,利用分析网络对第一训练图像i1、第一训练输出图像ra和第二训练输出图像rb进行处理,提取其内容特征,并将提取的内容特征输入至第一损失计算器。

所述第一损失计算器根据第一训练图像i1、第一训练输出图像ra和第二训练输出图像rb的内容特征以及鉴别标签,按照第一损失计算函数计算生成网络的损失值。第一损失计算器将计算得到的生成神经网络的总损失值输入到优化器,所述优化器根据损失值优化生成神经网络的卷积层中卷积核和偏置,以实现更接近图像转换目标的处理效果。

在本发明实施例中,第一损失计算函数包括风格差异损失函数,用于根据第一训练输出图像ra的风格特征和第二训练输出图像rb的风格特征计算所述生成神经网络的风格损失值。在分析网络(如图9所示)中,每一个卷积层的输出都是输入图像的特征。假设某个具有nl个卷积核的卷积层,其输出包含nl个特征图像,假设每个特征图像的尺寸都是ml(特征图像的宽x高)。这样l层的输出可以存储在矩阵中。表示第l层中第i个卷积核输出的特征图像中第j个位置的值。

在本发明实施例中,根据训练输出图像ra和rb之间的风格损失值来表征输出图像之间的差异。假设分别为两张输入至分析网络的图像,其在第l层输出的格拉姆(gram)矩阵分别为al和gl,则在该层的风格损失函数为:

其中el表示所述风格损失函数,c2为一常数,用于对结果进行标准化处理。nl表示分析网络中第l层中具有nl个卷积核,则该卷积层的输出中包含nl个特征图像。每个特征图像的尺寸都是ml(特征图像的宽x高)。所述gram矩阵al和gl定义为:

其中,表示在所述第l个卷积层中第i个卷积核对应的格拉姆矩阵(的风格特征)中第j个位置的值,则表示在所述第l个卷积层中第i个卷积核对应的格拉姆矩阵(的风格特征)中第j个位置的值。

因此,若分析网络通过l个卷积层提取输入的图像的风格特征,则总风格损失函数表示为:

其中,wl为第l层风格损失占总风格损失的权重。

在本发明实施例中,风格特征可以通过分析网络中多个卷积层提取,也可通过一个卷积层提取,在此不作具体限制。

因此,两幅训练输出结果ra和rb的风格差异为:

其中c3为一常数,用于对结果进行标准化处理。

为了使输出结果之间的多样性更明显,即要求两个输出结果的风格损失应该越大越好,因此,风格损失表示为:

第一损失计算器根据分析网络输出的第一训练输出图像ra和第二训练输出图像rb的风格特征,按照上述总风格损失函数lstyle计算输出图像之间的风格损失值,保证输出图像之间具有结果多样性。

在本发明实施例中,第一损失计算函数还包括内容损失函数。i1作为输入图像,ra作为第一训练输出图像,pl和fl分别为他们在分析网络中第l层的输出的特征图像,则内容损失函数的定义如下:

其中c1为一个常数,用于对结果进行标准化处理,表示在分析网络中第l个卷积层中第i个卷积核输出的fl中第j个位置的值,表示第l个卷积层中第i个卷积核输出的pl中第j个位置的值。

按照内容损失公式,根据第一训练图像i1、第一训练输出图像ra和第二训练输出图像rb在分析网络中输出的特征图像,则可计算出经过生成神经网络处理的第一训练输出图像ra和第二训练输出图像rb相对于第一训练图像的内容损失值lcontent_a和lcontent_b。

通过计算所述生成神经网络的内容损失值可以保证其输出的转换图像与输入图像保持一致性,使得输出图像在经过处理后在具有转换特征的基础上保留足够的原始信息。本发明实施例中利用生成神经网络结合内容损失函数对生成神经网络进行训练,保证转换图像与输入图像具有一致性,并且系统简单,易于训练。

本发明实施例中,第一损失计算函数还包括生成器的损失函数:

l_g=ex~pdata(x)[logd(x)]+ez~pz(z)[1-logd(g(z))]

其中,pdata为使得鉴别神经网络输出为1的图像集合。pz为生成神经网络的输入图像集合。d为鉴别神经网络,g为生成神经网络。第一计算损失计算器根据l_g计算生成神经网络的对抗损失值。

本发明实施例中,第一损失计算函数还可以包括参数正则化损失函数ll1。在神经网络中,卷积核和偏置都是需要通过训练得到的参数。卷积核决定了对输入的图像进行怎样的处理,偏置则决定了该卷积核的输出是否输入到下一层。因此,在神经网络中,偏置可形象第比喻为“开关”,决定了该卷积核是“打开”还是“关闭”。针对不同的输入图像,网络打开或关闭不同的卷积核以达到不同的处理效果。

神经网络中所有卷积核绝对值的均值为:

其中,cw为网络中卷积核的数量。神经网络中所有偏置绝对值的均值:

其中cb为网络中偏置的数量。则参数正则化损失函数为:

其中ε为一个极小的正数,用于保证分母不为0。

本发明实施例中希望卷积层中的偏置与卷积核相比具有更大的绝对值,以使得更有效的发挥偏置的“开关”的作用。训练过程中,第一计算损失计算器根据ll1计算生成神经网络的参数正则化损失值。

综上所述,生成神经网络的总损失为:

ltotal=αlcontent+βl_g+χldvst+δr

其中,r为生成神经网络的标准化损失值,α、β、χ和δ分别为总损失中内容损失值、对抗损失值、风格损失值和标准化损失值所占的权重,本发明实施例中采用上述参数正则化损失值表示标准化损失值,也可采用其他类型的正则化化损失。

在训练生成神经网络过程中使用的鉴别神经网络与所述生成神经网络一起构成一组对抗网络。所述鉴别神经网络利用若干个卷积层和池化层提取输入的图像的内容特征,并减少特征图像的尺寸,用于下一层卷积层进一步提取图像特征。再利用全连接层和激活层处理图像特征,最终输出作为输入图像是否具有转换特征的鉴别标签的标量值。所述全连接层具有和卷积神经网络相同的结构,只是用标量值替换了卷积核。所述激活层通常为relu或者sigmoid函数。在本发明实施例中,鉴别神经网络的具体结构如图10所示,其中激活层为sigmoid函数,最终输出鉴别标签。

在对抗网络中,生成神经网络将输入的图像从效果a转换成具有效果b的输出图像,所述鉴别神经网络判断输出图像是否具有效果b的特征,并输出鉴别标签。例如,若判断输出图像具有效果b的特征则输出接近于“1”,若判断输出图像不具有效果b的特征则输出“0”。通过训练,生成神经网络逐渐生成使得鉴别神经网络输出“1”的输出图像,鉴别神经网络逐渐可以更准确的判断输出图像是否具有转换特征,两者同步训练,互相对抗,以获得更优的参数。

训练所述鉴别神经网络包括:利用生成神经网络根据输入图像和第一噪声图像输出第一输出图像作为第一样本图像ra;从数据集获取样本图像rc;所述第一样本图像ra为利用生成神经网络从效果a转换为效果b得到的输出图像,相当于“假”样本。从数据集获取样本图像rc为具有效果b的“真”样本。利用鉴别神经网络对所述ra和rc进行是否具有效果b的判断,输出鉴别标签。应了解,所述第二样本图像rc天然带有“真”标签,即具有转换特征,而所述第一样本图像ra天然带有“假”标签,其经过生成神经网络的图像处理而获得转换特征。根据鉴别标签训练所述鉴别神经网络。使其逐渐能更准确的判断输入的图像是否具有相应的图像特征。

本发明实施例提供的图像处理方法中,训练所述超分辨率神经网络的流程图如图11所示,下面将结合图11对训练所述超分辨率神经网络进行详细描述。

如图11所示,在步骤s1110,获取输入图像和第一噪声图像,其中,所述输入图像具有三个通道,在本发明实施例中为rgb三通道,所说第一噪声图像具有例如高斯噪声的随机噪声,用于在图像转换过程中生成图像细节信息。在步骤s1120,生成神经网络根据获取的输入图像和第一噪声图像对所述输入图像进行图像转换处理,输出第一输出图像,所述第一输出图像作为第一样本图像r1,用于训练所述超分辨率神经网络。

在步骤s1130,获取超分辨训练噪声图像n3,在步骤s1140,从第一样本图像r1提取低分辨率图像作为超分辨训练图像i2。所述超分辨训练图像i2的分辨率低于所述第一样本图像r1的分辨率,并且包含所述第一样本图像r1的内容特征。应了解,从所述超分辨训练图像i2能够恢复出所述第一样本图像r1。

然后,在步骤s1150,利用超分辨率神经网络根据超分辨训练图像i2和超分辨训练噪声图像n3输出第二样本图像r2。所述第二样本图像r2的分辨率高于所述超分辨训练图像i2的分辨率,并且可以等于所述第一样本图像r1的分辨率。在该步骤中,通过将超分辨训练噪声图像n3和所述超分辨训练图像i2一起输入到超分辨率神经网络进行训练,用于生成输出图像中的细节信息,且由于每次输入的噪声图像各不相同,则可以在每次图像处理过程中产生有变化的图像细节,使得输出的超分辨率图像具有多样性。

在步骤s1160,根据第一样本图像r1和第二样本图像r2,通过减少所述超分辨率神经网络的成本函数优化超分辨率神经网络的参数。

在本发明实施例中,所述超分辨率神经网络的成本函数可以基于第二鉴别神经网络的鉴别标签。所述鉴别标签的生成过程包括:将第一样本图像r1和第二样本图像r2输入至第二鉴别神经网络,该第二鉴别神经网络用于评估提升了分辨率的第二样本图像r2的图像质量,并输出指示所述样本图像是超分辨率神经网络的输出图像(第二样本图像r2)还是从其中提取了低分辨率图像的原始图像(第一样本图像r1)的鉴别标签。在发明实施例中,第二鉴别神经网络可以接收具有rgb三通道的输入图像(在本发明实施例中为第二样本图像r2),并输出例如,-1或1的数字。如果输出为1,则第二鉴别神经网络认为输入的图像对应于原始的高分辨率内容(在本发明实施例中为第一样本图像r1)。如果输出为-1,则第二鉴别神经网络认为第二样本图像r2是经由生成神经网络提升分辨率后的输出图像。通过训练超分辨率神经网络以最大化第二鉴别神经网络的鉴别标签,逐渐使得该鉴别标签尽量真实。同时对第二鉴别神经网络进行训练,以准确地区分原始高分辨率图像和提升分辨率后的图像。所述超分辨率神经网络与所述第二鉴别神经网络构成一组对抗网络。两组网络交替地进行训练,从而相互竞争,并获得最佳参数。

所述第二鉴别神经网络的具体结构如图12所示,包括至少降级子模块,每个降级子模块包括依次连接的至少一个卷积层和一个降级tmux层。而且,在多个提升子模块之后,所述第二鉴别神经网络还可以包括至少一个卷积层。例如,所述每个提升子模块具体包括依次连接的两个卷积层co和tmux层。所述tmux层进行与超分辨率神经网络中的mux层相对应的降级过程,从而将输入到第二鉴别神经网络的根据第二样本图像生成的输出图像将级为与第二样本图像相同分辨率的低分辨率图像。所述tmux层对输入的图像进行降级的过程与所述mux层的提升过程相反。第二鉴别神经网络利用卷积层输出类似于其他图像质量度量(如,结构相似性(structuralsimilarityindex,ssim))的图像“iq地图(map)”。通过对“iq地图”中的所有像素平均后获得平均值作为单个数字的“鉴别标签”并输出所述鉴别标签。

本发明实施例提供一种用于实现图像转换图像处理方法,所述图像处理方法基于生成神经网络、超分辨率神经网络和内容感知进行图像转换处理。通过在输入中加入噪声图像以生成转换图像的细节信息。利用内容特征损失函数来训练所述生成神经网络,保证转换后的输出图像与输入图像具有内容一致性,利用处理结果之间的风格差异损失函数训练生成神经网络,保证输出结果之间的多样性,使得系统简单,易于训练。在此基础上,利用超分辨率神经网络提升生成神经输出的转换图像的分辨率,并且,通过减少所述超分辨率神经网络的成本函数来优化超分辨率神经网络的参数。由此利用经过训练的生成神经网络和超分辨率神经网络可以获得高分辨率的转换图像,该转换图像既包括转换特征,又能满足产品对于图像分辨率的需求。

本发明实施例还提供了一种图像处理装置,如图13所示,包括生成神经网络模块1302,用于根据输入图像和第一噪声图像对所述输入图像进行图像转换处理,以输出转换后的第一输出图像,其中,所述第一噪声图像包括n个通道,n为大于等于1的正整数。所述生成神经网络模块可以包括上述生成神经网络。本发明实施例提供的图像处理装置利用生成神经网络模块对输入图像和噪声图像进行图像转换处理,以输出转换后的输出图像。所述图像处理装置还包括超分辨率神经网络模块1304,图像处理装置利用超分辨率神经网络模块对第一输出图像和第二噪声图像进行高分辨率转换处理,输出第二输出图像,所述第二噪声图像包括m个通道,m为大于等于1的正整数,其中,所述第一噪声图像和所述第二噪声图像不相同。

所述输入图像包括第一颜色通道、第二颜色通道和第三颜色通道,在本发明实施例中为rgb通道。所述生成神经网络模块的输入包括第一噪声图像通道以及输入图像的rgb通道。所述生成神经网络模块的输出为第一输出图像,其包括第一颜色通道、第二颜色通道和第三颜色通道,在本发明实施例中为rgb通道。

所述生成神经网络模块包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块。其中:所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,所述上采样模块的个数与所述下采样模块的个数相等。

所述超分辨率神经网络模块的输入包括第二噪声图像通道以及第一输出图像的rgb通道。所述超分辨率神经网络模块的输出为包括第一颜色通道、第二颜色通道和第三颜色通道的第二输出图像,在本发明实施例中为rgb通道。

所述超分辨率神经网络模块包括依次连接的提升模块和变换模块:所述提升模块用于对第一输出图像和第二噪声图像进行上采样处理,并输出包括亮度通道、第一色差通道和第二色差通道的第一中间图像,本发明实施例中为yuv通道。所述变换模块用于将提升模块输出的第一中间图像变换为包括rgb通道的第二输出图像。其中:所述提升模块包括第一子网络、第二子网络和第三子网络,并且:每个子网络的输入均为第一输出图像和第二噪声图像;每个子网络具有相同的结构,包含相同个数的卷积层和提升层。

在本发明实施例中,所述生成神经网络模块利用第一训练图像i1和第一训练噪声图像n1进行图像转换,以输出转换后的第一训练输出图像ra,并且利用第一训练图像i1和第二训练噪声图像n2进行图像转换,以输出转换后的第一训练输出图像rb。

所述训练神经网络模块基于第一训练图像i1、第一训练输出图像ra和第二训练输出图像rb对所述生成神经网络模块进行训练。该训练旨在根据生成神经网络模块的处理结果,优化该网络中的参数,使得其可以完成转换目标。

所述训练神经网络模块包括:鉴别神经网络模块,用于输出所述第一训练输出图像ra是否具有转换特征的鉴别标签;第一损失计算单元,用于根据所述第一训练图像i1、第一训练输出图像ra、第二训练输出图像rb和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络模块的参数。例如,所述参数包括所生成神经网络模块中卷积层的卷积核和偏置。在本发明的实施例中,可以将第一训练输出图像ra与第二训练输出图像rb一起输入至鉴别神经网络模块,分别输出鉴别标签,一起用于训练所述生成神经网络。

经过训练的所述生成神经网络模块,具有优化后的参数,可以用于实现目标图像转换处理。本发明中利用第一损失计算单元,结合输入图像、第一输出图像和第二输出图像的内容特征进行训练,系统简化,更易于训练。其中,利用结果多样性损失函数保证由生成神经网络模块输出的转换图像间具有多样性。利用内容损失函数保证输出的转换图像与输入图像具有一致性,即转换后的图像既具有转换特征,又包括足够的原始图像信息,避免在图像处理过程中丢失大量的原图信息。

根据本发明实施例,所述训练神经网络模块还包括:第二鉴别神经网络模块,用于根据所述第一样本图像r1和第二样本图像r2输出指示第二样本图像r2是否具有对应于第一样本图像的内容特征的鉴别标签。所述训练神经网络模块进一步根据所述第二鉴别神经网络的输出的鉴别标签来训练所述超分辨率神经模块。例如,所述优化器通过减少所述超分辨率神经网络模块的成本函数优化所述超分辨率神经网络模块的参数。

在本发明实施例中,所述生成神经网络根据输入图像和第一噪声图像生成第一输出图像,所述第一输出图像作为第一样本图像,具有转换特征,并包括rgb通道。所述超分辨率神经网络模块还根据超分辨训练图像和获取的超分辨训练噪声图像输出第二样本图像,其中,所述超分辨训练图像是从第一样本图像提取的低分辨率图像。所述训练神经网络模块基于第一样本图像和第二样本图像,通过减少所述超分辨率神经网络模块的成本函数优化所述超分辨率神经网络模块的参数,所述参数可以包括所述超分辨率神经网络模块中卷积层的卷积核和偏置。

本发明实施例提供的用于实现图像转换图像处理装置基于生成神经网络、超分辨率神经网络和内容感知进行图像转换处理,其包括生成神经网络模块和超分辨率网络模块。通过在输入中加入噪声图像以生成转换图像的细节信息。利用内容特征损失函数来训练所述生成神经网络模块,保证转换后的输出图像与输入图像具有内容一致性,利用处理结果之间的风格差异损失函数训练生成神经网络模块,保证输出结果之间的多样性,使得系统简单,易于训练。在此基础上,利用超分辨率神经网络模块提升生成神经输出的转换图像的分辨率,并且,通过减少所述超分辨率神经网络模块的成本函数来优化超分辨率神经网络模块的参数。由此利用经过训练的生成神经网络模块和超分辨率神经网络模块可以获得高分辨率的转换图像,该转换图像既包括转换特征,又能满足产品对于图像分辨率的需求。

本发明实施例还提供了一种图像处理设备,其结构框图如图14所示,包括处理器1402和存储器1404。应当注意,图14中所示的图像处理设备的的结构只是示例性的,而非限制性的,根据实际应用需要,该图像处理装置还可以具有其他组件。

在本发明的实施例中,处理器1402和存储器1404之间可以直接或间接地互相通信。处理器1402和存储器1404等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(internetofthings)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3g/4g/5g移动通信网络、蓝牙、zigbee或者wifi等通信方式。本发明对网络的类型和功能在此不作限制。

处理器1402可以控制图像处理装置中的其它组件以执行期望的功能。处理器1402可以是中央处理单元(cpu)、张量处理器(tpu)或者图形处理器gpu等具有数据处理可以力和/或程序执行可以力的器件。中央处理器(cpu)可以为x86或arm架构等。gpu可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。gpu也可以内置于中央处理器(cpu)上。由于gpu具有强大的图像处理可以力。

存储器1404可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、闪存等。

在存储器1404上可以存储一个或多个计算机可读代码或指令,处理器1402可以运行所述计算机指令,以执行上述图像处理方法或实现上述图像处理装置。关于所述图像处理方法和所述图像处理装置的详细描述可以参考本说明书中关于图像处理方法和处理装置的相关描述,在此不再赘述。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如图像数据集以及应用程序使用和/或产生的各种数据(诸如训练数据)等。

以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1