图像增强模型训练方法、图像增强方法以及相关装置与流程

文档序号:24064369发布日期:2021-02-26 12:25阅读:108来源:国知局
图像增强模型训练方法、图像增强方法以及相关装置与流程

[0001]
本申请涉及模型训练的技术领域,特别是涉及图像增强模型训练方法、图像增强方法以及相关装置。


背景技术:

[0002]
随着互联网技术的高速发展,直播行业越来越频繁地出现在人们的视野中,为人们提供了一种新型的娱乐方式。而目前,在直播行业中,对于高帧率高分辨率的直播画面的要求越来越高,以提高用户的观感和体验。目前,主流直播视频的帧率一般为60fps,而分辨率为1080x1920。
[0003]
但是由于在各类具体的直播场景下,主播行为、设备本身等往往存在着一定程度上不可控的现象或隐患,例如:网络环境较差,无法实时传输高清视频或主播设备较差,对直播画面进行渲染时,出现噪声等现象,容易导致直播视频的质量参差不齐。
[0004]
行业内,一般采用基于块匹配的bm3d去燥算法对直播画面进行处理,但该种算法只在去燥一种维度上有效果,无法针对细节进行增强。而基于深度卷积神经网络和注意力机制的grdb算法,去燥效果明显,但运行时间较长,无法达到60帧实时的效果,也无法对细节纹理进行增强。


技术实现要素:

[0005]
本申请提供了图像增强模型训练方法、图像增强方法以及相关装置。
[0006]
本申请提供了一种图像增强模型训练方法,包括:获取到清晰样本图像和清晰样本图像对应的退化图像;对退化图像进行特征提取,得到退化图像的第一图像特征;通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征;基于第二图像特征对退化图像进行图像增强,得到预测图像;利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。
[0007]
其中,通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征的步骤包括:通过多个级联的第一残差网络对第一图像特征进行特征编码,得到编码图像特征;通过多个级联的第二残差网络对编码图像特征进行特征解码,得到与退化图像大小匹配的解码图像特征,并将解码图像特征确定为第二图像特征。
[0008]
其中,通过多个级联的第一残差网络对第一图像特征进行特征编码,得到第一图像特征的编码图像特征的步骤包括:通过至少四个依次级联的第一残差网络使用步长为2的卷积层对第一图像特征进行下采样,得到编码图像特征;其中,每个第一残差网络中还包括稠密连接的4个核尺寸为3x3的卷积层和一个核尺寸为1x1的卷积层。
[0009]
其中,通过多个级联的第二残差网络对编码图像特征进行特征解码,得到与退化图像大小匹配的解码图像特征,并将解码图像特征确定为第二图像特征的步骤包括:通过至少四个依次级联的第二残差网络使用像素重组对第一图像特征进行上采样,得到与退化图像大小匹配的解码图像特征;其中,每个第二残差网络中还包括稠密连接的4个核尺寸为
3x3的反卷积层和一个核尺寸为1x1的反卷积层。
[0010]
其中,基于第二图像特征对退化图像进行图像增强,得到预测图像的步骤包括:通过核尺寸为3x3卷积层对第二图像特征进行处理,得到高频残差信息;将高频残差信息与退化图像进行叠加,得到预测图像。
[0011]
其中,利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练的步骤包括:通过预测图像与清晰样本图像之间的差异得到图像增强模型的损失函数;通过损失函数对图像增强模型进行参数调整,以训练图像增强模型。
[0012]
其中,损失函数包括重建损失函数,感知损失函数,对抗损失函数中的至少一种。
[0013]
其中,损失函数包括重建损失函数时,通过预测图像与清晰样本图像之间的差异得到图像增强模型的损失函数的步骤包括:基于预测图像与清晰样本图像计算得到预测图像与清晰样本图像之间的曼哈顿距离;对清晰样本图像进行高斯核为设定值的高斯模糊,得到清晰样本图像的模糊图像;将清晰样本图像与模糊图像进行作差,得到清晰样本图像的纹理残差;对纹理残差进行归一化处理,得到清晰样本图像各位置的空间权重;将空间权重与曼哈顿距离相乘,得到图像增强模型的重建损失函数。
[0014]
其中,获取到清晰样本图像和对应的退化图像的步骤包括:获取到清晰样本图像,其中,清晰样本图像的分辨率超过分辨率阈值;对清晰样本图像进行转码退化和噪声退化,得到退化图像。
[0015]
其中,图像增强模型训练方法还包括:通过l1范式判断图像增强模型训练中的各卷积层中的卷积核是否重要;如果卷积核不重要,基于剪枝比例去除卷积核,并调整图像增强模型上的模型参数。
[0016]
本申请还提供了一种图像增强模型训练装置,包括:获取模块,用于获取到清晰样本图像和清晰样本图像对应的退化图像;特征提取模块,用于对退化图像进行特征提取,得到退化图像的第一图像特征;挖掘模块,用于通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征;增强模块,用于基于第二图像特征对退化图像进行图像增强,得到预测图像;训练模块,用于利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。
[0017]
本申请还提供了一种图像增强方法,包括:获取到待增强图像和图像增强模型,其中,所述图像增强模型是通过上述任一项的图像增强模型训练方法训练得到的;利用所述图像增强模型对所述待增强图像进行特征提取,得到所述待增强图像的第一图像特征;通过所述图像增强模型中多个级联的残差网络对所述第一图像特征进行特征挖掘,得到所述待增强图像的第二图像特征;通过所述图像增强模型基于所述第二图像特征对所述待增强图像进行图像增强,得到增强后的图像。
[0018]
本申请还提供了一种图像增强装置,包括:获取模块,用于获取到待增强图像和图像增强模型,其中,所述图像增强模型是通过如上述任一项的图像增强模型训练方法训练得到的;特征提取模块,用于利用所述图像增强模型对所述待增强图像进行特征提取,得到所述待增强图像的第一图像特征;挖掘模块,用于通过所述图像增强模型中多个级联的残差网络对所述第一图像特征进行特征挖掘,得到所述待增强图像的第二图像特征;增强模块,用于通过所述图像增强模型基于所述第二图像特征对所述待增强图像进行图像增强,得到增强后的图像。
[0019]
本申请还提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述图像增强模型训练方法或图像增强方法。
[0020]
本申请还提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述图像增强模型训练方法或图像增强方法。
[0021]
上述方案,通过先对退化图像进行特征提取,得到退化图像的第一图像特征,再通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征,在基于第二图像特征对退化图像进行图像增强,得到预测图像后,利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。本实施例能够通过多个级联的残差网络对第一图像特征进行特征挖掘,从而提升第一图像特征的语义表达能力,得到第二图像特征,最后利用通过第二图像特征获取到的预测图像与清晰样本图像之间的差异对图像增强模型进行训练,从而能够充分提高图像增强模型的增强效果,使得图像增强模型的输出能够在一定程度上接近清晰样本图像。
附图说明
[0022]
图1是本申请图像增强模型训练方法一实施例的流程示意图;
[0023]
图2是本申请图像增强模型训练方法另一实施例的流程示意图;
[0024]
图3是图2实施例的重建损失函数的获取流程示意图;
[0025]
图4是图2实施例图像增强模型一实施例的结构示意图;
[0026]
图5是图2实施例特征编码子网络一实施例的局部结构示意图;
[0027]
图6是图2实施例特征解码子网络一实施例的局部结构示意图;
[0028]
图7是本申请图像增强方法一实施例的流程示意图;
[0029]
图8是本申请图像增强模型训练装置一实施例的框架示意图;
[0030]
图9是本申请图像增强装置一实施例的框架示意图;
[0031]
图10是本申请电子设备一实施例的框架示意图;
[0032]
图11为本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0033]
下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0034]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0035]
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,可以存在三种关系,例如,a和/或b,可以:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般前后关联对象是一种“或”的关系。此外,本文中的“多”两个或者多于两个。
[0036]
请参阅图1,图1是本申请图像增强模型训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
[0037]
步骤s11:获取到清晰样本图像和清晰样本图像对应的退化图像。
[0038]
在对图像增强模型进行训练前,先制备训练数据集。
[0039]
在一个具体的应用场景中,可以采用具有超强渲染能力的gpu显卡或高清摄像机
录制无损超高清的样本视频,并为了去除样本内容上的冗余,可以按照预设频率抽取样本视频中的多帧图像,从而获得到清晰样本图像。其中,预设频率可以为100帧/抽、200帧/抽等,具体的预设频率可以基于实际情况而定,在此不做限定。
[0040]
其中,样本视频可以为游戏直播原画、舞蹈录屏视频、室外活动绿屏视频等视频,在此不做限定。
[0041]
在获取到了清晰样本图像后,对清晰样本图像进行退化处理,得到清晰样本图像对应的退化图像。其中,对清晰样本图像进行退化处理可以模拟各类型的样本视频在实际应用中的退化现象进行退化处理,以使得训练数据集的训练数据能够基于针对的样本类型进行强化,从而提高图像增强效果。
[0042]
步骤s12:对退化图像进行特征提取,得到退化图像的第一图像特征。
[0043]
通过图像增强模型对各退化图像进行特征提取,得到各退化图像对应的第一图像特征。
[0044]
在一个具体的应用场景中,可以通过卷积层对退化图像进行特征提取,从而获取退化图像的第一图像特征。在一个具体的应用场景中,可以基于退化图像的三通道(rgb模式)进行卷积处理,得到退化图像的多通道特征,从而得到各退化图像的第一图像特征。
[0045]
在一个具体的应用场景中,也可以通过树模型、l1,l2惩罚值或递归特征消除法对退化图像进行特征提取,从而获取退化图像的第一图像特征。在此不做限定。
[0046]
步骤s13:通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征。
[0047]
通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征。其中,通过多个级联的残差网络对第一图像特征进行特征挖掘,以丰富退化图像的图像特征,得到第二图像特征。
[0048]
在一个具体的应用场景中,可以对第一图像特征进行多次卷积处理,从而实现第一图像特征的特征挖掘,提升第一图像特征的语义表达能力。
[0049]
步骤s14:基于第二图像特征对退化图像进行图像增强,得到预测图像。
[0050]
在获取了第二图像特征后,基于第二图像特征对退化图像进行图像增强处理,得到图像增强模型的输出,即预测图像。
[0051]
步骤s15:利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。
[0052]
得到预测图像后,将预测图像和清晰样本图像之间进行对比,得到预测图像与清晰样本图像之间的差异。基于预测图像与清晰样本图像之间的差异对图像增强模型进行训练。在一个具体的应用场景中,可以设置差异阈值,并判断预测图像与清晰样本图像之间的差异是否小于差异阈值,当预测图像与清晰样本图像之间的差异不小于差异阈值时,基于预测图像与清晰样本图像之间的差异对图像增强训练模型的相关参数进行修改。当预测图像与清晰样本图像之间的差异小于差异阈值时,图像增强训练模型训练完成。
[0053]
通过上述方式,本实施例的图像增强模型训练方法通过先对退化图像进行特征提取,得到退化图像的第一图像特征,再通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征,在基于第二图像特征对退化图像进行图像增强,得到预测图像后,利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。本实施例能够通过多个级联的残差网络对第一图像特征进行特征挖掘,从而提升第一图像特征的语义表达
能力,得到第二图像特征,最后利用通过第二图像特征获取到的预测图像与清晰样本图像之间的差异对图像增强模型进行训练,从而能够充分提高图像增强模型的增强效果,使得图像增强模型的输出能够在一定程度上接近清晰样本图像。
[0054]
请参阅图2,图2是本申请图像增强模型训练方法另一实施例的流程示意图。在本实施例中,将以游戏直播原画为训练样本进行图像增强模型的训练方向进行训练。在其他实施例中,也可以采用其他的训练方向,例如舞蹈动态画面、室外画面等方向作为训练方向进行训练,或同时训练多种方向,后续退化处理也基于训练方向的实际退化现象进行处理即可,在此不做限定。
[0055]
步骤s21:获取到清晰样本图像,其中,清晰样本图像的分辨率超过分辨率阈值,对清晰样本图像进行转码退化和噪声退化,得到退化图像。
[0056]
在游戏直播中,游戏直播视频的视频质量退化类型多样化。首先是各主播的游戏引擎渲染能力有限,可能导致直播视频的原始画面即游戏原画在渲染过程中出现噪声,且局部细节模糊。而部分主播的网络环境较差,无法实时传输高清视频,导致视频在传输之前被过度压缩,产生严重的压缩噪声。
[0057]
因此,在本步骤中,可以通过具有超强渲染能力的gpu显卡对无损超高清游戏原画进行录制,得到样本视频,对样本视频进行抽帧得到清晰样本图像。在一个具体的应用场景中,清晰样本图像的分辨率需要超过分辨率阈值,以保证最终模型的训练效果,其中,分辨率阈值可以基于实际应用进行设定,在此不做限定。
[0058]
在一个具体的应用场景中,可以通过具有超强渲染能力的gpu显卡对无损超高清游戏原画进行录制10小时,包括多种热门游戏,为了去除图片内容上的冗余,对视频每100抽取一帧图像,共21600帧图像。
[0059]
对清晰样本图像进行转码退化和噪声退化,得到退化图像,其中,由于本实施例是指很对游戏直播方向进行训练,因此,本步骤的转码退化和噪声退化需要对实际中游戏直播的退化现象进行模拟。在一个具体的应用场景中,可以采用多种码率、多种转码方式以及多种量化参数,对清晰样本图像进行转码退化,再通过随机增加jpeg压缩、高斯噪声和泊松噪声等,来模拟直播流在游戏渲染和传输转码中出现的多种退化现象。在一个具体的应用场景中,可以使用5种码率(1m,2m,4m,6m和8m)和2种转码方式(h264和h265)10种量化参数(qp值)(10,15,24,28,32,36,38,40,44,48),共100种转码配置对清晰样本图像进行转码,生成低质量数据,再通过随机增加jpeg压缩、高斯噪声和泊松噪声,来模拟直播流在游戏渲染和传输转码中出现的多种退化现象,得到各清晰样本图像对应的退化图像。经过以上三步处理,可以对21600帧清晰样本图像共生成2160000个退化图像。样本中包含转码退化,噪声退化和压缩退化等多维度退化效应。其中,一帧清晰样本图像可以对应多帧不同退化现象的退化图像,以尽可能模拟实际中游戏直播中的画面退化,提高图像增强模型的鲁棒性。
[0060]
步骤s22:对退化图像进行特征提取,得到退化图像的第一图像特征。
[0061]
通过图像增强模型的特征提取子网络对退化图像进行特征提取,以得到退化图像的第一图像特征。
[0062]
在一个具体的应用场景中,可以通过二维卷积层对退化图像进行特征提取,得到退化图像的多通道第一图像特征。在一个具体的应用场景中,可以通过二维5x5卷积将图像三通道(rgb模式)映射到64通道,从而获得具有64通道特征的第一图像特征。在其他实施例
中,也可以获得其他数量的通道数的第一图像特征,在此不做限定。
[0063]
步骤s23:通过多个级联的第一残差网络对第一图像特征进行特征编码,得到编码图像特征。
[0064]
通过图像增强模型的特征编码子网络对第一图像特征进行特征编码,得到编码图像特征。具体地,图像增强模型的特征编码子网络可以包括多个级联的第一残差网络。在一个具体的应用场景中,图像增强模型的特征编码子网络可以包括四个级联的第一残差网络。
[0065]
在一个具体的应用场景中,可以通过四个依次级联的第一残差网络使用步长为2的卷积层对第一图像特征进行下采样,得到编码图像特征。在一个具体的应用场景中,也可以通过四个依次级联的第一残差网络使用步长为2的3x3卷积,进行2倍下采样,每次下采样的同时增大2倍通道数,以提升第一图像特征的语义表达能力。其中,每个第一残差网络中还包括稠密连接的4个核尺寸为3x3的卷积层和一个核尺寸为1x1的卷积层。其中,下采样过程中,虽然会提升特征的语义表达能力,但同时也会改变编码图像特征的大小,使其适配显示区域,以便于特征挖掘。
[0066]
在一个具体的应用场景中,当获得64通道的第一图像特征,将其输入至第一个第一残差网络中步长为2的3x3卷积层中进行卷积处理,再顺次输入至第一个第一残差网络中4个核尺寸为3x3的卷积层和一个核尺寸为1x1的卷积层中进行卷积处理,将第一个核尺寸为1x1的卷积层的输出结果输入至第二个第一残差网络中步长为2的3x3卷积层中进行卷积处理,再顺次输入至第二个第一残差网络中4个核尺寸为3x3卷积层和一个核尺寸为1x1的卷积层中进行卷积处理,将第二个核尺寸为1x1的卷积层的输出结果输入至第三个第一残差网络中步长为2的3x3卷积层中进行卷积处理,再顺次输入至第三个第一残差网络中4个核尺寸为3x3卷积层和一个核尺寸为1x1的卷积层中进行卷积处理,将第三个核尺寸为1x1的卷积层的输出结果输入至第四个第一残差网络中步长为2的3x3卷积层中进行卷积处理,再顺次输入至第四个第一残差网络中4个核尺寸为3x3卷积层和一个核尺寸为1x1的卷积层中进行卷积处理,最后得到编码图像特征。其中,编码图像特征的通道数为644,从而提升编码图像特征的语义表达能力。当在其他实施例中,残差网络有多个时,其处理方法与上述应用场景类似,在此不再赘述。
[0067]
步骤s24:通过多个级联的第二残差网络对编码图像特征进行特征解码,得到与退化图像大小匹配的解码图像特征,并将解码图像特征确定为第二图像特征。
[0068]
通过图像增强模型的特征解码子网络对编码图像特征进行特征解码,得到与退化图像大小匹配的解码图像特征,并将解码图像特征确定为第二图像特征。具体地,图像增强模型的特征编码子网络可以包括多个级联的第二残差网络。在一个具体的应用场景中,图像增强模型的特征编码子网络可以包括四个级联的第二残差网络。
[0069]
在一个具体的应用场景中,可以通过至少四个依次级联的第二残差网络使用像素重组对第一图像特征进行2倍上采样,上采样后减少一半的通道数,得到与退化图像大小匹配的解码图像特征;其中,每个第二残差网络中还包括稠密连接的4个核尺寸为3x3的反卷积层和一个核尺寸为1x1的反卷积层。
[0070]
具体地,当获得644通道的编码图像特征后,将其输入至第一个第二残差网络中通过像素重组(pixelshuffle)进行2倍上采样,再顺次输入至第一个第二残差网络中4个核尺
寸为3x3的反卷积层和一个核尺寸为1x1的反卷积层中进行反卷积处理,将第一个核尺寸为1x1的反卷积层的输出结果输入至第二个第二残差网络中通过像素重组进行2倍上采样,再顺次输入至第二个第二残差网络中4个核尺寸为3x3反卷积层和一个核尺寸为1x1的反卷积层中进行反卷积处理,将第二个核尺寸为1x1的卷积反层的输出结果输入至第三个第二残差网络中通过像素重组进行2倍上采样,再顺次输入至第三个第而残差网络中4个核尺寸为3x3反卷积层和一个核尺寸为1x1的反卷积层中进行反卷积处理,将第三个核尺寸为1x1的反卷积层的输出结果输入至第四个第二残差网络中通过像素重组进行2倍上采样,再顺次输入至第四个第而残差网络中4个核尺寸为3x3反卷积层和一个核尺寸为1x1的反卷积层中进行反卷积处理,最后得到解码图像特征。其中,解码图像特征的通道数为64,从而使解码图像特征的大小与退化图像适配,并将解码图像特征确定为第二图像特征,即退化图像的深度卷积特征。当在其他实施例中,残差网络有多个时,其处理方法与上述应用场景类似,在此不再赘述。
[0071]
常见的上采样方法有双线性插值、转置卷积、上采样(unsampling)和上池化(unpooling),本步骤并不对上采样的具体方法进行限定。
[0072]
步骤s25:通过核尺寸为3x3卷积层对第二图像特征进行处理,得到高频残差信息,将高频残差信息与退化图像进行叠加,得到预测图像。
[0073]
通过图像增强模型的图像重建子网络对第二图像特征进行处理,以实现对退化图像的图像增强。
[0074]
在一个具体的应用场景中,通过核尺寸为3x3卷积层对第二图像特征进行处理,得到高频残差信息。由于在特征解码过程中,将第二图像特征的大小调整到与退化图像适配,因此,本步骤的高频残差信息也与退化图像适配。将高频残差信息与退化图像进行叠加,得到预测图像。预测图像即为图像增强模型在训练过程中的输出。
[0075]
步骤s26:通过预测图像与清晰样本图像之间的差异得到图像增强模型的损失函数,通过损失函数对图像增强模型进行参数调整,以训练图像增强模型。
[0076]
通过预测图像与清晰样本图像之间的差异得到图像增强模型的损失函数,通过损失函数对图像增强模型进行参数调整,以对图像增强模型进行训练。
[0077]
在一个具体的应用场景中,损失函数包括重建损失函数,感知损失函数,对抗损失函数中的至少一种。例如:损失函数可以包括重建损失函数和感知损失函数、或损失函数可以包括重建损失函数,感知损失函数以及对抗损失函数,在此不做限定。
[0078]
请参阅图3,图3是图2实施例的重建损失函数的获取流程示意图。
[0079]
步骤s31:基于预测图像与清晰样本图像计算得到预测图像与清晰样本图像之间的曼哈顿距离。
[0080]
本实施例使用曼哈顿距离作为基础的重建损失函数,并对其进行空间内容子适应权重化。首先计算出预测图像与清晰样本图像之间的曼哈顿距离(l1距离)。
[0081]
步骤s32:对清晰样本图像进行高斯核为设定值的高斯模糊,得到清晰样本图像的模糊图像。
[0082]
对清晰样本图像进行高斯核为设定值的高斯模糊,得到清晰样本经过高斯模糊后的模糊图像。在一个具体的应用场景中,可以对清晰样本图像进行高斯核为5的高斯模糊,得到清晰样本图像对应的模糊图像。
[0083]
步骤s33:将清晰样本图像与模糊图像进行作差,得到清晰样本图像的纹理残差。
[0084]
将清晰样本图像与模糊图像进行作差,得到清晰样本图像的纹理残差。其中,纹理残差即反应了清晰样本图像中纹理差别较大的位置。
[0085]
步骤s34:对纹理残差进行归一化处理,得到清晰样本图像各位置的空间权重。
[0086]
对纹理残差进行归一化处理,得到清晰样本图像各位置的空间权重。
[0087]
步骤s35:将空间权重与曼哈顿距离相乘,得到图像增强模型的重建损失函数。
[0088]
将上一步中所获得的清晰样本图像各位置的空间权重和步骤s31中获得的预测图像与清晰样本图像之间的曼哈顿距离相乘,调整曼哈顿距离,得到图像增强模型的重建损失函数。从而内容感知权重重建损失函数可以很好地恢复退化图像的高频区域,使输出的退化图像更清晰。
[0089]
而感知损失函数的获取方法包括:首先使用vgg深度卷积网络提取预测图像和清晰样本图像的多层卷积特征,多层卷积特征同时包括低层纹理特征和高层语义特征,然后分别计算多层卷积特征图之间的余弦距离,最后对不同层的余弦距离进行加权求和,从而得到感知损失值。
[0090]
对抗损失函数使用生成对抗网络,一边学习一边通过判别网络生成损失值。
[0091]
基于上述三种损失函数,对图像增强模型的输出进行反馈,从而基于清晰样本图像修改图像增强模型的相关模型参数,完成图像增强模型的训练。
[0092]
在一个具体的应用场景中,在图像增强模型的训练过程中,为了提高图像增强模型的运行速度,可以网络剪枝方法对图像增强模型进行网络剪枝。其中,剪枝是深度学习的一种技术,目标是为了开发更小、更高效的神经网络。这是一种包括去掉权重张量中多余的值的模型优化技术。剪枝后的图像增强模型运行速度可以更快,同时也可以减少图像增强模型的计算成本。具体地,通过l1范式判断图像增强模型训练中的各卷积层中的卷积核是否重要;如果卷积核不重要,基于剪枝比例去除卷积核,并调整图像增强模型上的模型参数。
[0093]
在一个具体的应用场景中,首先在图像增强模型的各卷积层中,通过卷积核的l1范式值来判断这个卷积核是否重要。并设定剪枝比例,将该层不重要的那些卷积核直接去掉,并进行微调训练。在确定剪枝比例的时候,假定每个卷积层都是互相独立的,分别对其在不同剪枝比例下进行剪枝,并评估模型在验证集上的psnr值(峰值信躁比)和vmaf值(一种视频质量指标)的表现,做敏感分析,然后确定合理的剪枝比例。其中,在进行剪枝时,若某卷积层中的某个卷积核被去除,会导致其输出的特征图谱中的对应的通道缺失,所以要相应调整后续的归一化层和卷积层对应通道上的参数,以完整去除该卷积核,实现网络剪枝。
[0094]
在一个具体的应用场景中,当图像增强训练模型的训练结束后,在对图像增强模型进行应用前,可以对图像增强模型的部署硬件gpu进行部署量化加速。具体地,在图像增强模型的训练过程中,可以采用fp32的精度进行训练,而在图像增强模型的部署中,可以使用低精度数据int8进行部署。其中,将fp32精度降为int8精度的过程相当于信息再编码,将原来使用32比特来表示一个张量,转变为使用8比特来表示一个张量。
[0095]
在一个具体的应用场景中,可以使用线性映射(或称线性量化),将训练数据的
±
|t|映射为
±
127,超出阈值
±
|t|外的直接映射为阈值
±
127,这种映射关系称为饱和的
(saturate)。通过统计图像增强模型中每一卷积层输出结果的中激活值的分布,选取合适的阈值,将分布散乱的较大的激活值映射为127,使精度损失不至于降低太多。具体地,可以通过kl散度值(kullback

leibler divergence又称kl距离)计算t值,当激活值大于
±
|t|时,将激活值基于正负值映射为127或-127,也就是当激活值为负时,将其映射为-127,当激活值为正时,将其映射为127。而当激活值小于
±
|t|时,基于线性映射的规则将其映射到
±
127内,从而完成图像增强模型的部署量化加速,从而可以提高图像增强模型的运行速度,且在psnr指标和vmaf指标只有轻微下降的情况下,显著提升了模型的推理能力,大大降低了大规模部署的成本。
[0096]
通过上述方法,本实施例的图像增强模型训练方法通过先制备模拟游戏直播实际退化现象的退化图像,从而在一定程度保证图像增强模型能够基于游戏直播的方向进行训练,提高图像增强模型的针对性和图像增强效果。具体地,图像增强模型训练方法通过依次对退化图像进行特征提取、特征编码、特征解码和图像重建,其中,特征提取、特征编码都通过多个级联的残差网络进行特征挖掘,从而能够通过残差网络在一定程度上充分地丰富图像特征的语义表达能力,从而使得图像增强能够基于丰富后的图像特征进行增强,以直接提升图像增强模型的图像增强的效果。并通过三种损失函数对图像增强模型进行优化,以保持退化图片的空间结构,同时提高预测图像的视觉质量,并且利用标签图像丰富纹理,从而保证图像增强模型的训练效果。此外随着直播画质的提升,为后续的转码服务提供了更大的码率节省空间,可以进一步降低带宽成本
[0097]
请参阅图4-6,图4是图2实施例图像增强模型一实施例的结构示意图。图5是图2实施例特征编码子网络一实施例的局部结构示意图,图6是图2实施例特征解码子网络一实施例的局部结构示意图。
[0098]
本实施例的图像增强模型40包括特征提取子网络41、特征编码子网络42、特征解码子网络43、图像重建子网络44以及损失函数子网络45。本实施例的图像增强模型40可以使用u-net网络(图像语义分割网络)作为基础网络进行训练,在其他实施例中,也可以采用其他图像增强网络为基础网络进行训练。
[0099]
将退化图像输入至特征提取子网络41中进行特征提取,得到第一图像特征,将第一图像特征驶入到特征编码子网络42进行特征编码,得到编码图像特征,将编码图像特征输入到特征解码子网络43进行特征解码,得到解码图像特征,即第二图像特征,将第二图像特征输入到图像重建子网络44进行图像重建,得到预测图像。通过损失函数子网络45基于预测图像进行反馈处理,以修改图像增强模型40的相关参数,完成图像增强模型40的训练。
[0100]
特征提取子网络41包括二维5x5卷积层,以对退化图形进行特征提取。
[0101]
特征编码子网络42包括多个第一残差网络421,其中第一残差网络421包括:步长为2的3x3卷积rdb、核尺寸为3x3的卷积层conv1、核尺寸为3x3的卷积层conv2、核尺寸为3x3的卷积层conv3、核尺寸为3x3的卷积层conv4以及核尺寸为1x1的卷积conv5。第一图像特征输入到步长为2的3x3卷积rdb中进行处理,再依次输到各卷积层进行特征编码,最后得到编码图像特征。
[0102]
特征解码子网络43包括多个第二残差网络431,其中第二残差网络431包括:像素重组子网络4311、核尺寸为3x3的反卷积层4312、核尺寸为3x3的反卷积层4313、核尺寸为3x3的反卷积层4314、核尺寸为3x3的反卷积层4315以及核尺寸为1x1的反卷积层4316。编码
图像特征输入到像素重组子网络4311中进行处理,再依次输到各反卷积层进行特征解码,最后得到解码图像特征。其中,特征编码子网络42与特征解码子网络43是对称的。
[0103]
图像重建子网络44包括核尺寸为3x3卷积层,以对第二图像特征进行处理,得到高频残差信息。
[0104]
通过上述结构,本实施例的图像增强模型能够快速地去除退化图像上的退化现象,从而实现退化图像的图像增强。
[0105]
请参阅图7,图7是本申请图像增强方法一实施例的流程示意图。
[0106]
步骤s51:获取到待增强图像和图像增强模型。
[0107]
获取到需要进行图像增强的待增强图像和图像增强模型。在一个具体的应用场景中,待增强图像可以为直播场景下的游戏直播视频、跳舞直播视频或替他种类的直播视频或其他需要图像增强的图像。而图像增强模型可以为基于待增强图像的种类方向进行训练的图像增强模型。具体地,本实施例的图像增强模型的训练方法与上述图1实施例或图2实施例的图像增强模型训练方法相同,请参阅前文,在此不再赘述。
[0108]
在一个具体的应用场景中,当待增强图像为直播场景下的游戏直播视频时,图像增强模型可以为基于游戏直播原画为训练样本进行训练得到的图像增强模型,从而提高图像增强模型与待增强图像之间的适配性。
[0109]
在一个具体的应用场景中,图像增强模型可以包括特征提取子网络、特征编码子网络、特征解码子网络和图像重建子网络,特征提取子网络可以包括二维5x5卷积层。特征编码子网络可以包括多个第一残差网络,其中第一残差网络可以包括:步长为2的3x3卷积层、4个核尺寸为3x3的卷积层和一个核尺寸为1x1的卷积层。特征解码子网络可以包括多个第二残差网络,其中第二残差网络可以包括:像素重组子网络、4个核尺寸为3x3的反卷积层和一个核尺寸为1x1的反卷积层。图像重建子网络可以包括核尺寸为3x3卷积层。
[0110]
步骤s52:利用图像增强模型对待增强图像进行特征提取,得到待增强图像的第一图像特征。
[0111]
通过图像增强模型对待增强图像进行特征提取,得到待增强图像对应的第一图像特征。
[0112]
在一个具体的应用场景中,可以通过图像增强模型的卷积层对待增强图像进行特征提取,从而获取待增强图像的第一图像特征。在一个具体的应用场景中,可以基于待增强图像的三通道(rgb模式)进行卷积处理,得到待增强图像的多通道特征,从而得到待增强图像的第一图像特征。
[0113]
在一个具体的应用场景中,可以通过图像增强模型的特征提取子网络中的二维5x5卷积层对待增强图像进行特征提取,从而获取待增强图像的第一图像特征。
[0114]
步骤s53:通过图像增强模型中多个级联的残差网络对第一图像特征进行特征挖掘,得到待增强图像的第二图像特征。
[0115]
通过图像增强模型中多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征。其中,通过多个级联的残差网络对第一图像特征进行特征挖掘,以丰富退化图像的图像特征,得到第二图像特征。
[0116]
在一个具体的应用场景中,可以对第一图像特征进行多次卷积处理,从而实现第一图像特征的特征挖掘,提升第一图像特征的语义表达能力。
[0117]
在一个具体的应用场景中,也可以通过图像增强模型的特征编码子网络的多个第一残差网络依次对第一图像特征进行特征编码,得到待增强图像的编码图像特征。再通过图像增强模型的特征解码子网络对编码图像特征进行特征解码,得到解码图像特征,即待增强图像的第二图像特征。
[0118]
步骤s54:通过图像增强模型基于第二图像特征对待增强图像进行图像增强,得到增强后的图像。
[0119]
在获取了第二图像特征后,通过图像增强模型基于第二图像特征对待增强图像进行图像增强处理,得到图像增强模型的输出,即增强后的图像。
[0120]
在一个具体的应用场景中,可以通过图像增强模型的图像重建子网络对第二图像特征进行处理,得到高频残差信息。将高频残差信息与待增强图像进行叠加,得到增强后的图像。
[0121]
通过上述方法,本实施例的图像增强方法通过图像增强模型依次对待增强图像进行特征提取、特征编码、特征解码和图像重建,其中,特征提取、特征编码都通过多个级联的残差网络进行特征挖掘,从而能够通过残差网络在一定程度上充分地丰富图像特征的语义表达能力,从而使得图像增强能够基于丰富后的图像特征进行增强,以直接提升图像增强模型的图像增强的效果,提高增强后图像的的视觉质量。
[0122]
请参阅图8,图8是本申请图像增强模型训练装置一实施例的框架示意图。图像增强模型训练80包括获取模块81、特征提取模块82、挖掘模块83、增强模块84以及训练模块85。获取模块81用于获取到清晰样本图像和清晰样本图像对应的退化图像;特征提取模块82,用于对退化图像进行特征提取,得到退化图像的第一图像特征;挖掘模块83,用于通过多个级联的残差网络对第一图像特征进行特征挖掘,得到第二图像特征;增强模块84,用于基于第二图像特征对退化图像进行图像增强,得到预测图像;训练模块85,用于利用预测图像与清晰样本图像之间的差异对图像增强模型进行训练。
[0123]
获取模块81还用于获取到清晰样本图像,其中,清晰样本图像的分辨率超过分辨率阈值;对清晰样本图像进行转码退化和噪声退化,得到退化图像。
[0124]
挖掘模块83还用于通过多个级联的第一残差网络对第一图像特征进行特征编码,得到编码图像特征;和通过多个级联的第二残差网络对编码图像特征进行特征解码,得到与退化图像大小匹配的解码图像特征,并将解码图像特征确定为第二图像特征。
[0125]
增强模块84还用于通过核尺寸为3x3卷积层对第二图像特征进行处理,得到高频残差信息;将高频残差信息与退化图像进行叠加,得到预测图像。
[0126]
训练模块85还用于通过预测图像与清晰样本图像之间的差异得到图像增强模型的损失函数;通过损失函数对图像增强模型进行参数调整,以训练图像增强模型。
[0127]
上述方案,能够增强图像增强模型的图像增强效果。
[0128]
请参阅图9,图9是本申请图像增强装置一实施例的框架示意图。
[0129]
图像增强装置90包括获取模块91,用于获取到待增强图像和图像增强模型,其中,所述图像增强模型是通过如上述图1实施例或图2实施例的图像增强模型训练方法训练得到的;特征提取模块92,用于利用图像增强模型对所述待增强图像进行特征提取,得到所述待增强图像的第一图像特征;挖掘模块93,用于通过所述图像增强模型中多个级联的残差网络对所述第一图像特征进行特征挖掘,得到所述待增强图像的第二图像特征;增强模块
94,用于通过所述图像增强模型基于所述第二图像特征对所述待增强图像进行图像增强,得到增强后的图像。
[0130]
上述方案,能够提高待增强图像的图像质量。
[0131]
请参阅图10,图10是本申请电子设备一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,处理器102用于执行存储器101中存储的程序指令,以实现上述任一图像增强模型训练方法实施例的步骤或上述任一图像增强方法实施例的步骤。在一个具体的实施场景中,电子设备100可以包括但不限于:微型计算机、服务器,此外,电子设备100还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
[0132]
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一图像增强模型训练方法实施例的步骤。处理器102还可以称为cpu(central processing unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
[0133]
上述方案,能够增强图像增强模型的图像增强效果和提高待增强图像的图像质量。
[0134]
请参阅图11,图11为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令1101,程序指令1101用于实现上述任一图像增强模型训练方法实施例的步骤或上述任一图像增强方法实施例的步骤。
[0135]
上述方案,能够增强图像增强模型的图像增强效果和提高待增强图像的图像质量。
[0136]
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0137]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0138]
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0139]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备
(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1