一种基于强化学习框架的白盒照片后期处理方法与流程

文档序号:15096627发布日期:2018-08-04 14:43阅读:187来源:国知局

本发明涉及照片后期处理领域,尤其是涉及了一种基于强化学习框架的白盒照片后期处理方法。



背景技术:

随着数码时代的到来,照片在工作生活的各个方面随处可见,想要获得图像效果出色、构图和色彩都十分完美的照片,除了前期的拍摄技巧,还要掌握图像处理技术。照片后期处理除了用于日常摄影外,还可用于刑侦、交通等领域。具体地,在刑侦领域,由于刑事案件现场采集的照片可能存在光线过暗、照片偏色等问题影响证据的直观性,因此通过对采集的照片进行图像去模糊、补充光线等后期处理,可以达到还原现场、人像辨认和物证鉴定等目的。在交通领域,对于道路上摄像机闪光灯导致车牌高光溢出,使照片难以辨认的问题,利用照片后期处理能去除过度曝光,可以得到具有清晰车牌的照片。虽然对基于深度学习的照片后期处理技术研究颇多,但用户难以获得反映其处理偏好的配对图像且应用范围较小,因此在基于强化学习框架的白盒照片后期处理上依然存在挑战。

本发明提出的一种基于强化学习框架的白盒照片后期处理方法,首先使用深度卷积神经网络构建系统,学习在输入图像上应用的不同操作,然后通过将这些操作以统一的方式建模,对各种类型的编辑进行训练,最后为了以适当的顺序和适当的参数应用滤波器,采用强化学习方法,学习如何根据图像的当前状态决定下一步要采取的行动。本发明解决了用户难以获得反映其处理偏好的配对图像且应用范围较小的问题,通过基于强化学习框架的后期处理模型,可以学习用户的处理偏好并生成处理结果,应用范围更广泛。



技术实现要素:

针对照片后期处理中用户难以获得反映其处理偏好的配对图像且应用范围较小的问题,本发明的目的在于提供一种基于强化学习框架的白盒照片后期处理方法,首先使用深度卷积神经网络构建系统,学习在输入图像上应用的不同操作,然后通过将这些操作以统一的方式建模,对各种类型的编辑进行训练,最后为了以适当的顺序和适当的参数应用滤波器,采用强化学习方法,学习如何根据图像的当前状态决定下一步要采取的行动。

为解决上述问题,本发明提供一种基于强化学习框架的白盒照片后期处理方法,其主要内容包括:

(一)后期处理模型;

(二)滤波器设计;

(三)网络学习。

其中,所述的后期处理模型,给定一张需要进行后期处理的原始图像,由于摄影师无法仅查看原始输入图像来确定完整的操作序列,为了避免直接从输入推断最终输出,利用一个自动修饰系统进行反馈,有效地学习如何根据反馈的信息选择和应用单个操作,并把后期处理作为决策序列模拟一个连续的决策问题。

进一步地,所述的决策序列,把强化学习(RL)问题表示为S是状态空间,是动作空间,特别地,在照片后期处理任务中,S表示图像空间,其中包括输入的原始图像和自动处理中产生的所有中间结果,而表示所有滤波器操作的集合,转移函数在采用后将输入状态s∈S映射到其结果状态s′∈S,状态转移表示为Si+1=p(si,ai),在输入的原始图像上应用一系列的滤波器以产生状态和动作轨迹:

t=(s0,a0,s1,a1,…,sN-1,aN-1,sN) (1)

其中,分别表示状态和动作,N是动作次数,SN是停止状态,RL的中心元素通过奖励函数来评估状态执行的步骤,为了在决策过程中选择一个最大化累积奖励的策略π,使用一个随机策略代理,其中策略将当前状态s∈S映射到上,表示行为上的概率密度函数集合,当代理策略进入一个状态时,它根据概率密度函数对所执行的动作进行采样,收到采样信息后跟随转换函数进入下一个状态。

进一步地,所述的轨迹,给定轨迹t=(s0,a0,s1,a1,…,sN),将回归定义为sk后的折扣回报的总和,通过以下公式给定:

其中γ∈[0,1]是一个折算系数,为了评估策略,确定以下目标:

其中s0是输入图像,代表期望值,S0是输入数据集,直观地说,目标描述了策略π产生的所有可能轨迹的预期回报,代理任务的目的是最大化目标J(π),该目标与回报函数r中获得的最终图像质量相关,因为图像质量越高,回报越大。

进一步地,所述的状态,状态和状态动作对的预期总折扣回报由状态值函数V和动作值函数Q定义:

为了将后期问题适配到RL框架中,将动作分解为两部分:过滤器a1的离散选择和过滤器a2的连续决策,该策略还包括两部分:π=(π1,π2),π1是取得一个状态并在过滤器上返回概率的函数,π2是(s,a1)后直接生成a2的函数,其中π1是随机的,需要进行采样,由于抽样连续随机变量在应用中存在挑战,因此根据最近的实验,通过确定性来处理π2。

其中,所述的滤波器设计,框架系统要求设计遵循以下原则:可微性、分辨率无关性和易理解性;

(1)可微性:对于策略π基于梯度的优化,滤波器的滤波参数是不同的,这种差异性需要通过反向传播来训练卷积神经网络(CNN),并不是所有的过滤器都可以被简单地建模为基本的神经网络层,因此将滤波器的近似值纳入RL的框架中;

(2)分辨率无关性:现代数字传感器以高分辨率捕获原始图像,对于CNN处理来说这是不切实际的,在如此高的分辨率情况下,大多数编辑调整可以在没有检查图像的情况下确定,从而允许在原始图像的缩减采样版本上操作,具体地先在原始图像的低分辨率版本上确定滤波参数,然后在原始高分辨率图像上应用相同的滤波数据;

(3)易理解性:滤波器应该具有直观意义的操作,以便生成的操作序列可以被用户理解,并能够进一步调整参数;

基于上述的设计原则,设计一个将输入像素值pI=(rI,gI,bI)映射为输出像素值pO=(rO,yO,gO)的滤波器,并修改标准色彩和色调,例如曝光变化、白平衡和色彩曲线调整等,按像素映射功能进行建模。

其中,所述的网络学习,在丰富数据的复杂学习任务中使用深度神经网络(DNN)作为一种端到端的解决方案,由于CNN在图像理解任务中功能强大,因此在框架中使用CNN,在CNN中有两个策略网络,将图像映射到行动概率π1或滤波参数π2,对于策略π1和π2,网络参数分别表示为θ1和θ2,优化θ=(θ1,θ2),使得目标J(πθ)最大化。

进一步地,所述的学习任务,除了两个策略网络之外,还学习一个估值网络和一个鉴别网络,以便于后面的网络训练:每个CNN使用四个卷积层,每个卷积层的大小为4×4,步长为2,其步骤是完全连接层,将输出数量减少到128,从每个网络进一步回归特征到参数上,第一个完全连接层之后在训练和测试期间按50%的概率舍弃神经网络单元,为生成器提供噪声,用于参数估计的确定性策略网络共享卷积层,使计算更有效。

进一步地,所述的鉴别网络,在鉴别网络中,附加的特征平面用于整个图像的平均亮度、对比度和饱和度;对于策略和估值网络,特征平面的值为0或1,它们指示已被使用的过滤器,另一个平面表示目前为止在处理过程中已采取的步骤数,策略网络使用策略梯度方法进行训练,由于策略π由两个决策步骤相对应的两个部分即(π1,π2)组成,所以它们以交叉的方式进行学习。

进一步地,所述的网络,网络中设置的回报系数和折扣系数的最终目标是在所有操作之后获得最好的结果,为此,将回报设置为质量得分项和惩罚项进行改进,将折扣系数设置为γ=1,并允许代理对输入图像进行五次编辑,可以平衡操作序列的表现力和简洁性。

附图说明

图1是本发明一种基于强化学习框架的白盒照片后期处理方法的系统框架图。

图2是本发明一种基于强化学习框架的白盒照片后期处理方法的滤波器设计原则图。

图3是本发明一种基于强化学习框架的白盒照片后期处理方法的不同滤波器的效果图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于强化学习框架的白盒照片后期处理方法的系统框架图。主要包括后期处理模型、滤波器设计、网络学习。

进一步地,所述的决策序列,把强化学习(RL)问题表示为S是状态空间,是动作空间,特别地,在照片后期处理任务中,S表示图像空间,其中包括输入的原始图像和自动处理中产生的所有中间结果,而表示所有滤波器操作的集合,转移函数在采用后将输入状态s∈S映射到其结果状态s′∈S,状态转移表示为Si+1=p(si,ai),在输入的原始图像上应用一系列的滤波器以产生状态和动作轨迹:

t=(s0,a0,s1,a1,…,sN-1,aN-1,sN) (1)

其中,分别表示状态和动作,N是动作次数,sN是停止状态,RL的中心元素通过奖励函数来评估状态执行的步骤,为了在决策过程中选择一个最大化累积奖励的策略π,使用一个随机策略代理,其中策略将当前状态s∈S映射到上,表示行为上的概率密度函数集合,当代理策略进入一个状态时,它根据概率密度函数对所执行的动作进行采样,收到采样信息后跟随转换函数进入下一个状态。

进一步地,所述的轨迹,给定轨迹t=(s0,a0,s1,a1,…,sN),将回归定义为sk后的折扣回报的总和,通过以下公式给定:

其中γ∈[0,1]是一个折算系数,为了评估策略,确定以下目标:

其中s0是输入图像,代表期望值,S0是输入数据集,直观地说,目标描述了策略π产生的所有可能轨迹的预期回报,代理任务的目的是最大化目标J(π),该目标与回报函数r中获得的最终图像质量相关,因为图像质量越高,回报越大。

进一步地,所述的状态,状态和状态动作对的预期总折扣回报由状态值函数V和动作值函数Q定义:

为了将后期问题适配到RL框架中,将动作分解为两部分:过滤器a1的离散选择和过滤器a2的连续决策,该策略还包括两部分:π=(π1,π2),π1是取得一个状态并在过滤器上返回概率的函数,π2是(s,a1)后直接生成a2的函数,其中π1是随机的,需要进行采样,由于抽样连续随机变量在应用中存在挑战,因此根据最近的实验,通过确定性来处理π2。

图2是本发明一种基于强化学习框架的白盒照片后期处理方法的滤波器设计原则图。框架系统要求设计遵循以下属性:可微性、分辨率无关性和易理解性;

(1)可微性:对于策略π基于梯度的优化,滤波器的滤波参数是不同的,这种差异性需要通过反向传播来训练卷积神经网络(CNN),并不是所有的过滤器都可以被简单地建模为基本的神经网络层,因此将滤波器的近似值纳入RL的框架中;

(2)分辨率无关性:现代数字传感器以高分辨率捕获原始图像,对于CNN处理来说这是不切实际的,在如此高的分辨率情况下,大多数编辑调整可以在没有检查图像的情况下确定,从而允许在原始图像的缩减采样版本上操作,具体地先在原始图像的低分辨率版本上确定滤波参数,然后在原始高分辨率图像上应用相同的滤波数据;

(3)易理解性:滤波器应该具有直观意义的操作,以便生成的操作序列可以被用户理解,并能够进一步调整参数。

图3是本发明一种基于强化学习框架的白盒照片后期处理方法的不同滤波器的效果图。用+0.5的偏移量表示梯度,以便可以正确查看负值。对于白平衡滤波器,将红色通道参数的梯度可视化;对于色调曲线和颜色曲线,将曲线的第一个参数进行区分。基于上述设计原则,设计一个将输入像素值pI=(rI,gI,bI)映射为输出像素值pO=(rO,yO,gO)的滤波器,并修改标准色彩和色调,例如曝光变化、白平衡和色彩曲线调整等,按像素映射功能进行建模。

其中,所述的网络学习,在丰富数据的复杂学习任务中使用深度神经网络(DNN)作为一种端到端的解决方案,由于CNN在图像理解任务中功能强大,因此在框架中使用CNN,在CNN中有两个策略网络,将图像映射到行动概率π1或滤波参数π2,对于策略π1和π2,网络参数分别表示为θ1和θ2,优化θ=(θ1,θ2),使得目标J(πθ)最大化。

进一步地,所述的学习任务,除了两个策略网络之外,还学习一个估值网络和一个鉴别网络,以便于后面的网络训练:每个CNN使用四个卷积层,每个卷积层的大小为4×4,步长为2,其步骤是完全连接层,将输出数量减少到128,从每个网络进一步回归特征到参数上,第一个完全连接层之后在训练和测试期间按50%的概率舍弃神经网络单元,为生成器提供噪声,用于参数估计的确定性策略网络共享卷积层,使计算更有效。

进一步地,所述的鉴别网络,在鉴别网络中,附加的特征平面用于整个图像的平均亮度、对比度和饱和度;对于策略和估值网络,特征平面的值为0或1,它们指示已被使用的过滤器,另一个平面表示目前为止在处理过程中已采取的步骤数,策略网络使用策略梯度方法进行训练,由于策略π由两个决策步骤相对应的两个部分即(π1,π2)组成,所以它们以交叉的方式进行学习。

进一步地,所述的网络,网络中设置的回报系数和折扣系数的最终目标是在所有操作之后获得最好的结果,为此,将回报设置为质量得分项和惩罚项进行改进,将折扣系数设置为γ=1,并允许代理对输入图像进行五次编辑,可以平衡操作序列的表现力和简洁性。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1