本发明涉及摄像技术领域,具体是一种基于深度卷积神经网络的新视角合成方法。
背景技术:
在电子商务等业务中,存在使用多视角图片序列展示物品的需求,更稠密的视角会有更好的展示效果,但图片序列大小受网络传输等条件的限制,只能保存较少的视角图像,为了能在较少的视角基础上得到更好的展示效果,可以利用已有视角的图像合成新视角。
神经网络由多个神经元计算单元组成,神经元由线性计算模块和非线性模块组合而成,通过梯度的反向传播方法,神经网络具有较强的拟合能力。而深度神经网络通过叠加多层的计算模块,增强了拟合能力,而卷积神经网络,善于在类似图像这类在空间维度上具有较强相关性的数据格式上的数据拟合能力。深度卷积神经网络在图像分类、检测、风格迁移等领域有丰富的研究成果。
技术实现要素:
发明目的:为了解决现有技术的不足,本发明所述的一种基于深度卷积神经网络的新视角合成方法,使用深度卷积神经网络合成新视角,输入拍摄同一物体的相邻视角,输出中间视角的图像内容。
技术方案:为了实现上述目的,本发明所述的一种基于深度卷积神经网络的新视角合成方法,其特征在于:该方法包括以下步骤:
(一)、对拍摄物体稠密的多视角图像做训练数据,采样重复内容较多的一对视角作为输入,选取这对视角的中间视角作为预测输出训练网络参数;
(二)、使用深度预测网络预测图像内容的深度;
(三)、使用相机位姿变换预测网络预测第一帧到第二帧的相机视角变换;
(四)、使用新视角预测网络根据图像深度信息和视角变换信息预测新视角内容;
(五)、网络训练时先对相机位姿预测网络进行单独训练,再将三个网络联合在一起做训练。
作为本发明的进一步优选,步骤一中,拍摄稠密的视角图像作为真值训练网络预测新的视角的图像。
作为本发明的进一步优选,所述步骤二中,通过设计深度卷积神经网络预测图像内容深度。
作为本发明的进一步优选,所述步骤三中,通过设计深度卷积神经网络预测相机视角变换。
作为本发明的进一步优选,步骤四中通过使用深度卷积神经网络合成新视角图像。
作为本发明的进一步优选,步骤四中,通过设计深度卷积神经网络根据预测的深度信息与视角变换信息来预测新视角内容。
作为本发明的进一步优选,所述步骤五中,通过训练网络时先对相机视角变换预测网络进行预训练。
有益效果:本发明所述的一种基于深度卷积神经网络的新视角合成方法,通过使用深度卷积神经网络合成新视角,在较少的视角上也可以绘制出稠密的视角图像,优化展示效果。
附图说明
图1为物体稠密视角拍摄示意图;
图2为左视角、中间视角、右视角位置示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步的详细说明,但并不局限于此,凡是对本发明技术方案进行修改或者同等替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
实施例
步骤一、拍摄稠密的物体视角作为训练数据:
如图1拍摄稠密的物体视角,视角之间的相机位姿变换是已知的,且相邻视角间的位姿变换相等,在这些视角中选取相邻的三个视角作为一个数据样本,按照从左到右分为左视角、中间视角、右视角。网络的输入为左视角和右视角,预测的内容为中间视角。
步骤二、深度预测网络输出图像内容的深度预测;
深度预测网络为全卷积深度神经网络,由多个隐层叠加而成,隐层有线性的卷积运算和非线性的激活函数组成,将左视角、右视角两张图片的像素信息拼接在一起,设左视角为p1,右视角为p2,图片的第i个像素可以表达为。
p(i)={r,g,b}
其中r、g、b分别为红色、绿色、蓝色像素分量。
将两图的相同坐标位置的像素值拼接,得到网络输入:
pinput(i)={p1(i).r,p1(i).g,p1(i).b,p2(i).r,p2(i).g,p2(i).b}
网络输出为对图1内容的深度预测,深度预测的尺寸与输入图像一致,每个像素的值为深度值。
d(i)={d}
步骤三、相机位姿变换预测网络预测左视角和右视角之间的相机位姿变换:
相机位姿变换预测网络为卷积深度神经网络,由多个隐层叠加而成,隐层有线性的卷积运算和非线性的激活函数组成,最终层为全连接层预测8维向量,作为对偶四元数描述相机位姿的变化,与步骤二中的输入一致,
pinput(i)={p1(i).r,p1(i).g,p1(i).b,p2(i).r,p2(i).g,p2(i).b}
输出对偶四元数:
步骤四、使用新视角预测网络根据图像深度信息和视角变换信息预测新视角内容:
左视角到右视角的相机变换为:
左视角到中间视角的相机变换为:
右视角到中间视角的相机变换为:
左视角的深度预测d1,右视角的深度预测d2,将对偶四元数转换为变换矩阵r,深度转化为点云格式p={x,y,z},rp1的齐次部分为从左视角预测中间视角每个像素对应的新的像素坐标。rp2的齐次部分为从右视角预测中间视角每个像素对应的新的像素坐标。
将左右视角的原图、预测中间视角结果、深度预测结果,以步骤三中的方法拼接,输入新视角预测网络中,输出为中间视角图像内容。
步骤五、网络训练时先对相机位姿预测网络进行单独训练,再将三个网络联合在一起做训练:
因在采集物体多视角图像时已经记录了视角变换的真值数据,所以先用此数据训练相机位姿变换预测网络,训练至收敛时再与深度预测网络,新视角预测网络联合训练。变换预测结果为qoutput,真值为qgt,
引导相机位姿变换预测网络训练的损失函数为
联合训练指将深度预测网络、相机位姿预测网络的输出经过步骤四的处理输入新视角预测网络,输出新视角的预测结果poutput与采集到的视角的真值pgt做l2的残差。以此作为监督信号进行训练。
引导联合训练的损失函数为