一种基于NeRF的可泛化性场景渲染方法

文档序号:36090270发布日期:2023-11-18 08:41阅读:45来源:国知局
一种基于

本发明涉计算机视觉领域,具体涉及一种基于nerf的可泛化性场景渲染方法。


背景技术:

1、神经辐射场(neural radiance fields,nerf)作为一种新型的3d场景表示方式,它通过在已知视角下对场景拍摄一系列带有相机内外参的照片,用神经网络隐式编码空间点的密度和颜色,三维空间就可以被表示为一组可学习且连续的辐射场。在网络训练完成后,就可以针对该场景,在任意视角下渲染出逼真的新视角视图。

2、然而,目前很多基于nerf的新视角合成方法,通常需要大量的图像和长时间的基于特定场景的训练优化,当场景改变时,又需要重新做一遍整个训练过程,这非常不利于落地实际应用。而且由于相机附近和远处物体的细节和比例不平衡,所以现有的很多nerf模型通常会产生模糊或低分辨率的渲染。


技术实现思路

1、本发明的技术解决问题是:克服现有技术的不足,设计一种基于nerf的可泛化性场景渲染方法;同时兼顾频谱抗混叠效果,有效提升渲染质量;并且分别设计低频和高频前向推理模块,合理分配网络容量。在只拥有稀疏视角下的少量图片时,仍然可以渲染出逼真的新视角视图;同时使得模型具有跨场景泛化能力,即在之前场景训练下的模型可以被新场景充分利用,在迁移到新场景后,利用之前的先验知识直接推理。

2、为达到上述目的,本发明的技术方案具体是:

3、本发明提供一种基于nerf的可泛化性场景渲染方法,该方法包括图像外观信息编码器、图像几何信息编码器、低频前向推理模块、高频前向推理模块。实现了稀疏视角下的重建,具有跨场景渲染能力,且能兼顾远近物体的渲染质量。具体包括以下步骤:

4、步骤1:对场景进行拍摄,获取稀疏的彩色图像,通过colmap等方式得到相机内参,以及拍摄各个图像时的相机外参,随机选其中一张作为目标视角图像,剩下的作为源图像。

5、步骤2:将各个源图像通过一个共享参数的图像外观信息编码器,和一个共享参数的图像几何信息编码器,得到和源图像像素对齐的外观特征图和几何特征图,将这两个特征图双线性插值到和输入图像同样的大小。

6、步骤3:从目标视角发出光线,沿光线在空间先进行粗采样,即均匀采样,得到采样点的方向d、坐标x和距离目标相机光心的距离ttgt。将采样点参数化成各向同性的三维高斯分布,其均值就是采样点所在的空间位置坐标,方差为rttgt·λ,其中r是世界坐标系下像素的实际宽度,λ是手动调的一个超参数。

7、采样过程中每条光线上的采样点会随模型训练不断地被重采样,使采样点逐渐集中在物体表面。

8、步骤4:将目标相机下沿着某一光线上的采样点用三维各向同性高斯分布参数化,把它投影到各个源视角的外观特征图和几何特征图上,得到特征查询范围。该范围上的权重分布服从二维高斯分布,其均值就是采样点投影到特征图上的位置,其方差为rtsrc·η,其中η是一个超参数,tsrc是采样点距离源相机的距离。利用该权重对查询范围内的特征进行加权求期望,得到该采样点对应在各个源视图下的外观和几何特征信息。

9、步骤5:将粗采样点的坐标参数化成一个各向同性的三维高斯分布,对采样点的方向和参数化高斯分布的位置进行傅里叶编码,傅里叶编码公式为:

10、γ(x)=[sin(x),cos(x),…,sin(2l-1x),cos(2l-1x)]t

11、x为任意变量;l是一个超参数。

12、将粗采样点对应在各个源图像上的几何特征信息做平均池化,得到合成几何特征,连同傅里叶编码一起送入低频前向推理模块,得到粗采样点的密度值。

13、步骤6:根据粗采样点的密度值和采样点之间的间隔,可算出每个采样点对应的权重(这里的权重就是体渲染时颜色值前的权重系数)。将粗采样点的权重除以权重和,归一化得到分段常数式的概率密度函数;再根据这个概率密度函数,进行接下来的细采样。将细采样点进行步骤5中同样的傅里叶编码后,然后再按步骤4的方式,得到细采样点对应在各个源视角特征图上的外观特征,做平均池化得到合成外观特征,连同细采样点的傅里叶编码一起送入高频前向推理模块,得到细采样点的密度值和颜色值。

14、步骤7:将光线上所有细采样点的密度值和颜色值,通过体渲染得到预测像素值。最后将预测像素值与目标视角下的图像真值计算损失函数

15、步骤8:同步骤6算出沿着光线上所有细采样点的权重分布,即概率密度函数。设置损失函数来用细采样点的权重分布引导更新粗采样点的权重分布,将两个损失函数和相加作为最终损失函数,对模型参数应用反向传播算法进行优化,直到收敛。

16、本发明与现有技术相比的优点在于:(1)将图像中的外观信息和几何信息解耦开,编码器可作为通用场景特征提取器,根据输入图像,编码出符合新数据的外观特征和几何特征,充分利用输入图像的二维先验信息。(2)合理分配网络容量,低频前向推理模块采用很小的mlp,用于几何轮廓的预测;高频前向推理模块采用稍大一些的mlp,用于学习几何细节信息和外观颜色信息。(3)考虑采样点的尺度问题,一方面将采样点参数化成一个各向同性的三维高斯分布;另一方面投影到特征图时也对应一片区域,对这片区域的特征进行加权。从而实现一定的自适应滤波功能,从而远近物体都能有较好的渲染质量。



技术特征:

1.一种基于nerf的可泛化性场景渲染方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,步骤2中,该图像外观信息编码器和图像几何信息编码器均使用去掉最后一层的resnet50,并加载其在imagenet训练后的预训练权重,记第i张图片为i(i),编码得到各个源图像的特征图f(i)=e(i(i))。

3.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,步骤4中,第i张图片为i(i),从世界坐标系到其对应相机坐标系下的转换矩阵记为p(i),其中p(i)=[r(i)t(i)],r是旋转矩阵,t是平移向量,对于目标视角下沿光线上的采样点x,转换到每个源相机坐标系下,变换后的坐标为x(i)=p(i)x,然后再乘内参矩阵得到各个源图像坐标系下的图像坐标π(x(i)),据此在特征图上找到相应位置,即二维高斯分布的均值。

4.根据权利要求1所述的可泛化性场景渲染方法,其特征在于,特征查询范围的确定是将采样点参数化的三维高斯分布的3σ边界与源相机光心相连,特征图上被截取的范围就是步骤4中的特征查询范围。

5.一种基于nerf的可泛化性场景渲染方法,其特征在于,该方法的推理过程,包括如下步骤:


技术总结
本发明公开了一种基于NeRF的可泛化性场景渲染方法,采用图像外观信息编码器、图像几何信息编码器、低频前向推理模块、高频前向推理模块,在目标视角下沿光线在空间进行采样,为了减轻采样过程中容易导致的频谱混叠问题,将每个采样点参数成一个某种尺度下各向同性的高斯分布,并将采样点投影到其他已知视角下,利用上述模块,可得到对应点的颜色值和密度值,在得到辐射场和密度场后,沿着整条光线,用体渲染技术得到对应像素点的像素值。相比于现有技术,本发明提出的新视角合成方法,可在输入少量带有相机内参、外参的图片下,获得较好的新视角合成效果;同时具有较好的跨场景渲染能力。

技术研发人员:袁丁,张思哲,张弘,杨一帆
受保护的技术使用者:北京航空航天大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1