本公开涉及机器学习,尤其涉及nerf模型的构建方法、装置、设备及存储介质。
背景技术:
1、nerf是一种用于三维场景重建和渲染的深度学习模型,其全称为“neuralradiance fields”。nerf模型的主要思想是将一个三维场景表示为一个由深度神经网络构造的神经辐射场,实现对场景的三维重建和高质量的图像生成。相关技术中,用户要获得所需的特定目标的nerf模型,需要使用一组从不同视角对该特定目标进行拍摄的拍摄图像对模型进行训练。
技术实现思路
1、为克服相关技术中存在的问题,本公开提供了nerf模型的构建方法、装置、设备及存储介质。
2、根据本说明书实施例的第一方面,提供一种nerf模型的构建方法,所述方法包括:
3、获取目标三维模型在从预设的多个视角中指定的参考视角的深度图;以及,与所述参考视角对应的特征图;
4、将所述参考视角的深度图与用户输入的提示文本输入至图像生成模型,并获取所述图像生成模型生成的具有与所述深度图相同的深度信息、并且与所述提示文本提示的风格匹配的风格图;
5、基于所述参考视角的特征图中包含的各个特征向量和所述各个特征向量在所述风格图中对应的位置上的像素值构建训练样本,并基于所述训练样本训练预设的神经网络模型,以及基于训练完成的所述神经网络模型生成与所述多个视角中除所述参考视角之外的其它各个视角对应的风格图;
6、基于与所述多个视角中的各个视角对应的风格图训练与所述目标三维模型对应的nerf模型。
7、根据本说明书实施例的第二方面,提供一种nerf模型的构建装置,包括:
8、获取模块,获取目标三维模型在从预设的多个视角中指定的参考视角的深度图;以及,与所述参考视角对应的特征图;
9、风格图生成模块,将所述参考视角的深度图与用户输入的提示文本输入至图像生成模型,并获取所述图像生成模型生成的具有与所述深度图相同的深度信息、并且与所述提示文本提示的风格匹配的风格图;
10、神经网络模型处理模块,基于所述参考视角的特征图中包含的各个特征向量和所述各个特征向量在所述风格图中对应的位置上的像素值构建训练样本,并基于所述训练样本训练预设的神经网络模型,以及基于训练完成的所述神经网络模型生成与所述多个视角中除所述参考视角之外的其它各个视角对应的风格图;
11、nerf模型训练模块,基于与所述多个视角中的各个视角对应的风格图训练与所述目标三维模型对应的nerf模型。
12、根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面所述方法实施例的步骤。
13、根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述方法实施例的步骤。
14、本说明书的实施例提供的技术方案可以包括以下有益效果:
15、本说明书实施例中,可以基于目标三维模型在参考视角的深度图以及用户输入的提示文本,由图像生成模型生成的具有与深度图相同的深度信息、并且与提示文本提示的风格匹配的风格图;之后,由神经网络模型学习到参考视角的特征图中各个特征向量与特征向量在风格图中对应位置的像素值的对应关系,利用神经网络模型来推导出其他视角的风格图。如此,本实施例可以自动模拟生成高质量的多个视角的图像,而无需用户真实拍摄,可以快速构建出高质量的nerf模型。
16、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
1.一种nerf模型的构建方法,所述方法包括:
2.根据权利要求1所述的方法,所述其它各个视角中的任一目标视角对应的风格图,是通过如下方式生成的:
3.根据权利要求2所述的方法,所述基于获取到的与所述各个特征向量对应的像素值进一步生成与所述目标视角对应的风格图,包括:
4.根据权利要求2所述的方法,所述多个视角中任一视角的特征图中包含的各个特征向量包括:由针对所述目标三维模型中包含的特征点的坐标值进行特征映射得到的特征值构成的特征向量。
5.根据权利要求2所述的方法,所述多个视角中任一视角对应的特征图,是对与该视角对应的渲染图集合中包含的各渲染图的特征图进行拼接得到的;
6.根据权利要求5所述的方法,所述着色三维模型包括:与三维坐标系中的三个坐标轴中的每一坐标轴分别对应的着色三维模型;与任一坐标轴对应的着色三维模型是通过将所述目标三维模型中的每个特征点在该坐标轴上的坐标值映射为颜色值后得到的三维模型;
7.根据权利要求5所述的方法,所述着色三维模型是对所述目标三维模型中包含的每个特征点的坐标值进行归一化,并将归一化后得到的坐标值映射为颜色值后得到的三维模型。
8.根据权利要求1所述的方法,所述目标三维模型,包括:将用户输入的三维模型去除颜色信息后得到的未携带颜色信息的三维模型。
9.根据权利要求5所述的方法,与所述多个视角中的任一视角对应的特征图,是通过如下方式获取的:
10.根据权利要求9所述的方法,与所述m个卷积层中任一卷积层对应的张量,是针对由该卷积层分别从输入的各张渲染图中提取到的特征图在channel维度上进行拼接得到;
11.根据权利要求10所述的方法,与所述m个卷积层中任一卷积层对应的张量,是针对由该卷积层分别从输入的各张渲染图中提取到的特征图转换为预设大小之后在channel维度上进行拼接得到的。
12.根据权利要求9所述的方法,所述卷积神经网络模型包括:vgg卷积神经网络模型。
13.根据权利要求3所述的方法,与所述各个特征向量对应的像素值构成的图像,是通过创建与所述参考视角的风格图相同大小的待赋值图像后,基于与所述各个特征向量对应的像素值,针对所述待赋值图像中与所述各个特征向量分别对应的像素位置进行像素赋值得到的图像。
14.根据权利要求3所述的方法,所述参考视角的风格图的描述文本,是将所述参考视角的风格图输入至基于预训练的视觉生成文本模型后,由所述视觉生成文本模型生成的用于描述所述参考视角的风格图的图片风格的描述文本。
15.根据权利要求14所述的方法,所述基于预训练的视觉生成文本模型包括:blip模型。
16.根据权利要求1所述的方法,所述图像生成模型包括:带有控制网络的扩散模型。
17.根据权利要求1所述的方法,所述预设的神经网络模型包括:多层感知机。
18.一种nerf模型的构建装置,所述装置包括:
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至17任一所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至17任一所述方法的步骤。