NeRF模型的构建方法、装置、设备及存储介质与流程

文档序号：37147459发布日期：2024-02-26 17:00阅读：13来源：国知局

本公开涉及机器学习，尤其涉及nerf模型的构建方法、装置、设备及存储介质。

背景技术：

1、nerf是一种用于三维场景重建和渲染的深度学习模型，其全称为“neuralradiance fields”。nerf模型的主要思想是将一个三维场景表示为一个由深度神经网络构造的神经辐射场，实现对场景的三维重建和高质量的图像生成。相关技术中，用户要获得所需的特定目标的nerf模型，需要使用一组从不同视角对该特定目标进行拍摄的拍摄图像对模型进行训练。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供了nerf模型的构建方法、装置、设备及存储介质。

2、根据本说明书实施例的第一方面，提供一种nerf模型的构建方法，所述方法包括：

3、获取目标三维模型在从预设的多个视角中指定的参考视角的深度图；以及，与所述参考视角对应的特征图；

4、将所述参考视角的深度图与用户输入的提示文本输入至图像生成模型，并获取所述图像生成模型生成的具有与所述深度图相同的深度信息、并且与所述提示文本提示的风格匹配的风格图；

5、基于所述参考视角的特征图中包含的各个特征向量和所述各个特征向量在所述风格图中对应的位置上的像素值构建训练样本，并基于所述训练样本训练预设的神经网络模型，以及基于训练完成的所述神经网络模型生成与所述多个视角中除所述参考视角之外的其它各个视角对应的风格图；

6、基于与所述多个视角中的各个视角对应的风格图训练与所述目标三维模型对应的nerf模型。

7、根据本说明书实施例的第二方面，提供一种nerf模型的构建装置，包括：

8、获取模块，获取目标三维模型在从预设的多个视角中指定的参考视角的深度图；以及，与所述参考视角对应的特征图；

9、风格图生成模块，将所述参考视角的深度图与用户输入的提示文本输入至图像生成模型，并获取所述图像生成模型生成的具有与所述深度图相同的深度信息、并且与所述提示文本提示的风格匹配的风格图；

10、神经网络模型处理模块，基于所述参考视角的特征图中包含的各个特征向量和所述各个特征向量在所述风格图中对应的位置上的像素值构建训练样本，并基于所述训练样本训练预设的神经网络模型，以及基于训练完成的所述神经网络模型生成与所述多个视角中除所述参考视角之外的其它各个视角对应的风格图；

11、nerf模型训练模块，基于与所述多个视角中的各个视角对应的风格图训练与所述目标三维模型对应的nerf模型。

12、根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现前述第一方面所述方法实施例的步骤。

13、根据本说明书实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面所述方法实施例的步骤。

14、本说明书的实施例提供的技术方案可以包括以下有益效果：

15、本说明书实施例中，可以基于目标三维模型在参考视角的深度图以及用户输入的提示文本，由图像生成模型生成的具有与深度图相同的深度信息、并且与提示文本提示的风格匹配的风格图；之后，由神经网络模型学习到参考视角的特征图中各个特征向量与特征向量在风格图中对应位置的像素值的对应关系，利用神经网络模型来推导出其他视角的风格图。如此，本实施例可以自动模拟生成高质量的多个视角的图像，而无需用户真实拍摄，可以快速构建出高质量的nerf模型。

16、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种nerf模型的构建方法，所述方法包括：

2.根据权利要求1所述的方法，所述其它各个视角中的任一目标视角对应的风格图，是通过如下方式生成的：

3.根据权利要求2所述的方法，所述基于获取到的与所述各个特征向量对应的像素值进一步生成与所述目标视角对应的风格图，包括：

4.根据权利要求2所述的方法，所述多个视角中任一视角的特征图中包含的各个特征向量包括：由针对所述目标三维模型中包含的特征点的坐标值进行特征映射得到的特征值构成的特征向量。

5.根据权利要求2所述的方法，所述多个视角中任一视角对应的特征图，是对与该视角对应的渲染图集合中包含的各渲染图的特征图进行拼接得到的；

6.根据权利要求5所述的方法，所述着色三维模型包括：与三维坐标系中的三个坐标轴中的每一坐标轴分别对应的着色三维模型；与任一坐标轴对应的着色三维模型是通过将所述目标三维模型中的每个特征点在该坐标轴上的坐标值映射为颜色值后得到的三维模型；

7.根据权利要求5所述的方法，所述着色三维模型是对所述目标三维模型中包含的每个特征点的坐标值进行归一化，并将归一化后得到的坐标值映射为颜色值后得到的三维模型。

8.根据权利要求1所述的方法，所述目标三维模型，包括：将用户输入的三维模型去除颜色信息后得到的未携带颜色信息的三维模型。

9.根据权利要求5所述的方法，与所述多个视角中的任一视角对应的特征图，是通过如下方式获取的：

10.根据权利要求9所述的方法，与所述m个卷积层中任一卷积层对应的张量，是针对由该卷积层分别从输入的各张渲染图中提取到的特征图在channel维度上进行拼接得到；

11.根据权利要求10所述的方法，与所述m个卷积层中任一卷积层对应的张量，是针对由该卷积层分别从输入的各张渲染图中提取到的特征图转换为预设大小之后在channel维度上进行拼接得到的。

12.根据权利要求9所述的方法，所述卷积神经网络模型包括：vgg卷积神经网络模型。

13.根据权利要求3所述的方法，与所述各个特征向量对应的像素值构成的图像，是通过创建与所述参考视角的风格图相同大小的待赋值图像后，基于与所述各个特征向量对应的像素值，针对所述待赋值图像中与所述各个特征向量分别对应的像素位置进行像素赋值得到的图像。

14.根据权利要求3所述的方法，所述参考视角的风格图的描述文本，是将所述参考视角的风格图输入至基于预训练的视觉生成文本模型后，由所述视觉生成文本模型生成的用于描述所述参考视角的风格图的图片风格的描述文本。

15.根据权利要求14所述的方法，所述基于预训练的视觉生成文本模型包括：blip模型。

16.根据权利要求1所述的方法，所述图像生成模型包括：带有控制网络的扩散模型。

17.根据权利要求1所述的方法，所述预设的神经网络模型包括：多层感知机。

18.一种nerf模型的构建装置，所述装置包括：

19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现权利要求1至17任一所述方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至17任一所述方法的步骤。

技术总结
本公开提供一种NeRF模型的构建方法、装置、设备及存储介质，方法包括：获取目标三维模型在从预设的多个视角中指定的参考视角的深度图；以及与参考视角对应的特征图；将参考视角的深度图与用户输入的提示文本输入至图像生成模型，并获取图像生成模型生成的具有与深度图相同的深度信息，并且与提示文本提示的风格匹配的风格图；基于参考视角的特征图中包含的各个特征向量和各个特征向量在风格图中对应的位置上的像素值构建训练样本，并基于训练样本训练预设的神经网络模型，以及基于训练完成的神经网络模型生成与多个视角中除参考视角之外的其它各个视角对应的风格图；基于与多个视角中的各个视角对应的风格图训练NeRF模型。

技术研发人员：陈明翔
受保护的技术使用者：蚂蚁区块链科技（上海）有限公司
技术研发日：
技术公布日：2024/2/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈明翔
技术所有人：蚂蚁区块链科技（上海）有限公司
我是此专利的发明人

上一篇：一种新型组合式塔尺固定装置
上一篇：一种兰花种植大棚排水循环利用装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。