基于大语言模型的可控布局三维场景表征与生成方法

文档序号:36805567发布日期:2024-01-23 12:34阅读:16来源:国知局
本发明属于计算机视觉,涉及利用计算机视觉、计算机图形学及深度学习技术生成大量可控的、逼真的、多样化的三维场景,尤其涉及一种基于大语言模型的可控布局表征技术和三维场景生成方法,可用于实现通用的、多样化的三维场景表征与生成。
背景技术
::1、近年来,随着大语言模型、扩散模型、多模态生成算法等技术的积累和交叉融合,生成式人工智能(aigc)取得了巨大突破,并逐渐应用于人机对话、2d图像生成等多个领域任务。大语言模型提供了一种更加方便快捷的人机交互方式,能够利用指令调优和推理能力来解决涉及多个推理步骤的复杂微小任务。与大语言模型结合的生成式建模进一步将模态的类型拓展到了2d图像甚至是图像-文本对的多模态数据格式。其中,扩散模型被广泛应用于以文本为条件的图像生成模型。扩散模型利用正向的扩散过程来系统地扰动数据分布,然后通过学习反向扩散过程恢复数据的分布,从而构建一个高度灵活的图像生成模型。2、生成式人工智能的成功很大程度上归功于其能够在较低人力物力的条件下大规模生成符合一定要求,满足一定标准的多样化内容(如文本、图像等)。尽管生成式人工智能在对话文本生成和基于文本描述的2d图像生成领域取得了优异的表现,但是在三维生成领域,特别是如何实现复杂的、具有多物体的三维场景生成仍然存在许多问题。一方面,采用传统图形学技术的3d建模方法成本极高,同时计算量大,需要手工制作调整等。另一方面,现有的3d生成技术往往只针对单个物体进行生成,不能应用于三维场景的生成。同时,由于文本提示缺乏严格的几何约束并且具有较大歧义,因此现有的3d生成技术不能很好地保障生成对象的几何形状约束和空间位置关系,导致生成的物体或场景具有较低的真实感和合理性,同时生成效率低下,多样性较差。3、因此,现有的基于图形学的手工建模和生成式人工智能的自动化生成方法对于三维场景的生成任务来说,技术上还存在一定瓶颈,生成质量和生成效率不足,生成场景存在明显缺陷,无法适用于多样化的、复杂的三维场景生成任务需求。技术实现思路1、为了克服上述现有技术的不足,本发明提供一种基于大语言模型的可控布局三维场景表征与生成方法,提出利用文本和/或2d图像提示条件下的3d layout作为三维多物体场景的空间状态表征,经过大语言模型和3d感知模型对指定的文本或图像进行三维空间状态抽取,并利用抽取得到的类别和空间未知状态信息生成3d layout空间状态表征,之后利用神经辐射场和扩散模型在生成的3d layout基础上进一步生成得到逼真的三维实景,从而实现高保真、多样化、高可控的三维场景生成。2、本发明的技术方案是:3、一种基于大语言模型的可控布局三维场景表征与生成方法,包括如下步骤:4、1)将用于提示的文本和/或2d图像作为输入,对于输入的文本,通过大语言模型(llm)对输入的文本内容提取文本对应的3d layout空间位置描述;对于输入的2d图像,通过3d感知模型对输入的2d图像特征进行识别、检测、分割,得到2d图像对应的3d layout空间位置信息;5、2)将步骤1)提取的3d layout空间位置表示为四个维度的3d布局先验,包括物体类别、空间坐标、3d包围框的长宽高、相机参数;6、3)基于3d布局先验构建物体级别的局部nerf隐式表征,其中nerf由mlp(多层感知器)参数化,将步骤2)得到的3d布局先验映射为空间位置坐标下各个点的体密度和颜色,从而为每一个空间物体构建局部nerf隐式表征;7、4)在局部nerf隐式表征基础上,使用ray-aabb交叉检测算法计算射线与所有物体3d包围框的交点,再于每个包围框近交点和远交点之间等距地进行采样,之后通过全局场景渲染管线对包含多物体的完整三维场景进行全局校准,得到全局nerf隐式表征;8、5)基于3d扩散模型和局部-全局隐式表征实现三维场景的实景渲染,包括:对于步骤2)得到的每个3d布局先验,在nerf模型的训练过程中向局部nerf隐式表征和全局nerf隐式表征分别加入高斯噪声,之后通过预训练的3d扩散模型(stable diffusion)对局部物体和三维场景进行联合优化,渲染高质量的三维实景图像,进而得到生成的三维场景。9、上述步骤1)中,输入的文本和2d图像首先通过预处理为统一的文本格式和图像格式;对于输入的文本t,通过大语言模型进行语义抽取,得到文本对应的3d layout空间位置描述ti,其中ti代表文本描述场景中第i个局部文本提示对象;对于输入的2d图像i,通过3d感知模型对输入的2d图像特征进行识别、检测、分割,得到2d图像对应的3d layout空间位置信息ii,其中ii代表第i个局部图像指示对象。此外,这里可以通过手动编辑调整3dlayout空间布局。10、上述步骤2)中,所述3d布局先验记为ψ(clsi,xi,yi,zi,l,h,w,φ,θ),其中,clsi表示从文本或2d图像中提取的第i个局部对象物体的类别编码,(xi,yi,zi)表示第i个局部对象物体中心点的三维空间位置坐标,(l,h,w)表示该位置物体包围框的长宽高参数,(φ,θ)是相机参数,是用于表示相机位姿的二维视角参数,其中,φ为三维笛卡尔坐标系下的极视角,θ为同一笛卡尔坐标系中的方位角。11、上述步骤3)中,基于3d布局先验ψ构建物体级别的局部nerf隐式表征,3d布局先验结合了自然语言和3d信息,并可以支持用户编辑。将步骤2)得到的3d布局先验映射为不同空间位置坐标下点的体密度和颜色,对每一个局部对象构建局部nerf隐式表征,其中nerf由mlp参数化,将3d布局先验的局部坐标(xl,yl,zl)∈[-1,1]和相机参数(φθ)映射为该点的体密度σ和颜色c,即f(xi,yi,zi,φ,θ)→(clocal,σ),其中,f(xi,yi,zi,φ,θ)表示空间点的映射函数,clocal表示局部nerf表征的rgb颜色值。12、上述步骤4)在局部nerf隐式表征基础上,使用ray-aabb交叉检测算法计算射线与所有物体3d包围框(l,h,w)的交点,再于每个包围框近交点和远交点之间等距地进行采样,共采样n个采样点。通过将空间点的坐标和射线参数输入局部nerf可计算得到该点的局部颜色clocal。之后通过全局场景渲染管线对包含多物体的完整三维场景进行全局校准,即将全局坐标(xj,yj,zj)和相机视角方向(φ,θ)输入一个共享参数的mlp后加上该点局部颜色后得到该点全局颜色。全局校准公式化如下:13、14、其中,cglobal代表校准后的三维场景全局颜色参数,clocal代表局部nerf表征的rgb颜色值,mlp表示共享参数的全局nerf表征,m代表三维场景中的物体个数,i代表第i个物体,j代表空间采样点的序号,n表示三维场景空间中的总采样点数。15、上述步骤5)中的联合优化函数可以表示为:16、17、其中,l表示总的优化损失函数,α和β表示损失函数的平衡系数,lsds代表扩散模型的sds损失函数,lren代表全局三维场景渲染的ren损失。损失函数可以形式化为:18、19、20、其中,w(t)是权重参数,∈代表高斯噪声,τ是扩散模型的参数,g表示对应空间位置的全局颜色真值,m代表三维场景中的物体个数。在此基础上渲染高质量的三维实景图像,进而得到生成的三维场景。21、上述三维场景表征和生成方法可广泛应用于大规模、高质量的实景三维场景生成,并进一步应用于更多的下游任务如自动驾驶仿真、室内装修、游戏场景和的电影特效合成等。在降低3d场景建模所需要的人力物力的同时,提供更加多样性的、可控的、高质量的3d生成场景。22、与现有技术相比,本发明的有益效果是:23、本发明提出了一种基于大语言模型的可控布局三维场景表征与生成方法,提出利用文本和图像提示条件下的3d layout作为三维多物体场景的空间状态表征,经过大语言模型和3d感知模型对指定的文本或图像进行三维空间状态抽取,并利用抽取得到的类别和空间位置状态信息生成3d layout空间状态表征,之后利用神经辐射场和扩散模型在生成的3d layout基础上进一步生成得到逼真的三维实景,从而实现高保真、多样化、高可控的三维场景生成。本发明方法打破了常规手动3d场景建模的思路,克服了现有三维物体和场景生成方法的不足,建立了基于可控3d布局先验的场景表征和生成范式,从而针对复杂的多物体场景实现更加高效、高质量的三维组合场景生成。本发明的三维场景表征和生成方法具有通用性,不依赖特定的大语言模型和扩散生成模型,且能够应用在复杂多样的三维场景生成中,包括但不限于多物体组合场景、室内场景、室外场景等,生成的场景几何形状精准、渲染质量高,简单高效,可控性强。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1