本发明涉及人工智能,特别是一种基于文字生成三维目标纹理的方法、系统及存储介质。
背景技术:
1、人工智能技术在多种行业领域深度融合,为传统行业注入创新力量,取得突破性成果,同时也推动了自身向更高层级发展,人工智能内容自动生成技术成为这阶段人工智能时代跃迁的重要力量。随着不断深入研究和探索,人工智能内容自动生成技术在多个领域取得重大成果,该项人工智能技术能够创造性地生成文字、图像、声音等内容,其中基于文字指导生成图像内容成为热门研究及应用的方向。
2、基于文字指导生成图像是指通过输入一段个性化描述语句,利用人工智能相关技术生成与输入语句描述相符的图像。现有技术中,大多是基于预训练大模型或者生成式对抗网络来实现基于文字指导生成图像。随着文字指导生成图像技术的发展,许多基于人工智能方案实现三维目标纹理生成技术的方案被提出,其中基于文字指导生成图像的方法脱颖而出,可以生成更具创作性的三维目标纹理。
3、但是,现有的基于文字生成三维目标纹理的方法存在生成内容与输入文字存在较大语义差异、准确度不高。
技术实现思路
1、本发明的主要目的在于提供了一种基于文字生成三维目标纹理的方法、系统及存储介质,旨在解决现有的基于文字生成三维目标纹理的方法存在生成内容与输入文字存在较大语义差异、准确度不高的技术问题。
2、为实现上述目的,本发明提供了一种基于文字生成三维目标纹理的方法,其包括以下步骤:获取三维模型数据与对应的描述文字数据textview,所述描述文字数据textview中包括视角信息;基于三维模型数据与描述文字数据textview的视角信息,生成对应视角下的深度图depthview和当前法线图并将描述文字数据textview与深度图depthview输入至深度图扩散模型,得到一组合成图像集;进行多阶段的生成式训练,每个阶段至少包括以下步骤:从合成图像集中选取一张合成图imagegenerate;获取法线更新掩膜masknormal与纹理更新掩膜masktexture,并将二者进行合并叠加,得到纹理修复掩膜maskinpaint;将合成图imagegenerate与纹理修复掩膜maskinpaint输入至图像修复扩散模型sdinpaint,得到修复纹理图textureinpaint;基于修复纹理图textureinpaint对三维模型数据进行渲染并投影,得到二维图像;计算二维图像与合成图imagegenerate的相似度以及更新权重分值,并基于更新权重分值输出当前阶段纹理图;进行多阶段的迭代更新,基于修复纹理图textureinpaint与完成多阶段的迭代更新后得到的纹理图,生成三维目标纹理图。
3、可选的,三维模型数据与描述文字数据textview是经过预处理后得到的,预处理至少包括以下步骤:对初始三维模型数据进行空间位置处理,得到其在二维纹理坐标系上的网格渲染图;根据多个预设的纹理合成视角,将初始三维模型数据与初始描述文字数据进行结合,得到三维模型数据,并输出多个包括视角信息的描述文字数据textview;多阶段的生成式训练的阶段数与预设的纹理合成视角的个数相同。
4、可选的,从合成图像集中选取一张合成图imagegenerate,具体为:进行多阶段的生成式训练的第一阶段时,从合成图像集中随机选取一张合成图imgegenerate,后续阶段是基于上一阶段所选取的合成图,从合成图像集中选取一张合成图imagegenerate。
5、可选的,法线更新掩膜masknormal通过以下步骤得到:获取当前法线图与上一阶段的法线图基于当前法线图与上一阶段的法线图计算得到法线更新掩膜masknormal;纹理更新掩膜masktexture通过以下步骤得到:获取初始纹理图texture0和第i个迭代阶段纹理图texturei;基于初始纹理图texture0和第i个迭代阶段纹理图texturei,计算得到纹理更新掩膜masktexture。
6、可选的,maskinpaint=masknormal∪masktexture,其中,表示取当前法线图的法线向量的z值,为取上一阶段法线图的法线向量的z值,当两个阶段对应的z值的差值大于0.3时,则计算的像素点为需要更新的区域;masktexture={xyz(texturei-texture0)>0.7},xyz(texturei-texture0)表示初始纹理图texture0和第i个迭代阶段纹理图texturei的像素点距离;当像素点距离大于0.7时,则对应的像素区域为需要更新区域。
7、可选的,进行多阶段的生成式训练的第一阶段时,masknormal为空白,masktexture为整个纹理区域。
8、可选的,更新权重分值是根据以下公式计算得到的:其中,sorce表示更新权重分值,其取值范围为[0,1],m表示目标平面区域,j表示目标平面区域中的一点,noraml表示正则化,render(textureinpaint)表示对三维模型数据的渲染,pro(render(textureinpaint))表示对三维模型数据的投影变换。
9、可选的,当前阶段纹理图根据如下公式得到:
10、texture=(1-n)*texture+n*((textureinpaint-texture)*sorce*r+(1-r)*texture);其中,texture表示当前阶段纹理图,n表示在纹理图中目标所在的区域,r为更新权值。
11、与所述基于文字生成三维目标纹理的方法相对应的,本发明提供一种基于文字生成三维目标纹理的系统,其包括:数据获取模块,用于获取三维模型数据与对应的描述文字数据textview,所述描述文字数据textview中包括视角信息;合成图像集生成模块,用于基于三维模型数据与描述文字数据textview的视角信息,生成对应视角下的深度图depthview和当前法线图并将描述文字数据textview与深度图depthview输入至深度图扩散模型,得到一组合成图像集;图组差异消除筛选模块,用于从合成图像集中选取一张合成图imagegenerate;纹理修复掩膜生成模块,用于获取法线更新掩膜masknormal与纹理更新掩膜masktexture,并将二者进行合并叠加,得到纹理修复掩膜maskinpaint;修复纹理图生成模块,用于将合成图imagegenerate与纹理修复掩膜maskinpaint输入至图像修复扩散模型sdinpaint,得到修复纹理图textureinpaint;渲染与投影模块,用于基于修复纹理图textureinpaint对三维模型数据进行渲染并投影,得到二维图像;更新权重分值计算模块,用于计算二维图像与合成图imagegenerate的相似度以及更新权重分值;当前纹理图生成模块,用于基于更新权重分值输出当前阶段纹理图;三维目标纹理图生成模块,用于进行基于修复纹理图textureinpaint与完成多阶段的迭代更新后得到的纹理图,生成三维目标纹理图。
12、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于文字生成三维目标纹理的程序,所述基于文字生成三维目标纹理的程序被处理器执行时实现如上文所述的基于文字生成三维目标纹理的方法的步骤。
13、本发明的有益效果是:
14、(1)与现有技术相比,本发明通过选取合成图,能够克服纹理生成过程中采样源差异大的问题,保证了最终生成三维目标纹理图的连续性;并且,整个纹理生成过程采用了逐阶段推进的方法,利用法线图的计算,去更新生成纹理存在较大不连续的区域,这种策略生成的纹理图更加高清细腻,结合深度图作为生成模型的输入,产生的纹理能够更加贴合目标形状;同时,计算二维图像与合成图imagegenerate的相似度以及更新权重分值,并基于更新权重分值输出当前阶段纹理图,能够增强当前阶段纹理图与合成图的一致性,也等同于匹配输入文字(即描述文字数据)的语义,使得生成的三维目标纹理图更加准确;
15、(2)与现有技术相比,本发明通过预处理,输出多个包括视角信息的描述文字数据textview,将三维模型数据与对应的描述文字数据textview作为训练数据,无需大量的训练数据;
16、(3)与现有技术相比,本发明通过选取合成图,能够消除深度图差异在深度图扩散模型中的影响;由于输入深度图的差异很容易导致深度图扩散模型输出的图片浅层特征不一致,包括颜色、图案等,这将对生成纹理的连续性造成重大影响,因此通过选取合成图能够避免差异造成的影响;
17、(4)与现有技术相比,本发明通过基于修复纹理图textureinpaint对三维模型数据进行渲染并投影,得到二维图像,再计算二维图像与合成图imagegenerate的相似度以及更新权重分值,并基于更新权重分值输出当前阶段纹理图,能够使得生成的三维目标纹理图与描述文字数据textview有的匹配准确率更高;
18、(5)与现有技术相比,本发明通过对于预训练的深度图扩散模型的使用,能够大大提高内容生成能力的泛化性,使得本发明所述的基于文字生成三维目标纹理的方法能得到快速落地应用,本发明所述的基于文字生成三维目标纹理的方法不仅在效果上有明显突破,并且具有很高的通用性,具有实际应用意义。