生成三维数据的方法、训练模型的方法和计算设备与流程

文档序号：44193782发布日期：2025-12-26 23:05阅读：20来源：国知局

技术简介：
现有技术无法从输入图像生成符合物理规律的三维数据，导致生成内容缺乏真实感。本发明通过图像编码模块提取语义特征，结合表观解码器生成表观特征，再经生成模块输出符合物理特性的三维数据，实现从二维图像到三维模型的物理一致性生成。
关键词：三维数据生成,物理特性保持

本说明书一个或多个实施例涉及人工智能，尤其涉及生成三维数据的方法、训练模型的方法和计算设备等。

背景技术：

1、随着人工智能的发展，如何基于图像生成期望的图像或者视频成为一个重要研究方向。目前，相关工作无法直接从输入图像生成对应的场景或者物体的三维(three-dimensional，3d)信息，而且相关工作生成的图像或视频也无法高度保持其中内容的物理特性。因此，期望能有相应的改进方案。

技术实现思路

1、有鉴于此，本说明书一个或多个实施例提供一种生成三维数据的方法、训练模型的方法和计算设备等。

2、根据本说明书一个或多个实施例的第一方面，提供了一种生成三维数据的方法，包括：

3、通过图像编码模块，基于与三维3d对象对应的多个第一图像，得到语义特征，所述语义特征对应的语义信息中包括与所述多个第一图像中的第一物理特征对应的信息；

4、通过表观解码器，基于所述语义特征，得到表观特征，所述表观特征对应的表观信息包括与所述第一物理特征对应的信息；以及

5、通过生成模块，基于所述表观特征，生成与3d模型对应的3d数据。

6、在一个示例中，所述通过图像编码模块，基于与三维3d对象对应的多个第一图像，得到语义特征，包括：

7、通过所述图像编码模块中的几何编码器，基于所述多个第一图像，得到潜在特征，所述潜在特征对应的图像信息中包括与所述3d对象的几何特征对应的信息；

8、通过所述图像编码模块中的语义编码器，基于所述潜在特征，得到所述语义特征。

9、在一个示例中，所述3d数据包括与3d模型对应的多个第二图像以及各个所述第二图像对应的3d位置信息。

10、在一个示例中，所述通过图像编码模块，基于与三维3d对象对应的多个第一图像，得到语义特征，包括：

11、将各个所述第一图像分别划分为多个图块；

12、通过所述图像编码模块，将各个图块映射到语义空间，得到各个图块的第一语义向量；

13、所述通过表观解码器，基于所述语义特征，得到表观特征，包括：

14、通过所述表观解码器，基于各个所述第一语义向量，得到与各个所述第一语义向量对应的第一表观向量。

15、在一个示例中，所述通过所述图像编码模块，将各个图块映射到语义空间，得到各个图块的第一语义向量，包括：

16、通过所述图像编码模块中的几何编码器，将各个图块映射到潜空间，得到各个图块的第一潜在向量；以及

17、通过所述图像编码模块中的语义解码器，基于各个所述第一潜在向量，得到与各个所述第一潜在向量对应的所述第一语义向量。

18、在一个示例中，所述通过生成模块，基于所述表观特征，生成与3d模型对应的3d数据，包括：

19、通过所述生成模块中的生成解码器，基于所述表观特征，得到与所述多个第二图像中的第一图块对应的第二语义向量；

20、通过所述表观解码器，基于所述第二语义向量，得到与所述第一图块对应的第二表观向量；

21、通过所述生成解码器，基于所述表观特征中的至少部分第一表观向量和所述第二表观向量，得到与所述多个第二图像中的第二图块对应的第三语义向量；

22、所述第二语义向量和所述第三语义向量用于生成所述3d数据。

23、在一个示例中，所述通过生成模块，基于所述表观特征，生成与3d模型对应的3d数据，还包括：通过所述生成模块中的3d解码器，基于所述第二语义向量和所述第三语义向量生成所述3d数据。

24、在一个示例中，所述方法还包括：将所述语义特征和与用户提示文本对应的提示语义特征进行融合，得到融合语义特征，所述用户提示文本包括指示对所述第一物理特征进行修改的信息；以及

25、所述通过表观解码器，基于所述语义特征，得到表观特征，包括：通过所述表观解码器，基于所述融合语义特征，得到所述表观特征，所述表观特征符合第二物理特征，所述第二物理特征通过基于所述用户提示文本对所述第一物理特征进行修改而得到。

26、在一个示例中，所述3d对象包括3d场景。

27、根据本说明书一个或多个实施例的第二方面，提供了一种训练模型的方法，所述模型包括图像编码模块、表观解码器和生成模块，所述方法包括：

28、获取训练样本，所述训练样本包括与3d对象对应的多个第一图像和标签3d数据；

29、通过所述图像编码模块，基于所述多个第一图像，得到语义特征，所述语义特征对应的语义信息中包括与所述多个第一图像中的第一物理特征对应的信息；

30、通过所述表观解码器，基于所述语义特征，得到表观特征，所述表观特征对应的表观信息包括与所述第一物理特征对应的信息；以及

31、通过所述生成模块，基于所述表观特征，生成与3d模型对应的预测3d数据；

32、基于所述标签3d数据和所述预测3d数据，训练所述模型。

33、在一个示例中，所述通过所述图像编码模块，基于所述多个第一图像，得到语义特征，包括：

34、通过所述图像编码模块中的几何编码器，基于所述多个第一图像，得到潜在特征，所述潜在特征对应的图像信息中包括与所述3d对象的几何特征对应的信息；

35、通过所述图像编码模块中的语义编码器，基于所述潜在特征，得到所述语义特征。

36、在一个示例中，所述标签3d数据包括各个所述第一图像对应的标签3d位置信息，所述预测3d数据包括与3d模型对应的多个预测第二图像以及各个所述预测第二图像对应的预测3d位置信息，

37、所述基于所述标签3d数据和所述预测3d数据训练所述模型，包括：

38、基于各个所述第一图像与各个所述预测第二图像之间的差异、以及各个所述标签3d位置信息与各个所述预测3d位置信息之间的差异，训练所述模型。

39、在一个示例中，所述训练样本包括第一训练样本，所述第一训练样本用于在第一训练阶段训练所述模型，所述方法还包括：

40、在所述第一训练阶段，通过至少一个教师模型基于所述多个第一图像、所述标签3d数据和所述3d对象对应的文本中的至少一个得到至少一个标签特征，基于所述至少一个标签特征和所述语义特征之间的特征损失，训练所述图像编码模块。

41、在一个示例中，所述训练样本包括第一训练样本，所述第一训练样本用于在第一训练阶段训练所述模型，所述方法还包括：

42、在所述第一训练阶段，通过第一教师模型基于所述多个第一图像得到标签潜在特征，通过第二教师模型基于所述标签3d数据得到标签几何特征，基于所述标签潜在特征和所述标签几何特征的组合与所述潜在特征之间的特征损失，训练所述几何编码器。

43、在一个示例中，所述训练样本包括第一训练样本，所述第一训练样本用于在第一训练阶段训练所述模型，所述方法还包括：

44、在所述第一训练阶段，通过第三教师模型基于所述3d对象对应的文本得到标签语义特征，所述文本包括所述3d对象对应的第一物理特征，基于所述标签语义特征和所述语义特征之间的特征损失，训练所述几何编码器和所述语义编码器。

45、在一个示例中，所述训练样本还包括第二训练样本，所述第二训练样本用于在第二训练阶段训练所述模型，所述第二训练阶段在所述第一训练阶段结束之后进行，所述第二训练样本优于所述第一训练样本，

46、在所述第二训练阶段，所述基于所述标签3d数据和所述预测3d数据训练所述模型，包括：

47、基于所述标签3d数据和所述预测3d数据，训练所述表观解码器和所述生成模块。

48、在一个示例中，所述第二训练样本还包括与所述3d对象对应的标签表观特征，所述标签表观特征对应的信息中包括与所述第一物理特征对应的标签参数信息，所述方法还包括，

49、在所述第二训练阶段，基于所述标签表观特征和所述表观特征之间的特征损失，训练所述表观解码器。

50、在一个示例中，所述第一物理特征包括物理运动特征和/或光照特征。

51、根据本说明书一个或多个实施例的第三方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面或第二方面所述的方法。

52、在本说明书的实施例中，提出一种生成三维数据的方法，其能够根据输入图像生成遵循物理规律的3d数据，从而使得根据该3d数据得到的图像或者视频具有更好的符合物理规律的表现效果，提高生成的图像或视频的真实感和和谐度。

53、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王福东,陆潇,袁燚,陈景东
技术所有人：支付宝（杭州）数字服务技术有限公司
我是此专利的发明人

该领域下的技术专家

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！