室内单视图场景语义重建方法及系统

文档序号：34709104发布日期：2023-07-07 13:30阅读：44来源：国知局

本发明涉及图像处理，尤其涉及一种室内单视图场景语义重建方法及系统。

背景技术：

1、单视图室内三维场景语义重建即根据单张室内图像提供一个语义丰富、几何准确和拓扑合理的室内三维场景表示，已成为一项重要且具有挑战性的任务。基于室内场景图像的语义重建在室内设计、房地产、数字孪生、室内装饰、机器人导航和ar/vr内容生成等许多领域中具有广泛的应用前景。然而，深度感知中固有的模糊性、真实环境的混乱和复杂性使得仅从单一图像中完全恢复场景上下文(包括语义和几何学)仍然具有挑战性，由于深度信息的缺失，从二维图像恢复三维空间是一个困难的问题，因为不同的三维场景可能投影产生相同的rgb图像。

2、huang等在neurips2018上提出了一个端到端的模型框架，能够从单张rgb图像中实时重建三维室内场景，包括三个子任务：3d房间布局、摄像机姿态和物体边界框。为了使三个子任务协同优化，他们引入了一种新颖的三维边界盒参数化方法和二维投影损失函数，以增强二维和三维之间的对齐。他们还设计了可微分的协同损失函数，有助于有效地联合训练两个主要模块：3d房间布局与物体边界框。但是，室内场景的语义重建既包括场景理解，也包括对象重建，之前的工作不能良好地耦合这两个任务在同一个模型框架下。

3、nie等在cvpr2020中提出了一个从单张rgb图像端到端进行室内场景语义重建的方法total3d，它将场景理解与对象网格重建嵌入融合在一起进行协同联合训练推理，主要包括三个子网络：三维室内布局估计(带有相机位姿)；三维目标检测；目标三角形网格(mesh)生成网络，推理时全自动生成室内房间布局，摄像机姿态，物体三维边界框和网格三维模型，从而整体完备地恢复房间和物体对象的几何形状。total3d中网格生成重建算法是基于球面模板的网格变形方法，变形过程中会删除边，有时候导致形成镂空，肉眼为观察到出现不少毛刺，对于遮挡和未见过的物体类别，效果更差，重建三维网格模型残缺不完整；而且上述方法没有对物体与物体之间的关系，物体与布局的关系等场景上下文信息综合考虑进去。目前三维目标位姿估计以及室内布局估计误差导致场景重建结果中出现：目标三维模型间彼此碰撞或重叠；目标超出墙体地板布局这两种场景关系混乱的情形。

4、基于上述问题，kuo等在eccv2020中首次提出基于单目图像跨域三维模型检索和二维目标分割实现对单张rgb室内图像包含的多个物体进行三维形状表示和位姿估计对齐的方法架构，被称为mask2cad。kuo等在iccv2021中进一步改进提出patch2cad方案，利用输入图像中目标的感兴趣区域(region of interest，roi)的补丁切片进行模型检索，相似性度量使用各自补丁块对应法线向量的自相似性直方图之间交并比(intersection overunion，iou)。patch2cad在复杂室内场景的效果更佳，但在计算三维目标中心点时二者都需要深度信息作为输入。gumeli等在cvpr2022中提出一种新的端到端的框架，它可以稳健地检索三维cad模型并对齐到单个输入图像，与以前执行直接姿态回归的方法相比，增加了深度图估计分支，为了利用可微的procrustes优化来求解位姿，通过以深度和归一化对象坐标的一一对应形式去学习预测密集的2d-3d对应；另外，因为检索任务把三维模型用点云表示提取特征，所以预测的三维对应有助于学习几何相似的cad模型的检索，同时改进对象姿态对齐。这三种方案的不足的是缺少布局估计任务，无法进行整体场景语义重建。

技术实现思路

1、本发明实施例提供一种室内单视图场景语义重建方法及系统，其能得到物体的准确、完整的语义，实现整体场景语义重建。

2、第一方面，本发明实施例提供了一种室内单视图场景语义重建方法，包括：

3、对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

4、对所述室内图像进行布局估计，得到室内布局初步估计参数；

5、根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

6、根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

7、根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

8、根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

9、作为上述方案的改进，所述对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果，包括：

10、对预先构建的三维cad模型库中各个三维模型进行多视角渲染，得到每个三维模型的多张灰度渲染图；

11、对所述第一物体图像进行颜色转换和增强；

12、对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取，得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征；

13、利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理，得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征；

14、分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射，得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量；

15、利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理，得到相应三维模型的多张灰度渲染图的自注意力特征向量；

16、将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重，从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合，得到相应三维模型的嵌入向量；

17、计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度，并选取相似度最大对应三维模型，作为相应物体的三维模型检索结果。

18、作为上述方案的改进，所述室内布局初步估计参数包括：相机姿态初步估计参数和室内布局边界框初步估计参数；

19、则，对所述室内图像进行布局估计，得到室内布局初步估计参数，包括：

20、对所述室内图像进行视觉特征提取；

21、采用第一多层感知网络对所述室内图像的视觉特征进行布局估计，得到相机姿态初步估计参数；

22、采用第二多层感知网络对所述室内图像的视觉特征进行布局估计，得到室内布局边界框初步估计参数。

23、作为上述方案的改进，所述对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数，包括：

24、计算任意两个物体的二维边界框之间的几何关系特征，并对所述几何关系特征进行位置编码，得到相应两个物体的编码特征；

25、对每个物体的第一物体图像进行视觉特征提取；

26、根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征；

27、对每个物体的关系特征进行级联聚合，得到相应物体的关系视觉特征；

28、采用第三多层感知网络对相应物体的关系视觉特征进行处理，得到相应物体的三维边界框初步估计参数。

29、作为上述方案的改进，所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，包括：

30、根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码，得到场景布局节点；

31、根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码，得到物体对象节点；

32、对所述场景布局节点与所述物体对象节点之间添加双向关系节点，对两个所述物体对象节点之间添加双向关系节点；

33、根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点，构建场景图。

34、作为上述方案的改进，所述对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数，包括：

35、采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新，得到更新后的场景图；其中，所述实体节点包括：场景布局节点、物体对象节点；

36、根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差；

37、根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差，得到最终的室内布局估计参数；

38、根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差，得到最终的三维边界框估计参数。

39、作为上述方案的改进，所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建，包括：

40、将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中，得到语义重建后的三维场景。

41、作为上述方案的改进，所述根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差，包括：

42、采用第四多层感知网络对更新后的场景图的关系节点进行处理，得到相机姿态初步估计参数的偏差；

43、采用第五多层感知网络对更新后的场景图的关系节点进行处理，得到室内布局边界框初步估计参数的偏差；

44、采用第六多层感知网络对更新后的场景图的实体节点进行处理，得到三维边界框初步参数的偏差。

45、作为上述方案的改进，所述根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征，包括：

46、根据每个物体的视觉特征，计算相应物体的视觉注意力分数；

47、根据相应的编码特征，计算相应物体的几何注意力分数；

48、根据所述视觉注意力分数和所述几何注意力分数，计算相应物体的权重；

49、根据每个物体的视觉特征及其相应的权重，得到相应物体的关系特征。

50、第二方面，本发明实施例提供了一种室内单视图场景语义重建系统，包括：

51、二维目标检测模块，用于对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

52、布局估计模块，用于对所述室内图像进行布局估计，得到室内布局初步估计参数；

53、三维模型检索模块，用于根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

54、三维目标检测模块，用于根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

55、图推理模块，用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

56、语义重建模块，用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

57、相对于现有技术，本发明实施例的有益效果在于：通过对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；对所述室内图像进行布局估计，得到室内布局初步估计参数；根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。通过使用三维模型检索方法替代现有的三维模型生成重建方法，可以从模型库中检索得到干净整洁的模型表示，从而得到物体的准确、完整的语义重建场景，实现整体场景语义重建。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢雪梅张少龙
技术所有人：琶洲实验室（黄埔）
我是此专利的发明人

上一篇：一种2,3-丁二酮的催化合成方法及催化剂和制备方法与流程
上一篇：一种手术室温度控制系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。