一种多视图三维重建方法与流程

文档序号:19421731发布日期:2019-12-14 01:34阅读:2164来源:国知局
一种多视图三维重建方法与流程

本发明涉及图像处理、立体视觉技术领域,尤其涉及一种多视图三维重建方法。



背景技术:

三维重建作为计算机图形学与计算机视觉领域的热点问题,受到了越来越多的关注。三维重建的任务是在利用视觉检测设备获取图像的前提下,根据二维和三维空间的映射关系,构建场景及场景中对象的三维结构模型。该技术目前已被广泛的应用于城市规划、医学诊断以及无人驾驶等领域,具有重要的研究意义和应用价值。

传统的三维重建方法是利用双目视觉几何的原理,基于视差信息重建复杂的三维场景,从而实现一定的真实感场景建模。但在现实世界中,由于自然场景建模对象具有多样性,以及受相机分辨率低和场景规模要求等因素制约,导致传统的三维重建方法存在建模过程复杂、无法保证真实感等诸多问题。近年来,深度学习在各种计算机视觉任务中都取得了突破,由于深度学习方法能够全面学习图像中的信息并将其抽象为高级语义特征,使得基于深度学习的三维重建得到了研究学者们的广泛关注。

choy等人提出了三维递归重建神经网络(3d-r2n2),采用shapenet数据集生成图像和3d体素,利用基于卷积神经网络和lstm(长短期记忆网络)的编解码器架构,根据输入图像预测三维体素模型。kar等人提出了lsm(立体视觉学习)网络,该网络既可以利用单视图线索进行单视图三维重建,同时还能够利用立体视觉整合来自多个视点的信息,进行多视图重建。

yao等人提出了一种用于多视图三维重建的端到端深度学习体系结构,并在大型室内dtu数据集上进行了实验验证。通过简单的后处理,该方法的三维重建结果显著优于以前的技术水平。然而,由于卷积正则化的高成本损耗,基于深度学习的mvs(多视点三维重建网络)无法应用于高分辨率场景。近期,yao等人提出了一种基于递归神经网络(r-mvsnet)的可伸缩多视图立体视觉框架,该框架通过门控递归单元对纵向二维代价图进行序列正则化,减少内存损耗,使高分辨率场景重建成为可能。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

现有技术在利用多视图进行三维重建时,虽然能够较好的利用多个视角的信息,获得三维重建模型,但多数算法对输入多视角图像的数量有严格的要求,导致很难在较多视角图像的情况下重建三维网格模型;现有用于研究三维重建方法的训练数据较为丰富,但是相比于自然界中具有丰富多样性的对象及场景,训练集中重建对象的种类相对较少,限制了三维重建技术在真实场景下的适用性。



技术实现要素:

针对当前三维重建方法主要基于单视图实现的现状,本发明提供了一种多视图三维重建方法,本发明充分利用多视角信息,实现更高的重建精度和更好的重建效果,详见下文描述:

一种多视图三维重建方法,所述方法包括以下步骤:

基于端到端的深度学习框架,以不同视角的多幅彩色图像为网络输入,输出为重建的三维网格模型;

该网络首先利用多级融合特征提取模块提取不同尺度的多视角融合特征;

基于不同尺度的融合特征利用网格变形模块对输入的初始化椭球网格模型进行变形,重建出与输入图像相对应的三维网格模型。

所述多级融合特征提取模块包括:四个不同尺度的多视角融合特征,

基于注意力机制,根据输入的三张不同视角的二维图像提取出四个包含图像信息不同尺度的融合特征。

其中,

第一个视角的图像经过vgg16中部分卷积网络生成大小为56*56*64的特征,以此特征作为多级融合特征提取模块输出的第一个多级融合特征;

特征提取的过程中使用了两种不同卷积层,不仅能提取特征,还能对特征进行下采样。

进一步地,

第二个视角的图像经过vgg16中部分卷积网络后生成大小为28*28*128的特征,使用步长为2、大小为3*3的卷积核将第一个视角图像特征的尺寸大小变为28*28*128,保持与第二个视角图像特征大小一致;

与第二个视角图像特征级联,再利用一个卷积层对级联特征进行简单融合,融合后的特征作为提取的第二个多级融合特征。

其中,

第三个视角的图像经过vgg16中部分卷积网络后生成大小为14*14*256的特征,使用步长为2、大小为3*3的卷积核将第二个视角图像特征的尺寸大小变为14*14*256,保持与第三个视角图像特征大小一致;

与第三个视角的特征级联,再利用一个卷积层对级联特征进行简单融合,融合后的特征作为提取的第三个多级融合特征。

其中,

将输入的第三个视角图像经过vgg16中卷积网络后生成尺寸为7*7*512的特征,并将此特征作为提取的第四个多级融合特征。

本发明提供的技术方案的有益效果是:

1、本发明提取不同视角图像在不同维度的特征,并将不同特征进行多级融合,使得网络能够对多视角图像的信息进行更加有效的应用,减少二维信息的丢失概率,增加二维图像特征对三维模型的作用范围;

2、本发明生成的网格模型具有更多的细节信息,表面更光滑,重建精度更高。

附图说明

图1为一种多视图三维重建方法的流程图;

图2为网格变形模块的内部结构图;

图3为本发明提出方法的整体框图;

图4为本发明提出方法与其他多视图重建方法的对比结果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

本发明实施例基于端到端的深度学习框架,以不同视角的多幅彩色图像为网络输入,输出为重建的三维网格模型。整个网络由多级融合特征提取模块和级联网格变形模块组成。该网络首先利用多级融合特征提取模块提取不同尺度的多视角融合特征,并将其传送到网格变形模块中。然后,基于不同尺度的融合特征利用网格变形模块对输入的初始化椭球网格模型进行变形,重建出与输入图像相对应的三维网格模型。具体实现步骤如下:

一、提取四个不同尺度的多视角融合特征

在基于多视图的三维重建的实际应用中,每个视角的图像都会为目标三维网格模型的重建提供有用信息。但是,单张图像的重建效果往往不尽人意,因为单张图像无法包括三维模型的全部信息,而使用多视图进行三维重建能够补充模型细节,提升模型完整性,从而提升三维模型重建质量。因此,需要探索融合多视图信息的方式,使深度学习网络可以合理利用多视图提供的信息,本发明实施例提出了一种多级融合特征提取模块。

基于注意力机制,网络根据输入的三张不同视角的二维图像提取出四个包含图像信息不同尺度的融合特征(特征尺寸分别为:56*56*64、28*28*128、14*14*256、7*7*512)。

1)提取第一个多级融合特征

第一个视角的图像经过vgg16中部分卷积网络生成大小为56*56*64的特征,以此特征作为多级融合特征提取模块输出的第一个多级融合特征feature1。

特征提取的过程中使用了两种不同卷积层。第一种卷积层使用的卷积核大小为3*3,步长为1,用于提取特征;第二种卷积层的卷积核大小为3*3,步长为2,不仅能够提取特征,还能对特征进行下采样。

2)提取第二个多级融合特征

第二个视角的图像经过vgg16中部分卷积网络后生成大小为28*28*128的特征,使用步长为2、大小为3*3的卷积核将第一个视角图像特征的尺寸大小变为28*28*128,保持与第二个视角图像特征大小一致,基于niu等人提出的残差注意力机制[1]对该特征的重要信息进行强调后,和第二个视角的特征级联,再利用一个卷积层对级联特征进行简单融合,融合后的特征作为提取的第二个多级融合特征feature2。

3)提取第三个多级融合特征

第三个视角的图像经过vgg16中部分卷积网络后生成大小为14*14*256的特征,使用步长为2、大小为3*3的卷积核将第二个视角图像特征的尺寸大小变为14*14*256,保持与第三个视角图像特征大小一致,基于注意力机制对该特征的重要信息进行强调后,和第三个视角的特征级联,再利用一个卷积层对级联特征进行简单融合,融合后的特征作为提取的第三个多级融合特征feature3。

4)提取第四个多级融合特征

最后将输入的第三个视角图像经过vgg16中卷积网络后生成尺寸为7*7*512的特征,并将此特征作为提取的第四个多级融合特征feature4。

二、将四个不同尺度的多视角特征进行融合

对于多视图三维重建的目标来说,核心部分在于如何充分利用多视角的图像信息并与三维模型建立联系。在得到四个包含图像信息不同尺度的多视图融合特征之后,将四个不同尺度的多视角融合特征进行双线性差值处理,目的是将四个不同尺度的特征处理成相同尺度的特征。再将处理得到的四个相同尺度的特征进行级联,得到最终的多视角融合特征。

其中,上述双线性差值处理、以及具体级联的步骤均为本领域技术人员所公知,本发明实施例对此不做赘述。

三、利用多视角融合特征进行网格变形

将级联后的多视角融合特征输入到网格变形模块中,从而将多视角融合特征与输入的三维模型的顶点位置相结合,建立二维和三维空间的联系。

其中,参见图2,网格变形模块的核心组成部分是图卷积结构,该模块利用图卷积学习多视角特征与网格之间的关系,从而实现网格变形。网格变形模块利用网格变形模块中的感知特征池化层将输入的融合特征p与输入的网格模型的顶点位置ci-1相组合,使图像特征附加到网格顶点上,再与顶点特征fi-1相连,经过图卷积结构生成新的顶点位置ci和顶点特征fi。该网格变形块通过将多视角不同尺度的融合特征和输入三维网格模型的顶点位置与顶点特征相结合,建立二维和三维空间的联系,利用图卷积学习多视角特征与网格之间的关系,从而实现网格变形。

四、通过级联网格变形模块得到最终重建模型

参见图3,级联网格变形模块主要包含三个网格变形模块,网格变形模块之间利用基于图的反池化层连接。每个网格变形块有两个输入,一个输入是初始化的椭球网格模型或前一个网格变形块输出的三维网格模型,另一个输入是利用多级融合特征提取模块所提出的融合特征。从第二个网格变形块开始,在每个网格变形块之前均使用一个基于图的反池化层以增加网格顶点和边的数量,提升该网络处理模型细节的能力,同时仍然保持三角形网格拓扑。初始化椭球网格模型只包含较少的顶点和边,经过级联网络变形模块逐步变形后,可以以从粗到细的方式逐渐向目标网格模型靠近。

实施例2

图4给出了在shapenet测试数据集上分别使用本发明所提出的多视图三维重建方法与3d-r2n2方法所重建出的模型计算量化指标chamferdistance(cd)后所得结果的对比。

图中数据表示的是shapenet测试数据集的13类数据cd的平均值,并且cd值越低,代表重建精度越高,方法性能越好。从数据结果可以看出,本发明提出的多视图重建方法cd值最低,重建性能最好。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1