三维物体重建方法、装置、设备和存储介质与流程

文档序号:17150360发布日期:2019-03-19 23:22阅读:189来源:国知局
三维物体重建方法、装置、设备和存储介质与流程

本发明涉及神经网络的技术领域,特别是涉及了一种三维物体重建方法、装置、设备和存储介质。



背景技术:

近年来,扫描技术取得了长足的进步。但是,三维场景获取仍然是一项具有挑战性的工作,尤其是创建大量高质量模型这一领域。

一种常见的三维模型重建方法,在没有校准的前提下,使用手持扫描设备围绕着物体连续扫描,获取物体的扫描图片,进而通过深度或者颜色信息对图片进行配准,重建该物体的三维模型。

然而,采用上述方法,在获取扫描图片的过程中,手持的扫描设备并没有被精确的追踪,并且数据中带有的噪声,很容易导致扫描结果的错误配准,最终导致该物体的三维模型重建不真实。



技术实现要素:

基于此,有必要针对物体的三维模型重建不真实的问题,提供一种三维物体重建方法、装置、设备和存储介质。

第一方面,一种三维物体重建方法,其特征在于,所述方法包括:

获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

上述三维物体重建方法,终端通过获取目标物体的扫描图片序列,并采用神经网络算法,对扫描图片序列中的扫描图片进行预测,获取各扫描图片的预测语义标签,根据预测语义标签和扫描图片序列中的扫描图片,重建目标物体的三维模型。本实施例中,终端采用神经网络算法,获取扫描图片的预测语义标签,根据预测语义标签和扫描图片重建目标物体的三维模型,使得重建的三维模型更加准确,提高了重建的三维模型的准确度。

在其中一个实施例中,所述根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型之后,所述方法还包括:

根据所述三维模型,获取所述扫描图片序列中各扫描图片的投影标签;

根据所述投影标签和所述预测语义标签,获取所述预测语义标签的置信度;

根据所述预测语义标签的置信度,更新所述预测语义标签。

在其中一个实施例中,所述根据所述预测语义标签的置信度,更新所述预测语义标签,包括:

若所述预测语义标签的置信度大于预设阈值,则将所述预测语义标签设置为高置信度标签;

采用所述神经网络算法,根据所述高置信度标签和对应的扫描图片,对所述扫描图片序列中的扫描图片进行预测,获取更新后的预测语义标签。

在其中一个实施例中,所述根据所述预测语义标签的置信度,更新所述预测语义标签,还包括:

若所述预测语义标签的置信度不大于预设阈值,则将所述预测语义标签标记为低置信度标签;

采用主动学习的方法,对所述低置信度标签对应的扫描图片重新标注,获取更新后的预测语义标签。

在其中一个实施例中,所述根据所述投影标签和所述预测语义标签,获取所述预测语义标签的置信度,包括:

对所述投影标签与所述预测语义标签对应的扫描图片中的像素进行对比,获取像素一致性;

根据所述像素一致性,获取所述预测语义标签的置信度。

在其中一个实施例中,所述根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型,包括:

根据预设的三维预设模型的各体素对应的标签分布和所述预测语义标签,将各所述扫描图片映射在所述三维预设模型的对应位置,得到所述三维模型。

在其中一个实施例中,所述根据预设的三维预设模型的各体素对应的标签分布和所述预测语义标签,将各所述扫描图片映射在所述三维预设模型的对应位置,得到所述三维模型,包括:

根据所述扫描图片序列的帧顺序和对应的帧图片,采用预设的配准算法,对所述三维预设模型进行更新,得到更新后的三维预设模型;

根据所述更新后的三维预设模型的各体素对应的标签分布和所述预测语义标签,将各所述扫描图片映射在所述三维预设模型的对应位置,得到所述三维模型。

在其中一个实施例中,所述根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型之后,所述方法还包括

根据预设的分辨率参数和预设的迭代方法,生成第一组超体素;

删除第一组超体素中的目标体素;所述目标体素包括:非背景标签的比例小于预设的第一阈值的体素,和,相邻体素的背景标签的比例大于预设的第二阈值的体素。

第二方面,一种三维物体重建装置,所述装置包括:

获取模块,用于获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包含深度信息;

预测模块,用于采用神经网络算法,根据所述扫描图片对应的部件语义标签,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

重建模块,用于根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

上述三维物体重建方法、装置、设备和存储介质,终端终端通过获取目标物体的扫描图片序列,并采用神经网络算法,对扫描图片序列中的扫描图片进行预测,获取各扫描图片的预测语义标签,根据预测语义标签和扫描图片序列中的扫描图片,重建目标物体的三维模型。本实施例中,终端采用神经网络算法,获取扫描图片的预测语义标签,根据预测语义标签和扫描图片重建目标物体的三维模型,使得重建的三维模型更加准确,提高了重建的三维模型的准确度。

附图说明

图1为一个实施例提供的三维物体重建方法的示意图;

图2为一个实施例中三维物体重建方法的流程示意图;

图3为另一个实施例中三维物体重建方法的流程示意图;

图3a为一个实施例中三维物体重建的示意图;

图4为另一个实施例中三维物体重建方法的流程示意图;

图4a为一个实施例中三维物体重建真实度的对比图;

图4b为另一个实施例中三维物体重建真实度的对比图;

图4c为另一个实施例中三维物体重建真实度的对比图;

图5为另一个实施例中三维物体重建方法的流程示意图;

图6为另一个实施例中三维物体重建方法的流程示意图;

图7为另一个实施例中三维物体重建方法的流程示意图;

图7a为另一个实施例中三维物体重建方法的示意图;

图8为一个实施例提供的三维物体重建方法的示意图;

图9为一个实施例提供的三维物体重建装置的结构示意图;

图10为一个实施例提供的计算结设备的内部结构图。

具体实施方式

近年来,扫描技术取得了长足的进步。但是,三维场景获取仍然是一项具有挑战性的工作,尤其是创建大量高质量模型这一领域。一种常见的三维物体重建方法,在没有校准的前提下,使用手持扫描设备围绕着物体连续扫描,获取物体的扫描图片,进而通过神经网络算法对扫描物体进行图片重建,获取该物体的三维图像。然而,采用上述方法,在获取扫描图片的过程中,手持的扫描设备并没有被精确的追踪,并且数据中带有的噪声,很容易导致扫描结果的错误配准,最终导致该物体的三维扫描图像不真实。本申请提供的一种三维物体重建方法、装置、设备和存储介质,旨在解决三维物体重建不真实的问题。

本申请提供的三维物体重建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本发明提供的三维物体重建方法,可以应用于多种场景重建的过程中,例如,其可以应用于人机交互;虚拟现实;无人驾驶;路径规划;导航定位等中需用进行场景重建的过程中,本申请实施例对此不做限制。

本实施例提供的三维物体重建方法,可以适用于终端中,终端可以为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有数据处理功能的电子设备,本实施例对终端的具体形式不做限定。

需要说明的是,本发明实施例提供的三维物体重建方法,其执行主体可以是三维物体重建装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为三维物体重建的终端的部分或者全部。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图2为一个实施例中三维物体重建方法的流程示意图。本实施例涉及的是根据部件语义标签获取三维图像的具体过程,如图2所示,该方法包括以下步骤:

s101、获取目标物体的扫描图片序列,扫描图片序列包括至少一帧扫描图片,扫描图片包括深度信息。

具体的,深度信息可以是指每个像素点对应的物体距离相机的距离。扫描图片一般均包含深度信息和色彩信息,但是可以不同的方式存储,本申请实施例对此不做限制。扫描图片序列可以对同一个物体进行扫描,并按照扫描时间进行排序获得的扫描图片序列,也可以是根据对同一个物体扫描的不同角度进行排序获得的扫描图片的序列,本申请实施例对此不做限制。在具体获取目标物体的扫描图片序列的过程中,可以通过扫描设备连续扫描目标物体获得扫描图片序列,也可以扫描设备在多个固定的角度扫描目标物体获得的扫描图片序列,本申请实施例对此不做限制。

s102、采用神经网络算法,对扫描图片序列中的扫描图片进行预测,获取各扫描图片的预测语义标签。

具体的,语义标签可以是用来表示扫描图片中的实际物体的物理意义的标识,其可以是指图片是什么物体的标识,也可以是指图片是物体的某一部分的标识,本申请实施例对此不做限制。例如,语义标签可以是“椅背”、“扶手”、“叶片”等物体名称。在具体获取扫描图片序列中的部分扫描图片对应的语义标签的过程中,可以通过人工对部分扫描图片添加部件语义标签;也可以通过机器学习的算法对扫描图片进行学习,获取扫描图片的物理意义,以获得扫描图片的语义标签;还可以是通过人工对少量扫描图片进行物理意义的标注,采用机器学习的方法对标注后的扫描图片和部分扫描图片进行机器学习,获取部分扫描图片的部件语义标签,本申请实施例对此不做限制。

进一步地,预测语义标签可以是指对扫描图片预测的结果,其可以指示扫描图片对应物体的标识,也可以是指扫描图片是具体物体的概率,本申请实施例对此不做限制。在具体的获取各扫描图片的预测语义标签的过程中,可以采用神经网络算法,对扫描图片序列中的扫描图片进行预测,以获取扫描图片的预测语义标签。

示例性的,以采用vgg-16的架构对神经网络算法进行建模为例,使用随机梯度下降的反向传播算法来训练神经网络。在训练阶段,网络的输入是一组rgbd图像和与之对应的带有部件语义标签的分割图像。在第一次迭代中,训练数据量非常小。本实施例预先训练网络以下述公式找到使物体分类损失最小化的一组网络参数ws

其中,loss表示损失函数,n指训练图像的数目,p(yi|ii,ws)指图像ii被标记为真实物体标签yi的概率。在预训练之后,本实施例获得的带有标注的rgbd图像微调网络参数ws。微调的目标是最小化像素层面的分类损失,损失函数的定义如下:

其中,指图像ii输入图像,mij指图像ii中像素pij的真实标签,|ii|指图像图像ii中像素的数目,p(mij|ii,pij,ws)指图像ii的第j个像素被标记为真实部件标签mij的概率。本实施例通过最小化所有训练图像的所有像素的像素误差之和来获取预测语义标签。

在测试阶段,给定图像i'的一个像素p,本发明使用学得的网络参数来计算像素的标签概率,即为预测语义标签的一种表现形式,如下式所示:

p(mk|p)=p(mk|i′,p,ws),forallk∈{1,…,k}

其中,k指可能的标签的数目,mk指第k个标签。本实施例可以通过上述步骤,获取各扫描图片的预测语义标签。

s103、根据预测语义标签和扫描图片序列中的扫描图片,重建目标物体的三维模型。

具体的,重建可以是表示真实物体的三维数字化处理,其可以通过预测语义标签和扫描图片序列中的扫描图片,来重建目标物体的三维模型。在具体的通过预测语义标签和扫描图片序列中的扫描图片来重建目标物体的三维模型的过程中,可以根据预测语义标签将扫描图片序列中的扫描图片映射到预测语义标签中预测的位置上,获取目标物体的三维图像;也可以根据由多个网格组成的三维预设模型,根据预测语义标签将扫描序列中的扫描图片映射在三维预设模型的对应的网格上,重建目标物体的三维模型。本申请实施例对此不做限制。

上述三维物体重建方法,终端通过获取目标物体的扫描图片序列,并采用神经网络算法,对扫描图片序列中的扫描图片进行预测,获取各扫描图片的预测语义标签,根据预测语义标签和扫描图片序列中的扫描图片,重建目标物体的三维模型。本实施例中,终端采用神经网络算法,获取扫描图片的预测语义标签,根据预测语义标签和扫描图片重建目标物体的三维模型,使得重建的三维模型更加准确,提高了重建的三维模型的准确度。

在上述实施例的基础上,进一步地,可以通过三维物体重建投影标签,进而通过投影标签与预测语义标签之间的置信度,更新预测语义标签,以获得更加准确的三维物体重建。下面通过图3-6来详细说明。

图3为另一个实施例中三维物体重建方法的流程示意图。本实施例涉及的是根据投影标签更新预测语义标签的具体过程,如图3所示,所述方法还包括以下步骤:

s201、根据三维模型,获取扫描图片序列中各扫描图片的投影标签。

具体的,投影标签可以是已获得的三维模型中预测语义标签的对应的扫描图片,将三维图像投影至原图片所在的帧图片上,获得的图片的标识。如图3a所示,对已获得的三维模型投影生成的图片,对该图片进行标识即为投影标签。

在具体的获取投影标签的过程中,可以是通过已获得的三维图像的部件进行标识,再通过投影,获得标识后的投影图片,其中携带的标识即为投影标签;也可以直接将三维图片进行投影,获得投影图片,对投影图片进行标识,获得投影标签;本申请实施例对此不做限制。

s202、根据投影标签和预测语义标签,获取预测语义标签的置信度。

具体的,置信度可以用来表示预测语义标签与投影标签之间的一致性,由于投影标签是根据已获得的三维图像的投影得到的,因此,投影标签能更加真实的标识目标物体,根据投影标签与预测语义标签之间进行比较,可以获得预测语义标签的置信度。其可以是通过将投影标签与预测语义标签对应的图片进行之间的对比,获得相似度结果,即为预测语义标签的置信度;也可以是通过将投影标签和预测语义标签对应的图片划分为多个像素格,获得各像素格一致的比列,即为预测语义标签的置信度。本申请实施例对此不做限制。

s203、根据预测语义标签的置信度,更新预测语义标签。

具体的,在上述s202的基础上,在获取了预测语义标签的置信度之后,可以根据置信度,更新预测语义标签。其可以是根据预测语义标签的置信度将预测语义标签划分为高置信度和低置信度的预测语义标签,进而对高置信度的预测语义标签对应的扫描图片进行自学习,获取更多预测语义标签的扫描图片,对低置信度的预测语义标签对应的扫描图片进行重新标签,以获得更新的预测语义标签;由于扫描图片序列中的扫描图片是连续的,相邻帧的扫描图片之间的差异非常小,因此,还可以是根据预测语义标签的置信度获取高置信度序列,根据高置信度序列扩展自学习的训练集,以更新预测语义标签,将高置信度预测语义标签的扫描图片对应的序列设置为高置信度序列,通过高置信度序列中选择一部分扫描图片扩展自学习的训练集,进而获得更多的预测语义标签;本申请实施例对此不做限制。

在具体的更新预测语义标签的过程中,其可以是将原有的预测语义标签进行重新标识,获取更新的预测语义标签,也可以增加或减少已有的预测语义标签,以获得新的预测语义标签集合,即为更新预测语义标签,本申请实施例对此不做限制

例如,在一个扫描图片序列a中,其中包括多个扫描图片,分别a1、a2、a3、a4…an,其中,扫描图片a3的预测语义标签为高置信度预测语义标签,则可以根据扫描图片a3的预测语义标签为高置信度预测语义标签,确定扫描图片序列a为高置信度序列,并对序列a进行均匀抽样,每25帧抽取1帧,作为自学习的训练数据,经过自学习,获取更多预测语义标签,即为更新的预测语义标签。

上述三维物体重建方法,终端根据三维模型,获取扫描图片序列中各扫描图片的投影标签,进而根据投影标签和预测语义标签,获取预测语义标签的置信度,并根据预测语义标签的置信度,更新预测语义标签。本实施例中,终端根据投影标签和预测语义标签,获取预测语义标签的置信度,并根据预测语义标签的置信度,更新预测语义标签,使得更新后的预测语义标签更加准确,进而使得根据预测语义标签和扫描图片获取的三维图像更加准确,进一步地提高了重建目标物体的三维模型的真实度。

可选地,如图4所示,s203“根据预测语义标签的置信度,更新预测语义标签”包括:

s301、判断预测语义标签的置信度与预设阈值之间的大小,若预测语义标签的置信度大于预设阈值,则执行s302;若预测语义标签的置信度不大于预设阈值,则执行s303。

s302、将预测语义标签设置为高置信度标签,采用神经网络算法,根据高置信度标签和对应的扫描图片,对扫描图片序列中的扫描图片进行预测,获取更新后的预测语义标签。

具体的,在上述s202的基础上,获得预测语义标签的置信度,若预测语义标签的置信度大于预设阈值,则将预测语义标签设置为高置信度标签。在确定了高置信度标签后,采用神经网络算法,可以是采用自学习的算法,对高置信度标签和对应的扫描图片进行机器学习,获取更新后的预测语义标签。

s303、将预测语义标签标记为低置信度标签,采用主动学习的方法,对低置信度标签对应的扫描图片重新标注,获取更新后的预测语义标签。

继续在在上述s202的基础上,获得预测语义标签的置信度,若预测语义标签的置信度不大于预设阈值,则将预测语义标签设置为低置信度标签。在确定了低置信度标签后,采用主动学习的方法,对低置信度标签对应的扫描图片重新标注,获取更新后的预测语义标签。

上述三维物体重建方法,终端将预测语义标签的置信度大于预设阈值的预测语义标签设置为高置信度标签,并采用神经网络算法,根据高置信度标签和对应的扫描图片,对扫描图片序列中的扫描图片进行预测,获取更新后的预测语义标签,并将预测语义标签的置信度不大于预设阈值的预测语义标签标记为低置信度标签,并采用主动学习的方法,对低置信度标签对应的扫描图片重新标注,获取更新后的预测语义标签。本实施例中,终端根据预测语义标签的置信度,获取更加准确的更新预测语义标签,从而根据更高置信度的预测语义标签和扫描图片,重建更高真实度的目标物体的三维模型。

需要说明的是,终端可以采用神经网络学习的方法对高置信度标签和对应的扫描图片,对扫描图片序列中的扫描图片进行预测,获取更新后的预测语义标签,也可以采用主动学习的方法,对低置信度标签对应的扫描图片重新标注,获取更新后的预测语义标签,还可以同时采用上述两种方法来更新预测语义标签,本申请对此不做限制。

在具体的通过预测语义标签的置信度,更新预测语义标签后,得到更加准确的预测语义标签。如图4a、图4b和图4c所示,通过对高置信度标签进行自学习,获得更新的预测语义标签,及对低置信度标签进行主动学习,获得更新的预测语义标签;通过这两种方法,对目标物体,包括桌子、椅子及摩托车获得的预测语义标签的准确度明显高于传统的主动学习的方法获得预测语义标签的准确度。

在具体根据投影标签和预测语义标签,获取预测语义标签的置信度的过程中,可以通过图5所示的方法获取。图5为另一个实施例中三维物体重建方法的流程示意图。本实施例涉及的是终端如何通过投影标签和预测语义标签,获取标签的置信度的具体过程,如图5所示,s202“根据投影标签和预测语义标签,获取预测语义标签的置信度”的一种可能的实现方法包括:

s401、对投影标签与预测语义标签对应的扫描图片中的像素进行对比,获取像素一致性。

具体的,像素一致性可以表示图片之间的相似度,其可以是图片内一致的像素占图片内所有像素的百分比。在具体获取像素一致性的过程中,可以是将投影标签对应的扫描图片,与对应的预测语义标签的扫描图片中的像素标签进行对比,获取两种扫描图片中一致的像素的百分比,即为像素一致性。

s402、根据像素一致性,确定预测语义标签的置信度。

具体的,在上述实施例的基础上,在对投影标签与预测语义标签对应的扫描图片中的像素标签进行对比,获取像素一致性后,根据该像素一致性,确定预测语义标签的置信度。其可以是投影标签与预测语义标签像素一致性大于预设的一致性阈值的为高置信度标签,不大于预设的一致性阈值的为低置信度标签。

上述三维物体重建方法,终端通过对投影标签与预测语义标签对应的扫描图片中的像素标签进行对比,获取像素一致性,确定预测语义标签的置信度。本实施例中,终端通过投影标签与预测语义标签对应的扫描图片中的像素一致性,确定预测语义标签的置信度,进而根据预测语义标签的置信度更新预测语义标签,从而根据更高置信度的预测语义标签和扫描图片,获得更高真实度的目标物体的三维图像。

上述实施例详细描述了终端通过三维物体重建投影标签,进而通过投影标签与预测语义标签之间的置信度,更新预测语义标签,以获得更加准确的三维图像的详细过程。下文将详细描述终端根据预测语义标签和扫描图片获取目标物体的三维图像的具体过程。

可选地,s103“根据预测语义标签和扫描图片序列中的扫描图片,重建目标物体的三维模型”包括:根据三维预设模型的各体素对应的标签分布和预测语义标签,将各扫描图片映射在三维预设模型的对应位置,得到三维图像。

具体的,体素可以是体素是体积元素(volumepixel)的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来,其可以是数字数据在三维空间分割上的最小单位。三维预设模型中可以根据截断符号距离函数来表示三维预设模型,该三维预设模型中可以包括多个体素。各体素对应的标签,其可以用来表示该体素的坐标位置,将相同坐标位置的预测语义标签对应的扫描图片映射在该体素的位置上,以重建三维物体。

进一步地,还可以对三维预设模型更新,获得更新的三维预设模型,进而根据更新的三维预设模型,得到三维模型。可选地,如图6所示,“根据预设的三维预设模型的各体素对应的标签分布和预测语义标签,将各扫描图片映射在三维预设模型的对应位置,得到三维模型”一种可能的实现方式包括:

s501、根据扫描图片序列的帧顺序和对应的帧图片,采用预设的配准算法,对三维预设模型进行更新,得到更新后的三维预设模型。

具体的,扫描图片序列中的多个帧图片,可以是通过扫描设备围绕目标物体进行连续扫描而获得扫描图片,相邻帧图片内包括的物体信息相差较小,其可以是同一部件不同角度的图片,因此,在前一帧图片映射到三维预设模型后,采用后一帧图片对前一帧图片进行配准,以获得更准确的物体部件,进而获得更加准确的三维模型。

以使用截断符号距离函数(truncationsigndistancefunction,tsdf)来表示三维预设模型为例,从tsdf值为零的空体素开始,使用单位变换矩阵将第一帧配准到该网格中。中间迭代过程包括将帧ft采用传感器位姿估计配准方法配准到现有模型mt-1,该模型由先前配准融合的帧{f1,…,ft-1}构建而成需要指出的是,本实施例采用这种方法,考虑到帧图片的语义标签,ft的像素和mt-1的体素带有不同的语义标签,将拥有相同语义标签的像素和体素映射到彼此,得到ft配准到mt-1的变换。通过下述描述来进行详细说明。

首先,将ft中像素分组成语义集合si,每个可能的部分标签为i。在每个集合中,只保留具有高置信度的像素。如果像素的标签概率分布p的信息熵h(p)低于阈值θ,则该像素被定义为具有高置信度的像素,信息熵通常计算如下:

其中,pi指像素拥有标签i的概率。类似的,本发明将mt-1的体素划分为语义组s′i,只包含高置信度的体素。

其次,可以将计算语义集合的候选变换,并通过优化所有的候选变换来获得ft和mt-1之间的最优变换。更详细地说,可以使用迭代最近点方法(icp)将ft中每个集合si对齐到它在mt-1中对应的集合s′i,icp提供了对齐两个集合的刚性变换ti。

给定所有部件标签的变换集合{ti},目标是找到一个全局变换t,它最好地结合了{ti}中所有的变换。由于部件标签是通过网络预测获得的,并且不同部件可能具有不同的几何属性,因此对应到不同语义集合的变换在优化中应该具有不同的重要性。根据这个目标,为每个集合si定义一个权重wi:wi=confi+sizei+vari。其中,confi指si标签预测的平均置信度,由si中所有像素的均值h(p)给出;sizei是在ft内分配有si标签的像素的百分比,vari是重建模型中对应于集合si的集合s′i中体素的法向量的变化。因此,权重体现了更高置信度,更大尺寸和更多法向变化的集合应该更多地影响全局变换。偏好法向变化大的原因是因为具有小的法向变化的像素往往会导致匹配的不确定,例如:平坦桌面上的像素匹配是不明确的,因为将任何一个这样的像素进行映射之前增加一个平移都导致相同的损失值。

由每个集合定义的权重,可以通过求解下面的优化问题来计算全局变换t*:

其中,pi,j指集合i的第j个像素。目标函数表明,最优变换t*,使所有集合的加权距离和最小,可以使用高斯-牛顿法来最优化这个目标函数,用迭代方法将目标函数线性化并求解上述方程。具体的,将t*和{ti}约束为只由平移和旋转组成的刚性变换。然后,本发明用t*将ft对齐到mt-1,并将当前帧与模型相结合,生成一个新的模型mt。

对齐后,我们通过累积ft中相应像素的标签分布来更新mt中每个体素的标签概率分布:

其中,ptm指第t次迭代模型中一个体素的标签分布,ptf指第t帧中对应像素的标签分布。

s502、根据更新后的三维预设模型的各体素对应的标签分布和预测语义标签,将各扫描图片映射在三维预设模型的对应位置,得到三维模型。

具体的,在上述s501的基础上,获得更新后的三维预设模型后,由于更新后的三维预设模型是根据扫描图片序列中多个帧图片相互配准获得的,因此,更新后的三维预设模型,将相同坐标位置的预测语义标签对应的扫描图片映射在该体素的位置上,可以获得更加准确的目标物体的三维模型。

上述三维物体重建方法,终端根根据扫描图片序列的帧顺序和对应的帧图片,采用预设的配准算法,对三维预设模型进行更新,得到更新后的三维预设模型,并根据根据更新后的三维预设模型的各体素对应的标签分布和预测语义标签,将各扫描图片映射在三维预设模型的对应位置,得到三维模型。本实施例中,终端通过三维预设模型的各体素对应的标签分布和预测语义标签之间的对应关系,将各扫描图片映射在三维预设模型的对应位置,得到三维模型,使得重建的三维物体更加真实。

上述实施例的三维物体重建方法,在配准过程中只考虑语义部件,但是背景也被标记并存储在重建的三维模型网格中。背景由与目标物体无关的数据组成,例如,目标物体后面的墙。为了重建更加准确的三维物体,终端通过删除背景,只保留目标物体的体素来实现。然而,由于标签预测的累积不确定性,简单地删除具有最大背景置信度的体素可能会在最终的三维模型中引入一些空洞。终端通过删除部分体素的方法,来删除目标物体的背景,进而获取更真实的三维模型。下面通过图7来详细说明。

图7为另一个实施例中三维物体重建方法的流程示意图。如图7所示,所示方法还包括:

s601、根据预设的分辨率参数和预设的迭代方法,生成一组超体素。

具体的,超体素可以是根据设定的分辨率参数获得的体积元素,其可以根据分辨率的变化而变化,分辨率越高,则超体素的体积越小,分辨率越低,则超体素的体积越大。预设的分辨率参数可以根据预设的迭代方法进行修改,预设的迭代方法可以是先设置一个低分辨率的值,根据预设的分辨率参数的步进,修改分辨率的值,获得新的分辨率参数。

s602、根据分辨率参数,删除超体素中的目标体素;目标体素包括:非背景标签的比例小于预设的第一阈值的体素,和,相邻体素的背景标签的比例大于预设的第二阈值的体素。

具体的,可以首先指定一个低分辨率的值,并生成第一组超体素,删除非背景标签的比例小于预设的第一阈值的体素,和,相邻体素的背景标签的比例大于预设的第二阈值的体素。其中,第一阈值和第二阈值可以是设定的固定值,也可以是根据机器学习获得的数值,本申请实施例对此不做限制。例如,可以删除非背景标签体素所占的比例不到5%的目标体素,和,与该超体素相邻的所有超体素中,不到一半的超体素是由部件标签所主导的目标体素。迭代性地重复这个过程。在每次迭代过程中,增大分辨率参数,以将来自先前的迭代结果分割为更小的超体素。当每个超体素的平均置信度大于给定阈值或者当达到最大迭代次数时,则迭代过程结束。在一个实施例中,删除目标体素后获得的三维图像如图7a所示。在背景去除的最后阶段,模型划被分为粒度很细的超体素,其中每个超体素与其内包含的体素的平均标签分布相关联。基于这些分布,本发明使用图割的方法来平滑超体素标记。具体来说,可以通过定义图,其中每个超体素是连接到其相邻超体素的节点,用于标记节点的数据项是基于相应超体素的标签分布,通过将概率值转换为能量代价(energycost),平滑项地遵循potts模型。

上述三维物体重建方法,终端根据预设的分辨率参数和预设的迭代方法,生成一组超体素,并删除超体素中的目标体素;目标体素包括:非背景标签的比例小于预设的第一阈值的体素,和,相邻体素的背景标签的比例大于预设的第二阈值的体素。本实施例中,终端通过删除超体素中的目标体素,删除了目标物体三维模型中的背景图像,使得获得的目标物体的三维模型更加真实。

在上述实施例的基础上,如图8所示,终端获取扫描图片序列,该扫描序列中的扫描图片可以是rgbd图片,采用神经网络算法,获取扫描图片的预测语义标签,根据预测语义标签和扫描图片,重建目标物体的三维模型。进一步地,可以根据获取的目标物体的三维模型,获得对应的投影标签,进而获取投影标签与预测语义标签的之间的置信度,根据置信度,分别对扫描图片进行自学习和主动学习,已获得更加准确的目标物体的三维模型。需要说明的是,图8仅是一种示例。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行。

图9为一个实施例提供的三维物体重建装置的结构示意图。如图9所示,该三维物体重建装置,包括:获取模块10、预测模块20和重建模块30,其中:

获取模块,用于获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

预测模块,用于采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

重建模块,用于根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

本发明实施例提供的三维物体重建装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

关于一种三维物体重建装置的具体限定可以参见上文中对于三维物体重建方法的限定,在此不再赘述。上述三维物体重建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备被处理器执行时以实现一种三维物体重建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取目标物体的扫描图片序列;所述扫描图片序列包括至少一帧扫描图片,所述扫描图片包括深度信息;

采用神经网络算法,对所述扫描图片序列中的扫描图片进行预测,获取各所述扫描图片的预测语义标签;

根据所述预测语义标签和所述扫描图片序列中的扫描图片,重建所述目标物体的三维模型。

本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1