基于深度学习的三维重建的方法、系统及可读存储介质与流程

文档序号:11730258阅读:243来源:国知局
基于深度学习的三维重建的方法、系统及可读存储介质与流程

本发明的实施方式涉及通信与计算机技术领域,更具体地,本发明的实施方式涉及基于深度学习的三维重建的方法、系统及可读存储介质。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着科学技术的发展,重建技术在计算机视觉和计算机图形学领域受到了越来越多的关注,在过去的几十年中,很多学者提出了基于二维图像进行三维重建的方法,例如,通过序列约束、连接性约束、消失点约束、共面约束和边界约束,生成可能的房间场景布局,然后利用最大化能量方法从众多场景布局中选择一个最优的结果,最后使用条件随机场的结构化学习的方法从这些立方体的布局中筛选出结果。该方法利用条件随机场的场景布局筛选方法。

又例如,通过以下步骤进行三维重建:a、使用普通相机采集单张图像数据,提取图像中的直线特征,采用em迭代算法对直线分组并求取消失点,然后通过消失点的信息对相机进行标定;b、利用分类直线进行支撑性分析,得到图像中每个像素所属墙面,从而得到初步的场景结构;c、通过用户的交互操作从初步的场景结构中提取并构建图像场景图,并在交互过程中优化场景结构,从而得到最终的三维场景结构信息;d、使用单根有向线段特征将得到的三维场景结构注册到统一的三维场景中,进而将单相机下的三维场景结构扩大到更大范围。



技术实现要素:

但是,现有技术中的三维重建方法中,需要对所有的可能的房间结构进行人工设计特征,然而,一方面,人工设计的特征参数敏感、不稳定、鲁棒性差,使得三维重建的效果差。另一方面,消失点生成的结构数量大,对不同的结构都要进行特征提取操作,特征提取和结构筛选过程运算代价非常大,降低了三维重建的效率。

为此,非常需要一种新的基于深度学习的三维重建的方法、系统及可读存储介质,利用深度学习进行特征提取,避免人工设计特征,以提升三维重建的效率和效果。

在本上下文中,本发明的实施方式期望提供一种基于深度学习的三维重建的方法、系统及可读存储介质。

在本发明实施方式的第一方面中,提供了一种基于深度学习的三维重建的方法,包括:估计输入的图片的消失点,生成多个结构;

基于深度学习提取的结构特征,从所述多个结构中确定目标结构;

根据所述目标结构以及所述消失点的信息进行三维重建。

在一些实施例中,基于前述方案,所述估计输入的图片的消失点,包括:

采用lsd算法提取所述图片的多个线段;

从所述多个线段组成的多个交点中估计消失点。

在一些实施例中,基于前述方案,所述从所述多个线段组成的多个交点中估计消失点,包括:

根据每个交点与每个线段的中点的夹角以及每个线段的长度,从所述多个线段组成的多个交点中估计消失点。

在一些实施例中,基于前述方案,所述方法包括:

通过如下的公式对每个交点进行投票,根据所述每个交点的投票值,估计消失点:

其中,v表示交点的投票值,α表示交点p与线段l的中点的夹角,|l|为线段的长度,δ表示常量。

在一些实施例中,基于前述方案,所述消失点的数目为3。

在一些实施例中,基于前述方案,所述深度学习包括全卷积神经网络fcn。

在一些实施例中,基于前述方案,所述基于深度学习提取的结构

特征,确定目标结构,包括:

基于所述fcn提取所述图片的scoremap;其中,所述scoremap用于描述结构特征;

根据所述scoremap从所述多个结构中确定目标结构。

在一些实施例中,基于前述方案,根据所述scoremap从所述多个结构中确定目标结构之前还包括:

基于所述结构特征,对所述多个结构进行负样本抑制。

在一些实施例中,基于前述方案,所述基于所述结构特征,对所述多个结构进行负样本抑制,包括:

对所述scoremap进行二值化操作,然后进行腐蚀以及膨胀中的至少一种操作,利用操作后的所述图片的scoremap对所述多个结构进行负样本抑制。

在一些实施例中,基于前述方案,所述根据所述scoremap从所述多个结构中确定目标结构,包括:

通过如下的公式计算每个结构的得分,根据所述每个结构的得分,确定目标结构:

其中,yi为生成的结构中的结构特征构成的图,all_pixels表示所述图的所有像素,pi为所述fcn输出的[0,1]范围的scoremap。

在一些实施例中,基于前述方案,所述根据所述目标结构以及所述消失点的信息进行三维重建,包括:

根据所述消失点估计所述图片对应的相机参数;

根据所述相机参数、所述消失点和确定的目标结构确定所述图片对应的三维结构,实现三维重建。

在一些实施例中,基于前述方案,所述根据所述消失点估计所述图片对应的相机参数,包括:

利用曼哈顿假设,通过如下的最小化损失函数估计焦距:

其中,mine(fk)表示求最小值的优化运算,e为优化目标函数,fk为待优化变量,vix为前面计算好的第i个消失点的x坐标,viy为前面计算好的第i个消失点的y坐标,fk表示焦距值。

在本发明的第二方面中,提供了一种基于深度学习的三维重建的系统,包括:估计模块,用于估计输入的图片的消失点,生成多个结构;确定模块,用于基于深度学习提取的结构特征,从所述多个结构中确定目标结构;重建模块,用于根据所述目标结构以及所述消失点的信息进行三维重建。

在一些实施例中,基于前述方案,所述估计模块,包括:

提取单元,用于采用lsd算法提取所述图片的多个线段;

估计单元,用于从所述多个线段组成的多个交点中估计消失点。

在一些实施例中,基于前述方案,所述估计单元,配置为根据每个交点与每个线段的中点的夹角以及每个线段的长度,从所述多个线段组成的多个交点中估计消失点。

在一些实施例中,基于前述方案,所述估计单元,配置为通过如下的公式对每个交点进行投票,根据所述每个交点的投票值,估计消失点:

其中,v表示交点的投票值,α表示交点p与线段l的中点的夹角,|l|为线段的长度,δ表示常量。

在一些实施例中,基于前述方案,所述消失点的数目为3。

在一些实施例中,基于前述方案,所述深度学习包括全卷积神经网络fcn。

在一些实施例中,基于前述方案,所述确定模块,包括:

提取单元,用于基于所述fcn提取所述图片的scoremap;其中,所述scoremap用于描述结构特征;

确定单元,用于根据所述scoremap从所述多个结构中确定目标结构。

在一些实施例中,基于前述方案,所述确定模块,还包括:

抑制单元,用于在所述确定单元确定目标结构之前,基于所述结构特征,对所述多个结构进行负样本抑制。

在一些实施例中,基于前述方案,所述抑制单元,配置为对所述scoremap进行二值化操作,然后进行腐蚀以及膨胀中的至少一种操作,利用操作后的所述图片的scoremap对所述多个结构进行负样本抑制。

在一些实施例中,基于前述方案,所述确定单元,配置为通过如下的公式计算每个结构的得分,根据所述每个结构的得分,确定目标结构:

其中,yi为生成的结构中的结构特征构成的图,all_pixels表示所述图的所有像素,pi为所述fcn输出的[0,1]范围的scoremap。

在一些实施例中,基于前述方案,所述重建模块,包括:

估计单元,用于根据所述消失点估计所述图片对应的相机参数;

重建单元,用于根据所述相机参数、所述消失点和确定的目标结构确定所述图片对应的三维结构,实现三维重建。

在一些实施例中,基于前述方案,所述估计单元,配置为利用曼哈顿假设,通过如下的最小化损失函数估计焦距:

其中,mine(fk)表示求最小值的优化运算,e为优化目标函数,fk为待优化变量,vix为前面计算好的第i个消失点的x坐标,viy为前面计算好的第i个消失点的y坐标,fk表示焦距值。

在本发明实施方式的第三方面中,提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现如第一方面中的方法。

根据本发明实施方式的基于深度学习的三维重建的方法和系统,利用深度学习提取结构特征,使得提取的结构特征准确,鲁棒性好,进而提高了三维重建的效果,而且,不同于现有技术中的需要对所有结构进行相同的特征提取操作,本发明实施例中利用深度学习的提取结构特征适用于所有结构,进而提高了三维重建的效率。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示意性示出根据本发明实施方式的基于深度学习的三维重建的方法的流程图;

图2示意性示出根据本发明实施方式的一种消失点与图片边框的平面位置示意图;

图3示意性示出根据图2得到的一种结构示意图;

图4示意性示出根据本发明实施方式的将scoremap进行二值化以及膨胀操作后的示意图;

图5示意性示出根据本发明实施方式的估计输入图片的消失点的方法的流程图;

图6示意性示出根据本发明实施方式的交点与线段的平面位置关系图;

图7示意性示出根据本发明实施方式的fcn网络架构图;

图8示意性示出本发明实施方式的基于深度学习的三维重建的系统框图;

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种基于深度学习的三维重建的方法、系统及可读存储介质。

在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

发明概述

本发明人发现,现有技术中的三维重建方法,需要对所有的可能的房间结构进行人工设计特征,降低了三维重建的效率,三维重建的效果差。

为此,本发明的实施方式提供了基于深度学习的三维重建的方法、系统及可读存储介质,在进行三维重建的过程中,通过估计输入的图片的消失点,生成多个结构,以及基于深度学习提取的结构特征,从所述多个结构中确定目标结构,并且根据所述目标结构以及所述消失点的信息进行三维重建,实现了利用深度学习进行特征提取,避免人工设计特征,以提升三维重建的效率和效果。

在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

该应用场景是可应用于本发明示例性应用场景,易于理解,这里描述的应用场景仅是示例性的,而不是对本发明的限制。

该应用场景中,输入为2d图片,需要输出该2d图片的3d重建后的结果。

该2d图片可以是一室内场景图片,一室外场景图片或一包装内场景等3d场景对应的2d图片。

示例性方法

下面结合上述应用场景,参考图1-7来描述根据本发明示例性实施方式的基于深度学习的三维重建的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。

图1示意性示出根据本发明实施方式的基于深度学习的三维重建的方法的流程图。该方法可应用于前面描述的应用场景,但该方法的应用场景不限于此。

如图1所示,在步骤s110中,估计输入的图片的消失点,生成多个结构。

消失点(vp),欧几里得空间里的平行线通过相机透视后,在2d图片上的交点。

根据一些实施例,该2d图片可以是一室内场景图片,一室外场景图片或一包装内场景等3d场景对应的2d图片。

需要说明的是,对于消失点的估计将结合图5在后面描述。

根据示例实施例,该消失点的数目可以是3,但本发明并不限于此,例如消失点的数目还可以是更多。

在估计出消失点后,依据消失点的发射线可构成多个结构。

图2示意性示出根据本发明实施方式的一种消失点与图片边框的平面位置示意图。

如图2所示,假设估计的3个消失点分别为vp0、vp1和vp2,图片的边缘已经确定,通过将vp0以任意角度发射两条射线,将vp1以任意角度发射两条射线,满足得到的四个交点所连成的四角形中包含该vp2,通过将vp2分别与这四个交点延长到图片的边框处,根据该延长线与这四个交点的连线,分隔出墙面和地面。图3示意性示出根据图2得到的一种结构示意图。

需要说明的是,根据图2的消失点与图片边框的平面位置示意图,可以得到多个结构示意图,例如,改变vp0和vp1发射射线的角度,就可以得到不同的结构示意图,图3的结构示意图仅为一示例。

在步骤s120中,基于深度学习提取的结构特征,从上述多个结构中确定目标结构。

根据一些实施例,该深度学习可以包括但不限于全卷积神经网络fcn。

全卷积神经网络(fcn),线性映射层都是卷积(无全连接层)的深度神经网络。

根据一些实施例,在提取结构特征的过程中,可以基于fcn提取上述图片的scoremap,该scoremap用于描述结构特征。例如,该scoremap可以用于表示图片中每个像素成为结构特征的概率所组成的图,每个像素成为结构特征的概率值在0至1之间。

需要说明的是,对于室内场景图片而言,其结构特征可以是房间结构线,则该scoremap可以用于表示图片中每个像素成为房间结构线的概率所组成的图。

根据一些实施例,提取到scoremap后,可以根据该scoremap从所述多个结构中确定目标结构。在从多个结构中确定目标结构时,可以通过如下的公式计算每个结构的得分:

其中,yi为生成的结构中的结构特征构成的图,例如,可以为生成的一个结构图中每个像素对于房间结构线的值所组成的图,all_pixels表示所述图的所有像素,pi为所述fcn输出的[0,1]范围的scoremap,也就是根据fcn提取出的每个像素成为房间结构线的概率所组成的图。通过将该图中每个像素的值与fcn输出的scoremap中的每个像素成为结构特征的概率做点乘的操作,能够计算出每个结构的得分。

需要说明的是,公式(1)中yi(1-pi)为惩罚项,可以抑制多个结构中与fcn输出的scoremap比较时,多出结构特征的错误结构。例如,当结构图中一个像素对于房间结构线的值为1,而对应的fcn输出的scoremap中该像素成为房间结构线的值为0时,则,yi(1-pi)=1×(1-0)=1,yipi=1×0=0,则该像素的得分为-1。由此可见,当结构图中的房间结构线比fcn输出的scoremap中的房间结构线多时,会减少该结构图的得分。只有当结构图中房间结构线对应的像素与fcn输出的scoremap中房间结构线对应的像素完全重合时,该结构图的得分最高。

当计算出每个结构的得分后,根据每个结构的得分,确定目标结构。一般情况下,选择得分最高的结构作为目标结构。

上述实施例中,通过公式(1)计算出每个结构的得分,得分可以表示结构与fcn输出的scoremap相似度,从而实现了自动确定出目标结构,不仅提高了目标结构确定的准确度,也提高了目标结构确定的效率。

在步骤s130中,根据上述目标结构以及上述消失点的信息进行三维重建。

根据一些实施例,在进行三维重建时,可以根据上述消失点估计该图片对应的相机参数,进而根据该相机参数、该消失点和确定的目标结构确定该图片对应的三维结构,实现三维重建。

在估计该图片对应的相机参数时,利用曼哈顿假设,通过如下的最小化损失函数估计焦距:

其中,mine(fk)表示求最小值的优化运算,e为优化目标函数,fk为待优化变量,vix为前面计算好的第i个消失点的x坐标,viy为前面计算好的第i个消失点的y坐标,fk表示焦距值。

需要注意的是,在不考虑相机在x和y方向的偏移,根据f可得到对应的相机内参矩阵k。

在得到相机的内参之后,结合消失点的信息以及目标结构,则能求出每个墙面对应边界点,从而确定每个墙面的三维结构,实现三维重建。

进一步的,可以利用得到的三维坐标和图片二维坐标的对应关系把每个墙面分别进行弯曲(warp),可以得到该图片的三维贴图。

本发明实施例中,利用深度学习提取结构特征,使得提取的结构特征准确,鲁棒性好,进而提高了三维重建的效果,而且,不同于现有技术中的需要对所有结构进行相同的特征提取操作,本发明实施例中利用深度学习的提取结构特征适用于所有结构,进而提高了三维重建的效率。

根据一些实施例,在基于fcn提取到scoremap后,还可以根据该结构特征,对上述多个结构进行负样本抑制,进而抑制部分结构。

进行负样本抑制时,可以对该scoremap进行二值化操作,然后进行腐蚀以及膨胀中的至少一种操作,利用操作后的该图片的scoremap对上述多个结构进行负样本抑制。

需要说明的是,对该scoremap进行二值化操作,是指将该图片中像素点的值转换为0或者1这两个值中的一个。进一步的,进行腐蚀以及膨胀中的至少一种操作,使得图片中像素的值差距更加明显,从而使得图片中的结构特征更加清晰。进而,利用进行上述操作后的scoremap对上述多个结构进行筛选,排除部分错误的结构。

图4示意性示出根据本发明实施方式的将scoremap进行二值化以及膨胀操作后的示意图。

如图4所示,假设当像素值为1时,对应的像素为白色,当像素的值为0时,对应的像素为黑色,则对scoremap进行二值化以及膨胀操作后,得到如图4所示的示意图。在进行负样本抑制时,由于生成的结构中墙角必然会落在白色像素区域,也就是墙角所对应的像素值必然为1,则可以抑制部分生成的结构中墙角对应的像素值为0的结构。

需要说明的是,在抑制部分结构时,可以设置不同的抑制程度,例如,可以设置抑制全部墙角对应的像素值均为0的结构,但本发明并不限于此,例如,还可以抑制只有一个墙角对应的像素值为0的结构等。

本发明实施例中,通过对scoremap进行二值化操作,然后进行腐蚀以及膨胀中的至少一种操作,利用操作后的该图片的scoremap对上述多个结构进行负样本抑制,从而排除了部分错误的结构,减少了需要计算得分的结构的基数,在保证三维重建的效果的同时,提高了三维重建的效率。

下面结合具体的实施例,对估计输入图片的消失点的过程进行详细说明。

图5示意性示出根据本发明实施方式的估计输入图片的消失点的方法的流程图。

如图5所示,在s510中,采用lsd算法提取图片的多个线段。

根据一些实施例,采用lsd算法时,首先通过迭代将梯度方向相近的点连接成具有统一朝向的区域,再寻找能够包围此区域的最小矩形结构,从而提取出输入图片的多个线段。

在s520中,从该多个线段组成的多个交点中估计消失点。

根据一些实施例,根据每个交点与每个线段的中点的夹角以及每个线段的长度,从所述多个线段组成的多个交点中估计消失点。

根据一些实施例,通过如下的公式对每个交点进行投票,根据所述每个交点的投票值,估计消失点:

其中,v表示交点的投票值,α表示交点p与线段l的中点的夹角,|l|为线段的长度,δ表示常量,调整权重的常量,一般情况下,δ=0.1。

根据公式(3)可知,越小的夹角、越大的线段长度对应到越大的投票值。

图6示意性示出根据本发明实施方式的交点与线段的平面位置关系图。如图6所示,α表示交点p与线段l的中点的夹角,q为线段l的中点,|l|为线段的长度。

当得到每个交点的投票值后,从中筛选出一组(3个)能够正交且投票值最高的交点,该组交点(3个)为估计的消失点。

下面结合具体的应用场景,对基于fcn提取上述图片的scoremap的方法进行详细说明。

当该图片为一室内场景图片时,在提取scoremap的过程中,可以提取该图片中的房间结构线。由于房间结构线在图片中占用的像素比重较少,进行二分类会存在训练数据不平衡的问题,因此本发明中采用6分类的方法,将该图片分为地面、左墙、中墙、右墙、天花板和房间结构线6个通道,进一步提取出房间结构线的通道。在标定结构线时,线宽采用8元素膨胀的方法,使得结构线更加清晰。

图7示意性示出根据本发明实施方式的fcn网络架构图。

如图7所示,该网络包括下采样部分和上采样部分。下采样部分采用googlenet的结构,但仅使用conv1到dropout层,而不使用googlenet的全连接。

上采样过程先使用1x1的卷积将通道数映射到6通道,对应到6分类,学习参数。然后使用双线性插值直接进行32倍的上采样,从而对参数进行还原,达到和输入一样的尺度。需要说明的是,由于在1x1的卷积中学习了参数,在双线性插值过程中将不再学习参数。由于下采样过程中进行了填充像素(padding)的操作,上采样后还需要使用剪切层(crop)将结构线构成的图裁剪到和输入一样的大小。最后通过softmax层将结果映射到[0,1]之间,得到房间结构的scoremap。

需要说明的是,上述实施例中,输入是缩放到500*500*3(r、g、b三个颜色通道)的二维rgb图片,输出是500*500*6(地面、左墙、中墙、右墙、天花板和房间结构线6个通道)的scoremap,在提取scoremap的过程中,可对输入尺寸做相应的调整,也可使用长宽比不同的尺寸,综合考虑时间和效果,尺寸在300-500之间为佳。

本发明实施例中,利用fcn提取scoremap,使得提取的结构特征准确,鲁棒性好,进而提高了三维重建的效果,而且,不同于现有技术中的需要对所有结构进行相同的特征提取操作,本发明实施例中利用fcn提取的scoremap适用于所有结构,进而提高了三维重建的效率。

示例性系统

在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的、基于深度学习的三维重建的系统进行描述。

图8示意性示出本发明实施方式的基于深度学习的三维重建的系统框图。系统800可实现前面描述的相应方法。下面描述系统800,与前述方法对应的部分不再赘述。

如图8所示,装置800包括估计模块810、确定模块820以及重建模块830。

估计模块810,用于估计输入的图片的消失点,生成多个结构;

确定模块820,用于基于深度学习提取的结构特征,从所述多个结构中确定目标结构;

重建模块830,用于根据所述目标结构以及所述消失点的信息进行三维重建。

根据一些实施例,所述估计模块810,包括:

提取单元8102,用于采用lsd算法提取所述图片的多个线段。

估计单元8104,用于从所述多个线段组成的多个交点中估计消失点。

根据一些实施例,所述估计单元8104,配置为根据每个交点与每个线段的中点的夹角以及每个线段的长度,从所述多个线段组成的多个交点中估计消失点。

根据一些实施例,所述估计单元8104,配置为通过如下的公式对每个交点进行投票,根据所述每个交点的投票值,估计消失点:

其中,v表示交点的投票值,α表示交点p与线段l的中点的夹角,|l|为线段的长度,δ表示常量。

根据一些实施例,所述消失点的数目为3。

根据一些实施例,所述深度学习包括全卷积神经网络fcn。

根据一些实施例,所述确定模块820,包括:

提取单元8202,用于基于所述fcn提取所述图片的scoremap;其中,所述scoremap用于描述结构特征;

确定单元8204,用于根据所述scoremap从所述多个结构中确定目标结构。

根据一些实施例,所述确定模块820,还包括:

抑制单元8206,用于在所述确定单元确定目标结构之前,基于所述结构特征,对所述多个结构进行负样本抑制。

根据一些实施例,所述抑制单元8206,配置为对所述scoremap进行二值化操作,然后进行腐蚀以及膨胀中的至少一种操作,利用操作后的所述图片的scoremap对所述多个结构进行负样本抑制。

根据一些实施例,所述确定单元8204,配置为通过如下的公式计算每个结构的得分,根据所述每个结构的得分,确定目标结构:

其中,yi为生成的结构中的结构特征构成的图,all_pixels表示所述图的所有像素,pi为所述fcn输出的[0,1]范围的scoremap。

根据一些实施例,所述重建模块830,包括:

估计单元8302,用于根据所述消失点估计所述图片对应的相机参数;

重建单元8304,用于根据所述相机参数、所述消失点和确定的目标结构确定所述图片对应的三维结构,实现三维重建。

根据一些实施例,所述估计单元8302,配置为利用曼哈顿假设,通过如下的最小化损失函数估计焦距:

其中,mine(fk)表示求最小值的优化运算,e为优化目标函数,fk为待优化变量,vix为前面计算好的第i个消失点的x坐标,viy为前面计算好的第i个消失点的y坐标,fk表示焦距值。

本发明实施例中,利用深度学习提取结构特征,使得提取的结构特征准确,鲁棒性好,进而提高了三维重建的效果,而且,不同于现有技术中的需要对所有结构进行相同的特征提取操作,本发明实施例中利用深度学习的提取结构特征适用于所有结构,进而提高了三维重建的效率。

示例性设备

在介绍了本发明示例性实施方式的方法和系统之后,接下来,介绍根据本发明的另一示例性实施方式的基于深度学习的三维重建的装置。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中,根据本发明的基于深度学习的三维重建的装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的基于深度学习的三维重建的方法中的步骤。例如,所述处理单元可以执行如图1中所示的步骤s110:估计输入的图片的消失点,生成多个结构;步骤s120,基于深度学习提取的结构特征,从上述多个结构中确定目标结构;步骤s130,根据上述目标结构以及上述消失点的信息进行三维重建。

示例性程序产品

在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的基于深度学习的三维重建的方法中的步骤,例如,所述终端设备可以执行如图1中所示的步骤s110:估计输入的图片的消失点,生成多个结构;步骤s120,基于深度学习提取的结构特征,从上述多个结构中确定目标结构;步骤s130,根据上述目标结构以及上述消失点的信息进行三维重建。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算设备。

应当注意,尽管在上文详细描述中提及了基于深度学习的三维重建的系统的若干模块或单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之,上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1