一种用2d图片搜索3d模型的方法

文档序号：10569951阅读：389来源：国知局

一种用2d图片搜索3d模型的方法
【专利摘要】本发明涉及数据搜索领域，提供了一种跨模型的用2D图片搜索3D模型的方法，包括如下步骤：1)构造3D模型库，2)提取特征向量，3)训练卷及神经网络，4)输入特征向量，5)完成匹配检索。本发明将3D物体和2D图片投影到新的一个空间，以度量3D和2D的相似性，从而解决了因为数据格式不同，2D和3D数据相似性无法度量和检索的问题；同时，本发明还提出了一个端到端的解决方案，相比于其他传统的框架更高效，更具有实时性。
【专利说明】
一种用2D图片搜索3D模型的方法
技术领域
[0001]本发明涉及数据搜索领域，特别涉及到一种跨模型的用2D图片搜索3D模型的方法。
【背景技术】
[0002]3D数字模型已经广泛应用于我们的日常生活，例如3D打印，计算机数控制造(CNM)，3D影视，虚拟现实(VR)，有限元仿真分析(FEA)等领域。在生活中，同样存在许多其它的应用，例如，基于2D图像搭建3D场景模型。
[0003]现有的基于2D图像搭建3D场景模型的方法中，最传统的方法是为每一个物体分别进行3D建模，然后在一个给定的场景中组建3D模组。然而，3D建模往往需要很多时间，尤其是对于需要建立完整的3D场景的情形，很难实时地完成整个课题。另一种方法是基于特定物体的2D信息去搜索3D模型。但是，不同的数据类型直接匹配的困难程度很大，因此，这种方法不易实现。

【发明内容】

[0004]本发明的目的在于:提供一种基于深度学习的将物体的3D形状和2D图片关联在一起直接进行检索的方法，以帮组加速比较不同格式和实现多域物体的检索。
[0005]为了实现上述目的，本发明采用了如下技术方案:
[0006]一种用2D图片搜索3D模型的方法，包括如下步骤:
[0007]S1、构造3D模型库，所述3D模型库中包括多种物体的3D模型集，其中，每种物体的3D模型集包括基础模型集和训练模型集，所述基础模型集包括通过收集得到的该种物体的多个不同的3D基础模型，所述训练模型集包括通过渲染所述基础模型集中的3D基础模型而产生的多个纹理和视角不同的3D训练模型；
[0008]S2、将所述3D模型库中每种物体的所有基础模型和训练模型按整体刚性变换对齐，通过不同视角、不同背景的投影产生多张2D图片，并提取所述多张2D图片的特征向量，构成该种物体的特征向量集Pi;
[0009]S3、建立卷积神经网络，所述卷积神经网络包括输入层、若干个单元模块及输出层，每个单元模块均包括卷积层和池化层，所述输出层为欧式距离损失层，用于计算2D图片和对应3D模型之间的相似度；
[0010]S4、对任意尺寸的待匹配2D图片，采用图像处理技术变换成固定大小的维度，提取特征向量Fi，输入所述卷积神经网络；同时，将所述3D模型库中每种物体的特征向量集Pi输入所述卷积神经网络；
[0011]S5、所述卷积神经网络进行待匹配2D图片与3D模型库中多种物体的3D模型的特征拟合，计算相似度;基于相似程度的计算结果，进行所述待匹配2D图片与3D模型库中物体模型的特征匹配，完成检索。
[0012]进一步的，步骤S2中，所述不同视角包括10?50个视角，不同背景包括不同光线条件和不同背景特征。
[0013]进一步的，步骤S2中，提取2D图片特征向量的方法包括尺寸不变转换特征表示法、方向梯度直方图法和局部二值模式法。
[0014]进一步的，步骤S2中，提取2D图片的特征向量时，采用主成分分析或线性判别分析或正交拉普拉斯特征脸分析或边界费希尔分析来减少特征维度以提高匹配效率。
[0015]进一步的，所述待匹配2D图片在提取特征向量Fi前，还包括去噪和用光照均衡化算法进行处理的步骤。
[0016]进一步的，步骤S5中，所述卷积神经网络在计算相似度的过程中，基于每次计算得到的不同模型欧式距离残差，进行参数的迭代更新，以使计算结果更准确。
[0017]本发明提供的用2D图片搜索3D模型的方法，通过搭建一个新的卷积神经网络，进行2D图片与3D模型的特征拟合，计算相似度，从而实现待匹配2D图片与3D模型库中模型的特征匹配，完成检索。所述卷积神经网络的输入是二维图像和三维模型的特征向量，中间每层的基本模块包含一个卷积层和一个池化层，输出层用欧式距离损失层替换了常用的Softmax层。由于常用的深度学习网络基本都是针对分类问题，一般Softmax是常用的分类器模型;本发明所要解决的首要问题是度量2D图片和3D模型的差别，而用Softmax(分类)度量无法给出量的区别，是不准确的。因此，在本发明的卷积神经网络中，使用了欧式距离损失层替换Softmax层来计算差别，以完成2D图片和对应的3D模型之间的相似性计算。
[0018]本发明的用2D图片搜索3D模型的方法，为了增加搜索的准确性和扩大搜索范围，对收集的多种物体的3D基础模型进行了训练和扩展，通过不同视角、不同背景的渲染，增加了多个纹理和视角不同的3D训练模型，提高了模型的通用性。
[0019]本发明的用2D图片搜索3D模型的方法，所述的卷积神经网络在匹配过程中基于不同的计算得到的不同模型的欧式距离残差来进行参数的迭代更新，进一步提高了匹配的准确性。
[0020]本发明的有益效果为:将3D模型和2D图片投影到新的一个空间，在这个新的空间中，可以度量3D和2D的相似性，从而解决了因为数据格式不同，2D和3D数据相似性无法度量和检索的问题。同时，本发明的解决方案相比于其它传统的框架更高效，更具有实时性。采用本发明方法的训练模型和最后系统的实现模型是一一对应的，一旦深度学习完成，整个系统就可以实时投入到使用。
【附图说明】
[0021]图1为本发明的用2D图片搜索3D模型的方法的流程示意图；
[0022]图2为本发明的方法中卷积神经网络的结构组成示意图；
[0023]图3为图2中卷积神经网络的单元模块基本组成模式示意图。
【具体实施方式】
[0024]为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。
[0025]本发明的用2D图片搜索3D模型的方法，整体流程是把3D物体和2D图片投影到新的一个空间，在这个新的空间中，3D和2D的相似性是可以度量的。采用这种方法有几种优点，首先，解决了因为数据格式不同，2D和3D数据相似性无法度量和检索的问题;其次，提出了一个端到端的解决方案，相比于其他传统的框架更高效，更具有实时性。
[0026]具体的，如图1所示，本发明的方法包括如下几个步骤:构造3D模型库，提取特征向量，训练卷及神经网络，输入特征向量和完成匹配检索。
[0027]I)在构造3D模型库阶段，对于同一种对象，本发明收集了多个不同的3D模型，用这些形状作为基础构造模型库以此来测试形状和图形之间的相似性。用3D模型创建模型库有很多优点，在一系列包含多种3D形状的模型库中，可以集中获取强大丰富表达3D模型的嵌入空间。与2D图片不同的是，3D模型由于对旋转和变化相对稳定，因而相对不容易被外界环境所干扰，从而它们之间的匹配比较更加可靠。另外，3D模型是物体更加真实和完整的展现，因而更容易在整体和局部多角度来提取多种特征信息，由此得到2D图像，可以更加精确地为后面的2D图片之间的匹配提供基础信息，而且2D图片之间的成对比较也更有信息量和准确性。
[0028]2)提取特征向量集。为完整表现给定3D形状的信息，首先，本发明将模型库中的所有实例按整体刚性变换。所谓刚性变换就是只有物体的位置(平移变换)和朝向(旋转变换)发生改变，而形状不变的变换。然后，将这些实例对齐，通过k视点投影产生图片。对于每个形体，这个过程可以表示为11 = {11，￥}1^ = 1，其中;[代表是图片;[，1^代表方向。
[0029]优选的，k值可以设置为10-50左右。另外，也可以平均地绕物体分布角度以覆盖所有的视球面。对于每个I i值，可以提取特征向量。提取特征向量的方法包括尺寸不变转换特征表示法(SIFT )、方向梯度直方图法(HOG)和局部二值模式法(LBP)等方法。基于深度神经网络的发展现状，还可以用深度神经网络得到特征值。如果要进一步提高整体模型对于尺寸变化的稳定性，也可以从多层面(不同的尺寸)提取特征值。从不同角度和不同尺度提取的特征值通过多联体连接在一起从而展现出给定的3D模型。为提高匹配效率，在保持原始数据分布的前提下，本发明应用PCA来减少特征维度。除了 PCA，还可以应用其他机器学习方法，例如线性判别分析(LDA)，正交拉普拉斯特征脸(OLPP)，边界费希尔分析(MFA)等。
[0030]3)基于卷积神经网络(CNN)能够将现实生活中的2D图像与相应的3D模型关联，本发明采用CNN作为整个构架来关联真实世界图片与3D模型。该卷积神经网络的输出层为欧式距离损失层，用于计算2D图片和对应3D模型之间的相似度。其中，CNN是神经网络的一种变形。除了具有神经网络的容错性等基本特征，CNN有它自己的特点:稀疏连接、共享权重、下采样。本发明中，CNN是由多层神经元有规律的彼此连接构成，包括输入层、卷积层、池化层和输出层。其中，输入层一般使用灰度图像，也可以使用RGB彩色图像。卷积层是通过一个可训练的滤波器去卷积一个输入的图像，然后加一个偏置得到；图像进行卷积后，用一个子采样过程来减小图像的规模，这就是池化层的功能。最后，由欧式距离损失函数单元组成输出层。该部分主要用于计算输入向量和参数向量之间的欧式距离，输入与参数向量间差距越大，该部分的输出也越大。在CNN中，每一个神经元是从上一层的局部接受域获得输入，因此可以提取到局部特征同时也保留了它相对于其他特征的近似位置。中间各层的神经元是以特征图(feature map)的形式组织起来的，多张特征图则构成一个隐含层，处在同一个特征图中的神经元节点有着共同的卷积核即共享权重，这种结构不仅能较好的保持平移的不变性还能相应的缩减待训练的权重数量。
[0031]如图2所示，一个具体的CNN模型的基本参数为:
[0032]输入:224 X 224大小的图片，3通道；
[0033]第一层卷积:5X 5大小的卷积核96个;第一层池化:2 X 2的核；
[0034]第二层卷积:3X 3卷积核256个;第二层池化:2 X 2的核；
[0035]第三层卷积:3X 3的卷积核384个;第三层池化:2 X 2的核;将第三层池化的4096维输出作为嵌入空间的输入。
[0036]如图3所示，每个单元模块包括卷基层和池化层。其中，通过卷积层的运算，可以将原2D图片进行图像增强，降低图像噪声；而池化层通过利用图像局部相关性的原理，对图像进行子抽样，减少数据处理量同时保留有用信息。
[0037]在上述模型的整个框架中，采用新的欧氏距离损失层替换softmax层，以此计算现实生活中2D图片特征向量和3D模型之间的距离。它作为原始图片和它所包含的物体之间的一个衡量标准，通过剥离干扰因素的图像，如光线、视点和背景特征，把它投影在相对于物体的嵌入空间，从而加速了图像和形状以及不同形态图形之间的比较。把图像转换到嵌入空间，并在那儿执行任何比较，本质上是在模拟纯粹3D形状间的比较。该部分主要用于计算输入向量和参数向量之间的欧式距尚，输入与参数向量间差距越大，该部分的输出也越大；输出值越小，表明3D模型和2D图片之间的相似性或者关联性越高。
[0038]在本发明的框架里，卷积神经网络(CNN)的作用包括学习不同数据格式的投影和识别面线对象的信息。其中一个很大的优势就是数据驱动，这个和之前的基于规则手动设计流程的方法不同，这很大程度上得益于目前的大数据和GPU技术的研究进展.有了更多的训练数据，我们可以得到更精确和强大的网络，而这些都是自动完成的。
[0039]4)终端用户上传任意尺寸的图片，将对应的图片应用基本图像处理知识变换成固定大小的维度。对于给定的图片，提取特征向量Fi，并和3D特征空间中不同物体的特征向量集Pi拟合，基于相似程度的计算结果，就可以找到对应的3D模型，进而完成整个搜索。
[0040]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。
【主权项】
1.一种用2D图片搜索3D模型的方法，其特征在于，包括如下步骤: 51、构造3D模型库，所述3D模型库中包括多种物体的3D模型集，其中，每种物体的3D模型集包括基础模型集和训练模型集，所述基础模型集包括通过收集得到的该种物体的多个不同的3D基础模型，所述训练模型集包括通过渲染所述基础模型集中的3D基础模型而产生的多个纹理和视角不同的3D训练模型； 52、将所述3D模型库中每种物体的所有基础模型和训练模型按整体刚性变换对齐，通过不同视角、不同背景的投影产生多张2D图片，并提取所述多张2D图片的特征向量，构成该种物体的特征向量集Pi; 53、建立卷积神经网络，所述卷积神经网络包括输入层、若干个单元模块及输出层，每个单元模块均包括卷积层和池化层，所述输出层为欧式距离损失层，用于计算2D图片和对应3D模型之间的相似度； 54、对任意尺寸的待匹配2D图片，采用图像处理技术变换成固定大小的维度，提取特征向量Fi，输入所述卷积神经网络；同时，将所述3D模型库中每种物体的特征向量集Pi输入所述卷积神经网络； 55、所述卷积神经网络进行待匹配2D图片与3D模型库中多种物体的3D模型的特征拟合，计算相似度;基于相似程度的计算结果，进行所述待匹配2D图片与3D模型库中物体模型的特征匹配，完成检索。2.如权利要求1所述的用2D图片搜索3D模型的方法，其特征在于，步骤S2中，所述不同视角包括10?50个视角，不同背景包括不同光线条件和不同背景特征。3.如权利要求1所述的用2D图片搜索3D模型的方法，其特征在于，步骤S2中，提取2D图片特征向量的方法包括尺寸不变转换特征表示法、方向梯度直方图法和局部二值模式法。4.如权利要求3所述的用2D图片搜索3D模型的方法，其特征在于，步骤S2中，提取2D图片的特征向量时，采用主成分分析或线性判别分析或正交拉普拉斯特征脸分析或边界费希尔分析来减少特征维度以提高匹配效率。5.如权利要求1所述的用2D图片搜索3D模型的方法，其特征在于，步骤S4中，所述待匹配2D图片在提取特征向量Fi前，还包括去噪和用光照均衡化算法进行处理的步骤。6.如权利要求1-5任一项所述的用2D图片搜索3D模型的方法，其特征在于，步骤S5中，所述卷积神经网络在计算相似度的过程中，基于每次计算得到的不同模型欧式距离残差，进行参数的迭代更新，以使计算结果更准确。
【文档编号】G06F17/30GK105930382SQ201610230860
【公开日】2016年9月7日
【申请日】2016年4月14日
【发明人】严进龙, 王小龙
【申请人】严进龙

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：严进龙;王小龙;
技术所有人：严进龙;
我是此专利的发明人

上一篇：电子书签的实现方法及装置的制造方法
上一篇：基于混合数据库架构的全球Argo数据存储与更新方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。