一种基于特征匹配的三维模型分类方法与流程

文档序号：12671439阅读：280来源：国知局

本发明涉及三维模型分类领域，尤其涉及一种基于特征匹配的三维模型分类方法。

背景技术：

3D模型作为一种比2D图片更加丰富多彩的多媒体数据类型，在近几年正不断进步和发展。一方面，建模工具、3D扫描器、以及3D图形加速硬件等设备的发展使得接入和产生高质量的3D模型成为可能。尤其是微软Kinect的发明和使用有力的推动和促进了这个发展趋势。另一方面，计算机图形学的发展，工业产品设计，三维场景，虚拟现实等等3D模型的应用使得3D模型被广泛传播和使用。3D模型在娱乐^[1]、医学^[2]、工业^[3]等应用领域的研究和使用得到了认同。日益发展的互联网技术也为3D模型的传输和处理提供了条件，这些都推动了3D模型数据库及其应用需求的快速增长。因此，面对一个庞大的3D模型数据库，如何高效率地分类成为了一个热门课题^[4]。

基于内容的分类分为两类：基于模型的分类^[5]和基于视图的分类^[6]。由于基于模型的分类受到计算量的限制应用不是很广泛，现在较为常用的是基于视图的检索。基于视图的三维模型分类方法使用二维视图来描述三维模型，同时，三维模型的比较也是基于二维视图之间的比较实现的。

目前三维模型有两种表现形式^[7]：obj等三维虚拟模型、以及由三维实物模型得到的一系列二维图像。由于一系列二维图像表示三维模型的形式比较流行，所以对三维模型的分类就转换为图像的分类。当前主要的图像分类方法是基于内容的，它从如何赋予视觉特征从语义的角度可以分为两类：一类是基于相似度的方法。通常提取图像的视觉特征与数据库中的图像特征进行比较得出最相近的作为分类结果。但由于图像的领域较宽，图像的低级视觉特征和高级概念之间存在着较大的语义间隔，导致分类效果不佳。另一类是基于解释的方法，即在得到图像的视觉特征后并不进行相似度的计算而是直接根据特征得出语义解释^[8]，再根据相关解释进行分类。

基于视图的三维模型分类领域目前面临的主要挑战为：大多数方法都关注在相似度计算上，而且对一系列二维图像进行分类的工作量较大，限制了实际应用范围。

技术实现要素：

本发明提供了一种基于特征匹配的三维模型分类方法，避免了对特征所处空间的依赖，提高了三维模型分类的精度，降低了计算的复杂度，详见下文描述：

一种基于特征匹配的三维模型分类方法，所述三维模型分类方法包括以下步骤：

分别提取训练向量集的高斯核并定义为多视角训练高斯核和单视角训练高斯核，将高斯核分别定义为多视角训练特征库和单视角训练特征库；

利用多视角训练特征和单视角训练特征构建目标函数并迭代使其最小化得到特征匹配矩阵；

将待分类数据中各物体的多视角彩色视图集随机抽取一张视图，得到各物体的初始单视角视图和类别标签提取单视角视图的卷积神经网络特征后计算特征的单视角高斯核，并定义为单视角特征库；

将单视角特征库乘以其转换函数得到映射后的特征，将视角训练特征乘以其另一转换函数得到映射后的特征，计算特征间的cos距离进而获得模型之间的相似度。

所述三维模型分类方法还包括：

将训练数据中各物体的多视角彩色视图集定义为多视角训练模型库，对每个物体的多视角彩色视图集随机抽取一张视图得到初始单视角视图，将所有物体的单视图集定义为单视角训练模型库。

所述三维模型分类方法还包括：

在多视角训练模型库和单视角训练模型库中，提取各物体的初始视图集的卷积神经网络特征，得到初始特征多视角训练向量集和类别标签，初始特征单视角训练向量集和类别标签。

所述多视角训练高斯核具体为：计算多视角训练向量集的协方差矩阵的距离范数的高斯核得到多视角训练高斯核，

K_s'(si,sj)＝exp(-d(s_si,s_sj)²/2σ²)

其中，σ是d(s_si,s_sj)的标准差；K_s'(si,sj)为第si个多视角三维物体与第sj个多视角三维物体间的高斯核。

所述单视角训练高斯核具体为：

K_v'(vi,vj)＝exp(-||v_vi-v_vj||²/2t²)

其中，vi,vj∈{1,2,...,n}，t为单视角向量集V的标准差；n为单视角三维物体的个数；v_vi为第vi个单视角三维物体的特征；v_vj为第vj个单视角三维物体的特征；K_v'(vi,vj)为第vi个单视角三维物体与第vj个单视角三维物体间的高斯核。

所述利用多视角训练特征和单视角训练特征构建目标函数的步骤具体为：

将多视角训练特征的转换函数定义为ψ，单视角训练特征的转换函数定义为f，构建目标函数如下：

其中，λ₁＞0，λ₂＞0为权重函数并满足λ₁+λ₂＝1；C(f,ψ)是多视图训练特征和单视图训练特征之间相似度和不相似度的约束项；D(f,ψ)用于保持所有训练特征的几何特性；O(f,ψ)用于保持数据的各同向性分布。

本发明提供的技术方案的有益效果是：

1、避免了采集三维模型分类时所需多视图数的需求，每个模型只需一张视图即可完成分类，节省了大量时间和工作量；

2、使用训练模型来训练特征匹配矩阵，提高了分类精确度。

附图说明

图1为一种基于特征匹配的三维模型分类方法的流程图；

图2为物体的初始多视角视图集样例的示意图；

图3为物体的初始单视角视图集样例的示意图；

图4为四种分类方法的准确率对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决三维模型分类中特征匹配的问题，提高三维模型分类的准确度，参见图1，本发明实施提供了一种基于特征匹配的三维模型分类方法，该方法包括以下步骤：

101：分别提取训练向量集的高斯核并定义为多视角训练高斯核和单视角训练高斯核，将高斯核分别定义为多视角训练特征库和单视角训练特征库；

102：利用多视角训练特征和单视角训练特征构建目标函数并迭代使其最小化得到特征匹配矩阵；

103：将待分类数据中各物体的多视角彩色视图集随机抽取一张视图，得到各物体的初始单视角视图和类别标签提取单视角视图的卷积神经网络特征后计算特征的单视角高斯核，并定义为单视角特征库；

104：将单视角特征库乘以其转换函数得到映射后的特征，将视角训练特征乘以其另一转换函数得到映射后的特征，计算特征间的cos距离进而获得模型之间的相似度。

其中，在步骤101之前，三维模型分类方法还包括：

其中，步骤101中的多视角训练高斯核具体为：计算多视角训练向量集的协方差矩阵的距离范数的高斯核得到多视角训练高斯核，

K_s'(si,sj)＝exp(-d(s_si,s_sj)²/2σ²)

其中，σ是d(s_si,s_sj)的标准差；K_s'(si,sj)为第si个多视角三维物体与第sj个多视角三维物体间的高斯核。

其中，步骤101中的单视角训练高斯核具体为：

K_v'(vi,vj)＝exp(-||v_vi-v_vj||²/2t²)

其中，步骤102中的利用多视角训练特征和单视角训练特征构建目标函数的步骤具体为：

将多视角训练特征的转换函数定义为ψ，单视角训练特征的转换函数定义为f，构建目标函数如下：

综上所述，本发明实施例避免了采集三维模型分类时所需多视图数的需求，每个模型只需一张视图即可完成分类，节省了大量时间和工作量；使用训练模型来训练特征匹配矩阵，提高了分类精确度。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行详细介绍，详见下文描述：

201：将训练数据中各物体的多视角彩色视图集定义为多视角训练模型库SD(Set Database)，如图2所示，对每个物体的多视角彩色视图集随机抽取一张视图得到初始单视角视图，将所有物体的单视图集定义为单视角训练模型库VD(View Database)，如图3所示；

202：在多视角训练模型库和单视角训练模型库中，提取各物体的初始视图集的CNN特征，得到初始特征多视角训练向量集和类别标签初始特征单视角训练向量集和类别标签

其中，CNN特征又称卷积神经网络特征，是图像的特征描述符之一，能够表示图像的深度信息，相比较于其它特征能全面的进行图像特征的比较，已应用于各类目标识别和模型分析中。

203：分别提取这些训练向量集S和V的高斯核并定义为多视角训练高斯核K_s'和单视角训练高斯核K_v'，将这些高斯核分别定义为多视角训练特征库和单视角训练特征库；

其中，

1)多视角训练高斯核：

计算多视角训练向量集的协方差矩阵C＝{C₁,C₂,...,C_m}，然后计算协方差矩阵的距离范数d(s_si,s_sj)＝||log(C_si)-log(C_sj)||_F，其中si,sj∈{1,2,...,m}；m为多视角的三维物体的个数；s_si表示第si个多视角三维物体；s_sj表示第sj个多视角三维物体；C_si为第si个多视角三维物体特征的协方差矩阵；C_sj为第sj个多视角三维物体特征的协方差矩阵；C₁,C₂,...,C_m表示各个多视角三维物体特征的协方差矩阵；F表示的是一种范数的计算方式。

通过计算d(s_si,s_sj)的高斯核得到多视角训练高斯核，K_s'(si,sj)＝exp(-d(s_si,s_sj)²/2σ²)，其中σ是d(s_si,s_sj)的标准差；K_s'(si,sj)为第si个多视角三维物体与第sj个多视角三维物体间的高斯核。

2)单视角训练高斯核：

K_v'(vi,vj)＝exp(-||v_vi-v_vj||²/2t²)，其中vi,vj∈{1,2,...,n}，t为单视角向量集V的标准差；n为单视角三维物体的个数；v_vi为第vi个单视角三维物体的特征；v_vj为第vj个单视角三维物体的特征；K_v'(vi,vj)为第vi个单视角三维物体与第vj个单视角三维物体间的高斯核。

204：利用多视角训练特征K_s和单视角训练特征K_v构建目标函数并迭代使其最小化得到特征匹配矩阵；

将多视角训练特征K_s的转换函数定义为ψ，单视角训练特征K_v的转换函数定义为f，构建目标函数如下：

其中λ₁＞0，λ₂＞0为权重函数并满足λ₁+λ₂＝1。

C(f,ψ)是多视图训练特征和单视图训练特征之间相似度和不相似度的约束项：

其中，为第vi个单视角三维物体的类别标签；为第si个多视角三维物体的类别标签；f(v_vi)为第vi个单视角三维物体的转换矩阵；ψ(s_sj)为第si个多视角三维物体的转换矩阵。

D(f,ψ)＝D_v(f)+D_s(ψ)保持了所有训练特征的几何特性：

其中，f(v_vj)为第vj个单视角三维物体的转换矩阵；v_vi为第vi个单视角三维物体的特征；v_vj为第vj个单视角三维物体的特征；为第vi个单视角三维物体的类别标签；k₁(vi,vj)表示第vi个单视角三维物体在第vj个单视角三维物体的临近点中；k₂(vi,vj)为第vj个单视角三维物体在第vi个单视角三维物体的临近点中；k₁(si,sj)表示第si个多视角三维物体在第sj个多视角三维物体的临近点中；k₂(si,sj)第sj个多视角三维物体在第si个多视角三维物体的临近点中；s_si为第si个多视角三维物体的特征；s_sj为第sj个多视角三维物体的特征；为第si个多视角三维物体的类别标签；εv，εs分别为单视角训练特征K_v＝[K′_{v_train},K′_{sv_train}]和多视角训练特征K_s的标准差。

O(f,ψ)保持了数据的各同向性分布，避免了函数会出现奇异值的情况。

将转换函数f，ψ变为其中B_vi为第vi个单视角三维物体的转换矩阵；K_v,vi为第vi个单视角三维物体特征转换后的矩阵与其他单视角三维物体特征转换后的矩阵的内积之和；B_sj为第si个多视角三维物体的转换矩阵；K_s,sj为第si个多视角三维物体特征转换后的矩阵与其他多视角三维物体特征转换后的矩阵的内积之和。

基于上述转换，目标函数中的C(f,ψ),D(f,ψ),O(f,ψ)可重新写为下列矩阵的形式：

其中，C(B_v,B_s)为C(f,ψ)的矩阵表现形式；B_v为单视角三维物体的特征转换矩阵；K_v为单视角高斯核；B_s为多视角三位物体的特征转换矩阵；K_s为多视角高斯核；R_v＝Z_v-W_v；R_s＝Z_s-W_s；

Z_v',Z_s',Z_v and Z_s是对角矩阵；将W分为类内点和类间点变量：W＝W^w+W^b。W_v和W_s与W的计算方法相同。

基于上述划分，C(B_v,B_s)可被表示为C(B_v,B_s)＝C^w(B_v,B_s)+C^b(B_v,B_s)，D_v和D_s可用相同的方式表示得到D(B_v,B_s)＝D^w(B_v,B_s)+D^b(B_v,B_s)。C^w(B_v,B_s)为C(B_v,B_s)的类内部分；C^b(B_v,B_s)为C(B_v,B_s)的类间部分；D^w(B_v,B_s)为D(B_v,B_s)的类内部分；D^b(B_v,B_s)为D(B_v,B_s)的类间部分；W^w(vi,sj)为第vi个单视角三维物体类别标签与第sj个多视角三维物体类别标签之间的类内关系；W^b(vi,sj)为第vi个单视角三维物体类别标签与第sj个多视角三维物体类别标签之间的类间关系。

为了得到最终的B_v和B_s值，需要对其进行初始化，初始化是通过最大化类内相似度并最小化类间相似度得到的：

s.t.λ₁C^w(B_v,B_s)+λ₂D^w(B_v,B_s)＝1

其中

初始化B_v和B_s后，固定B_s对目标函数中的B_v求导，并使求导后的式子值为零，可得到更新后的B_v：

其中I为对角矩阵。

然后固定B_v对目标函数中的B_s求导，可得到更新后的B_s：

经过迭代设定好的次数后，可得到最终的转换矩阵B_v，B_s。

205：将待分类数据中各物体的多视角彩色视图集随机抽取一张视图，得到各物体的初始单视角视图和类别标签提取单视角视图的CNN特征后计算特征的单视角高斯核K_v__t，并定义为单视角特征库；

K_{v_t}(vti,vtj)＝exp(-||v_vti-v_vtj||²/2θ²)

其中vti,vtj∈{1,2,...,tk}，θ为V_t的标准差。

206：将步骤205得到的单视角特征库K_v__t乘以其转换函数B_v得到映射后的特征U_v＝K_{v_t}*B_v，将步骤203得到的多视角训练特征K_s乘以其转换函数B_s得到映射后的特征U_s＝K_s*B_s，计算特征间的cos距离进而获得模型之间的相似度：

sim＝1-cos(U_s,U_v)

选取与单视角特征sim值最大的多视角特征的标签作为该单视角特征的分类结果。

实施例3

下面结合具体的实验数据、图4对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验使用的数据库为由中国台湾大学发布的数据库ETH^[9]。这是一个真实世界的多视角模型数据库，共包含8类80个物体，每个物体共有41张视图。本实验中挑选24个物体每类3个作为训练集，其余物体作为待分类集。

本实验中涉及到了几个参数：迭代次数，权重系数λ₁，λ₂和邻近点数k₁，k₂。本实验中设置迭代次数为10，权重系数λ₁＝0.9，λ₂＝0.1和邻近点数k₁＝2，k₂＝5。分类后三维模型的类别标签与其原有类别标签相比，所得的数值即为分类的准确率。

实验中将本方法与三种分类方法进行对比：

ITML^[10](Information-theoretic metric learning)，又称“信息理论度量学习”；

NCA^[11](Neighbourhood components analysis)，又称“邻近成分分析”；

KPLS^[12](Kernelized Partial Least Squares)，又称“核偏最小二乘法”。

本实验与三种分类算法准确率比较结果如图4，柱状图越高，代表分类效果越准确。

由图4可知，本方法的检索性能明显高于其他算法。这是由于与其他特征学习方法相比本方法考虑到了类内和类间之间的关系、以及不同视图类型之间的关系，大幅度提升了分类性能。实验结果验证了本方法的可行性与优越性。

参考文献：

[1]Wong H S,Ma B,Yu Z,et al.3-D Head Model Retrieval Using a Single Face View Query[J].Multimedia IEEE Transactions on,2007,9(5):1026-1036.

[2]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volume matching and shape analysis[J].Information Technology in Biomedicine IEEE Transactions on,2006,10(2):362-376.

[3]Pu J,Lou K,Ramani K.A 2D Sketch-Based User Interface for 3D CAD Model Retrieval[J].Computer-Aided Design and Applications,2005,2(6):717-725.

[4]郑伯川,彭维,张引,等.3D模型检索技术综述[J].计算机辅助设计与图形学学报,2004,16(7):873-881.

[5]Angela Brennecke and Tobias Isenberg.3d shape matching using skeleton graphs.In Simulation Und Visualisierung,pages 299–310,2004.

[6]Benjamin Bustos.Feature-based similarity search in 3d object databases.Acm Computing Surveys,37(4):345–387,2005.

[7]Smeulders A,Worring M et al.Content-based image retrieval at the end of the early years.IEEE T ransact ions on Patt ern Analysis and Machine Int elligence,2000,22(12):1349～1380.

[8]Vailaya A,Fi guei redo M,Jain A,Zhang H-J.A Bayesian framework for semant ic classification of outdoor vacation images.In:Proceedings of S PIE:S torage and Ret rieval for Image and Video Databases VII,San Jose,CA ,USA ,1999,3656:415～426.

[9]Bastian Leibe and Bernt Schiele.Analyzing appearance and contour based methods for object categorization.In Computer Vision and Pattern Recognition,2003.Proceedings.2003IEEE Computer Society Conference on,pages 409–415,2003.

[10]Jason V.Davis,Brian Kulis,Prateek Jain,Suvrit Sra,and Inderjit S.Dhillon.Information-theoretic metric learning.In Machine Learning,Proceedings of the Twenty-Fourth International Conference,pages 209–216,2007.

[11]Jacob Goldberger,Sam T.Roweis,Geoffrey E.Hinton,and Ruslan Salakhutdinov.Neighbourhood components analysis.Advances in Neural Information Processing Systems,83(6):513–520,2004.

[12]A.Sharma and D.W.Jacobs.Bypassing synthesis:Pls for face recognition with pose,low-resolution and sketch.In IEEE Conference on Computer Vision and Pattern Recognition,pages 593–600,2011.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘安安;师阳;聂为之
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。