一种基于稀疏自编码的三维模型识别方法

文档序号:10512677阅读:350来源:国知局
一种基于稀疏自编码的三维模型识别方法
【专利摘要】一种基于稀疏自编码的三维模型识别方法:采集不同三维模型的二维视图集,构建数据库;选定查询的三维模型,得到低层特征;利用稀疏自编码模型来学习低层特征与初级高层特征之间的滤波器函数;从数据库中得到对比三维模型的低层特征;根据滤波器函数卷积对比三维模型的低层特征,经过池化得到对比三维模型的高层特征;根据滤波器函数卷积查询的三维模型的二维视图,经过池化得到查询的三维模型的高层特征;利用二维视图的高层特征,计算查询模型和对比模型的相似度;判断是否将数据库中的所有三维模型都已作为对比三维模型;降序排列查询的三维模型和所有对比三维模型的相似度,将相似度最高的三维模型的类别作为识别结果。本发明大幅提高了识别效果。
【专利说明】
一种基于稀疏自编码的三维模型识别方法
技术领域
[0001]本发明涉及一种三维模型识别方法。特别是涉及一种基于稀疏自编码的三维模型 识别方法。
【背景技术】
[0002] 近年来,随着三维建模工具的开发和三维重建技术的发展,以及计算机图像处理 能力不断地提高,三维物体模型被广泛的应用到不同的领域,例如:文化遗产 [1]、计算机辅 助设计(CAD)、计算机视觉、医学影像[2]、3D打印、娱乐[3]等。相比于其他多媒体信息,三维模 型及其生成的虚拟现实场景可以提供更加丰富的特征信息和更加逼真的立体视觉特性。这 些优势使其成为继声音、图像和视频之后的第四种多媒体数据类型 [4],同时越来越多的研 究人员开始加入到三维模型的相关研究工作中来。
[0003] 借助于计算机性能的高速发展、三维建模和重建技术的快速进步,三维模型的数 量正在指数型增长,随之出现了许多大规模的模型库。如何自动、高效、准确的识别出三维 模型的类别并反馈给用户,已经成为当前三维模型领域中的热点研究课题。
[0004] 三维模型识别技术大体上可以分为两种方式:基于文本的和基于内容的三维识别 技术。基于文本的识别方式通常是通过关键字标注的方式对现有模型事先进行人为的标 注、分类。当用户检索时,通过分析这些标注的关键字来识别模型种类。此类方法简单易行, 识别速度快。但是缺点也比较突出,关键字标注很难全面、准确的描述三维模型的特征属 性,并且由于人的主观因素很难客观的对模型进行一致性的标注,加之文本本身容易产生 二义性,因此很难得到准确的识别结果。基于内容的技术一般是系统利用三维模型自身所 携带的几何结构、材质等信息进行分析并建模,然后将从三维模型提取的特征存入数据库 中。当进行识别时,用户提供三维模型完整数据或二维视图等通过接口输入,系统进行特征 提取,然后与数据库中的每一个模型的特征进行相似度比较,按照与查询模型的相似度匹 配程度降序排列,将相似度最高模型的类别反馈给用户。此方法原理简单、易于操作且适用 范围广泛。
[0005] 基于内容的三维模型识别领域目前面临的主要挑战为:三维模型转化为一组二维 视图后,虽然现有的特征描述符丰富多样,但大多数只能描述图片某一单方面的初级特征, 且数据间的冗余度较大。而深度学习中的稀疏自编码与卷积神经网络能够通过低层特征形 成更加抽象的高层特征,以探求数据信息的多种深层联系,已成功应用于语音识别 [5]、自然 语言处理[6]等领域。

【发明内容】

[0006] 本发明所要解决的技术问题是,提供一种不仅加快了识别速度,还能大幅提高识 别准确度的基于稀疏自编码的三维模型识别方法。
[0007] 本发明所采用的技术方案是:一种基于稀疏自编码的三维模型识别方法,包括以 下步骤:
[0008] 1)采集不同三维模型的二维视图集,构建数据库;
[0009] 2)选定查询的三维模型,从数据库中随机提取该三维模型的二维视图中的一组子 块,并对子块进行预处理,得到低层特征;
[0010] 3)利用稀疏自编码模型来学习子块的低层特征与初级高层特征之间的滤波器函 数f;
[0011] 4)从数据库中提取一对比三维模型的二维视图中的一组子块,并对子块进行预处 理,得到对比三维模型的低层特征;
[0012] 5)根据滤波器函数f卷积步骤4)中所述的对比三维模型的低层特征,经过池化得 到对比三维模型的高层特征;
[0013] 6)根据滤波器函数f卷积查询的三维模型的二维视图,经过池化得到查询的三维 模型的高层特征;
[0014] 7)利用二维视图的高层特征,计算查询模型和对比模型的相似度;
[0015] 8)判断是否将数据库中的所有三维模型都已作为对比三维模型,是则进入下一步 骤,否则返回步骤4);
[0016] 9)降序排列查询的三维模型和所有对比三维模型的相似度,将相似度最高的三维 模型的类别作为识别结果。
[0017] 步骤2)所述的得到低层特征,具体是:
[0018] 从查询的三维模型的二维视图中随机提取η个方形子块,得到查询模型的子块集C = {ci,C2, . . .Cj, . . .,cn},其中每个子块c的大小为1*1个像素,有d个通道,每个子块c由一 个N维的低层特征向量表示,该子块中一个像素的像素强度值表示一个元素,即ceR N,其中 N=l*l*d;
[0019] 在提取低层特征之前,对所得子块进行预处理,首先进行亮度和对比度的归一化, 具体方法为将子块c中的每个像素减去所有像素的均值,再除以标准差,然后对于整个子块 集C进行白化处理,去除数据之间的相关性,从而得到子块的低层特征p。
[0020] 所述的通道至少包括有红、绿和蓝三个颜色通道。
[0021] 所述的通道包括有红、绿和蓝三个颜色通道和一个深度通道。
[0022] 步骤3)具体为:
[0023]利用稀疏自编码模型学习一个滤波器函数f,将输入的子块的低层特征pERN映射 为一个K维的初级高层特征,其中K表示稀疏自编码模型的参数;
[0024] 输入N维的低层特征,训练得到一个具有K个隐含节点的稀疏自编码模型,输出权 重weRKXN和偏差SeR K,将特征映射的滤波器函数定义为:
[0025] f (p) = l/(l+exp(-wp+5))
[0026] 其中p为输入的低层特征,w和δ为训练稀疏自编码模型得到的参数。
[0027] 步骤5)和步骤6)具体为:
[0028] 首先根据步骤3)中学习的滤波器函数f,给定子块的低层特征ρ时,将所述低层特 征P转化为一个初级高层特征向量y = f(P)£RK,于是定义一个单层卷积网络,g卩,将滤波器 函数f按一定步长s卷积整张二维视图中各子块的低层特征p,从而得到整张二维视图的初 级高层特征。
[0029] 为了进一步去除数据的冗余度,对初级高层特征采取池化处理,把每张二维视图 中的初级高层特征平均分成四等份,计算每等份中所有子块的初级高层特征总和构成高层 特征,则每张二维视图用一个4K维的高层特征表示。
[0030] 本发明的一种基于稀疏自编码的三维模型识别方法,结合深度学习中的稀疏自编 码和卷积神经网络提取视图特征,大幅提高了识别效果。本发明具有的有益效果是:
[0031] 1、利用稀疏自编码模型拟合视图中像素子块的分布情况,构造了高效的滤波器函 数;
[0032] 2、结合深度学习中的卷积神经网络提取视图特征,完成了三维模型识别的任务;
[0033] 3、与其他现有方法学习的特征相比,大幅提升了识别效果。
【附图说明】
[0034] 图1是本发明的基于稀疏自编码的三维模型识别方法的流程图;
[0035] 图2是本发明的基于稀疏自编码的三维模型识别方法的结构示意图;
[0036]图3是三种特征算法的查准-查全曲线图。
【具体实施方式】
[0037]下面结合实施例和附图对本发明的一种基于稀疏自编码的三维模型识别方法做 出详细说明。
[0038]研究表明,深度学习中的稀疏自编码器和神经卷积网络算法能够挖掘数据之间的 深层联系,应用于视觉图片中可提取更具代表性的高级特征,从而完成三维模型识别的任 务。
[0039]本发明的一种基于稀疏自编码的三维模型识别方法,包括以下步骤:
[0040] 1)采集不同三维模型的二维视图集,构建数据库;
[0041] 一个三维模型可以由它的二维视图集表示,其中每张二维视图包含了三维模型在 不同角度和位置的色彩、纹理、结构等信息。二维视图既可以通过摄像机多角度地拍摄三维 模型的彩色视图产生,也可通过下载本领域公知的常用数据库得到。此步骤为三维模型识 别领域所公知。
[0042] 2)选定查询的三维模型,从数据库中随机提取该三维模型的二维视图中的一组子 块,并对子块进行预处理,得到低层特征;
[0043]所述的得到低层特征,具体是:
[0044] 从查询的三维模型的二维视图中随机提取η个方形子块,得到查询模型的子块集C = {ci,C2, . . .Cj, . . .,cn},其中每个子块c的大小为1*1个像素,有d个通道,每个子块c由一 个N维的低层特征向量表示,该子块中一个像素的像素强度值表示一个元素,即ceR N,其中 N=l*l*d;所述的通道至少包括有红(R)、绿(G)和蓝(B)三个颜色通道,或者所述的通道包 括有红(R)、绿(G)和蓝(B)三个颜色通道和一个深度通道。
[0045] 在提取低层特征之前,对所得子块进行预处理,首先进行亮度和对比度的归一化, 具体方法为将子块c中的每个像素减去所有像素的均值,再除以标准差,然后对于整个子块 集C进行白化处理,去除数据之间的相关性,从而得到子块的低层特征p。所述白化的具体原 理和过程参考文献HyvMnenA,Oja E. Independent component analysis :algorithms and applications[J] .Neural networks,2000,13(4) :411-430.中所述。
[0046] 3)利用稀疏自编码模型来学习子块的低层特征与初级高层特征之间的滤波器函 数f;具体为:
[0047]利用稀疏自编码模型学习一个滤波器函数f,将输入的子块的低层特征pERN映射 为一个K维的初级高层特征,其中K表示稀疏自编码模型的参数;
[0048] 使得输出和输入尽可能一致的编码器我们称之为自编码器。比如,如果隐含层的 神经元数目小于输入层,那么这个编码器就要学习怎样压缩数据。而使得神经元大部分时 间被抑制的限制称作稀疏性限制。稀疏自编码器是深度学习中不可或缺的重要模型,已成 功应用于语音识别、细胞识别等领域。
[0049] 输入N维的低层特征,训练得到一个具有K个隐含节点的稀疏自编码模型,输出权 重weRKXN和偏差SeR K,将特征映射的滤波器函数定义为:
[0050] f (p) = l/(l+exp(-wp+5))
[0051] 其中p为输入的低层特征,w和δ为训练稀疏自编码模型得到的参数。
[0052]所述的训练得到一个具有Κ个隐含节点的稀疏自编码模型,可以参考文献Lee Η, Ekanadham C,Ng A Y.Sparse deep belief net model for visual area V2[C]// Advances in neural information processing systems·2008:873-880获得。
[0053] 4)从数据库中提取一对比三维模型的二维视图中的一组子块,并对子块进行预处 理,得到对比三维模型的低层特征;
[0054] 5)根据滤波器函数f卷积步骤4)中所述的对比三维模型的低层特征,经过池化得 到对比三维模型的高层特征;
[0055] 6)根据滤波器函数f卷积查询的三维模型的二维视图,经过池化得到查询的三维 模型的高层特征;
[0056] 上述步骤5)和步骤6)具体为:
[0057] 首先根据步骤3)中学习的滤波器函数f,给定子块的低层特征p时,将所述低层特 征P转化为一个初级高层特征向量y = f(P)£RK,于是定义一个单层卷积网络,g卩,将滤波器 函数f按一定步长s卷积整张二维视图中各子块的低层特征p,从而得到整张二维视图的初 级高层特征。
[0058]具体来说,假设二维视图由m*m个像素构成(有d个通道),当滤波器函数f以步长s 依次卷积输入二维视图中1*1大小的子块时,可以得到[(m-l)/s+l]2个K维的初级高层特 征,如图2所示。更直观地,我们用yk表示位于二维视图中第i行,第j列的像素子块所对应 的K维初级高层特征。
[0059] 为了进一步去除数据的冗余度,对初级高层特征采取池化处理,把每张二维视图 中[(m-l)/s+l]2个K维的初级高层特征如图2平均分成四等份,计算每等份中所有子块的初 级高层特征总和构成高层特征,则每张二维视图用一个4K维的高层特征表示。
[0060] 7)利用二维视图的高层特征,计算查询模型和对比模型的相似度;
[0061] 本实施例是根据下式可计算任意两个不同三维模型的相似度:
[0063]其中S(A,B)表示两个模型之间的相似度,A表示查询模型,B表示对比模型,a和b分 别是三维模型A,B中任意二维视图的高层特征,d(a,b)表示两特征之间的欧氏距离。
[0064] 8)判断是否将数据库中的所有三维模型都已作为对比三维模型,是则进入下一步 骤,否则返回步骤4);
[0065] 9)降序排列查询的三维模型和所有对比三维模型的相似度,将相似度最高的三维 模型的类别作为识别结果。
[0066] 具体实例
[0067] -、数据库
[0068]本实验使用的数据库为本领域公知的新加坡南洋理工大学发布的NTU(Nanyang Technological University)数据库。NTU数据库包括47类共549个不同的虚拟三维模型,如 苹果、水瓶、帆船、座椅等。我们将虚拟三维模型置于球心,将虚拟摄像机摆放于于C60结构 的各顶点拍摄60张二维视图。
[0069] 二、参数设定
[0070] 本发明实施例中,具体的参数取值为:1 = 8,(1 = 3,8 = 1,111 = 240,1( = 128。
[0071] 三、评估标准
[0072] 查准查全曲线(PR,Precision-recall curve):其主要是根据相似度列表描述查 全率与查准率的动态关系。一个好的PR曲线应该尽可能的靠近坐标轴的右上侧。查全率和 查准率的定义如下:
[0073] 查准率一一主要指检索出的结果中相关结果的比率。其定义形式为P=(查询出的 相关信息量+查询信息的总量)X 1〇〇%。三维模型识别中,相关信息指的是与查询模型同 一类别的三维模型。
[0074] 查全率--又叫做召回率,其定义形式:R =查询出的相关信息量+数据库中相关 信息的总量。
[0075]四、对比算法
[0076]本发明重点在于提出了一种新颖的特征提取方法完成三维模型识别,故与其它两 种常用特征方法进行对比:
[0077] Zernike矩[9]是三维模型识别领域中非常流行的特征描述,具有缩放、旋转和平移 不变性。它是一类正交矩,其旋转不变性对于形状表征特别重要,可以利用Zernike多项式 计算得到;
[0078] H0G(方向梯度直方图)[1()]是图像处理中常用的特征描述子,它通过计算和统计图 像局部区域的梯度方向直方图来构成特征。能够借助于梯度的统计信息,高效地描述图片 中局部目标的表象和形状,并且对图像几何的和光学的形变都能保持很好的不变性。
[0079] 五、实验结果
[0080] NTU数据库中三种算法的查准-查全曲线比较结果如图3。查准-查全曲线与横纵坐 标所围面积越大,代表方法性能越优良。
[0081 ] 如图3所示,本方法的识别性能明显优于Zernike矩和H0G特征,这是由于Zernike 矩注重于提取整张图片的轮廓特征,忽略了局部细节信息,而HOG特征虽然是局部目标描述 符,但它反映的是梯度下降的统计情况,具有单一性。与之相比,本发明基于稀疏自编码器 提取的特征既描述了局部子块的颜色、纹理、轮廓等信息,又涵盖了整张图片的全局特征, 通过卷积网络挖掘了低层特征中更抽象、更具表现力的高层特征,获得了优异的实验结果。 [0082]本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例 序号仅仅为了描述,不代表实施例的优劣。
[0083]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0084]本发明的参考文献如下:
[0085] [1]Huang P,Hi 1ton A,Starck J·Shape similarity for 3d video sequences of people[J]. International Journal of Computer Vision,2010,89(2-3):362-381.
[0086] [2]Gao Y,Tang J,Li H,et al. View-based 3D model retrieval with probabilistic graph model[J].Neurocomputing,2010,73(10):1900-1905.
[0087] [3]Vyshali S,Subramanyam M V,Rajan K S.T0P0L0GY ⑶DING IN SPECTRAL DOMAIN FOR EFFECTIVE MEDICAL IMAGE RETRIEVAL. International Journal of Engineering Science and Technology,2011,3(11).
[0088] [4]李洪安.三维模型检索及相关方法研究[D].西北大学,2014.
[0089] [5]Deng L,Hinton G,Kingsbury B.New types of deep neural network learning for speech recognition and related applications: An overview[C]// Acoustics,Speech and Signal Processing (ICASSP),2013IEEE International Conference on.IEEE,2013:8599-8603.
[0090] [6]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.
[0091 ] [7] HyvarincnA ,0ja E . Independent component analysis : algorithms and applications[J].Neural networks,2000,13(4):411-430.
[0092] [8]Lee H,Ekanadham C,Ng A Y·Sparse deep belief net model for visual area V2[C]//Advances in neural information processing systems.2008:873-880.
[0093] [9]Chen D Y,Tian X P,Shen Y T,et al.On visual similarity based 3D model retrieval[C]//Computer graphics forum.Blackwell Publishing,Inc,2003,22 (3):223-232.
[0094] [10]Yoon S M,Scherer M,Schreck T,et al·Sketch-based 3D mode 1 retrieval using diffusion tensor fields of suggestive contours[C]// Proceedings of the international conference on Multimedia.ACM,2010:193-200〇
【主权项】
1. 一种基于稀疏自编码的三维模型识别方法,其特征在于,包括以下步骤: 1) 采集不同三维模型的二维视图集,构建数据库; 2) 选定查询的三维模型,从数据库中随机提取该三维模型的二维视图中的一组子块, 并对子块进行预处理,得到低层特征; 3) 利用稀疏自编码模型来学习子块的低层特征与初级高层特征之间的滤波器函数f; 4) 从数据库中提取一对比三维模型的二维视图中的一组子块,并对子块进行预处理, 得到对比三维模型的低层特征; 5) 根据滤波器函数f卷积步骤4)中所述的对比三维模型的低层特征,经过池化得到对 比三维模型的高层特征; 6) 根据滤波器函数f卷积查询的三维模型的二维视图,经过池化得到查询的三维模型 的高层特征; 7) 利用二维视图的高层特征,计算查询模型和对比模型的相似度; 8) 判断是否将数据库中的所有三维模型都已作为对比三维模型,是则进入下一步骤, 否则返回步骤4); 9) 降序排列查询的三维模型和所有对比三维模型的相似度,将相似度最高的三维模型 的类别作为识别结果。2. 根据权利要求1所述的一种基于稀疏自编码的三维模型识别方法,其特征在于,步骤 2) 所述的得到低层特征,具体是: 从查询的三维模型的二维视图中随机提取η个方形子块,得到查询模型的子块集C = {ci,C2,. . .Cj,. . .,cn},其中每个子块C的大小为1*1个像素,有d个通道,每个子块C由一个N 维的低层特征向量表示,该子块中一个像素的像素强度值表示一个元素,即ceRN,其中N = 在提取低层特征之前,对所得子块进行预处理,首先进行亮度和对比度的归一化,具体 方法为将子块c中的每个像素减去所有像素的均值,再除以标准差,然后对于整个子块集C 进行白化处理,去除数据之间的相关性,从而得到子块的低层特征P。3. 根据权利要求2所述的一种基于稀疏自编码的三维模型识别方法,其特征在于,所述 的通道至少包括有红、绿和蓝三个颜色通道。4. 根据权利要求2所述的一种基于稀疏自编码的三维模型识别方法,其特征在于,所述 的通道包括有红、绿和蓝三个颜色通道和一个深度通道。5. 根据权利要求1所述的一种基于稀疏自编码的三维模型识别方法,其特征在于,步骤 3) 具体为: 利用稀疏自编码模型学习一个滤波器函数f,将输入的子块的低层特征1)£0映射为一 个K维的初级高层特征,其中K表示稀疏自编码模型的参数; 输入N维的低层特征,训练得到一个具有K个隐含节点的稀疏自编码模型,输出权重we RKXN和偏差SeRK,将特征映射的滤波器函数定义为: f(p)=1/(l+exp(-wp+5)) 其中P为输入的低层特征,w和S为训练稀疏自编码模型得到的参数。6. 根据权利要求1所述的一种基于稀疏自编码的三维模型识别方法,其特征在于,步骤 5)和步骤6)具体为: 首先根据步骤3)中学习的滤波器函数f,给定子块的低层特征p时,将所述低层特征p转 化为一个初级高层特征向量y = f(P)eRK,于是定义一个单层卷积网络,g卩,将滤波器函数f 按一定步长s卷积整张二维视图中各子块的低层特征p,从而得到整张二维视图的初级高层 特征。 为了进一步去除数据的冗余度,对初级高层特征采取池化处理,把每张二维视图中的 初级高层特征平均分成四等份,计算每等份中所有子块的初级高层特征总和构成高层特 征,则每张二维视图用一个4K维的高层特征表示。
【文档编号】G06K9/62GK105868706SQ201610181272
【公开日】2016年8月17日
【申请日】2016年3月28日
【发明人】刘安安, 李希茜, 聂为之
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1