一种基于多视角信息融合的机器人三维形状识别方法与流程

文档序号：11729831阅读：163来源：国知局

本发明涉及机器人技术领域和计算机视觉领域，具体地说是利用机器人的视觉传感器得到的多视角视觉信息，用基于阶层式深度学习网络、时空序列深度学习网络和图像相似性检测排序技术实现机器人对三维形状的识别和分类。

背景技术：

三维形状识别一直以来都是机器人领域和计算机视觉领域的热点。快速高效的识别三维形状对于现实生活具有重要意义，例如机器人或无人飞行器通过三维形状匹配在数据库中快速地检索并识别物体，用来寻找并确定目标或者用来躲避障碍物，提高其自身的智能程度；公共安全等领域利用三维匹配技术来查询二维或三维人脸库、三维头颅库等匹配相关信息，能够大大降低恐怖袭击和刑事犯罪对社会的危害；工业现场可以根据图像或图形匹配自动判定控制信息、故障类型等；在生物医学方面，由ct、mri、pet等断层成像设备产生了大量的三维数据，准确快速地查找并处理这些信息，对于提高诊断的准确率并提高我国医疗健康水平，缓解人口老龄化带来的压力至关重要。

目前对机器人三维形状的识别主要分为两种思路：1)以三维形状的全角度视觉信息为基础，通过深度学习技术，得到对三维形状的识别；2)以三维形状的单视角信息为基础，通过深度学习技术，得到对三维形状的识别。su等人提出了一种“multi-viewcnn”(mvcnn)模型来进行三维形状的识别任务，具体来说就是利用从包围三维形状的相机组合得到比较全面的三维形状的全视角视觉信息，然后利用阶层式深度学习网络(卷积神经网络cnn)得到对三维形状的高精度的识别和分类。josephredmon等人提出了“yolo”模型，作者结合卷积神经网络(cnn)深度学习网络，利用从摄像头得到的单视角信息，得到对现实物体的检测、分类和识别。虽然上述两种思路都取得了不错的效果，全角度视觉信息能够得到很高的分类和识别精度，但比较耗费时间，单视角视觉信息虽然计算速度得到显著提升，可是由于其视觉信息的输入相对比较稀疏，因此分类和识别精度相对较低。

考虑到实际运动中的机器人对三维形状的识别任务中，全视角视觉信息和单视角视觉信息都是比较极端的两种情况。对于一个现实中的三维形状，机器人不可能进行全视角观测，由于各种各样的条件限制，得到三维形状物体的全视角信息非常困难。但是从理论上说，得到的视觉信息越丰富，对三维形状的识别和分类任务的效果就越好。然而，现实中不可能得到大量、丰富的三维形状视觉信息，有时候甚至得到只有几个视觉角度的视觉信息，因此这是全视角视觉信息在实际机器人对三维形状识别、分类的局限。同时,运动中的机器人又可以得到几个不同视角的视觉信息，可以弥补单视角的情况下信息不足的缺点，可以极大的提高三维形状的识别和分类精度。

综上所述，针对机器人的三维形状识别方法中，全视角虽然能得到比较高的识别和分类精度，但是其在实际运用中存在比较大的局限性，机器人不太可能得到三维形状的全视角视觉信息，往往只能根据部分视角的视觉信息进行识别任务。另外，虽然单视角虽然计算速度很快，但是毕竟只有一个视角的视觉信息，信息量很不充分，导致分类和识别精度不高，不能满足实际需要。

技术实现要素：

近年来，随着计算机技术、数字图像处理技术及图像处理硬件的进一步发展，计算机视觉在机器人领域中开始得到广泛关注。相比其他方法，基于计算机视觉的方法能够在同等条件下获取环境中的更大量的信息，同时还具备了精度高、不受电子干扰等优点。同时，随着深度学习技术的深入发展，更加高效、更加具有模拟人类学习机制的神经网络的不断涌现，人工智能取得长足发展。这些技术为机器人能够通过多视角的视觉信息精确识别和分类三维形状打下了良好的基础。

本发明提出的基于多视角信息融合的机器人三维形状识别方法，综合全视角和单视角两种方法的优点，同时又克服了全视角和单视角两种方法的缺点。通过机器人在运动中获取的三维形状的多视角信息，首先利用图像相似性检测技术对图像进行相似性排序，进而通过卷积神经网络获得阶层式深度特征，最后利用长短期记忆模型对上述有一定时间和空间序列的视觉特征进行学习得到高度抽象的时空特征。本发明不仅模拟人类的阶层式学习机制，更创新性的加入了模拟人类学习的时空序列的学习机制，进而实现了多视角信息融合对三维形状的高精度分类和识别。

本发明的技术方案为：

所述一种基于多视角信息融合的机器人三维形状识别方法，其特征在于：包括以下步骤：

步骤1：机器人通过视觉信息采集设备，得到不同三维形状的多视角信息，每个三维形状的多视角信息包括n幅不同视角的二维灰度图像，对于同一三维形状的多视角信息，这些图像代表了同一个三维形状，因此具有强烈的内在联系。

步骤2：对每个三维形状的n幅不同视角的二维灰度图像采用以下过程进行相似性排序：

任意指定n幅不同视角的二维灰度图像中的一幅灰度图像作为图像1，以灰度图像的像素作为计算单元，利用相似性方程得到图像1相对除图像1外所有灰度图像图像的相似度，得到相似度最高的灰度图像作为图像2；再利用相似性方程得到图像2相对除图像1和图像2外所有图像的相似度，得到相似度最高的灰度图像作为图像3，以此类推，得到从图像1到图像n组成的相似性序列灰度图像组。

对所获得的多视觉信息进行相似性排序，使得到的多视角图像之间按相关性进行排列，这样做可以将看起来不相关的视觉图像之间的非线性关系凸现出来，因为这些视角信息来自同一个三维形状，其中必然包含某种内在联系，本发明的出发点就是学习这种内在联系，从而提高三维形状的分类精度。而能够学习某种内在序列联系的深度学习网络就是长短期记忆网络，最终的长短期记忆网络就是以相似性序列灰度图像组为单元进行学习的。

步骤3：建立卷积神经网络模型并利用每个三维形状的n幅不同视角的二维灰度图像进行阶层式深度学习；将每个三维形状的相似性序列灰度图像组中的n幅图像输入学习好的卷积神经网络模型，得到每幅图像的抽象特征，组成对应该三维形状的视觉特征组。

对于机器人得到的视觉图像，采用卷积神经网络提取深度阶层式特征。神经生物学家、生物医学家对人脑进行研究发现大脑的视觉系统处理是一种“分层学习”机制。从原始信号摄入开始，接着做初步的处理，然后抽象，然后进一步分析。人类的这种分级认知机制，从机器处理图像的角度来看是一种从低级特征提取到高层特征提取的过程。卷积神经网络就是这样一种阶层式深度学习神经网络，通过这种机制可以得到高度抽象的形状特征。因此卷积神经网络就像人类的视觉系统，从眼睛获得三维形状的二维图像信息进行阶层式网络学习，得到抽象的视觉特征。然而，人类识别三维形状不可能仅仅依靠视觉信息，人类还有一套记忆系统，也就是说从视觉系统得到的视觉信息，被记忆系统记下，下次再得到同一个三维形状的视觉信息，这两个视觉信息之间就通过记忆系统建立了某种联系，同时人类识别三维形状就依靠所记住的三维形状的不同视角的视觉信息同时作用，进行精确识别。因此，有必要对卷积神经网络得到的抽象的视觉信息之间的联系进行进一步挖掘。

步骤4：建立长短期记忆网络模型并利用每个三维形状的视觉特征组进行时空序列深度学习；将每个三维形状的视觉特征组输入学习好的长短期记忆网络模型，得到每个三维形状的三维形状特征。

人类之所以能准确快速的识别三维形状，是因为人类对三维形状的识别是一个过程性的，不单单只是从一个侧面了解三维形状，通过从各个不同角度观察之后，通过大脑将观察学习到的二维图像通过一定的逻辑组合，在大脑中组合成为三维形状，最后得到认知。同时这种认知是不断变化的，当人类通过观察又得到了一种三维形状的新的二维图像，人类不会重新学习，而是在原来的观察到的三维形状的认知的基础上，又增加这个三维形状的新的特点。所以说人类的整个对三维形状的识别过程是一个过程性的，获得三维形状的信息是相互联系的不是孤立存在的。因此，利用长短期记忆网络学习各个视觉图像之间的时空序列关系是可以提高对三维形状的识别和分类精度的。

步骤5：机器人通过视觉信息采集设备得到待识别三维形状的多视角信息；对待识别三维形状的多视角信息进行相似性排序，得到待识别三维形状的相似性序列灰度图像组；将待识别三维形状的相似性序列灰度图像组中的图像分别输入学习好的卷积神经网络模型，得到每幅图像的抽象特征，组成对应待识别三维形状的视觉特征组；将待识别三维形状的视觉特征组输入学习好的长短期记忆网络模型，得到待识别三维形状的三维形状特征，并依据待识别三维形状的三维形状特征进行识别。

进一步的优选方案，所述一种基于多视角信息融合的机器人三维形状识别方法，其特征在于：

步骤2中相似性方程为

其中sij为第i张图像和第j张图像的相似度，fi为第i张图片的向量表示，fj为第j张图片的向量表示；第i张图片向量fi是第i张图像按照行展开生成的一列向量。

进一步的优选方案，所述一种基于多视角信息融合的机器人三维形状识别方法，其特征在于：

步骤3中卷积神经网络模型由卷积层、抽样层、全连接层、dropout层、softmax层组成；其中卷积层和抽样层各有m层，且卷积层和抽样层交替出现；卷积层为网络的特征提取层，每个卷积层包含多个神经元，每个神经元只对前一层网络相应的局部位置进行特征提取，且神经元对同一层所有区域的感知权值是相等；抽样层为网络的特征映射层，每个卷积层包含多个神经元，卷积层由多个特征映射组成，每个特征映射为一个平面，平面上所有的神经元权值相等。

有益效果

本发明实现了一种机器人三维形状识别的方法。该方法可以利用机器人获取的三维形状的多视角信息，对三维形状进行高精度识别和分类。与现有方法相比加入了对多视角信息关系的理解，达到较高的识别准确率。

本发明之所以具有上述的有益效果其原因在于，对各个灰度图像的阶层式特征的学习同时对各视觉信息之间的时空序列的学习。其中卷积神经网络对视觉信息的阶层式学习，通过不断地卷积、池化等操作，从而得到图像高度抽象的视觉特征。卷积神经网络类似于人类的视觉神经的认知机制，而长短期记忆网络类似于人类的记忆机制，人类对任何三维形状的认知不是一次性完成的，而是不断输入不同时间和空间的视觉特征，通过记忆机制，达到对三维形状进行识别分类。本发明综合阶层式学习和时空序列学习，最终得到对三维形状高效率的识别和分类。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：本发明的方法流程图；

图2：卷积神经网络结构；

图3：本发明设计的卷积神经网络结构；

图4：典型的循环神经网络结构；

图5：长短期记忆模型的cells结构。

具体实施方式

下面详细描述本发明的实施例，所述实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

附图1展示了本发明实现的机器人对三维形状识别的总流程。本发明的目的为使机器人能够在运动中对三维形状实现快速高效的识别。图中包含了机器人在运动中得到的不同视角的三维形状的视觉图，识别过程中，首先进行一次视觉信息相似性排序，得到一组有序的视觉信息结构；然后对所得视觉图进行卷积神经网络学习，得到阶层式深度特征，进而带入长短期记忆模型得到时空序列深度特征，最终实现对三维形状的识别和分类。所有深度学习的网络参数都是通过自适应学习得到的，不需要人为设计，具有强大的泛化能力。

本发明的具体步骤为：

步骤2：由于长短期记忆网络的输入必须具有一定的序列，所以对每个三维形状的n幅不同视角的二维灰度图像采用以下过程进行相似性排序：

所述相似性方程为

其中sij为第i张图像和第j张图像的相似度，fi为第i张图片的向量表示，fj为第j张图片的向量表示；第i张图片向量fi是第i张图像按照行展开生成的一列向量。理论上说两张完全相同的图像的相似度为1。这里所用的相似度为余弦相似度。

卷积神经网络(convolutionalneuralnetwork，cnn)是一种多层的神经网络，能够模拟人类观察外界环境的阶层式学习功能，具有很强的抽取图像特征能力，其网络结构具有很强的自学习和并行处理的能力。与传统的浅层网络模型相比，例如支持向量机svm，卷积神经网络cnn不容易过拟合，适合大样本数据的学习。

为了对二维的灰度图像进行其特征提取，本发明运用卷积神经网络，来进行深度图像特征的学习。卷积神经网络能够进行阶层式学习，从而提取出高水平的图像特征。

卷积神经网络是一种多层的前馈网络，每一层由多个二维平面组成，每个平面再由多个神经元组成，如图2。网络中卷积层(convolutionallayer，c)和抽样层(subsamplinglayer，s)交替出现，相当于生物视觉系统中的简单单元和复杂单元交替出现。网络的最后一层为全连接方式的神经网络，输出层的维度对应数据中需要进行分类的类别数。

卷积层：该层为网络的特征提取层，每个卷积层包含多个神经元(c)，每个神经元只对前一层的网络相应的局部位置进行特征提取，这体现在该神经元与前一层局部区域的连接权重上。相比较全连接的神经网络模型，这种局部连接的方式可以大大降低整个网络的参数。为了更加有效的训练整个网络，整个网络设计时采用权值共享的基本策略：即神经元对同一层所有区域的感知权值是相等的。特征映射结构采用sigmoid函数或者relu函数作为卷积网络的激活函数，使其具有位移不变性的特点。

抽样层：该层为网络的特征映射层，每个卷积层包含多个神经元(s)，该层由多个特征映射组成，每个特征映射为一个平面，平面上所有的神经元权值相等。

通过卷积层(c-层)和采样层中(s-层)交替进行特征提取，使得训练出来的特征对输入数据具有很高的畸变容忍能力。

对卷积神经网络采用bp算法进行训练，类似于训练一般神经网络一样，分为前向计算和反向更新过程。卷积神经网络的网络层数和节点个数的多少决定了整个网络的学习能力，同时又影响整个训练学习过程的效率。具体来说，随着网络层数和节点个数的增加，卷积神经网络的能够学习越来越多的三维形状，可同时整个神经网络的计算效率将会大幅度下降。因此神经网络的网络结构的设计，要综合考虑神经网络的学习能力和整个神经网络的学习效率。本发明综合考虑学习能力和计算效率采用四层神经网络。

如图3所示，本实施例中，左边所示为机器人得到的一个水杯的一组灰度图，得到的灰度图的尺寸大小为124*124，然后逐层通过卷积神经网络，分别是卷积层(16个卷积核，卷积核为5*5),抽样层、卷积层(32个卷积核，卷积核为5*5)、抽样层、卷积层(64个卷积核，卷积核为5*5)、抽样层、卷积层(128个卷积核，卷积核为3*3)、抽样层、全连接层、dropout层、softmax层。其中激活函数使用relu函数、dropout层是防止训练过程中的过拟合。通过cnn的训练得到视觉特征。该特征已经具备了高度的抽象性和极强的区分能力，为空间序列深度学习网络的学习打下了坚实的基础。

卷积神经网络需要经过一定的训练，才能具有特征抽象的能力，因此机器人得到的灰度图分为训练数据集和测试数据集。整个网络的训练流程如下：

1、对所有灰度图像的像素进行归一化，使图像的像素值在0到1之间，从而使输入满足本发明的卷积神经网络的输入条件。

2将机器人采集得到不同的三维形状的灰度图像组随机分为训练数据和测试数据。

3、将训练数据集带入卷积神经网络进行训练。

4、将测试数据集带入卷积神经网络，用以检测所设计的卷积神经网络的优劣。

5、将从测试集带入卷积神经网络得到的二维灰度图的抽象特征，进行保存，作为长短期记忆模型的输入数据。

本发明就是要设计类似人类对三维形状的识别机制，不仅仅考虑每一个视觉信息的特征，同时将视觉信息之间的空间和时间关系考虑在内。卷积神经网络虽然很好的模拟人类的阶层式学习方式，每一个深度图通过卷积神经网络都能得到高度抽象、高区分能力的形状特征。可是这种特征就是通过一张张视觉图学习得到的，仅仅只能反映三维形状的一个侧面，不能全面的表达三维形状。虽然可以直接将每一个三维形状得到的深度图特征全部进行拼接得到一个全新的三维形状特征，这个特征理论上能够比较全面的表达一个三维形状，但是这种直接拼接的新的特征完全忽略了每一个深度图得到的特征之间的时间和空间关系，是不完善的。循环神经网络(rnns)的一大优势就是处理具有某种序列的数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题效果有限。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。rnns之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，循环神经网络(rnns)能够对任何长度的序列数据进行处理。但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关，图4便是一个典型的rnns。

循环神经网络(rnns)已经被在实践中证明对自然语言处理(nlp)是非常成功的。如词向量表达、语句合法性检查、词性标注等。在循环神经网络(rnns)中，目前使用最广泛最成功的模型便是长短时记忆模型(lstm)，该模型通常比vanillarnns能够更好地对长短时依赖进行表达，该模型相对于一般的rnns，只是在隐藏层做了手脚。lstm通过刻意的设计来避免长期依赖问题。长期的信息在实践中是lstm的默认行为，而非需要付出很大代价才能获得的能力。所有循环神经网络(rnns)都具有一种重复神经网络模块的链式的形式。在标准的循环神经网络(rnns)中，这个重复的模块只有一个非常简单的结构，例如一个tanh层。长短期记忆网络同样是这样的结构，但是重复的模块拥有一个不同的结构。长短期记忆网络的关键就是细胞状态。长短期记忆网络有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个sigmoid神经网络层和一个pointwise乘法操作。sigmoid层输出0到1之间的数值，描述每个部分有多少量可以通过。0代表“不许任何量通过”，1就指“允许任意量通过”。长短期记忆网络拥有三个门，来保护和控制细胞状态。

本发明采用长短期记忆模型将每个特征之间的时间和空间关系考虑进去，能够更加逼近人类的认知模式。长短期记忆模型与一般的rnns结构本质上并没有什么不同，只是使用了不同的函数去去计算隐藏层的状态。在lstm中，i结构被称为cells，可以把cells看作是黑盒用以保存当前输入xt之前的保存的状态ht-1，这些cells结合前面的状态、当前的记忆与当前的输入决定哪些cell抑制哪些cell兴奋。已经证明，该网络结构在对长序列依赖问题中非常有效。lstm的cells结构如图5所示。

忘记门决定长短期记忆网络丢弃什么信息，该门的舍弃信息由以下函数确定：

ft＝σ(wfxt+hfht-1+bf)

其中，σ()表示sigmoid函数。wf、hf为输入权值，bf为偏置项，xt表示t时刻或者第t步时的输入值，ht-1表示t-1时刻或者第t-1步的输出值，ft表示遗忘门的遗忘系数。

输入门决定cells中更新的信息，该门的更新函数由以下函数决定：

it＝σ(wixt+hiht-1+bi)

其中，wc、hc、wi、hi表示输入权重，bi、bc表示偏置项，it表示将要更新的值的系数，表示根据新的输入值创建的一个新的候选值。

由遗忘门和输入门可以得到cells的状态更新，状态更新函数由以下函数决定：

其中，ct-1表示t-1时刻或者第t-1步的cells状态值，ct表示t时刻或者第t步的cells状态值，由以上公式可以得到cells状态值的更新。

输出门决定了cells的输出值，其由以下函数决定：

ot＝σ(woxt+hoht-1+bo)

ht＝ot*tanh(ct)

其中，wo、ho表示输入权重，bo表示偏置项，tanh()表示tanh函数，ot表示由t时刻输入和t-1时刻的输出值得到的t时刻的输出部分，ht表示cells在t时刻的输出部分，ct表示t时刻的cells的状态。

长短期记忆网络(lstm)通过控制输入门、遗忘门、输出门的开关来达到对时间、空间关系的记忆学习，本发明利用长短期记忆网络序列化学习的特点，来深入挖掘多视角信息的内在联系。具体来说，就是机器人对三维形状连续的运动通过视觉设备获取三维形状的多视角的二维灰度图组，而这些灰度图组可以看做看是一个按时间和空间关系展开的过程，通过长短期记忆网络可以学习得到多视角信息之间的时间和空间关系，得到一个更符合人类认知模式的三维形状特征。

本发明的长短期记忆网络设计，分为输入层、隐藏层、输出层。其中隐藏层的节点个数设为256，以保证较高的运算效率。输入层和输出层的节点个数由灰度图组的灰度图数和整个采集的数据集的三维形状的种类数决定。

本发明效果可以通过以下实验进一步说明：

实验条件：实验采用了国际公认的shrec2015、shrec2011、shrec2007三维形状数据集进行试验，通过上述实验环境得到了理想的识别和分类精度。

实验结果：我们通过考察shrec2015、shrec2011、shrec2007三维形状数据集来评价本发明的优劣。表1中的实验数据为在各个数据集上得到的实验分类精度。

表1.部分视角的三维形状识别实验数据表

由实验数据可以看到，本发明采用的基于部分视觉角度的机器人三维形状识别方法在结果上达到较高的精度。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：布树辉;王磊;刘贞报
技术所有人：西北工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。