一种基于多模态数据特征的目标分类方法与流程

文档序号：21271765发布日期：2020-06-26 22:58阅读：399来源：国知局

本发明涉及多传感器融合及模式识别技术领域，特别是涉及一种基于多模态数据特征的目标分类方法。

背景技术：

目标分类是开发智能驾驶汽车的必备技术之一，为加强智能驾驶汽车的环境感知能力，往往在车辆周围安装多类传感器。当前的目标分类方法大多是基于图像的计算机视觉方法。尽管视觉图像包含了最丰富的语义信息，但传统的光学相机对环境光照变化十分敏感，且图像计算需要消耗大量计算机资源。更重要的是，在高动态的驾驶条件下，视觉测距并不稳定，由于缺乏深度信息会导致基于图像的方法无法估计物体距离和分清道路上的重叠物体。雷达传感器可以提供具有高频率的精确距离信息，但数据分辨率太过稀疏导致使用具有一定的局限性。

在智能驾驶环境中，受车体振动，光线和相机测距精度的影响，深度特征的误差也相对较高，例如kinect传感器无法用于室外远距离的目标检测。单一类型传感器对环境感知均存在一定的劣势，不能对目标更好的检测、分类。

技术实现要素：

为了克服现有技术中不能对目标更好的检测、分类的问题，进而提供一种基于多模态数据特征的目标分类方法。

为了实现上述目的，本发明提供了一种基于多模态数据特征的目标分类方法，包括以下步骤：

采集激光雷达点云数据和rgb图像数据；

获取激光雷达点云数据的若干特征；

根据若干特征获得若干激光雷达特征图；

对激光雷达特征图进行上采样并稠密化；

获取激光雷达特征图的三通道数据，并与rgb图像数据融合形成六通道数据；

采用深度学习网络模型对六通道数据进行训练，获得分类结果。

优选地，特征包括深度距离特征、垂直高度特征和法向量角度特征。

优选地，激光雷达特征图包括深度特征图、高度特征图和角度特征图。

优选地，采用双边滤波器对激光雷达特征图进行上采样并稠密化处理；

对激光雷达特征图进行上采样并稠密化的步骤为：在激光雷达特征图中取任意点q点，激光雷达测量的q点表示深度的灰度值为iq，通过q点上采样获得任意一点p点深度值，双边滤波器的计算公式为：

其中，dp为上采样稠密化后p点的深度值；wp为归一化因子；为q点对p点深度的影响权重；为距离惩罚项；‖p-q‖为p点和q点之间的欧几里德距离；n为激光雷达特征图上的像素点，其中n大于等于1。

优选地，获得深度特征图的步骤包括：

获取像素点对应的三维坐标点；

根据三维坐标点获取像素点的灰度值e，并获得深度特征图；

其中，公式为：

e(u，v)为像素点的灰度值，(x，y，z)为像素点对应的三维坐标点。

优选地，获得高度特征图的步骤包括：

根据垂直高度获得高度特征图，用灰度值q来表示当前点到地面的垂直高度，距离地面越小灰度值越小；距离地面越大灰度值越大。

优选地，获得角度特征图的步骤包括：

获取像素点处于平面上的法向量；

采用像素点切平面上的两个切向量的叉乘积作为像素点的法向量；

根据像素点的法向量获取像素点的灰度值w，并获得角度特征图；

其中，公式为：

n＝sx×sy；

其中，(x，y)为像素点p的坐标。

优选地，深度学习网络模型为卷积神经网络模型；卷积神经网络模型包括从上到下依次排列的六个卷积层和两个全连接层。

优选地，全连接层包括从上到下依次排列的第一全连接层和第二全连接层，第二全连接层进行六通道数据分类。

优选地，获得分类结果步骤包括：

采用卷积神经网络模型对六通道数据进行训练；

第二全连接层进行六通道数据分类，输出六通道数据分类的概率m；

概率m中概率最大的作为分类结果。

本发明所述技术方案具有如下技术效果：

通过对获得的激光雷达特征图进行上采样并稠密化，使激光雷达特征图的分辨率与rgb图像一致。之后将从激光雷达上获取的三个特征，即深度距离特征、垂直高度特征和法向量角度特征作为三通道数据与rgb图像的三通道数据融合形成六通道数据。

通过使用深度学习网络模型对六通道数据进行训练，在训练之后针对每一个目标会获得多个不同的概率，在多个概率中选取概率最大的数值作为最后的目标分类结果。该方法可以更加准确的检测出目标，准确率更高，以有效地解决现有技术中存在的不能对目标更好的检测、分类的问题。

附图说明

图1是本发明中涉及的基于多模态数据特征的目标分类方法的操作流程示意图；

图2是本发明实施例中涉及的激光雷达采集的激光雷达点云数据示意图；

图3是本发明实施例中涉及的上采样稠密化的深度特征图；

图4是本发明实施例中涉及的上采样稠密化的高度特征图；

图5是本发明实施例中涉及的上采样稠密化的角度特征图；

图6是本发明实施例中涉及的卷积神经网络模型具体结构示意图；

图7是本发明实施例中涉及的卷积神经网络模型训练示意图；

图8是本发明实施例中涉及的卷积神经网络训练期间的平均准确率示意图。

具体实施方式

下面结合附图说明根据本发明的具体实施方式。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

为了解决不能对目标更好的检测、分类的问题，本发明提供一种基于多模态数据特征的目标分类方法。

如图1所示，本发明提供一种基于多模态数据特征的目标分类方法，其特征在于，包括以下步骤：

s1、采集激光雷达点云数据和rgb图像数据；

下面将以一个具体的实现方式详细说明采集激光雷达点云数据和rgb图像数据的方法：

通过安装在智能驾驶汽车上的彩色摄像机获取rgb图像(图中未示出)。

示例地：彩色摄像机的频率为10hz，分辨率：1392×512像素，视场角：90度×35度。

可以通过velodynehdl-64e激光雷达获取激光雷达点云数据(如图3所示)。并且彩色摄像机和velodynehdl-64e激光雷达的位置都已经做了标定，共采集了7481张rgb图像和与之对应的激光雷达点云；其中，7481张rgb图像和与之对应的激光雷达点云包含51865个目标，即选取kitti数据集中的7418组数据。

从上述kitti数据集的7418组数据即51865个目标中选取6843个目标的数据对用于实验，其中，包含1750辆汽车，1750名行人，1643辆卡车，1700辆自行车，最大像素为600×365，最小像素为30×30。选择五种道路对象，分别包括行人，自行车，小汽车，箱式货车，卡车和其它对象作为分类对象，其中，其它对象作为负样本类型，用来提高卷积神经网络模型这个分类器的鲁棒性和泛化能力。在6843个数据中的5475个数据用于训练，1368个数据用于测试，并且全部数据都含有标签。

s2、获取激光雷达点云数据的若干特征；

在本步骤中，获取激光雷达点云数据的特征，其中，特征包括深度距离特征、垂直高度特征和法向量角度特征。

s3、根据若干特征获得若干激光雷达特征图；

在本步骤中，将深度距离特征、垂直高度特征和法向量角度特征分别投影到图像上对应生成即深度特征图、高度特征图和角度特征图。

s31、具体的，通过获取深度距离特征，得到深度特征图的步骤为：

通过彩色摄像机和激光雷达的转换矩阵，将激光雷达点云数据转化到与rgb图像对应的像素空间，并获取像素点对应的三维坐标点。

根据三维坐标点获取像素点的灰度值e，并利用灰度值e获得深度特征图。

其中，公式为：

e(u，v)为像素点的灰度值，(x，y，z)为像素点对应的三维坐标点。

用灰度值e表示当前点到智能驾驶汽车的距离，其中，距离越远，灰度值越小；反之距离越近，灰度值越大。

s32、具体的，通过获取垂直高度特征，得到高度特征图的步骤为：

用灰度值q来表示当前点到地面的垂直高度，距离地面越小灰度值越小；距离地面越大灰度值越大。

s33、具体的，通过获取法向量角度特征，得到角度特征图的步骤为：

获取像素点处于一定范围内平面上的法向量，例如当设置法向量计算窗口大小是5×5时，则从以该点为中心的25个点来估计p＝(x，y)的法线。可以使用其切平面上的两个切向量的叉乘积作为位置p的法向量：其中，公式为：

n＝sx×sy；

其中，(x，y)为像素点p的坐标；

根据像素点的法向量获取像素点的灰度值w，并获得角度特征图。

s4、对激光雷达特征图进行上采样并稠密化。

在本步骤中，当获得深度特征图、高度特征图和角度特征图后，采用双边滤波器对上述特征图进行上采样并稠密化处理，得到如图3所示的深度特征图、如图4所示的高度特征图、如图5所示角度特征图。此时获得的深度特征图、高度特征图和角度特征图分辨率与rgb图像的分辨率一致，便于后期的目标检测、分类。

其中步骤为：在激光雷达特征图中取任意点q点，激光雷达测量的q点表示深度的灰度值为iq，通过q点上采样获得任意一点p点深度值，双边滤波器的计算公式为：

其中，由于q点为p点附近的点，则上采样后输出映射dp的深度大小，都可以用其n邻域内稀疏部分的深度值计算；

dp为上采样稠密化后p点的深度值；

wp为归一化因子，确保转换后的值在灰度范围0-255之间；

为q点对p点深度的影响权重；一般来说，的值与距离值成比例并且线性减小，作为惩罚来返回它们与激光雷达的测量距离的函数，且它只取一定范围的值(iq∈n)来将权重作归一化；

为距离惩罚项，它的大小与像素位置p和位置q之间的欧几里德距离‖p-q‖成反比；

‖p-q‖为p点和q点之间的欧几里德距离；

n为激光雷达特征图上的像素点，其中n大于等于1。

s5、获取激光雷达特征图的三通道数据，并与rgb图像数据融合形成六通道数据。

在本步骤中，将深度特征图、高度特征图和角度特征图中的三通道数据(即dha通道特征)与rgb图像数据中的三通道数据(即rgb通道特征)合并为六通道数据(即rgbdha数据集)。

s6、采用深度学习网络模型对六通道数据进行训练，获得分类结果。

如图6所示，在本步骤中，深度学习网络模型为卷积神经网络模型。卷积神经网络模型包括从上到下依次排列的六个卷积层和两个全连接层。其中，全连接层包括从上到下依次排列的第一全连接层和第二全连接层，即如图6所示的全连接层7和全连接层8。第二全连接层进行六通道数据分类。从卷积层1到卷积层6的参数都是固定的，以防止过度拟合，同时，第二全连接层即全连接层8为同rgbdha数据集匹配的6分类。

如图6所示，具体的，卷积神经网络模型为改进的alexnet模型。其中，卷积层1中具有96个卷积核，卷积核的尺寸为11×11×3，激活层1在卷积层1之后，池化层1在激活层1之后，标准化1(rpn)在池化层1之后。

卷积层2中具有256个卷积核，卷积核的尺寸为5×5×3，激活层2在卷积层2之后，池化层2在激活层2之后，标准化2(rpn)在池化层2之后。

卷积层3中具有384个卷积核，卷积核的尺寸为3×3×3，激活层3在卷积层3之后。

卷积层4中具有384个卷积核，卷积核的尺寸为3×3×3，激活层4在卷积层4之后。

卷积层5中具有256个卷积核，卷积核的尺寸为3×3×3，激活层5在卷积层5之后。

卷积层6中具有256个卷积核，卷积核的尺寸为3×3×3，激活层6在卷积层6之后，池化层6在激活层6之后。

即在卷积层1，卷积层2和卷积层6的卷积操作之后，图像做了最大池化。

第一全连接层为全连接层7，激活层7在全连接层7之后，全连接层7输出4096个数据。

第二全连接层为全连接层8，全连接层8输出6个数据，即输出六类分类结果。

如图7所示，使用该深度学习网络模型对生成的六通道数据进行训练。根据深度学习网络模型要求，需要将图像调整为128×128分辨率以获得有效输入，然后将它们作为输入数据放入深度学习网络模型中，进行训练，产生最终训练结果。其中，训练和测试过程在nvidiajetsontx1上进行。训练数据的服务器配置为：cpu为intelcore(tm)i7-5930k，频率为3.5ghz；2个gpu(显卡)，gpu为geforcegtxtitanx。测试数据的计算设备配置为nvidiajetsontx1：cpu为arma57，gpu(显卡)为1tflop/s256-coremaxwell。系统环境为ubuntu16.04和cuda8.0，使用caffe框架下运行卷积神经网络模型模型。

如图8所示，显示了深度学习网络模型分别对rgb(三原色)特征通道数据和六通道数据在训练时的平均准确率。根据图像可知，在迭代进行到200次以后，基于六通道数据的分类准确率就明显比基于rgb(三原色)特征通道数据的高。在迭代训练约1300次以后，使用六通道数据的分类器的分类准确率最高可达约96％，相比较而言，仅仅使用rgb(三原色)特征通道数据的分类器的分类在迭代2000次左右才达到稳定，准确率最高仅为约81％。

综上所述采用深度学习网络模型对六通道数据进行训练比基于对rgb(三原色)特征通道数据的训练得到的准确率最高，效果更好。

表1为基于六通道数据分类结果的混淆矩阵。在混淆矩阵中，主对角线中的值是能够正确分类的目标所占的百分比，其它值为错误分类代表其它目标的百分比。

表1基于六通道数据分类结果的混淆矩阵(％)

从混淆矩阵中可以发现行人和自行车的分类结果完全正确。有1.4％的小汽车误分类为其它。箱式货车中有7％误分类为卡车，1.6％误分类为其它。卡车中有8.6％误分类为箱式货车，2.8％误分类为其它。有2.8％的其它目标误分类为箱式货车。

实验结果中只有小部分小汽车、箱式货车和卡车被误分类成其它类别，分类结果的主要问题发生在卡车和箱式货车的分类错误。这个错误的原因可能是所用数据集中的这两个类别的车非常相似，特别是从背面检测时，很难区分这两种类型的货车。

综上所述，通过对获得的激光雷达特征图进行上采样并稠密化，使激光雷达特征图的分辨率与rgb图像一致。之后将从激光雷达上获取的三个特征，即深度距离特征、垂直高度特征和法向量角度特征作为三通道数据与rgb图像的三通道数据融合形成六通道数据。通过使用深度学习网络模型对六通道数据进行训练，在训练之后针对每一个目标会获得多个不同的概率，在多个概率中选取概率最大的数值作为最后的目标分类结果。

该方法可以更加准确的检测出目标，准确率更高，以有效地解决现有技术中存在的不能对目标更好的检测、分类的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张新钰;周沫;谭启凡;李骏;刘华平;马浩淳;赵建辉
技术所有人：清华大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。