一种基于RGB-D数据融合的测距跟踪方法与流程

文档序号：32661921发布日期：2022-12-23 23:51阅读：240来源：国知局

技术简介：
本专利针对单目视觉测距精度不足的问题，提出融合RGB与深度图像的跟踪方法。通过改进YOLOv5模型，采用可分离卷积降低参数量，结合SIoU损失函数提升检测精度，利用坐标映射关系实现跟踪框与深度图像的配准，最终通过区域像素距离均值计算目标距离，解决了传统单目测距误差大、鲁棒性差的难题。
关键词：RGB-D融合测距,YOLOv5改进

一种基于rgb-d数据融合的测距跟踪方法
技术领域
1.本发明涉及目标检测与跟踪技术领域，特别是涉及一种基于rgb-d数据融合的测距跟踪方法。

背景技术：

2.yolov5模型虽然相对于前几代yolo模型性能最佳，但仍然无法在大多数嵌入式设备上部署，主要原因还是嵌入式设备的算力不支持，因此在模型轻量化问题上还有待改进，而上述专利中加入的注意力机制虽然可对检测精度进行提升，但同时也带来了模型参数量和复杂度的增加，因此更加不适合在嵌入式设备中进行部署。
3.单目测距虽然在部署和实现上比较简单，但由于其是先通过图像匹配进行目标识别(各种车型、行人、物体等)，再通过目标在图像中的大小去估算目标距离，因此必须不断更新和维护一个庞大的样本数据库，才能保证系统达到较高的识别率；无法对非标准障碍物进行判断；距离并非真正意义上的测量，准确度较低，另外其受光照等环境因素影响较大。而基于激光雷达的测距虽然能在各方面表现出良好的效果，但目前激光雷达的价格仍然十分昂贵，对于一些普通的应用场景，应用激光雷达性价比太低。

技术实现要素：

4.本发明的目的是将通过神经网络实现的目标跟踪应用于一般的嵌入式设备中，在面向一般的跟踪场景时，考虑到算力及性价比的问题，提出一种基于rgb-d数据融合的测距跟踪方法。
5.为实现上述目的，本发明提供了如下方案：
6.一种基于rgb-d数据融合的测距跟踪方法，包括：
7.采集待检测目标的rgb图像和深度图像，将所述rgb图像输入到改进的yolov5网络模型中，对所述待检测目标进行目标检测和跟踪，获取跟踪输出结果；
8.将所述跟踪输出结果与所述深度图像进行配准，获得所述待检测目标的距离信息。
9.优选地，采集所述待检测目标的rgb图像和深度图像包括：
10.通过rgb-d相机采集所述rgb图像，基于深度相机采集所述深度图像，在使用所述rgb-d相机和所述深度相机进行采集之前，对相机的各项参数进行标定，并通过相机的空间分布信息，分别得到rgb-d相机坐标和深度相机坐标获取到的图像与真实世界的坐标对应关系。
11.优选地，所述改进的yolov5网络模型中利用可分离卷积代替普通卷积，用于对特征数据进行遍历和卷积操作；并将原始yolov5网络模型中的ciou损失函数替换为siou损失函数，用于提升模型检测的准确度。
12.优选地，将所述rgb图像输入到改进的yolov5网络模型中进行目标检测，包括：
13.基于所述可分离卷积的方法对部分所述原始yolov5模型的组成模块进行改进后，
利用改进后的各模块对所述rgb图像进行特征信息的提取和压缩；其中，所述特征信息的提取包括利用focus结构将图像信息由空间维度转换为通道维度，使用不同的csp结构对提取的特征信息进行拼接，利用ssp层分离上下文特征，通过fpn对特征图进行融合以及利用金字塔结构采用拼接的方式融合特征，最终得到若干不同尺寸的特征图，经替换后的siou损失函数进行筛选，得到检测目标的分类信息以及所述检测目标在图像中的位置信息。
14.优选地，对所述待检测目标进行目标跟踪包括：
15.基于deepsort进行目标跟踪，同时考虑待测目标间距和相似度特征，并对新生成的跟踪轨迹采取验证机制排除错误的预测结果，得到所述待测目标的边界框信息，即所述跟踪输出结果；其中所述验证机制包括卡尔曼预测和监测匹配失败预测。
16.优选地，对所述跟踪输出结果与所述深度图像进行配准包括：
17.基于rgb图像像素点和实际坐标系的映射关系，对相机进行标定配准，获取深度图像像素点和所述实际坐标系的映射关系，其中，所述rgb图像像素点和实际坐标系的映射关系为：
[0018][0019]
xr，yr，zr分别为空间坐标系中点的位置坐标，x，y分别为以相机采光孔作为真实三维世界中坐标系的原点oc，构成的o
c-xcyczc三维坐标系下对应的目标点坐标p(xw，yw，zw)映射到深度图中点的位置坐标，m2和m1分别表示深度成像模块的内部参数和外部参数。
[0020]
优选地，基于所述深度图像像素点和所述实际坐标系的映射关系，对所述跟踪输出结果与所述深度图像进行配准；其中，所述深度图像像素点和实际坐标系的映射关系为：
[0021][0022]
xr，yr，zr分别为空间坐标系中点的位置坐标，xd，yd分别为以相机采光孔作为真实三维世界中坐标系的原点oc，构成的o
c-xcyczc三维坐标系下对应的目标点坐标p(xd，yd，zd)映射到深度图中点的位置坐标，m3和m4分别表示深度成像模块的内部参数和外部参数。
[0023]
优选地，基于所述深度图像像素点和实际坐标系的映射关系，得到深度图像和rgb图像的映射关系：
[0024][0025]
其中，xd，yd分别为映射到深度图中点的位置坐标，m1和m2分别表示相机的外部参数和内部参数，m3和m4分别表示深度成像模块的内部参数和外部参数，x，y为rgb图中的位置
坐标。
[0026]
优选地，基于深度图像和rgb图像的映射关系，将所述跟踪输出结果转换到所述深度图像中，对所述跟踪输出结果区域内深度图像中的像素点距离求均值，得到所述待检测目标的距离信息。
[0027]
本发明的有益效果为：
[0028]
(1)本发明专利在兼顾yolov5检测精度的同时，大大减少了模型的参数量，使其在嵌入式设备上部署成为可能；
[0029]
(2)本发明利用rgb图像实现目标检测与跟踪，将目标跟踪阶段生成的预测框映射到深度相机采集的深度图像中，完成对目标的测距和跟随，此种方案由于单独采集了表示距离信息的深度图像，因而解决了单目测距精度和准确率低的问题，同时目前两种相机的价格一般，性价比也得到了保证。
附图说明
[0030]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0031]
图1为本发明实施例的方法流程图；
[0032]
图2为本发明实施例中yolov5s模型结构图；
[0033]
图3为本发明实施例的卷积层基本结构示意图；
[0034]
图4为本发明实施例的可分离卷积参数量比较示意图；
[0035]
图5为本发明实施例的目标测距方法的工作流程图；
[0036]
图6为本发明实施例的图像配准示意图。
具体实施方式
[0037]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0038]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0039]
一种基于rgb-d数据融合的测距跟踪方法，如图1，包括：
[0040]
采集待检测目标的rgb图像和深度图像，将所述rgb图像输入到改进的yolov5网络模型中，对所述待检测目标进行目标检测和跟踪，获取跟踪输出结果；
[0041]
将所述跟踪输出结果与所述深度图像进行配准，获得所述待检测目标的距离信息。
[0042]
定位跟踪的流程大致可分为两个部分，四个阶段，两个部分分别是位置信息的提取和距离信息的提取，其中包含了四个阶段，分别是rgb图像和深度图像的采集、基于rgb图像的目标检测、基于rgb图像的目标跟踪以及跟踪输出结果向深度图像中的映射。位置信息
的提取依赖于对rgb图像进行的目标检测与跟踪，rgb图像通过摄像头采集后，交由改进后的yolov5网络模型就行目标检测，检测后的输出结果经过deepsort算法进行目标的轨迹预测与更新，由最终的预测更新的输出框得到待跟踪目标的位置信息。距离信息的提取依赖于前阶段中的目标跟踪输出结果以及对深度图像的处理，在使用深度相机以及rgb相机之前，会事先对其各项参数进行标定，随后由相机的空间分布信息，得出两个相机坐标获取到的图像与真实世界的坐标对应关系，距离信息在提取时，首先由深度相机获取表示场景距离信息的深度图像，后由坐标对应关系，将前阶段中获取的预测跟踪输出位置坐标映射到深度图像中，通过对映射后的预测框中的深度信息求均值，进而得出待跟踪目标的距离信息。
[0043]
进一步优化方案，采集所述待检测目标的rgb图像和深度图像包括：
[0044]
通过rgb-d相机采集所述rgb图像，基于深度相机采集所述深度图像，在使用所述rgb-d相机和所述深度相机进行采集之前，对相机的各项参数进行标定，并通过相机的空间分布信息，分别得到rgb-d相机坐标和深度相机坐标获取到的图像与真实世界的坐标对应关系。
[0045]
改进的yolov5网络模型中利用可分离卷积代替普通卷积，用于对特征数据进行遍历和卷积操作；并将原始yolov5网络模型中的ciou损失函数替换为siou损失函数，用于提升模型检测的准确度。整体的网络模型图如图2所示。
[0046]
(1)利用可分离卷积替代普通卷积
[0047]
如图3所示，左边为yolov5算法中由标准卷积构成的网络卷积层结构，通过二维卷积层(con2d)、批量归一化层(batch normalization,bn)和激活函数层(mish)级联，构成convolutional结构。使用深度可分离卷积结构进行替换后，其形式如右边所示，标准卷积被划分为3*3的深度卷积就和1*1的点卷积，每个卷积之后都衔接了bn层和激活函数部分。
[0048]
在改进的yolov5s网络模型中，深度可分离卷积先通过逐通道卷积对输入特征在通道内的特征信息进行提取和压缩，然后利用1*1的逐点卷积整合通道间的特征信息，调整输出特征图的尺寸；对比标准卷积进行运算时，对特征张量中所有通道内的特征数据进行遍历和卷积操作。由图4可以看出，当输入的特征张量通道数较大时，深度可分离卷积的参数量约为标准卷积的1/9。
[0049]
具体到改进的yolov5模型中，主要是将模型中的cbl模块替换为dbl模块，dbl模块即为用深度可分离卷积替代普通卷积实现的特征提取模块，保留了模块中的归一化层和leaky relu激活函数，只对原模块中的卷积部分做了修改，从整体的网络结构来看，此模块的应用明显减少了计算量。
[0050]
(2)替换ciou损失函数为siou损失函数
[0051]
yolov5采用ciou损失函数，传统的目标检测损失函数依赖于边界框回归指标的聚合，例如预测框和真实框(即giou、ciou、iciou等)的距离、重叠区域和纵横比。然而，迄今为止提出和使用的方法都没有考虑到所需真实框与预测框之间不匹配的方向。这种不足导致收敛速度较慢且效率较低，因为预测框可能在训练过程中“四处游荡”并最终产生更差的模型。针对以上问题，采用siou损失函数替换原损失函数。其中，siou使用4组cost组成，其表达式如下：
[0052]
siou＝distance cost(angle+distance)+shape cost+iou cost
[0053]
①
angle cost
[0054]
首先看第一个angle cost，b是目标框，b_gt是回归框，当b到b_gt的夹角小于alpha时，向最小alpha收敛，反之向beta收敛。
[0055]
其损失函数为
[0056][0057][0058][0059][0060]
②
distance cost
[0061]
其将angle损失同时考虑到距离损失，损失函数的表达形式为：
[0062][0063][0064]
③
shape cost
[0065][0066][0067]
θ的值定义了每个数据集的shape cost及其值是唯一的。θ的值是这个等式中非常重要的一项，它控制着对shape cost的关注程度。如果θ的值设置为1，它将立即优化一个shape，从而损害shape的自由移动。
[0068]
④
iou cost
[0069]
l
ioucost
＝1-iou
[0070]
综合一下，最后siou的结果为：
[0071][0072]
目标检测跟踪网络根据rgb图像输出的边界框，标定出目标的位置和种类信息。而目标测距则是在目标检测的基础上更进一步，引入深度图像数据，采用rgb-d数据融合的方式在图像中叠加目标的距离信息，最终实现基于数据融合的测距功能。
[0073]
本实施例所提出的目标测距方法的工作流程如图5所示，具体步骤如下：
[0074]
(1)根据rgb-d相机的使用手册查询相机的内部参数(光学透镜半径、畸变参数等)和外部参数(初始焦距、分辨率等)，进行相机的参数标定，分别获得rgb图像、深度图像和真实三维空间坐标的对应关系；
[0075]
(2)根据相机标定的结果，以3d坐标系作为统一参考坐标系，将rgb图像和深度图
像进行图像配准，得到二者像素点的对齐结果(即在rgb-d相机可视范围内，任意像素点的空间位置与相机间的距离信息)；
[0076]
(3)在前述改进yolov5网络目标检测跟踪功能的基础上，根据网络模型输出的rgb图像中目标的边界框信息，计算出每个目标与相机之间的距离值，最后将目标测距的结果显示在深度图像上。
[0077]
rgb-d图像配准
[0078]
在进行rgb图像与深度图像的像素点配准前，类比rgb相机标定的过程，需要先得到深度图像的像素点与实际3d坐标系之间点对点的映射关系，再以真实世界的3d坐标系作为统一参照坐标系，将二者的平面像素点坐标进行一一配准，如图6所示。
[0079]
图6中，空间坐标系中pr(xr，yr，zr)点映射到深度图中为pd(xd，yd)，对应rgb图中p(x，y)点。同理可得深度图像素点和实际坐标系的映射关系如下式所示，其中m3和m4分别表示深度成像模块的内部参数和外部参数，均为常数。
[0080][0081]
由于相机中的rgb成像光孔和深度模块的成像光栅距离很近，可以近似认为二者到3d空间中目标点pr(xr，yr，zr)的距离相等，即存在zd≈zw，再由所述rgb图像像素点和实际坐标系的映射关系为：
[0082][0083]
其中m2和m1分别表示深度成像模块的内部参数和外部参数。由此可推导出深度图像中pd(xd，yd)点和rgb图像中p(x，y)点的对应关系如公式：
[0084][0085]
通过上述公式，平面坐标系下的rgb图像和深度图像形成像素点配准，构成点到点的映射关系。此时，rgb图像中像素点在深度图像中对应点的深度值即为3d空间中该点与相机之间的距离，然后将前阶段目标跟踪中输出的预测框位置信息转换到深度图像中，通过对此区域内深度图像中的像素点距离求均值，最后得到待跟踪目标的距离信息。
[0086]
本发明专利在兼顾yolov5检测精度的同时，大大减少了模型的参数量，使其在嵌入式设备上部署成为可能，本发明专利中改进yolov5模型的方法主要为两个方面：(1)借鉴mobilenetv3网络模型的轻量化思想，将原yolov5中的卷积层结构进行调整，用可分离卷积替代普通卷积，减少网络模型的参数量规模，进而减少了模型运行时所需的计算量，如此面
对算力一般的嵌入式设备时，表现地更加友好。(2)将网络结构的预测框损失函数替换为siou函数，相较于yolov5中原本的ciou损失函数，其加入了真实框与预测框之间不匹配方向的考虑，进而加快了收敛速度和执行效率，同时也提高了推理的准确性。
[0087]
本发明专利提出一种基于rgb-d数据融合的测距跟踪方法，即利用rgb图像实现目标检测与跟踪，将目标跟踪阶段生成的预测框映射到深度相机采集的深度图像中，完成对目标的测距和跟随，此种方案由于单独采集了表示距离信息的深度图像，因而解决了单目测距精度和准确率低的问题，同时目前两种相机的价格一般，性价比也得到了保证。
[0088]
以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈恩庆胡天生梁静郭新汪松井中纪王宏伟张丽娟张秀琳朱广磊
技术所有人：河南信通智能物联有限公司
我是此专利的发明人

上一篇：网点交件的监控方法、装置、设备及存储介质与流程
下一篇：氨基功能化的发光金属有机骨架及其制备方法和应用