本发明涉及汽车自动驾驶视觉感知技术领域,尤其涉及一种基于特征时序相关性的自动驾驶视觉感知优化方法。
背景技术:
智能化是如今汽车行业发展的重要趋势之一,视觉系统在汽车主动安全领域应用越来越广。单双目前视、后视以及360度环视系统已经成为了现有高级辅助驾驶系统的主流感知器件。现有此类视觉感知系统可以提供结构化道路信息(各类型车道线等)以及特定种类的目标信息(各类交通标识、车辆、行人等)。基于上述感知输出结果衍生出相应的预警系统以及主动安全系统。现有商用车载视觉系统感知功能主要包括行人、车辆、交通标识等目标检测与识别。传统检测方法大多基于人工设计的图像特征描述,通过adaboost或svm等分类器以滑窗搜索的方式实现。此类方法的效果取决于图像特征描述算子的设计,并且应用的鲁棒性以及可移植性较差。其局限性以及应用难点在于:比如行人、车辆、交通标识等不同类别的目标检测需要设计不同的图像特征描述算子,白天夜间的算法目标检测架构与方法需要区分调整等。
现有深度卷积神经网络技术也在经历飞速的变革。网络任务从最初的简单分类识别应用,发展到现在的检测、分割、光流以及立体视觉等各领域的应用;网络模型从复杂冗余的大型网络发展到现在的精简高效的小型网络;网络应用场景从高功耗服务器端应用发展到低功耗前端嵌入式应用。基于深度卷积神经网络的目标检测算法框架已开始应用于部分前端平台,如安防监控、智能交通、智能手机等。对于智能驾驶领域内的目标检测应用,其实时性与鲁棒性要求更高。就深度学习检测架构而言,现有方法的侧重点在于提升目标的检出率(包括提升检测架构的覆盖目标尺度范围与类别范围)而忽略检出目标时序上的一致性。现有基于视觉的深度学习目标检测算法,其检测结果时序稳定性与一致性仍存在如下缺陷:相邻帧目标框的检测结果存在不一致(即使图片光照无肉眼可见偏差);同一目标的位置回归结果时序不稳定(由于角度、光照、位置等多种因素影响)。上述问题会导致基于视觉的目标距离以及相对运动测量波动较大,从而影响后续的相关应用算法,无法满足自动驾驶应用需求(尤其是高速工况)。而目前主流基于机器学习的检测算法训练均基于时序离散样本,未考虑时序相关性对目标分类以及回归输出一致性的影响。
技术实现要素:
本发明为了解决上述技术问题,提供一种基于特征时序相关性的自动驾驶视觉感知优化方法,在训练和推理阶段对检测算法输出结果的稳定性进行优化,有效提升视觉目标检测结果分类以及位置回归的稳定性,从而改进相关目标距离以及相对运动估算的准确性与稳定性,为自动驾驶应用提供更加准确与有效的目标感知结果,从而提升整体视觉感知算法性能,满足汽车自动驾驶的需求。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明基于特征时序相关性的自动驾驶视觉感知优化方法,包括深度卷积神经网络检测架构改进方法、目标检测训练数据库改进方法和离线训练过程改进方法。本发明基于图像特征时序相关性,对深度卷积神经网络训练以及推理方法进行改进。深度卷积神经网络检测架构改进方法:添加输出目标自相关层,输出目标时序一致性评价指标,作为可选网络分支输出;离线训练过程改进方法包括深度卷积神经网络训练损失函数改进:添加自相关损失函数,并辅以一定权重系数加入网络总损失函数,参与主干特征部分训练。本发明将时序相关性特征引入深度神经网络检测模型训练与推理阶段,可以在引入极少量额外运算(推理阶段包含自相关分支)或不引入额外运算(仅训练阶段包含自相关分支)的条件下,有效提升视觉目标检测结果分类以及位置回归的稳定性,从而改进相关目标距离以及相对运动估算的准确性与稳定性,为自动驾驶应用提供更加准确与有效的目标感知结果。
作为优选,所述的深度卷积神经网络检测架构改进方法为:在已有深度神经网络检测架构主干框架下,添加特征时序相关性分支,基于级联卷积特征,通过通道级联将不同尺度对应的特征通道融合,利用检测分支输出目标结果,提取特征目标所对应特征描述,计算相邻时序该目标特征的自相关性,最终输出使得检测目标时序自相关性最大的目标偏移量补偿。为保留前向推理应用的灵活性,深度检测网络输入为3通道rgb图片,输出为目标列表(默认包括各类车辆、行人、非机动车以及交通标识、信号灯等)。
作为优选,所述的目标检测训练数据库改进方法包括如下步骤:
①时序样本增广:添加时序相关性样本,即将原始训练数据按其文件名与帧序号搜索原始视频内容扩充至包含若干相邻帧数据;
②时序新增样本自动预标注:利用跟踪算法,基于原有训练样本标签对新增训练样本进行预标注,即以原有标签为检测算法输入,将跟踪算法输出的更新后目标位置作为新增训练样本对应标签;
③时序新增样本人工校验:将步骤②中的新增样本所生成的预标注标签经人工校验,生成最终增广后的训练数据库。
作为优选,所述的离线训练过程改进方法包括:目标检测分支损失函数改进、目标时序偏移损失函数新增和在线数据增广修改。
作为优选,所述的目标检测分支损失函数改进方法为:
新增时序相关性损失函数lcorr如下:
lcorr=αlctr+βlftr;
其中,lctr为分类时序一致性损失,定义为目标特征预测的时序一致性,即
lftr为位置回归时序一致性损失,定义为目标特征图谱的时序自相关性,即
目标检测分支损失函数li为:
li=k1lcorr+k2lcls+k3lreg,
其中,lcls为目标分类损失,可采用softmaxloss或focalloss损失函数;
lreg为目标位置回归损失,可采用smoothl1loss或l2loss损失函数。
α、β是时序一致性损失函数类别与回归分量权重系数(默认值均为0.5)。k1、k2、k3目标检测分支损失函数各组成部分相应的权重系数(默认值均为0.33)。
作为优选,所述的目标时序偏移损失函数新增方法为:
定义目标偏移损失函数lsft:
上式中对中心和2d框尺寸信息分别求取loss并求和;
训练总损失函数l为:l=∑li+lsft,i=1,2。
作为优选,所述的在线数据增广修改方法为:所使用数据库的最小训练单元为5帧时序连续图像,每次随机选取该时序数据中的2张进行训练,训练样本的几何增广方式不需完全保持一致,但需将相应几何变化所造成的目标位置标签进行更新。
作为优选,所述的基于特征时序相关性的自动驾驶视觉感知优化方法,包括在线推理过程改进方法:若前端平台性能裕度不足,即延用原始检测框架,不添加目标时序偏移输出分支,使用离线训练过程改进方法中训练所得的网络权重系数;若前端平台性能尚有空闲算力,可按预先设定规则,视空余算力对优先级较高的n个目标进行时序偏移计算,并与当前帧目标检测结果融合。
本发明的有益效果是:在训练和推理阶段对检测算法输出结果的稳定性进行优化,有效提升视觉目标检测结果分类以及位置回归的稳定性,从而改进相关目标距离以及相对运动估算的准确性与稳定性,为自动驾驶应用提供更加准确与有效的目标感知结果,从而提升整体视觉感知算法性能,满足汽车自动驾驶的需求。
附图说明
图1是本发明中改进的深度卷积神经网络检测架构的一种示意图。
图2是本发明中目标检测训练数据库改进的一种流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的基于特征时序相关性的自动驾驶视觉感知优化方法,包括深度卷积神经网络检测架构改进方法、目标检测训练数据库改进方法、离线训练过程改进方法和在线推理过程改进方法。
1、深度卷积神经网络检测架构改进方法为:在已有深度神经网络检测架构主干框架下,添加特征时序相关性分支,如图1所示,为保留前向推理应用的灵活性,深度检测网络输入为3通道rgb图片,输出为目标列表(默认包括各类车辆、行人、非机动车以及交通标识、信号灯等),基于级联卷积特征,即图1中共享特征编码部分,主要包括conv+relu+bn等神经网络操作,通过通道级联将不同尺度对应的特征通道融合,通过计算感兴趣特征区域的时序相关性,利用检测分支输出目标结果,提取特征目标所对应特征描述,计算相邻时序该目标特征的自相关性,最终输出使得检测目标时序自相关性最大的目标偏移量补偿,即(δx,δy)。
2、目标检测训练数据库改进方法,流程如图2所示,包括如下步骤:
①时序样本增广:添加时序相关性样本,即将原始训练数据按其文件名与帧序号搜索原始视频内容扩充至包含若干相邻帧(默认改进为:1->5)数据;
②时序新增样本自动预标注:利用跟踪算法(lk或kcf等),基于原有训练样本标签对新增训练样本进行预标注,即以原有标签为检测算法输入,将跟踪算法输出的更新后目标位置作为新增训练样本对应标签;
③时序新增样本人工校验:将步骤②中的新增样本所生成的预标注标签经人工校验,生成最终增广后的训练数据库。
3、离线训练过程改进方法:由于引入了时序相关性分支,检测模型的训练过程也需要做相应的改进,主要改进包括损失函数以及在线数据增广方法等。训练仍采用迷你批量随机梯度下降的方式:
3.1、目标检测分支损失函数改进:定义目标检测推理函数为h,其输入为三通道图像,输出包括目标分类(hc)与目标位置回归(hl)两个分支;
新增时序相关性损失函数lcorr如下,主要包括时序分类一致性以及时序回归一致性:
lcorr=αlctr+βlftr;
其中,lctr为分类时序一致性损失,定义为目标特征预测的时序一致性,即
lftr为位置回归时序一致性损失,定义为目标特征图谱的时序自相关性,即
目标检测分支损失函数li为:
li=k1lcorr+k2lcls+k3lreg,
其中,lcls为目标分类损失,可采用softmaxloss或focalloss损失函数;
lreg为目标位置回归损失,可采用smoothl1loss或l2loss损失函数;
3.2、目标时序偏移损失函数新增:
定义目标偏移损失函数lsft:
上式中对中心和2d框尺寸信息分别求取loss并求和;
训练总损失函数l为:l=∑li+lsft,i=1,2;
3.3、在线数据增广修改:相比于基于离散图像数据库的训练过程,本发明所使用数据库的最小训练单元为5帧时序连续图像,每次随机选取该时序数据中的2张进行训练,训练样本的几何增广方式(随机裁剪、镜像等)不需完全保持一致,但需将相应几何变化所造成的目标位置标签进行更新;训练样本的色彩增广方式需尽量保持一致,或允许微小色彩变换容差。
4、在线推理过程改进:若前端平台性能裕度不足,即延用原始检测框架,不添加目标时序偏移输出分支,使用3中方法训练所得的网络权重系数,相比于改进前版本,目标一致性具有显著提升(伴随目标检出率小幅提升);若前端平台性能尚有空闲算力,可按预先设定规则,视空余算力对优先级较高的n个目标进行时序偏移计算,并与当前帧目标检测结果融合(将目标偏移输出视为目标检测输出的改进),目标一致性与检出率均有大幅提升。
相比于现有的目标检测算法,本发明的最显著优势在于将时序一致性信息(目标分类与回归一致性以及目标特征描述自相关系数)融入了深度神经网络训练与前向应用过程,在不增加额外运算,或增加有限额外运算的条件下,极大改善了检测算法的目标时序稳定性,提升了相应算法自动驾驶应用的可行性(改善目标距离与相对运动估计)。本发明应用灵活,适用于改进各种检测算法架构,无需增加原始主干网络运算量,并可根据平台算力裕度灵活配置前向推理所使用的额外运算。