一种基于热红外注意力机制神经网络的行车场景分割方法

文档序号:27628452发布日期:2021-11-29 15:42阅读:108来源:国知局
一种基于热红外注意力机制神经网络的行车场景分割方法

1.本发明涉及行车环境图像分割技术领域,特别涉及一种基于热红外注意力机制神经网络的行车场景分割方法。


背景技术:

2.汽车驾驶员在驾驶汽车时需要对周围行车环境进行判断,从而进行安全驾驶。近些年,车载视觉传感器在汽车行业的应用大大帮助了驾驶员对于复杂行车环境的判断。车载视觉传感器的种类丰富,车后视觉传感器可以方便驾驶员观察汽车后面的状况,辅助驾驶员进行倒车动作,车侧视觉传感器可以方便驾驶员知晓行车时前侧方盲区状况,避免交通事故,除此之外,无人车辆的快速发展使这些视觉传感器成为汽车对周围环境进行判断的重要依据。因此,对视觉传感器捕获的图像进行快速分析,可以发挥视觉传感器的作用,方便驾驶员的判断,减少驾驶事故的发生。
3.车辆视觉传感器的选型方案目前主要分为两类,一种是以激光雷达(lidar)为主,建立3d地图,确认汽车周围的实时立体场景,从而进行判断;另一类以摄像工具为主,通过采集大量图像并进行快速分析与处理,感知可行使车道与障碍物,再进行环境判断。后一种方案整体成本相较前一种方案更低,且硬件条件成熟,引起了汽车厂商的普遍关注。
4.基于视觉传感器的行车场景语义分割技术可将视觉传感器生成的图像进行像素级别的语义分类,进而快速识别交通场景中的物体,方便驾驶系统进行后续的判断,其速度快、信息量大的特点引起了众多关注。然而,由于车辆行驶环境中的场景较为复杂,图像包含物体众多,且不同环境下图像质量相差巨大,尤其是夜间与白天相比可见光图像几乎失去作用,这些使得行车场景的语义分割较为困难。


技术实现要素:

5.本发明针对现有技术缺陷,提出了一种基于热红外注意力机制神经网络的行车场景分割方法,解决了现有技术中存在的缺陷。
6.为了实现以上发明目的,本发明采取的技术方案如下:
7.一种基于热红外注意力机制神经网络的行车场景分割方法,包括以下步骤:
8.步骤1:获取车载相机提供的同分辨率、同一行车环境的可见光图像与热红外图像若干对,进行类别标记,得到复合图像训练数据集;
9.步骤2:构建热红外信息注意网络;
10.步骤3:根据复合图像训练数据集对热红外信息注意网络进行训练,得到完成训练的热红外信息注意网络;
11.步骤4:使用热红外信息注意网络对行车环境图像进行分割,行车环境图像为与复合图像训练数据集相同分辨率的可见光图像与热红外图像对。
12.进一步地,步骤1包括如下子步骤:
13.步骤1.1:获取车载相机提供的同分辨率、同一场景的行车环境可见光图像与热红
外图像,两张图像中对应像素的内容应相同。可见光图像是普通彩色相机拍摄的红、黄、蓝谱段形成的图像,热红外图像为热红外成像仪拍摄的图像,两张图像形成复杂图像对。同分辨率的图像对需准备若干对,且需要包含多种场景与多种环境;
14.步骤1.2:将复杂图像对裁剪为相同的大小,图像方向相同、长与宽均相同,形成复合图像训练数据集;
15.进一步地,步骤2包括如下子步骤:
16.步骤2.1:根据复杂图像对的质量、数量等因素确定热红外信息注意网络的基本参数;
17.步骤2.2:搭建基于深度学习环境的热红外信息注意网络结构,并按步骤2.1中确定的参数设置网络;
18.进一步地,步骤3包括如下子步骤:
19.步骤3.1:根据复合图像训练数据集的质量与数量设置热红外信息注意网络的训练次数;
20.步骤3.2:使用复合图像训练数据集训练热红外信息注意网络;
21.步骤3.3:保存完成训练的热红外信息注意网络的网络参数;
22.进一步地,步骤4包括如下子步骤:
23.步骤4.1:获取车载相机提供的,与复合图像训练数据集分辨率相同的行车环境复合图像对,规范化复合图像对,使复合图像对的长与宽与训练数据集中的图像对相同;
24.步骤4.2:将规范化后的待分割复合图像对输入至完成训练的热红外信息注意网络中,得到网络的分割结果;
25.步骤4.3:整理并保存热红外信息注意网络的行车场景分割结果。
26.与现有技术相比,本发明的有益效果如下:
27.1.该方法提出一套系统的行车环境语义分割方法,使用本方法可利用可见光图像高分辨率、色彩信息丰富与热红外图像环境适应范围广、亮度高的优点对行车环境进行判断。不仅如此,该方法提出的行车环境分割系统适用于各种车辆,且成本低、操作简单、分割效果好。
28.2.该方法提出一个新的基于深度学习的语义分割网络—热红外信息注意网络,该网络融合了可见光图像与热红外图像提取出的特征,并使用热红外信息注意块使提取出的热红外特征能够监督网络的学习,根据热红外图像中的基本行车环境信息决定可见光图像在分割过程中的权重。热红外信息注意网络与多数语义分割网络相比结构简单,能够快速处理行车传感器生成的大量图像,提高分割效率。
附图说明
29.图1是本发明基于热红外注意力机制神经网络的行车场景分割方法流程图;
30.图2是本发明所提及的可见光

热红外双目相机的成像示意图;
31.图3是本发明构建的热红外信息注意网络结构图;
32.图4是本发明设计的热红外信息注意块结构图;
33.图5是本发明设计的热红外信息注意网络训练示意图;
34.图6是本发明设计的行车环境中热红外信息注意网络分割示意图;
35.图7是本发明采用公开数据集的行车场景分割结果示意图。
具体实施方式
36.为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
37.下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
38.如图1所示,一种基于热红外注意力机制神经网络的行车场景分割方法,包括以下步骤:
39.步骤1:收集同场景、同分辨率的可见光图像与热红外图像,制作复合图像训练数据集;
40.步骤2:构建基于深度学习的热红外信息注意网络,设置网络参数;
41.步骤3:使用复合图像训练数据集训练热红外信息注意网络;
42.步骤4:使用热红外信息注意网络对其它行车环境复合图像进行分割。
43.本实施方案的步骤1包括如下步骤:
44.步骤1.1:获取图像质量较好的车载视觉传感器生成的复合图像。包含一张可见光图像与一张热红外图像,形成复合图像对。复合图像对中的两张图像分辨率相同,行车场景相同。一般可使用可见光

热红外双目相机获取图像对,从而达到同分辨率、同场景的要求,可见光

热红外双目相机成像示意图如图2所示;
45.步骤1.2:在步骤1.1的基础上,对复合图像对进行逐像素标记,将图像对标记为七类(车辆、行人、自行车、交通地面标线、路障、栏杆、其它)。标记需以像素级进行语义标记,图像中的每个像素都要有对应的语义标签。
46.步骤1.3:在步骤1.1与步骤1.2的基础上,将所有图像对裁剪为相同的大小,保证每个图像对的长与宽相同。图像对在长256像素、宽256像素的条件下,至少需要标记200对,标记数量与标记质量将直接影响深度学习网络的训练效果。除此之外,所标记的各类物体数量应尽量接近,以避免训练效果不同发生类别不均衡的现象。所标记的图像对应覆盖尽量多的天气情况(晴天、阴天、雨天、下雪天、雾天等)与不同时间条件(早晨、中午、傍晚、夜间等)。
47.本实施方案的步骤2包括如下步骤:
48.步骤2.1:构建深度学习网络—热红外信息注意网络(tiattnet,thermal infraredattention network)。本发明设计的热红外信息注意网络是一种基于深度学习的语义分割模型,与大多数语义分割网络不同,热红外信息注意网络有两个输入,两个输入分别是可见光图像与热红外图像,输出为两张对应图像的分割结果。热红外信息注意网络的结构如图3所示,热红外信息注意网络采用“端到端”的网络结构,并采用“编码器

解码器”的基本架构。从结构上看,热红外信息注意网路拥有一个可见光图像编码器、一个复合图像解码器与一个热红外下采样系统。
49.可见光图像编码器由一系列下行块构成。可见光下行块包含一个卷积操作、一个
批归一化操作与一个激活函数操作,除了最后一个下行块,其它块中都包含一个下采样操作。通过这个方法,网络将提取可见光图像中的形状和纹理特征。可见光图像编码器下行块的操作公式为
[0050][0051]
式中,x
in
为可见光图像编码器下行块的输入,x
out2
为可见光图像编码器下行块的输出,conv表示卷积核大小为3
×
3的卷积操作,bn为批归一化操作,批归一化操作的公式为
[0052][0053][0054][0055][0056]
leaklyrelu为泄露式线性整流激活操作,公式为
[0057]
f(x)=max(0.01x,x)
ꢀꢀꢀꢀꢀ
(6)
[0058]
泄露式线性整流激活操作使负数区域不会在计算时被网络抛弃,averagepooling表示使用平均值下采样操作。
[0059]
热红外下采样系统不是标准的编码器结构,而是一个下采样特征提取系统,主要作用是提取不同尺寸下热红外图像的特征。热红外下采样系统包含几个热红外下行块,每个下行块中包含不同尺寸的下采样操作,并包含一个卷积操作、一个批归一化操作与一个激活函数操作,公式为
[0060][0061]
式中,x
in
表示热红外下行块的输入,输入为热红外图像,x
out2
表示热红外下行块的输出,maxpooling表示最大池化操作,不同下行块对应的下采样大小不同,conv表示卷积核大小为3
×
3的卷积操作,bn为批归一化操作,leaklyrelu为泄露式线性整流激活操作.
[0062]
复合图像解码器包含一系列的上行块与一系列的热红外信息注意块。解码器的上行块用来恢复图像的特征与尺寸,由一个上采样操作、两个卷积操作、两个批归一化操作与两个激活函数构成。解码器上行块的操作公式为
[0063][0064]
式中,x
in
表示对应可见光编码器下行块提取的多光谱遥感图像特征,x'
out
表示位于上行块前一个热红外信息注意块的输出(若没有则为0),concatenate表示矩阵连接操作,upsampling表示上采样操作,可使特征的长与宽扩充至输入的两倍。
[0065]
解码器的热红外信息注意块将热红外图像提取出的特征作为参考,使网络将重点聚焦于热红外图像中较明显的特征。热红外信息注意块的输入为同一尺寸的可见光特征与热红外图像特征。热红外信息注意块首先对两种特征进行卷积与批归一化操作,再使用激活函数进行激活。接着,针对可见光图像特征使用一个门操作,用于判定可见光图像的质量,从而决定热红外图像特征参与训练的比重。例如,若在晴朗的白天环境中,可见光图像质量基本较好,此时热红外图像参与训练的比重较低,网络主要学习可见光图像中的特征表达;若在阴天或夜晚行车环境中,可见光图像的质量基本较差,此时由于热红外图像在不同环境下的稳定性,使得热红外图像的质量相较可见光更好,因此网络主要学习热红外图像中的特征表达。接下来,两个特征经过相加、激活、卷积等操作,获得输出。热红外信息注意块中的注意力规范公式为
[0066][0067]
式中,x
in
表示对应热红外下行块的输出,x
in
表示对应位于热红外信息注意块的前一个上行块结构的输出,x
out2
表示热红外信息注意块的输出,gate表示门操作,公式为
[0068]
g(x,x)=sigmoid(w1x+w2x)
ꢀꢀꢀꢀꢀ
(10)
[0069]
式中,w1和w2为权值。sigmoid为sigmoid函数,公式为
[0070][0071]
热红外信息注意块的具体结构如图4所示;
[0072]
步骤2.2:根据步骤2.1的网络结构与复合图像训练数据集的参数设置热红外信息注意网络的输入大小、输出大小、损失函数、优化器函数、学习速率等信息,一般的,输入大小可设置为256
×
256,输出大小需与输入大小保持一致,损失函数可选择交叉熵损失函数,优化器函数可选择自适应矩估计函数(adam函数),学习速率可设置为0.001。
[0073]
本实施方案的步骤3包括如下步骤:
[0074]
步骤3.1:设置训练次数,并使用复合图像训练数据集对热红外信息注意网络进行训练。设置训练次数时,可根据复合图像对的数量与质量进行判断。一般的,图像对数量越多,训练次数越多;图像对质量越差,训练次数越多。对于普通训练数据集,可设置为200轮。
在训练时,热红外信息注意网络以让损失函数的损失值最小为学习目的,因此,若网络的损失值多次不下降,也可停止训练。
[0075]
步骤3.2:每轮次训练时,将复合图像训练数据集分批次输入网络中。每批输入的图像对数量可根据计算机的性能进行设置,一般的,计算机的性能越好,每批可输入图像对的数量越多。每轮次训练时,热红外信息注意网络根据使损失值最小的方向进行学习,从而调整网络自身参数。训练需保存能使损失值最小的网络参数。
[0076]
步骤3.3:重复步骤3.1与步骤3.2,对热红外信息注意网络进行多次训练,比较不同的训练结果,并保存能使损失值最小的一组网络参数。热红外信息注意网络的训练示意图如图5所示。
[0077]
本实施方案的步骤4包括如下子步骤:
[0078]
步骤4.1:准备复合图像测试数据集。复合图像测试集与训练集拥有相同的分辨率与大小,所拍摄的行车环境也应大致相同。复合图像测试数据集中的图像对同样需要同分辨率、同场景的可见光图像与热红外图像,可使用可见光

热红外双目相机进行图像采集。;
[0079]
步骤4.2:将复合图像测试数据集的图像对输入到训练好的热红外信息注意网络中,网络输出每个图像对的行车环境分割结果。行车环境中热红外信息注意网络分割示意图如图6所示。图7展示了对于真实的行车图像对,热红外信息注意网络生成的分割结果,其中左图为可见光图像,中图为热红外图像,右图为分割结果。分割结果图中,黑色为背景,其它为分割后的各类目标。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1