一种基于双侧边动态交叉融合的道路场景图像处理方法

文档序号:26915324发布日期:2021-10-09 15:58阅读:94来源:国知局
一种基于双侧边动态交叉融合的道路场景图像处理方法

1.本发明涉及一种深度学习的图像处理方法,尤其是涉及一种基于双侧边动 态交叉融合的道路场景图像处理方法。


背景技术:

2.智能交通行业的兴起,使得语义分割在智能交通系统的应用越来越广泛, 从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。传 统语义分割,主要依靠图像纹理、颜色以及其他一些简易的表层特征和外部结 构特征进行图像分割,以此方式得到的分割结果相对粗陋,精度较低,且无相 关标注,即只是将图像分割成了若干块,并不知晓每一块的类别,需要人工指 定。第二种就是将传统方法与深度学习相结合的语义分割,这一类首先使用传 统方法对图像进行初步处理,得到目标区域,而后使用卷积神经网络对目标特 征进行学习,形成合理的分类器以实现目标的自动标注。此时算法已经能够将 图像分成若干个部分,并标注出每一个部分的类别。
3.目前,比较常用的语义分割方法包括支持向量机、随机森林等算法主要集 中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这 些传统的方法通常需要通过高复杂度的特征来实现,而使用深度学习来对交通 场景进行语义分割简单方便,更重要的是,深度学习的应用更能获取更多,更 高级的语义信息来表达图像中的信息,极大地提高了图像像素级分类任务的精 度。
4.采用深度学习的语义分割方法,直接进行像素级别端到端(end

to

end)的 语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模 型,即可在测试集进行预测。全卷积神经网络强大之处在于它的多层结构能自 动学习特征,并且可以学习到多个层次的特征,是不采用任何全连接层处理像 素级别的分类任务,并且可以接受任意大小的图像输入,后来的几乎所有语义 分割研究成果都以此为基础。
5.在全卷积神经网络的基础下,发展出了两种不同的改进架构,第一种是编 码

译码架构,编码层通过池化逐步减少空间维度信息,抽取抽象特征;解码层 逐步恢复对象细节和空间维度信息。通常来说,在编码层和解码层之间有称之 为捷径的连接(shortcut

connections),它们用于帮助解码层更好地恢复对象细 节。第二种架构是扩张卷积/空洞卷积(dilated/atrous

convolutions),去掉了池 化层,通过带孔卷积方式扩大感受野,空洞率小的带孔卷积感受野较小,可以 学习到一些部分具体的特征;空洞率大的带孔卷积具有较大的感受野,能够学 习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更 好。现有的无人驾驶道路场景理解方法几乎均采用深度学习的方法,将卷积层 与池化层结合构建模型,然而单纯利用池化与卷积操作获得的特征不仅单一并 且不具有代表性,从而会导致提取的图像特征信息减少,使得还原的效果信息 比较粗糙,分割精度低。


技术实现要素:

6.本发明所要解决的技术问题是提供一种基于双侧边动态交叉融合的道路场 景图像处理方法,其分割效率高,且分割准确度高。
7.本发明包括训练阶段和测试阶段两个过程;
8.所述的训练阶段过程的具体步骤为:
9.步骤1_1:选取q幅原始道路场景图像及每幅原始道路场景图像对应的热 力图(thermal)和真实语义分割图像,并构成训练集;利用独热编码方法将真 实语义分割图像处理成若干幅独热编码图像;
10.步骤1_2:构建卷积神经网络;
11.步骤1_3:将训练集中的每幅原始道路场景图像和对应的热力图分别进行数 据增强,获得数据增强后的原始道路场景图像和对应的热力图并作为初始输入 图像对,将初始输入图像输入到卷积神经网络进行处理,得到训练集中的每幅 原始道路场景图像对应的道路场景预测图;
12.步骤1_4:计算道路场景预测图与对应的真实语义分割图像之间的损失函数 值;
13.步骤1_5:重复执行步骤1_3和步骤1_4共v次,其中,v大于1,在具体 实施例中取v=300。完成训练得到卷积神经网络分类训练模型,并总共得到m 个损失函数值;然后从m个损失函数值中找出最小的损失函数值,将最小的损 失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优 权值矢量和最优偏置项;
14.所述的测试阶段过程的具体步骤为:
15.步骤2:将待语义分割的道路场景图像和对应的热力图输入到设置有最优权 值矢量和最优偏置项的卷积神经网络分类训练模型中,得到待语义分割的道路 场景图像对应的预测语义分割图像。
16.所构建的卷积神经网络包括编码阶段(提取特征)和解码阶段(上采样操 作),编码阶段和解码阶段依次衔接;
17.编码阶段主要包括rgb图像、热力图像、十个卷积块三个多尺度特征增强 模块(mf)和一个双侧边动态交叉融合模块(bdcm);解码阶段主要包括两 个输出模块;
18.热力图像依次经第一卷积块、第二卷积块、第三卷积块和第四卷积块后与 第五卷积块相连,rgb图像依次经第六卷积块、第七卷积块、第八卷积块和第 九卷积块后与第十卷积块相连;第一卷积块的输出和第六卷积块的输出经相加 后的输出作为输出二,第二卷积块的输出和第七卷积块的输出经相加后的输出 作为输出三,第三卷积块的输出和第八卷积块的输出经相加后的输出作为输出 四,第四卷积块的输出和第九卷积块的输出经相加后的输出作为输出五,第五 卷积块的输出和第十卷积块的输出经相加后的输出作为输出六,输出四、输出 五和输出六均输入到双侧边动态交叉融合模块,双侧边动态交叉融合模块的输 出作为输出一;输出一、输出二和输出三均输入到解码阶段;
19.解码阶段包括第一输出模块和第二输出模块,输出一、输出二和输出三均 输入到第一输出模块,输出一还输入到第二输出模块,第一输出模块的输出和 第二输出模块的输出作为神经网络的输出,第一输出模块的输出输出第一语义 分割预测图和边界预测图,第二输出模块的输出输出第二语义分割预测图和前 后景预测图。
20.所述的双侧边动态交叉融合模块包括三个多尺度特征增强模块,输出四输 入到
第一多尺度特征增强模块,输出五输入到第二多尺度特征增强模块,输出 六输入到第三多尺度特征增强模块,第一多尺度特征增强模块的输出作为输出 七,输出五输入到第二多尺度特征增强模块,第二多尺度特征增强模块的输出 作为输出八,输出六输入到第三多尺度特征增强模块,第三多尺度特征增强模 块的输出作为输出九;输出七与输出八经连接操作后的输出输入到第一拉伸模 块,输出八与输出七经连接操作后的输出输入到第二拉伸模块,第一拉伸模块 的输出作为输出十,第二拉伸模块的输出作为输出十一;输出八与输出九经连 接操作后的输出输入到第三拉伸模块,输出九与输出八经连接操作后的输出输 入到第四拉伸模块,第三拉伸模块的输出作为输出十二,第四拉伸模块的输出 作为输出十三;输出七与输出十经相乘后的输出作为输出十四,输出十一与输 出八经相乘后的输出作为输出十五,输出十二与输出八经相乘后的输出作为输 出十六,输出十三与输出九经相乘后的输出作为输出十七;输出七、输出十四 和输出十六经相乘后的输出作为输出十八,输出十五和输出十七经相乘后的输 出作为输出十九,输出十九、输出十八和输出八经相加后的输出作为输出二十; 输出十九和输出九经相加后的输出作为输出二十二,输出十八和输出七经相加 后的输出作为输出二十一,输出二十一、输出二十和输出二十二经连接操作后 的输出作为双侧边动态交叉融合模块的输出。
21.所述的第一拉伸模块、第二拉伸模块、第三拉伸模块和第四拉伸模块结构 相同,均包括依次连接的全局平均池化层和全连接层,拉伸模块的输入输入到 全局平均池化层,全局平均池化层的输出输入到全连接层,全连接层的输出作 为拉伸模块的输出。
22.所述的三个多尺度特征增强模块的结构相同,均包括三个空洞卷积层,多 尺度特征增强模块的输入分别输入到第一空洞卷积层、第二空洞卷积层和第三 空洞卷积层,第一空洞卷积层的输出、第二空洞卷积层的输出和第三空洞卷积 层的输出进行连接和第二卷积层后的输出作为输出三十一,输出三十一输入到 第三卷积层,第三卷积层的输出与输出三十一经相乘后的输出作为输出三十二, 输出三十二与输出三十一经相加后的输出作为输出三十三,输出三十三经一个 激活层后的输出作为多尺度特征增强模块的输出;
23.所述的第一输出模块包括四个卷积块,输出一、输出一与输出二经相乘后 的输出、以及输出一与输出三经相乘后的输出均输入到第十四卷积块,第十四 卷积块的输出作为输出二十五,输出二十五依次经第十五卷积块和权重计算后 的输出再与输出二十五经相乘后的输出作为权重特征,权重特征输入到第十六 卷积块,权重特征与输出二十五经连接操作后的输出输入到第十七卷积块,第 十六卷积块的输出作为第一输出模块的第一输出,第十七卷积块的输出作为第 一输出模块的第二输出;具体为:第十六卷积块的输出作为第一输出模块的第 一输出,即图4中的输出二十六作为第一输出模块的第一输出,第十七卷积块 的输出作为第一输出模块的第二输出,即图4中的输出二十六作为第一输出模 块的第二输出。
24.所述的第二输出模块包括四个卷积块,第二输出模块的输入,即输出一依 次经第十二卷积块和权重计算后的输出与第二输出模块的输入进行相乘后的输 出输入到第十一卷积块,第十二卷积块的输出输入到第十三卷积块,第十三卷 积块的输出作为第二输出模块的第一输出,第十一卷积块的输出作为第二输出 模块的第二输出,第十三卷积块的输出作为第二输出模块的第一输出,即图5 中的输出二十九,第十一卷积块的输出作为第二输出模块的第二输出,即图中 的输出三十,第一输出模块的输出和第二输出模块的输出作为
卷积神经网络的 输出,即卷积神经网络共有四个输出;
25.第一输出模块的第一输出作为卷积神经网络的第一输出,第一输出模块的 第二输出作为卷积神经网络的第二输出,第二输出模块的第一输出作为卷积神 经网络的第三输出,第二输出模块的第二输出作为卷积神经网络的第四输出, 卷积神经网络的第一输出输出第一语义分割预测图,卷积神经网络的第二输出 输出边界预测图,卷积神经网络的第三输出输出第二语义分割预测图,卷积神 经网络的第四输出输出前后景预测图。
26.所述的第十一卷积块至第十七卷积块的结构相同,均包括依次连接的第七 卷积层、三个第八卷积层和上采样层。
27.所述第一卷积块和第六卷积块结构相同,均主要由第一卷积层、第一归一 化层和第一激活层依次连接组成;第二卷积块和第七卷积块结构相同,均主要 由最大池化层和三个残差块依次连接组成;第三卷积块和第八卷积块结构相同, 均主要由四个残差块依次连接组成;第四卷积块和第九卷积块结构相同,均主 要由六个残差块依次连接组成;第五卷积块和第十卷积块结构相同,均主要由 三个残差块依次连接组成;第二卷积块

第五卷积块和第七卷积块

第十卷积块的 第一残差块与第二残差块之间均经一个下采样层。
28.每个所述残差块结构相同,残差块包括第四卷积层、第二归一化层、第二 激活层、第五卷积层、第三归一化层、第三激活层、第六卷积层、第四归一化 层和第四激活层,残差单元的输入输入到第四卷积层,第四卷积层依次经第二 归一化层、第二激活层、第五卷积层、第三归一化层、第三激活层、第六卷积 层、第四归一化层和第四激活层,第四激活层的输出作为残差单元的输出。
29.本发明应用于道路场景语义分割(路况理解、多目标障碍检测、无人驾驶 等),卷积神经网络模型输出的第一语义分割预测图、第二语义分割预测图、 边界预测图和前后景预测图用于训练时的监督过程,测试阶段也会得到相应的 四个图,选取第二语义分割预测图作为最终的预测图。
30.本发明的有益效果:
31.1)本发明方法构建卷积神经网络,使用训练集中的道路场景图像输入到卷 积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的 道路场景图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对 应的预测语义分割图像,由于本发明方法在构建卷积神经网络时将网络特征分 成了低、高两部分,在高级特征阶段进行了动态交叉融合,并且使用高级特征 引导低级特征,因此能够比较准确地描述道路场景中各种分类目标,从而有效 地提高了道路场景图像的语义分割精确度。
32.结合了过渡用卷积层和跳跃反卷积块的特点,由于本发明方法在构建卷积 神经网络时将网络特征分级成了低中高三部分,并分别在低中部分中将前后两 个特征交叉融合,因此能够比较准确地描述服装中各种分类目标,从而有效地 提高了服装场景图像的语义分割精确度。
33.2)本发明方法在融合高级特征时,采用不同空洞率的带孔卷积,获得不同 大小的感受野,很大程度上减少了信息丢失;在融合高级特征时,嵌入注意力 机制,使得卷积神经网络能反复利用低层特征,减少了细节特征丢失,物体边 缘能更好还原。
34.3)本发明方法在搭建卷积神经网络的解码阶段时,使用级联层 (concatenation),重复利用高层特征,进而在训练集与测试集上都能得到较好 效果。
附图说明
35.图1为本发明方法的总体实现框图;
36.图2为双侧边动态交叉融合模块结构图;
37.图3为mf模块结构图;
38.图4为第一输出模块结构图;
39.图5为第二输出模块结构图;
40.图6a为同一场景的第1幅原始的道路场景图像;
41.图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测,得 到的预测语义分割图像;
42.图7a为同一场景的第2幅原始的道路场景图像;
43.图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测,得 到的预测语义分割图像;
44.图8a为同一场景的第3幅原始的道路场景图像;
45.图8b为利用本发明方法对图8a所示的原始的道路场景图像进行预测,得 到的预测语义分割图像;
46.图9a为同一场景的第4幅原始的道路场景图像;
47.图9b为利用本发明方法对图9a所示的原始的道路场景图像进行预测,得 到的预测语义分割图像。
具体实施方式
48.以下结合附图实施例对本发明作进一步详细描述。
49.本发明提出的一种基于双侧边动态交叉融合的无人驾驶道路场景理解方法, 其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
50.所述的训练阶段过程的具体步骤为:
51.步骤1_1:选取q幅原始的道路场景图像和每幅原始的道路场景图像对应 的热力图(thermal)及真实语义分割图像,并构成训练集,将训练集中的第q 幅原始的道路场景图像记为{i
q
(i,j)},将训练集中与{i
q
(i,j)}对应的真实语义分 割图像记为然后采用现有的独热编码技术(one

hot)将训练集中的 每幅原始的道路场景图像对应的真实语义分割图像处理成9幅独热编码图像, 将处理成的9幅独热编码图像构成的集合记为其中,道路场景 图像为rgb彩色图像,q为正整数,如取q=784,q为正整数,1≤q≤q, 表示中坐标位置为(i,j)的像素点的像素值。原始的道路场 景图像主要由拍摄于不同场景的rgb图像和多光谱图像组成,rgb图像里记录 着红绿蓝三个波段的光谱信息,多光谱图像记录着另外不同波段的光谱信息, 每一个波段信息相当于一个通道分量,即每幅原始的带有显著性物体的各类场 景图像包含rgb图像的r通道分量、g通道分量与b通道分量和红外多光谱图 像的另外的热红外通道分量(thermal)。
52.步骤1_2:构建卷积神经网络:本发明方法的卷积神经网络主要由两个部分 构成,
包括编码阶段(特征提取操作)和解码阶段(上采样操作),编码阶段 和解码阶段依次衔接。
53.编码阶段主要包括rgb图像、热力图像、十个卷积块、和一个双侧边动态 交叉融合模块(bdcm);解码阶段主要包括两个输出模块。
54.如图1所示,热力图像依次经第一卷积块、第二卷积块、第三卷积块和第 四卷积块后与第五卷积块相连,rgb图像依次经第六卷积块、第七卷积块、第 八卷积块和第九卷积块后与第十卷积块相连;第一卷积块的输出和第六卷积块 的输出经相加后的输出作为输出二,第二卷积块的输出和第七卷积块的输出经 相加后的输出作为输出三,第三卷积块的输出和第八卷积块的输出经相加后的 输出作为输出四,第四卷积块的输出和第九卷积块的输出经相加后的输出作为 输出五,第五卷积块的输出和第十卷积块的输出经相加后的输出作为输出六, 输出四、输出五和输出六均输入到双侧边动态交叉融合模块,双侧边动态交叉 融合模块的输出作为输出一;输出一、输出二和输出三均输入到解码阶段;
55.首先,卷积神经网络的输入是每一张图片的rgb图和热力图(图片的宽度 和高度分为w=480、h=640,rgb通道为r通道分量、g通道分量和b通道 分量,热力图是单通道,即t通道。)均通过resnet50主干网络进行特征提取, 并且去掉了此网络最后的全连接层。两个特征提取流的结构类似,具体为:
56.第一卷积块与第六卷积块均由第一卷积层(convolution,conv)、第一归 一化层(batchnorm)和第一激活层(activation,act,激活函数为relu)依次 连接构成,二者的输入通道数分别为1个通道,3个通道。卷积层的卷积核 (kernel_size)大小为7
×
7,卷积核个数(filters)为64,步长为(stride)为2、 边缘填充(padding)为3,经过归一化操作之后再经过激活层输出特征图,将 第一和第六个卷积块输出的特征图集合分别记为其中特征图的宽度为高度为
57.第二卷积块与第七卷积块结构相同,均由最大池化层(maxpooling,pool), 三个残差块(bottleneck)依次连接构成。另外,在第一个残差块和第二个残差 块之间有一个下采样层,下采样层的卷积核大小为1
×
1,卷积核个数为256, 步长为1。最大池化层的池化尺寸(pool_size)为3,步长为2、边缘填充为1。 第一个残差块和第三个残差块的卷积层相同,卷积核大小为1
×
1,卷积核个数 为256,步长为1;第二个残差块的卷积核大小为3
×
3,卷积核个数为256,步 长为1,边缘填充为1。将第二和第七个卷积块输出的特征图集合分别记为边缘填充为1。将第二和第七个卷积块输出的特征图集合分别记为其中特征图的宽度为高度为
58.第三卷积块与第八卷积块结构相同,由四个残差块依次连接构成。另外, 在第一个残差块和第二个残差块之间有一个下采样层,该下采样层的卷积核大 小为1
×
1,卷积核个数为512,步长为2。第一个残差块和第三个残差块的卷积 层相同,卷积核大小为1
×
1,卷积核个数为512,步长为1;第二个残差块的卷 积核大小为3
×
3,卷积核个数为512,步长为1,边缘填充为1。将第二和第七 个卷积块输出的特征图集合分别记为其中特征图的宽度为高度为
59.第四卷积块与第九卷积块结构相同,由六个残差块依次连接构成。另外, 在第一
个残差块和第二个残差块之间有一个下采样层,该下采样层的卷积核大 小为1
×
1,卷积核个数为1024,步长为2。第一个残差块和第三个残差块的卷 积层相同,卷积核大小为1
×
1,卷积核个数为1024,步长为1;第二个残差块 的卷积核大小为3
×
3,卷积核个数为1024,步长为1,边缘填充为1。将第四 和第九个卷积块输出的特征图集合分别记为其中特征图的宽度为高度为
60.第五卷积块与第十卷积块结构相同,由三个残差块依次连接构成。另外, 在第一个残差块和第二个残差块之间有一个下采样层,该下采样层的卷积核大 小为1
×
1,卷积核个数为2048,步长为2。第一个残差块和第三个残差块的卷 积层相同,卷积核大小为1
×
1,卷积核个数为2048,步长为1;第二个残差块 的卷积核大小为3
×
3,卷积核个数为2048,步长为1,边缘填充为1。将第五 和第十个卷积块输出的特征图集合分别记为其中特征图的宽度为高度为
61.每个残差块结构相同,残差块包括第四卷积层、第二归一化层、第二激活 层、第五卷积层、第三归一化层、第三激活层、第六卷积层、第四归一化层和 第四激活层,残差单元的输入输入到第四卷积层,第四卷积层依次经第二归一 化层、第二激活层、第五卷积层、第三归一化层、第三激活层、第六卷积层、 第四归一化层和第四激活层,第四激活层的输出作为残差单元的输出。
62.如图2所示,双侧边动态交叉融合模块包括三个多尺度特征增强模块,输 出四输入到第一多尺度特征增强模块,输出五输入到第二多尺度特征增强模块, 输出六输入到第三多尺度特征增强模块,第一多尺度特征增强模块的输出作为 输出七,输出五输入到第二多尺度特征增强模块,第二多尺度特征增强模块的 输出作为输出八,输出六输入到第三多尺度特征增强模块,第三多尺度特征增 强模块的输出作为输出九;输出七在前与输出八在后经依次连接操作后的输出 输入到第一拉伸模块,输出八在前与输出七在后经依次连接操作后的输出输入 到第二拉伸模块,第一拉伸模块的输出作为输出十,第二拉伸模块的输出作为 输出十一;输出八在前与输出在后九经依次连接操作后的输出输入到第三拉伸 模块,输出九在前与输出八在后经依次连接操作后的输出输入到第四拉伸模块, 第三拉伸模块的输出作为输出十二,第四拉伸模块的输出作为输出十三;输出 七与输出十经相乘后的输出作为输出十四,输出十一与输出八经相乘后的输出 作为输出十五,输出十二与输出八经相乘后的输出作为输出十六,输出十三与 输出九经相乘后的输出作为输出十七;输出七、输出十四和输出十六经相乘后 的输出作为输出十八,输出十五和输出十七经相乘后的输出作为输出十九,输 出十九、输出十八和输出八经相加后的输出作为输出二十;输出十九和输出九 经相加后的输出作为输出二十二,输出十八和输出七经相加后的输出作为输出 二十一,输出二十一、输出二十和输出二十二经连接操作后的输出再经过一个 卷积核大小为1
×
1,卷积核个数为64
×
3的第七卷积层,得到双侧边动态交叉 融合模块的输出。
63.第一拉伸模块、第二拉伸模块、第三拉伸模块和第四拉伸模块结构相同, 均包括依次连接的全局平均池化层和全连接层,拉伸模块的输入输入到全局平 均池化层,全局平均池化层的输出输入到全连接层,全连接层的输出作为拉伸 模块的输出。
64.如图3所示,三个多尺度特征增强模块的结构相同,均包括三个空洞卷积 层,多尺度特征增强模块的输入分别输入到第一空洞卷积层、第二空洞卷积层 和第三空洞卷积层,第一空洞卷积的卷积核大小为3
×
3,步长为1,边缘补充 为2,空洞率为2,第二空洞卷积的卷积核大小为3
×
3,步长为1,边缘补充为 5,空洞率为5,第三空洞卷积的卷积核大小为3
×
3,步长为1,边缘补充为8, 空洞率为8。第一空洞卷积层的输出、第二空洞卷积层的输出和第三空洞卷积层 的输出进行级联和卷积核为1
×
1的第二卷积层后的输出作为输出三十一,输出 三十一输入到第三卷积层,第三卷积层的输出与输出三十一经相乘后的输出作 为输出三十二,输出三十二与输出三十一经相加后的输出作为输出三十三,输 出三十三经一个激活层(激活函数为relu)后的输出作为多尺度特征增强模块 的输出。
65.如图4所示,第一输出模块包括四个卷积块,输出一、输出一与输出二经 相乘后的输出、以及输出一与输出三经相乘后的输出均输入到第十四卷积块, 第十四卷积块的输出作为输出二十五,输出二十五依次经第十五卷积块和权重 计算后的输出与输出二十五经相乘后的输出作为权重特征输出,权重特征输出 输入到第十六卷积块,权重特征输出与输出二十五经连接操作后的输出输入到 第十七卷积块,第十六卷积块的输出和第十七卷积块的输出作为第一输出模块 的输出。具体为:第十六卷积块的输出作为第一输出模块的第一输出,即图4 中的输出二十六为第一输出模块的第一输出,第十七卷积块的输出作为第一输 出模块的第二输出,即图4中的输出二十六作为第一输出模块的第二输出。
66.如图5所示,第二输出模块包括四个卷积块,第二输出模块的输入即输出 一依次经第十二卷积块和权重计算后的输出与第二输出模块的输入进行相乘后 的输出输入到第十一卷积块,第十二卷积块的输出输入到第十三卷积块,第十 三卷积块的输出和第十一卷积块的输出作为第二输出模块的输出,第十三卷积 块的输出作为第二输出模块的第一输出,即图5中的输出二十九,第十一卷积 块的输出作为第二输出模块的第二输出,即图中的输出三十,第一输出模块的 输出和第二输出模块的输出作为神经网络的输出,即神经网络共有四个输出。 第一输出模块的第一输出作为卷积神经网络的第一输出,第一输出模块的第二 输出作为卷积神经网络的第二输出,第二输出模块的第一输出作为卷积神经网 络的第三输出,第二输出模块的第二输出作为卷积神经网络的第四输出,在训 练时,卷积神经网络的第一输出输出第一语义分割预测图,卷积神经网络的第 二输出输出边界预测图,卷积神经网络的第三输出输出第二语义分割预测图, 卷积神经网络的第四输出输出前后景预测图;在预测时,第二语义分割预测图 作为预测语义分割图像。
67.第十一卷积块、第十二卷积块、第十三卷积块、第十五卷积块和第十六卷 积块的结构相同,均由卷积核为3
×
3,边缘填充为1的第八卷积层、第五归一 化层和第五激活层依次连接构成。
68.第十四卷积块和第十七卷积块的结构相同,均由卷积核为1
×
1的第九卷积 层、卷积核均为3
×
3,步长为1,边缘补充为1的第十卷积层、第六归一化层 和第六激活层依次连接构成。
69.解码阶段包括第一输出模块和第二输出模块,输出一、输出二和输出三均 输入到第一输出模块,输出一还输入到第二输出模块,第一输出模块的输出和 第二输出模块的输出作为神经网络的输出。本发明中神经网络共得到四个输出。
70.步骤13:将训练集中的每幅原始的道路场景图像和对应的热力图经明亮度、 对比
度、色彩调节和随机翻转、裁剪等方式进行数据增强后作为原始输入图像 和对应的热力图并作为初始输入图像对,并输入到卷积神经网络中进行训练, 得到训练集中的每幅原始道路场景图像对应的道路场景预测图,道路场景预测 图包括第一语义分割预测图、第二语义分割预测图、前后景预测图和边界预测 图,第一语义分割预测图、第二语义分割预测图、前后景预测图和边界预测图 构成的集合分别为
71.步骤1_4:计算道路场景预测图与对应的真实语义分割图像之间的损失函数 值:采用多类别任务损失(lovasz

softmax loss)计算由真实语义分割图像 处理成的独热编码图像构成的集合分别与第一语义分割预测图构 成的集合第二语义分割预测图构成的集合之间的子损失函数值 其中i=1,2;采用交叉熵损失函数(cross entropy loss)分 别计算由真实语义分割图像处理成的独热编码图像构成的集合分 别与前后景预测图构成的集合边界预测图构成的集合之间的子损失函 数值值其中i=3,4,最后对这四个子损失函数值求和后作为 损失函数值。
72.步骤1_5:重复执行步骤1_3和步骤1_4共v次,其中,v大于1,在具体 实施例中取v=300,直到卷积神经网络收敛,损失函数值降至最小,得到卷积 神经网络分类训练模型;在训练过程中共得到q个损失函数值,在其中找出值 小的损失函数值,将该值对应的权值矢量和偏置项作为卷积神经网络分类训练 模型的最优权值矢量和最优偏置项,对应记为w
best
和b
best
;其中,v>1,在本 实施例中取v=300。
73.测试阶段过程为:将待语义分割的道路场景图像和对应的热力图输入到设 置有最优权值矢量和最优偏置项的卷积神经网络分类训练模型中,得到待语义 分割的道路场景图像对应的预测语义分割图像。具体为:
74.步骤2_1:选取测试集中的第p组待语义分割的道路场景图像,并标记为i
p
, 其中,1≤p≤p,p=392。
75.步骤2_2:将第p组语义分割的道路场景图像的各种通道(i
p
的r通道分量、 g通道分量、b通道分量和热红外(thermal)分量)输入到训练好的神经网络模 型中,模型网络输出待语义分割的原道路场景图像对应的预测语义分割图像, 得到的预测图像记为
76.为了进一步验证本发明方法的可行性和有效性,进行实验。
77.使用基于python的深度学习库pytorch3.6搭建基于双侧边动态交叉融合的 无人驾驶道路场景理解网络的架构。采用mfnet rgb

t道路场景数据库的测试 集来分析利用本发明方法预测得到的道路场景图像的分割效果如何。这里,利 用评估语义分割方法的2个常用客观参量作为评价指标,平均类别准确率(meanclass acurracy,macc),分割图像与标签图像交集与并集的比值(meanintersection over union,miou)来评价预测语义分割图像的分割性能。
78.利用本发明方法对道路场景图像数据库mfnet rgb

t测试集中的每幅道路 场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本 发明方法的语义分割效果的平均类别准确率macc、分割图像与标签图像交集与 并集的比值miou如表1所列。从表1所列的数据可知,按本发明方法得到的 道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像 对应的预测语义分割图像是可行性且有效的。
79.表1 利用本发明方法在测试集上的评测结果
[0080][0081]
图6a给出了同一场景的第1幅原始的道路场景图像;图6b给出了利用本 发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图 像;图7a给出了同一场景的第2幅原始的道路场景图像;图7b给出了利用本 发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图 像;图8a给出了同一场景的第3幅原始的道路场景图像;图8b给出了利用本 发明方法对图8a所示的原始的道路场景图像进行预测,得到的预测语义分割图 像;图9a给出了同一场景的第4幅原始的道路场景图像;图9b给出了利用本 发明方法对图9a所示的原始的道路场景图像进行预测,得到的预测语义分割图 像。对比图6a和图6b,对比图7a和图7b,对比图8a和图8b,对比图9a和图 9b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1