基于多尺度多特征融合自注意力网络的道路场景语义分割方法和系统

文档序号:36779130发布日期:2024-01-23 11:50阅读:14来源:国知局
基于多尺度多特征融合自注意力网络的道路场景语义分割方法和系统

本发明涉及道路场景语义分割,尤其涉及一种基于多尺度多特征融合自注意力网络的道路场景语义分割方法和系统。


背景技术:

1、计算机视觉领域,道路场景语义分割一直是一个备受关注的研究方向,随着自动驾驶、智能交通等技术的发展,道路场景语义分割的需求也越来越迫切。同时,人工标注难,标注成本高等问题难以突破,可使用高质量数据集较少,因此基于小样本语义分割也逐渐成为热点研究内容。以往的语义分割通常使用卷积神经网络(cnn)来实现,然而这些网络需要大量的标注数据注入训练,同时随着网络层数加深,会导致卷积和池化操作存在一定程度的信息损失,尤其对小目标物体识别困难。样本不平衡也会对神经网络带来较大的问题,卷积神经网络往往对数量较多的类别表现更好性能,对数量较少的类别表现较差。这些情况极大影响了语义分割技术在实际道路环境中的使用。所以,如何基于少量标注数据训练准确且具备鲁棒性的语义分割模型,是当前图像语义分割待解决的关键之一。

2、传统语义分割任务主要利用图像的原始像素特征进行分类,这些像素特征包括亮度、纹理、颜色等。随着卷积神经网络(cnn)的不断发展,全卷积神经网络(fullyconvolutional neural networks,fcn)等基于卷积神经网络的语义分割算法已经成为语义分割领域的主流方法,并且解决了传统语义分割算法在像素级别的分割精度、信息丢失等问题。这些算法通过使用卷积神经网络的卷积层来提取图像的特征,然后使用反卷积等技术来将特征图像转换为像素级别的分割结果。相比于传统方法,这些算法具有更好的泛化性能和更高的分割精度,并且可以处理任意大小的输入图像。long等提出的全卷积神经网络(fcn)将一般的卷积神经网络(cnn)中全连接层替换为卷积层,去除了输入图像的固定大小限制,可以处理任意大小的输入图像。ronneberger等提出一种具有对称编码器-解码器结构的卷积神经网络u-net,该网络直接将图像像素映射到对应的标签。u-net在医学图像分割领域广泛应用并具有较好的分割精度,在面对一些小目标时,比如城市道路场景下的车辆、树木或者其他外形相似的非同类别目标,u-net网络比其他深度神经网络表现更好。zhang等提出了shufflenet,采用group convolution和channel shuffle两种操作在速度和精度之间做到平衡。在进行分组卷积操作时,shufflenet引入了一个新的模块—shufflenet unit,该模块由两个部分组成:通道划分部分和通道混洗部分。通道划分部分将输入通道分成两部分,实现了信息交流和通道之间的互相影响。paszke等提出enet,该网络采用早期下采样策略降低计算,利用非对称结构优化细节,加入非线性激活和空洞卷积实现较高的运行速度。transformer结构在2017年被提出来在自然语言处理领域引起巨大轰动,如何使用自注意力机制充分学习上下文信息并利用特征位置信息,同样成为图像识别领域重点关注内容。2020年由google提出的vit模型将transformer结构应用到图像分类领域并取得显著效果。wang j等提出了一种基于transformer结构的新型网络rtformer,该网络是一种对偶分辨率结构,它包含两种类型注意力模块。在低分辨率分支,采用了注意力模块以捕获高层全局上下文信息,而在高分辨率分支,引入了跨分辨率注意力机制对高层全局上下文信息进行传播扩散,也就是将两个分辨率的特征通过注意力模块进行聚合,最终达到较高的识别精度。

3、以上网络大多在解决语义分割精度和效率,同样也应关注网络在小规模数据集上的表现。yao x等提出了一种基于尺度感知的细节匹配方法,将其应用于少样本航空图像语义分割任务中。该方法先在源域中使用预训练模型进行训练,并在目标域中使用少量有标注数据和大量无标注数据进行训练。训练时使用尺度感知的细节匹配方法匹配源域和目标域中的图像并提取相似特征。jiang x等提出了一种新颖的基于少样本学习的遥感图像语义分割方法。该方法使用深度cnn提取高级语义特征,并生成每个类的原型表示。通过将每个像素的特征与最近的原型匹配,实现语义标记,采用非参数度量学习的损失函数进行优化,最大化学习原型的类内相似性并且最小化类间相似性。wang b等提出了一个名为dmml-net的深度元度量学习框架,由元度量学习器和基本度量学习器组成,用于少镜头地理对象分割。dmml-net提出的元度量训练范式,为度量模型提供灵活的可扩展性,以快速适应新任务。经过元训练后,dmml-net可以应用于新地理对象的小样本分割任务,在小训练集上只需几个梯度步骤。

4、基于上述分析,对于道路场景下的语义分割任务,在有限的设备及数据资源下追求更高的精度和较好的鲁棒性仍有较大的提升空间。


技术实现思路

1、本发明针对以往的卷积神经网络在语义分割领域,尤其是道路场景下,通过卷积、池化操作存在过拟合、对位置信息不敏感,鲁棒性不强等缺点,提出一种基于多尺度多特征融合自注意力网络的道路场景语义分割方法和系统,具体提出一种多尺度多特征融合自注意力网络,该网络基于u-net骨架结构,提出多尺度空间金字塔池化模块承接采样特征,并基于vit模型结构优化特征学习及输入输出,最终达到最优道路场景语义分割效果。

2、为了实现上述目的,本发明采用以下技术方案:

3、本发明一方面提出一种基于多尺度多特征融合自注意力网络的道路场景语义分割方法,包括:

4、步骤1,构建多尺度多特征融合自注意力网络,该网络包括多尺度空间金字塔池化模块和自注意力模块;所述多尺度空间金字塔池化模块包括多层编码层和空间金字塔池化层,所述编码层包括多个卷积层;将所述多尺度空间金字塔池化模块的输出作为所述自注意力模块的输入;

5、步骤2,基于道路场景图像数据集对构建的多尺度多特征融合自注意力网络进行训练;

6、步骤3,基于训练好的多尺度多特征融合自注意力网络对道路场景图像进行语义分割。

7、进一步地,所述多尺度空间金字塔池化模块中,每层编码层的采样结果同步输入到空间金字塔池化层中,不同尺寸不同维度的特征经空间金字塔池化操作整合到全连接层并输出到唯一维度。

8、进一步地,所述多尺度空间金字塔池化模块中:

9、由每层卷积之后的特征输入到空间金字塔池化层中,每个卷积层的输出特征图大小为h_i×w_i,空间金字塔池化层的输入特征图大小表示为:

10、h_in=h_n(1)

11、w_in=w_n(2)

12、其中n表示采样阶段最后一个卷积层的编号,h_n和w_n分别表示最后一个卷积层的输出特征图的高度和宽度;

13、由空间金字塔池化层使用k个不同尺寸的池化核,每个池化核的大小为s_i×s_i,空间金字塔池化层的输出特征图表示为h_out×w_out,空间金字塔池化层的输出特征图大小表示为:

14、h_out=h_in/2k  (3)

15、w_out=w_in/2k  (4)

16、其中k表示空间金字塔池化层中不同尺寸的池化核数量。

17、进一步地,所述自注意力模块采用vision transformer自注意力机制。

18、本发明另一方面提出一种基于多尺度多特征融合自注意力网络的道路场景语义分割系统,包括:

19、网络构建模块,用于构建多尺度多特征融合自注意力网络,该网络包括多尺度空间金字塔池化模块和自注意力模块;所述多尺度空间金字塔池化模块包括多层编码层和空间金字塔池化层,所述编码层包括多个卷积层;将所述多尺度空间金字塔池化模块的输出作为所述自注意力模块的输入;

20、网络训练模块,用于基于道路场景图像数据集对构建的多尺度多特征融合自注意力网络进行训练;

21、语义分割模块,用于基于训练好的多尺度多特征融合自注意力网络对道路场景图像进行语义分割。

22、进一步地,所述多尺度空间金字塔池化模块中,每层编码层的采样结果同步输入到空间金字塔池化层中,不同尺寸不同维度的特征经空间金字塔池化操作整合到全连接层并输出到唯一维度。

23、进一步地,所述多尺度空间金字塔池化模块中:

24、由每层卷积之后的特征输入到空间金字塔池化层中,每个卷积层的输出特征图大小为h_i×w_i,空间金字塔池化层的输入特征图大小表示为:

25、h_in=h_n  (1)

26、w_in=w_n  (2)

27、其中n表示采样阶段最后一个卷积层的编号,h_n和w_n分别表示最后一个卷积层的输出特征图的高度和宽度;

28、由空间金字塔池化层使用k个不同尺寸的池化核,每个池化核的大小为s_i×s_i,空间金字塔池化层的输出特征图表示为h_out×w_out,空间金字塔池化层的输出特征图大小表示为:

29、h_out=h_in/2k           (3)

30、w_out=w_in/2k           (4)

31、其中k表示空间金字塔池化层中不同尺寸的池化核数量。

32、进一步地,所述自注意力模块采用vision transformer自注意力机制。

33、与现有技术相比,本发明具有的有益效果:

34、1)利用迁移学习思想,引入自注意力模块,基于自注意力机制捕获多尺度上下文信息及临域位置信息,使得整体网络学习更丰富的图像信息。

35、2)优化多尺度采样阶段特征,利用多尺度空间金字塔池化模块无视特征大小特点,聚合多维特征,锁定更多空间信息,提高网络识别精度。

36、3)在cityscapes数据集和camvid数据集上进行测试,并采用随机数据减半方式与全量数据训练对比,同时与近几年类似方法进行比较,表明本发明提出的方法在小规模数据集上同样具备较高的精度及较好的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1