基于深度学习与全局推理的遥感影像多尺度固废检测方法

文档序号:25170650发布日期:2021-05-25 14:40阅读:195来源:国知局
基于深度学习与全局推理的遥感影像多尺度固废检测方法

本发明属于固废堆场检测技术领域,具体涉及一种基于深度学习与全局推理的遥感影像多尺度固废检测方法。



背景技术:

随着社会经济的飞速发展,城市化进程逐渐加快,诸多城市问题也随之而来,严重影响居民的生活舒适度与便利性,其中固体废物引发的城市环境问题尤为严峻,推动高效可靠的固废排查工作势在必行。快速精准地定位固废堆场对开展高效的固废排查工作具有重要意义,最初确定固废堆场位置主要依靠人工实地勘察,再有相关部门逐级上报的方式进行,然而由于固废堆场分布范围广、数量大等特点,人工方法不仅费时费力,还存在主观性强、作用范围局限等问题,难以满足环境治理的迫切需要。近年来,遥感成像技术的发展丰富了高分辨率遥感影像数据源,为固废堆场检测任务提供了新的手段,利用高分辨率遥感影像能够实现大范围、高效率、更为客观的固废堆场检测,极大地弥补了人工方法的不足。

在早期基于遥感影像的固废堆场研究中,人们大多通过设计影像特征,并训练特定分类器的方法完成固废堆场识别或提取任务,但由于针对特定应用场景的特征设计模式在面对情况复杂的实际任务时无法表现出足够的泛化能力,此类方法往往难以推广应用。随着深度学习方法在计算机视觉领域的迅速发展,卷积神经网络(convolutionalneuralnetwork,cnn)以自动学习图像特征的方式弥补了人工设计特征的局限性,由此衍生出的众多目标检测算法在针对自然图像的目标检测应用中取得优秀表现,比如采用可自动学习候选框的区域建议网络(regionproposalnetwork,rpn)的faster-rcnn(rens等,2016)以及利用多层级特征提高多尺度目标检测效果的ssd(liuw等,2016)等,近些年来,越来越多的研究将深度学习方法迁移至遥感影像的目标检测应用中,chenx等(chenx等,2014)采用一种基于滑动窗口与神经网络的方法对遥感影像上的车辆进行高效检测;chengg等(chengg等,2016)提出一种新颖的旋转不变cnn模型(ricnn)有效处理遥感影像上目标旋转变化的问题。然而,相较于建筑、车辆等一般地物,固废堆场在遥感影像上的特征表现更加复杂,将应用于一般地物的目标检测算法直接迁移至固废堆场检测任务中或难以达到同样的优秀表现,往往需要根据固废堆场检测任务的特性对深度学习模型进行针对性优化,sunx等(sunx等,2020)针对固废堆场形状不规则、边界模糊等特性提出一种形状鲁棒的无锚框检测模型——sraf-net,并采用一种基于上下文的可变形模块提高特征提取性能;wut等(wut等,2020,xiaos,2018)采用一种针对固废堆场的样本合成方法进行训练样本更新,结合深度学习模型提升了固废堆场检测效果。

然而,固废堆场检测任务的复杂特性远不止如此,具体而言:1)目标尺度多变且差异巨大,小型堆场面积仅有几十平方米,大型堆场面积可达几千平方米,固定大小的滑动窗口难以同时顾及尺度差异如此巨大的多个目标,此外影像窗口在大范围目标区域中滑动时往往会将完整堆场切割,因此需要针对固废堆场检测的任务特性合理优化多尺度检测策略;2)固废堆场的形成与其他地物关联紧密,比如生活固废往往伴随住宅楼房出现,工业固废和建筑废物多堆积于空旷裸地、草地等地物之上,因此对影像全局信息充分推理挖掘能够有效增强特征表达,然而一般的局部卷积过程受限于卷积核,难以全面概览影像全局信息。



技术实现要素:

针对现有技术中的上述不足,本发明提供的基于深度学习与全局推理的遥感影像多尺度固废检测方法解决了现有的固废堆场检测过程,尺度差异巨大的固废堆场对目标检测效果不理想,存在完整场堆被滑动窗口切割的问题。

为了达到上述发明目的,本发明采用的技术方案为:基于深度学习与全局推理的遥感影像多尺度固废检测方法,包括以下步骤:

s1、获取待检测区域的原始遥感影像,并对其进行多尺度裁剪处理,获得各尺度下的影像块集合;

s2、通过全局推理多尺度检测模型对各尺度下的影像块集合中的影像进行检测,输出各尺度下的所有检测框;

s3、将全局推理多尺度检测模型输出的检测框整合到原始遥感图像对应的大范围影像中,并对各检测框进行合并,得到对应的固废检测结果。

进一步地,所述步骤s1具体为:

s11、采用若干个尺寸的滑动窗口和步长对待检测区域的原始遥感影像进行裁剪;

s12、将裁剪后的各影像块缩放至全局推理多尺度检测模型的输入大小,得到各尺度下的影像块集合。

进一步地,所述步骤s2中的全局推理多尺度检测模型包括ssd网络及在嵌合在ssd网络中各卷积层之间的glore单元;

所述ssd网络用于实现对输入影像的特征提取及多尺度目标检测;

所述glore单元用于对ssd网络中的特征进行全局推理,提高ssd网络对影像全局信息的表达能力。

进一步地,所述ssd网络保留vgg-16网络的第一~第五卷积层,并将vgg-16网络第五层卷积层之后的全连接层修改为依次连接的第六卷积层、第七卷积层,同时在第七卷积层后依次添加依次连接的第八~第十一卷积层;

对于嵌合在ssd网络中的glore单元,根据ssd网络的特征计算方向和检测计算方向之后自由嵌合。

进一步地,在ssd网络中,所述第四卷积层及第七卷积层~第十一卷积层除进行特征向前计算外,其输出的六个不同分辨率的特征图还用于计算目标的边框、位置及类别置信度,并基于计算结果通过非极大值抑制操作,筛选出与输入图像中重叠度大于设定阈值的影像,作为全局推理多尺度检测模型的输出结果。

进一步地,对于前一卷积层输入到glore单元的栅格形式的特征图x,glore单元对特征图x进行处理的方法为:

a1、采用卷积运算φ(x;wφ)和卷积运算θ(x;wθ)将特征图x映射到交互空间中的一个全连通图结构;

a2、采用图卷积运算在整个全连通图结构中传递每个节点的特征,并更新节点状态,进而在关系密切的节点之间构建强关联;

a3、采用θ(x;wθ)的转置将节点之间具有强关联的全连通图结构从交互空间反向映射到栅格形式,得到栅格特征图y;

a4、将栅格特征图y的维度扩展至与特征图x大小相同后与特征图x叠加,作为glore单元的输出图像输入到下一层卷积层。

进一步地,所述步骤a1中,全连通图结构中节点的特征矩阵v为:

式中,wφ为降维卷积运算的权重,wθ为映射卷积运算的权重;

所述步骤a2中,采用图卷积运算在整个全连通图结构v中传递每个节点的特征z为:

z=g(v;wg)=((i-ag)v)wg

式中,g(·)为图卷积运算函数,wg为图卷积的权重,i为单位矩阵,ag为全连通图结构的邻接矩阵;

所述步骤a3中,所述栅格特征图y为:

式中,θt(x;wθ)为卷积运算θ(x;wθ)的转置。

进一步地,所述步骤s3具体为:

s31、将全局推理多尺度检测模型输出的检测框叠加整合至原始遥感图像对应的大范围影像中,并以置信度阈值confthr对所有检测框进行筛选;

s32、基于筛选结果,确定属于同一目标的检测框b的检测框集合gi,并构建目标集合g={g1,...,gm};

s33、将集合g={g1,...,gm}中包含检测框b的个数不小于2的检测框集合筛选出来,并计算其最小外接矩形,得到的各尺度下的影像块组成影像块检测集合,进而得到对应的固废检测结果。。

进一步地,在所述步骤s32中,所述目标检测框集合g={g1,...,gm}中每个元素gi={b1,b2,...,bn}表示被判定为属于同一目标的检测框b的影像集合,i=1,2,...,m,m为集合g中元素总数;

元素gi的最小外包矩形与检测框b之间的重叠区域满足:

式中,b为检测框集合,sg、sb、sin、sun分别表示gi的最小外包矩形、检测框b、最小外包矩形与检测框b的重叠区域和并集的面积,mergethr为合并阈值。

本发明的有益效果为:

(1)考虑到遥感影像上的固废堆场具有尺度多变且与全局关联密切等特点,提出一种全局推理多尺度检测模型,该模型充分结合多尺度检测深度学习模型ssd与全局推理单元glore的优势,使模型在进行多尺度检测的过程中充分利用影像的全局信息,实验证明该模型能有效处理尺度多变、场景复杂的固废堆场检测任务,与其他方法相比,本发明中的全局推理多尺度检测模型具有明显优势;

(2)针对固废堆场尺度差异过大、在大幅影像中完整堆场会被切割的问题,本文提出一种多尺度优化策略,采用多尺度滑动窗口对目标影像裁剪,并采用一种多尺度合并方法对检测结果进行处理,经过与传统的nms处理方法对比分析,该多尺度合并方法能够更好地应对大幅影像的固废堆场检测。

附图说明

图1为本发明提供的基于深度学习与全局推理的遥感影像多尺度固废检测方法流程图。

图2为本发明提供的完整固废堆场被切割示意图。

图3为本发明提供的多尺度裁剪示意图。

图4为本发明提供的全局推理多尺度模型结构示意图。

图5为本发明提供的检测结果合并示意图。

图6为本发明提供的实施例中不同方法的检测结果示意图。

图7为本发明提供的不同方法的pr曲线示意图。

图8为本发明提供的不同方法的大范围检测结果对比示意图

图9为本发明提供的不同合并阈值时的置信度阈值变化示意图。

图10为本发明提供的实施例中置信度阈值为0.99时的合并阈值变化示意图。

图11为本发明提供的实施例中不同合并方法的可视化结果示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

实施例1:

如图1所示,基于深度学习与全局推理的遥感影像多尺度固废检测方法,包括以下步骤:

s1、获取待检测区域的原始遥感影像,并对其进行多尺度裁剪处理,获得各尺度下的影像块集合;

s2、通过全局推理多尺度检测模型对各尺度下的影像块集合中的影像进行检测,输出各尺度下的所有检测框;

s3、将全局推理多尺度检测模型输出的检测框整合到原始遥感图像对应的大范围影像中,并对各检测框进行合并,得到对应的固废检测结果。

在本实施例的步骤s1中,对于该步骤中构造后续全局推理多尺度检测模型的输入图像,尽管后续的ssd网络内部设计了多尺度检测结构,但由于固废堆场的尺度差异过大,小型堆场面积仅几十平方米,大型堆场面积可达几千甚至几万平方米,而模型的输入大小固定,难以同时将较大型堆场和小型堆场特征表达完整;此外,在实际应用中,遥感影像往往覆盖范围较大的研究区域,需要以滑动窗口遍历整幅图像,此时极易出现完整固废堆场被切割的问题,如图2所示,因此,本实施例针对上述问题提出一种多尺度优化策略,以满足在大幅影像的实际中检测不同尺度固废堆场的需求。

本实施例中的多尺度优化过程主要分为多尺度剪裁和多尺度合并,如图3所示,多尺度剪裁对应于上述步骤s1,而多尺度合并在后续步骤s3中实现,为了尽可能地覆盖遥感影像上所有尺度的固废堆场,上述步骤s1实现多尺度剪裁的方法具体为:

s11、采用若干个尺寸的滑动窗口和步长对待检测区域的原始遥感影像进行裁剪;

s12、将裁剪后的各影像块缩放至全局推理多尺度检测模型的输入大小,得到各尺度下的影像块集合。

如图4所示,本实施例的步骤s2中的全局推理多尺度检测模型包括改进的ssd网络及在嵌合在ssd网络中各卷积层之间的glore单元;

ssd网络用于实现对输入影像的特征提取及多尺度目标检测;

glore单元用于对ssd网络中的特征进行全局推理,提高ssd网络对影像全局信息的表达能力。

对于改进的ssd模型,深度神经网络在进行层层卷积和池化的过程中,特征图分辨率逐渐降低同时特征表达也逐渐抽象,以至于深层特征图仅对大目标敏感,而浅层特征图保留的丰富细节信息则有助于对小目标的检测,因此充分利用深层抽象信息与浅层细节信息对于实现固废堆场这种尺度多变的目标检测具有重要意义。ssd(singleshotmultiboxdetector)网络结合了来自多个不同分辨率特征图的检测结果,能够自然地处理不同尺度的目标,其结构如图3所示,该网络基于一种高质量的标准分类模型——vgg-16网络改进而来,其具体结构为:

ssd网络保留vgg-16网络的第一~第五卷积层,用于基础的特征提取,并将vgg-16网络第五层卷积层之后的全连接层修改为依次连接的第六卷积层、第七卷积层,同时在第七卷积层后依次添加依次连接的第八~第十一卷积层;

对于嵌合在ssd网络中的glore单元,根据ssd网络的特征计算方向和检测计算方向之后自由嵌合;如图4所示的“ssd的卷积层”即ssd网络进行的特征计算,特征会一层一层地向前计算(即特征计算方向,多边形箭头),在这个过程中层的尺寸会逐渐变小,越靠前层的特征(称为浅层特征)对小目标的关注度越高,而越靠后层的特征(称为深层特征)对大目标的关注度越高,因此为了能综合考虑多尺度目标的检测,ssd网络分别拿出以上几个不同尺寸的层的特征计算结果来进行目标边框检测计算(即检测计算方向,线形箭头)。glore可以嵌入在卷积层的上述两种方向之后,如果在特征计算方向嵌入glore单元(图4(a)),则此处进行的全局推理将影响该层的边框检测计算和后续几层的特征计算;如果在检测计算方向嵌入glore单元(图4(b)),则此处进行的全局推理将只影响该层的边框检测计算。为了探索何种嵌入方式是合理的,本文进行了不同层的嵌入实验,发现只在第四层的特征计算方向嵌入效果是最好的(如后面表3所示)。

在上述ssd网络中,第四卷积层及第七卷积层~第十一卷积层除进行特征向前计算外,其输出的六个不同分辨率的特征图还用于计算目标的边框、位置及类别置信度,并基于计算结果通过非极大值抑制操作(non-maximumsuppression,nms),筛选出与输入图像中重叠度大于设定阈值的影像,作为全局推理多尺度检测模型的输出结果。

改进的ssd网络中的卷积操作主要关注图像的局部特征,对全局特征的利用需要经过更深层次的网络传递,此举不仅会加重模型的训练负担,同时过于复杂的网络结构会容易出现过拟合的现象。此外,ssd网络采用了类似于fasterr-cnn模型中的锚框进行目标搜索,即根据多个尺寸的窗口内的特征来回归计算目标的坐标和类别置信度,该操作使得模型对特征的利用更加局限,为了实现对特征图全局信息的充分利用,本实施例提出了一种可嵌入cnn模型中的全局推理(globalreasoning,glore)单元,结构如图4所示,基于该结构,对于前一卷积层输入到glore单元的栅格形式的特征图x,glore单元对特征图x进行处理的方法为:

a1、采用卷积运算φ(x;wφ)和卷积运算θ(x;wθ)将特征图x映射到交互空间中的一个全连通图结构;

其中,全连通图结构中的每个节点即一个特征向量;

全连通图结构中节点的特征矩阵v为:

式中,wφ为降维卷积运算的权重,wθ为映射卷积运算的权重;

a2、采用图卷积运算在整个全连通图结构中传递每个节点的特征,并更新节点状态,进而在关系密切的节点之间构建强关联;

采用图卷积运算在整个全连通图结构v中传递每个节点的特征z为:

z=g(v;wg)=((i-ag)v)wg

式中,g(·)为图卷积运算函数,wg为图卷积的权重,i为单位矩阵,ag为全连通图结构的邻接矩阵;

a3、采用θ(x;wθ)的转置将节点之间具有强关联的全连通图结构从交互空间反向映射到栅格形式,得到栅格特征图y;

a4、将栅格特征图y的维度扩展至与特征图x大小相同后与特征图x叠加,作为glore单元的输出图像输入到下一层卷积层。

其中,栅格特征图y为:

式中,θt(x;wθ)为卷积运算θ(x;wθ)的转置。

本实施例中的全局推理多尺度检测模型中的glore单元能够保证输出结果与输入大小匹配,因此该单元能够方便嵌入到改进的ssd网络中的任意卷积层之后,而不必对ssd网络的其他地方进行改动,ssd网络结构中的第四卷积层及第七卷积层~第十一卷积层除进行特征向前计算外,其输出的六个不同分辨率的特征图还用于计算目标的边框、位置及类别置信度,该机制决定了模型在以上几层卷积层之后分为特征计算与检测计算两个方向,同时考虑到第十、第十一卷积层的特征图分辨率大小分别为3×3和1×1,已不存在全局推理的必要。

在本申请的步骤s3中,如图5所示,在进行全局推理多尺度检测模型输出的影像多尺度合并时,其输出的影像中因窗口滑动而被切割的堆场目标与完整堆场目标并存,区别于一般目标在仅包含部件组件时识别置信度会降低的性质,固废堆场不存在固定的形状,即便是被切割的部分也能得到很高的置信度,因此基于置信度的排序的非极大值抑制(non-maximumsuppression,nms),本实施例提供了一种基于模型输出影像的检测框尺寸的合并策略,基于此,本实施例的步骤s3具体为:

s31、将全局推理多尺度检测模型输出的检测框叠加整合至原始遥感图像对应的大范围影像中,并以置信度阈值confthr对所有检测框进行筛选;

s32、基于筛选结果,确定属于同一目标的检测框b的检测框集合gi,并构建目标集合g={g1,...,gm};

s33、将集合g={g1,...,gm}中包含检测框b的个数不小于2的检测框集合筛选出来,并计算其最小外接矩形,得到的各尺度下的影像块组成影像块检测集合,进而得到对应的固废检测结果。

在步骤s32中,目标检测框集合g={g1,...,gm}中每个元素gi={b1,b2,...,bn}表示被判定为属于同一目标的检测框b的影像集合,i=1,2,...,m,m为集合g中元素总数;

元素gi的最小外包矩形与检测框b之间的重叠区域满足:

式中,b为检测框集合,sg、sb、sin、sun分别表示gi的最小外包矩形、检测框b、最小外包矩形与检测框b的重叠区域和并集的面积,mergethr为合并阈值。

实施例2:

本实施例提供了基于上述方法进行固废检测的具体实验实例:

数据集:

基于生态环境部(ministryofecologyandenvironmentofthepeople’srepublicofchina,mee)公布的固废堆场点位信息,获取对应的谷歌影像数据。从固废堆场点位清单中选择位于安徽省一处固废堆场数量较多、尺度丰富、场景复杂的区域作为研究区,大小为6400×6400像素,空间分辨率为0.26米。

本实施例所用训练和验证样本选自前述固废堆场点位清单,包括400×400、600×600、800×800像素三种大小,共计7099张影像,其中4970张用于训练,2129张用于验证,如表1所示。此外,为测试本文方法的泛化能力,本文另外从北京、河南等多地搜索固废堆场,制作了用于测试模型效果的测试集,包含400×400、600×600和800×800像素三种不同的尺寸。

表1样本数量统计

评价指标:

本文采用f1分数(f1-score)和平均准确率(averageprecision,ap)两个指标对实验结果进行评估,具体计算方法如下:

其中,r、p、f1分别表示召回率、准确率和f1分数;tp表示被正确检测为固废堆场的检测框个数;fp表示被错误检测成固废堆场的检测框个数;fn表示未被检测到的固废堆场个数。随着置信度阈值的改变,召回率r与准确率p也会随之变化,二者形成的曲线被称为pr曲线,ap即在取特定的交并比阈值时pr曲线下方的面积,其值越高代表检测效果越好,通常取交并比阈值为0.5时的ap值作为评价指标,即ap50。

与经典方法对比:

本实施例将一层glore单元分别嵌入到conv4的特征计算方向与检测计算方向之后,分别记为ssd+glore_conv_1和ssd+glore_1,并与目标检测领域经典算法原始ssd300、fasterrcnn+fpn和yolov5对比,结果示例如图6所示,pr曲线如图7所示,评价指标对比如表2所示。可见,嵌入glore单元的模型在面对周边环境复杂的堆场时检测效果明显优于其他模型,而在特征计算方向嵌入glore单元(图6(a))要比在检测计算方向嵌入的模型(图6(b))表现更好。相比于原始ssd模型(图6(c))的检测效果,添加了glore单元的ssd模型(图6(a)、图6(b))的检测结果的漏检率更低,说明了glore单元的引入提高了模型对影像全局信息的利用,对固废堆场的精准检测起到了关键作用。此外,相比于本文方法,yolov5模型与faster-rcnn+fpn模型均表现较差,其中yolov5检测结果中存在较多漏检目标(图6(e)),而faster-rcnn+fpn模型误检问题严重(图6(d))。(图6中,(a)为ssd+glore_conv_1、(b)为ssd+glore_1、(c)为ssd300、(d)为faster-rcnn+fpn、(e)为yolov5)。

表2不同方法的评价指标

从大范围的检测效果(图8)来看,在面对固废堆场稀疏分布的场景(场景1)时,几种方法均表现较好,然而在面对复杂场景(场景2)时,ssd+glore_conv_1检测效果最好,而其他几种方法存在比较严重的漏检问题,说明全局推理单元在处理场景复杂的情况时能够表现出更好的适应能力;此外,对于尺度变化较大的场景(场景3),尽管所有方法均存在一定的漏检问题,ssd+glore_conv_1依然能够保持相对较好的检测效果,而fasterrcnn与yolov5则误检问题严重。(图8中,(a)为ssd+glore_conv_1、(b)为ssd+glore_1、(c)为ssd300、(d)为faster-rcnn+fpn、(e)为yolov5)。

嵌入不同数量的glore单元:

如图4模型结构所示,glore单元可以自由地嵌入在ssd模型的多个卷积层之后,具有很强的灵活性,本文通过在ssd模型的不同位置嵌入不同数量的glore单元,探讨其影响,评价指标如表3所示。可见,在特征计算方向嵌入glore单元整体表现优于在检测方向嵌入的模型,而二者在嵌入数量上均表现出随着嵌入glore单元的层数增多,检测效果有所下降的现象,该现象与chen等(chenetal,2019)在一般性深度学习任务实验中的测试表现相吻合,说明进行过多次的全局推理反而会影响特征提取表现。

表3嵌入不同数量glore单元的评价指标

本实施例针对研究区大幅影像上的固废堆场检测任务设计了多尺度优化策略,涉及多个实验参数,包括用于初步筛选检测框的置信度阈值confthr和合并阈值mergethr,为了确定合适的confthr和mergethr,本文采用ssd+glore_conv_1模型通过设置不同参数进行敏感性分析实验,如图9所示,几乎取所有合并阈值时均是在置信度阈值为0.99时达到最大值,因此本文实验取confthr=0.99;由图10可知,当以0.99作为置信度阈值时,取合并阈值为0.75时f1分数达到最大值,因此本文实验取mergethr=0.75。

采用模型ssd+glore_conv_1对经过多尺度裁剪后的研究区影像进行检测并按照多尺度合并策略及上文confthr和mergethr对检测结果处理后,最终结果如图11(b)所示;采用nms方法对检测结果进行处理后,结果如图11(c)所示;可见与传统的nms处理方法相比,多尺度合并将大量因滑动窗口裁剪而被分割的固废堆场合并,使检测结果与真值(图11(a))更加接近。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1