基于注意力机制卷积神经网络的遥感影像地物标注方法与流程

文档序号:16309419发布日期:2018-12-19 05:13阅读:3219来源:国知局
基于注意力机制卷积神经网络的遥感影像地物标注方法与流程

本发明涉及一种基于注意力机制卷积神经网络的遥感影像地物标注方法,属于可见光遥感影像场景标注技术领域。

(二)背景技术

遥感是利用传感器远距离测量一个地理区域的电磁辐射,然后用数学和统计的方法从数据中提取有价值的信息的一种科学活动。遥感影像是传感器接收到目标的电磁信号转化为的数字或模拟图像,属于成像遥感的范畴。

遥感影像地物标注需要对遥感影像进行逐像素标注,通过提取各点的特征并用分类器分为相应的类别。通过统计全图各像素的类别情况,得到各类地物的分布、数量等信息,从而得到土地利用与土地覆盖的情况。遥感地物标注能应用于土地利用监测、土地变化检测等领域,在国土资源调查方面有十分重要的意义。

遥感影像地物自动标注的传统方法主要以手工提取影像特征并设计分类器,因为手工设计的特征难以表达地物的语义信息,并且无法适应大规模的影像数据,鲁棒性较差。近年来,在计算机视觉领域,一种叫做全卷积神经网络的技术初步实现了自然场景图像的语义标注问题。在遥感影像场景标注问题上,也有许多基于深度卷积神经网络方法。深度卷积神经网络采用端到端的训练机制,能够自动化地实现影像语义标签的生成,在特征的提取以及特征的逐层抽象上相对传统方法有巨大的优势。而自然场景图像与遥感影像存在着很大的差异,比如:遥感影像地物的尺度相对较小、地物的边界相对模糊、影像的成像质量相对较低。并且,遥感影像光学绝对分辨率的提高,对遥感影像地物标注提出了更高的要求,因此地物的精细化标注成为一个难点和热点。

基于注意力机制的方法是受到人的视觉注意力机制的启发而提出的。人的视觉注意力机制是人具有对特定重点目标的关注能力,表现在人能迅速扫描全图,对感兴趣的区域进行聚焦以及忽略无用的区域信息。注意力机制在计算机视觉以及自然语言处理领域有着广泛的应用,而在遥感影像处理领域鲜有应用。

在工程实践中,基于深度卷积网络的遥感影像地物标注方法首先需要人工标注一定量的样本,深度学习方法通过原始图像以及对应的标签进行特征的提取以及地物的分类。利用训练得到的网络模型能够大大加快遥感影像地物标注的进程。卷积神经网络的自动标注算法能够高效地标注地物,解放大量的劳动力,并且将注意力机制与卷积网络结合能够得到高质量的地物标注结果,具有广泛的应用前景。

(三)

技术实现要素:

本发明的目的在于提供一种基于注意力机制卷积神经网络的遥感影像地物标注方法,以自动化地标注遥感影像,将遥感影像各像元标注为相应的地物类别,减少人力物力,大大加快解译进程,得到高质量的地物标注结果。

本发明是通过以下技术方案实现的:

本发明是一种基于注意力机制卷积神经网络的遥感影像地物标注方法。该方法的具体步骤如下:

步骤一:计算机读取遥感影像数据。本发明使用的遥感影像数据均来源于马萨诸塞州建筑数据集,是由绝对分辨率为1米的rgb彩色影像构成。将带标签的样本图像分为训练集和测试集两部分。由于计算机显存的限制,在训练阶段,将原始训练影像切割成321×321大小;在测试阶段,将原始测试影像切割成500×500大小,并将标注结果拼接起来得到原始尺寸的分类图。

步骤二:构造注意力机制的卷积神经网络(attentionimprovedconvolutionnerualnetworks,aicnet)。如图1所示,在vggnet-16的基础上,保留conv1到conv5的卷积层,将分别从conv1、conv3以及conv5层的末端引出分类网络,其中conv1、conv3、conv5之后得到的特征图尺寸分别为网络原始输入的1/2、1/4、1/8,并将各分支特征图的分辨率通过反卷积操作提升到原始网络输入的分辨率,同时训练深度不同的卷积神经网络。特别的,在conv5层后分别通过conv6以及conv7得到与输出类别数相同的特征图,通过反卷积操作将特征图提升8倍,并经过sigmoid层得到注意力图,分别与conv1与conv3之后的升采样到固定分辨率的特征图进行像素级的乘法操作,得到注意力提升的分类图,并将其与原conv7后的输出相加得到最终结果。各层得到的注意力提升图包含了不同层次的类别信息,浅层的注意力提升图的细节更加丰富,而网络末端的结果语义信息更准确但缺乏空间位置信息,因此通过融合浅层的注意力提升图能够改善网络末端的标注结果,精细化标注结果。

步骤三:训练注意力机制卷积神经网络。在caffe框架下,将训练集上的样本输入注意力机制卷积神经网络上训练,迭代一定次数,直到网络模型最优,记录此时的网络参数。

步骤四:遥感影像地物标注。利用上一步骤中得到的网络参数,得到测试集上的标注结果。地物有建筑和非建筑两类。将测试集上的标注结果拼接起来,得到原始大小的遥感影像的地物标注结果。

本发明基于注意力机制卷积神经网络的遥感影像地物标注方法,其优点及功效在于:通过端到端的监督学习,训练出最优的网络参数,并具有一定的泛化能力。提取网络多个阶段的特征图进行分类,设计多个损失函数同时监督网络参数,能进一步提升分类的性能。利用网络的末端获得注意力图,分别与网络中间输出层的分类得分图进行像素级相乘操作以得到注意力提升图,并与网络原始末端融合来改善分类结果以及精细化的标注。

(四)附图说明

图1基于注意力机制的卷积神经网络结构图。

图2遥感影像地物标注流程图。

图3a、b遥感影像原始图。

图4a、b遥感影像真实标注图。

图5a、b遥感影像网络标注结果图。

图6a、b遥感影像传统网络标注结果图。

表1基于注意力机制的卷积神经网络结构表。

表2测试集网络标注结果指标统计表。

表3测试机本发明方法与现有方法的结果指标对比表。

(五)具体实施方式

为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述:

本发明所提出的注意力机制的卷积神经网络(aicnet)的结构图如图1所示,每一个方框代表神经网络中的一块,其中卷积层是对输入数据进行卷积操作,其中1到5组卷积层(conv1~conv5)分别包含有2,2,3,3,3个子卷积层,其中1到3组卷积层之后进行跨步为2的最大值池化操作,而4和5组卷积层之后进行跨步为1的最大值池化操作。流程图如2所示,论文采用主频4.0ghz、内存为64gbintel(r)core(tm)i7-7700k处理器,显存11gb的nvidiagtx1080ti显卡。如图2所示,本遥感影像地物标注方法包括如下步骤:

步骤一:计算机读取数据。本专利所采用的数据来自马萨诸塞州建筑公开数据集,一共包括151张大小为1500×1500、分辨率为1m的rgb彩色遥感影像及其对应的标签图。将其中141张图像作为训练样本,10张图像作为测试样本。分类地物为建筑与非建筑区域。由于设备资源所限,需要将原始的图像剪切成小图再输入卷积网络做训练。将原始遥感影像剪切成大小为500×500不重叠的图块,一共得到151×9=1359张图块。其中,训练集有1269张切割后的图块。在训练阶段,网络的数据输入层对图像进行随机321×321大小的裁剪。在测试阶段,网络对输入的图像块进行分类,并将标注结果拼接起来得到原始尺寸的分类图。

步骤二:构造网络模型。aicnet模型以vggnet-16为基础,保留有conv1到conv5五组卷积层的基础上,保留conv1到conv5的卷积层,将分别从conv1、conv3以及conv5层的末端升采样到原始分辨率并引出分类网络,计算误差并反传。其中,conv1中包含两层卷积层,conv1_1与conv1_2,,从conv1_2之后经过一个卷积层得到与类别数量相等的得分图,并计算误差。conv2中同样包含两个卷积层,在conv2_2之后经过卷积输出得分图并计算误差。con3中包含三个卷积层,在conv3_3之后同样经过卷积得到标注结果。特别的,在conv5层后分别通过conv6以及conv7得到与输出类别数相同的特征图,通过反卷积操作将特征图提升8倍,并经过sigmoid层得到注意力图,分别与conv1与conv3之后的升采样到固定分辨率的特征图进行像素级乘法操作,得到注意力提升的分类图,并将其与原conv7后的输出相加得到最终结果。其中,conv1_2分支得到的原始分辨率的得分图,conv2_2分支得到的降2倍采样的得分图经过反卷积操作升两倍采样得到原始分辨率,conv3_3分支得到的降4倍采样的得分图需要升4倍采样与注意力敏感图进行点乘。最后,将网络四个分支得到的结果融合后经过softmax层得到输出概率图。

注意力图的计算公式如下:

ij(x,y)=sigmoid(fconv7,j(x,y))

其中,ij(x,y)表示第j维输出注意力图中(x,y)位置上的注意力值,fconv7,j(x,y)为conv7输出特征图对应位置的得分值,sigmoid为logistic函数。

表1

步骤三:训练注意力机制卷积神经网络。为了能够一定程度上提高分类准确率,提高网络的泛化能力,我采取样本扩充的方式。通过随机平移、旋转和镜像扩充原始样本,其中包括4个方向的旋转、水平和竖直方向的镜像以及随机距离的平移。而且,网络的数据输入层把图像随机裁剪为321×321的大小,进一步扩充了样本。在caffe框架下,将训练集上的样本输入构造好的注意力机制卷积神经网络上训练,经过的一定次数迭代,直到网络模型最优,记录此时的网络参数。

步骤四:遥感影像地物标注。利用上一步骤中得到的网络参数,将测试集上的数据通过该网络模型,得到分类的结果。地物类别有建筑与非建筑两类。将测试集上的标注结果拼接起来,得到原始大小的遥感影像的地物标注结果。

实验结果:本发明的数据集有151张带标签的1500×1500的分辨率为1m的rgb彩色遥感影像,采用141张作为训练,10张作为测试。图3a、b为部分遥感影像的展示图,均为测试集中的影像。图4a、b为遥感影像对应的真实标签。两类地物分别为建筑与非建筑,对应的标注颜色为白色与黑色。图5a、b为神经网络的标注结果图,图6a、b为传统神经网络方法得到的标注结果。以下展示在测试集标注结果的准确率、查全率以及交并比的统计表。

表2

下表展现了现有神经网络标注结果的指标与本发明方法的结果对比。

表3

观察表3,相比于现有的自动解译方法,本发明具有明显的优势,在查全率以及交兵比指标上都有很大的提高。观察图5a、b以及图6a、b,可以发现传统方法的标注结果存在大量的漏检,并且分类不精细,而本发明方法在查全率和精度上都有很大的提高。对比图5a、b和图4a、b,神经网络自动分类的结果与真实标签图非常接近。在实际应用当中,往往需要感特定地物具有较高的查全率。通过计算机自动化地筛选出特定地物,在此基础上,人工地去进一步筛选能够大大降低人力成本和加快解译进程。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1