一种基于自学习的遥感多光谱数据半监督标注方法与流程

文档序号:29463751发布日期:2022-04-02 02:34阅读:160来源:国知局
一种基于自学习的遥感多光谱数据半监督标注方法与流程

1.本发明涉及数据标注技术领域,具体涉及一种基于自学习的遥感多光谱数据半监督标注方法。


背景技术:

2.传统地理学、环境科学、地球科学研究所需的数据都是由地面监测站或者实地考察获取的,存在周期长、耗时长、耗费高等问题。而遥感技术极大的改善了以上几点,具有较短周期的海洋卫星可以在几个小时内获取全球影像,而陆地资源卫星在10+天内即可获取全球地表信息。遥感技术的应用大大缩短了数据采集的时间,降低了数据采集的费用,同时所采集的多时相的数据对于演变的研究具有重要意义。
3.随着一系列技术上的突破,人工智能在世界科技领域已经渐渐的驶进了高速车道。人工智能的发展离不开数据标注,数据标注在人工智能的高速路上,作为基石,已成为了众多重要环节之中的重中之重。遥感影像目标检测是遥感图像处理领域中的研究热点,在军事和民用等领域应用广泛,遥感数据具有分辨率高、数据量增长快的特点,遥感数据的标注是遥感数据管理、理解的关键,为后续遥感自动解译算法的开发提供基础,保证算法释放ai和机器学习的全部潜力,帮助机器学习程序带来最大的价值。
4.数据标注在当前阶段仍属于劳动密集型产业,人工在整个流程中扮演着举足轻重的角色。遥感数据分辨率高,人工标注工作量大,地面真实情况的收集是一项非常繁琐和耗时的工作,有时也非常昂贵,特别是在通常依靠野外调查来收集地面真实情况的遥感领域,因此,人工标注方式较难实现大区域的数据标注。因此。想要提高数据标注的效率与质量,就需要减少人力在其中的工作量,这就需要依靠高效率与高质量的数据标注工具。公开号为cn113111716a的中国专利公开了“一种基于深度学习的遥感影像半自动标注方法和装置”,提出了一种半自动标注方法,该方法基于公开的遥感数据集训练全卷积神经网络,利用该网络进行数据的自动标注,根据标注的不确定行度量值确认是否需要人工干预,完成整个半自动标注流程。该方法受限于待标注数据需要与公开数据集波段一致,无法在波段不一致的数据上实现半自动标注,不具有普遍适用性。并且大多的标注方法仅是针对可见光的三波段数据进行标注,而针对多光谱数据进行标注的方法较少。公开号为cn111079847a的中国专利公开了“一种基于深度学习的遥感影像自动标注方法”,该方法将电子地图与遥感影像配准,再将从电子地图提取建筑物和道路的矢量数据映射到遥感影像上,基于映射的数据训练多任务深度学习模型,通过深度神经网络对测试集进行遥感影像分类完成数据集的自动标注。该方法基于电子地图提取目标,只适用于人工建筑、道路等城市目标,例如:道路、房屋、车辆、飞机等目标,而自然环境的目标种类较少,自动标注的类别受限。


技术实现要素:

5.为了解决现有遥感数据标注方法存在的人工标注工作量大且难实现大区域的数
据标注、目标种类受限、波段受限的问题,本发明提供一种基于自学习的遥感多光谱数据半监督标注方法。
6.本发明为解决技术问题所采用的技术方案如下:
7.本发明的一种基于自学习的遥感多光谱数据半监督标注方法,主要包括以下步骤:
8.步骤一、数据获取及融合
9.获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合,获得融合遥感多光谱影像数据;
10.步骤二、种子点获取
11.在研究区域内选择样地,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息,完成种子点获取;
12.步骤三、带标签数据预处理
13.将步骤二生成的种子点数据作为初始带标签数据,融合遥感多光谱影像数据的每个像素点均包含多个波段的光谱信息,不同波段存在较高的相关性,利用主成分分析方法去除波段之间的多余信息;
14.步骤四、构建分类模型
15.利用步骤三中预处理后的带标签数据采用随机森林算法构建分类模型;
16.步骤五、异常点去除
17.利用步骤四构建的分类模型对无标签数据进行分类,同时获取分类类别的置信度,置信度小于设定值的被认为是异常点,剔除异常点后的数据作为新的带标签数据集进行下一轮迭代,重复步骤三至步骤五获取最终的自标注数据集。
18.进一步的,步骤二中,每块样地面积均为50*50平方米。
19.进一步的,步骤二中,所述样地覆盖所有感兴趣的类别。
20.进一步的,步骤二中,每块样地的位置均采用全球定位系统gps进行测量,测量精度在1m以内。
21.进一步的,步骤三的具体操作流程如下:
22.1)利用带标签数据构建矩阵x=(x1,x2,...,x
p
),x是一个n*p的矩阵,n为遥感多光谱影像数据谱段的数量,p为带标签数据的数量,xj是一个n*1的列向量,表示第j个种子点的多光谱信息,1≤j≤p;
23.2)将x的每一行分别进行零均值化;
24.3)求出协方差矩阵表示零均值化后的矩阵,t表示矩阵转置,表示矩阵的转置;
25.4)求解协方差矩阵的特征值及对应的特征向量;
26.5)将特征向量对应的特征值从大到小排序,取前k个特征值及特征向量,使得k为满足的最小值,λi为排序后的特征值;
27.6)降维后的数据为q为k个特征值对应的特征向量,维度为k*n;该数据y即为去除了波段之间多余信息的带标签数据。
28.更进一步的,步骤三的2)中,x的每一行均表示一个遥感多光谱影像数据谱段。
29.进一步的,步骤四中,所述随机森林算法中,随机森林中每棵树的生成规则为:
30.1)如果步骤三获取的带标签数据集大小为p,对于每棵树,采用有放回抽样方式随机抽取p个训练样本,作为该棵树的训练集;
31.2)每个训练样本的特征维度为k,利用袋外错误率确定常数m,随机地从k个特征值中选择m个特征子集,每次树分裂时,从这m个特征子集中选择最优的特征;
32.3)每棵树尽最大可能生长,不进行剪枝。
33.更进一步的,步骤四的2)中,m的确定步骤为:
34.a)对每个训练样本,计算作为袋外样本的分类结果;
35.b)利用投票方式简单确认该训练样本的分类类别;
36.c)用误分样本数量占训练样本总数的比例作为袋外错误率。
37.进一步的,步骤五中,所述置信度的设定值为0.4。
38.本发明的有益效果是:
39.本发明的一种基于自学习的遥感多光谱数据半监督标注方法,通过手动方式为每个待分类类别标注一些种子点,基于种子点及自学习算法实现数据集自动分类,再对分类后的数据进行清洗以获取更新的带标签数据集,从而完成遥感多光谱数据的半监督标注。
40.与现有的数据标注方法相比,本发明的一种基于自学习的遥感多光谱数据半监督标注方法为遥感多光谱数据标注带来了以下几个方面的效果:
41.1、本发明只需少量带标签样本点,可以在较少的标注数据基础上完成自动标注过程,对手动标注数据量要求较低。
42.2、本发明所涉及的类别丰富,手动标注涵盖的类别都可以完成后续的自动标注。
43.3、本发明去除了冗余信息,提高了标注精度:由于原始的多光谱数据不同波段通常存在较高的相关性,存在信息冗余,数据预处理中利用主成分分析方法去除波段之间的多余信息,从而提高标注精度。
44.4、本发明抗噪能力强:利用主成分分析降维的过程中,可以去除数据采集过程中的噪声数据,能够增大数据的信噪比,从而提高抗噪能力。
45.5、本发明分类速度快、精度高:基于自学习的分类算法训练速度快,可以快速实现无标签数据的标注,迭代训练及异常点去除过程可进一步提高分类精度。
附图说明
46.图1为本发明的一种基于自学习的遥感多光谱数据半监督标注方法的流程图。
具体实施方式
47.本发明的一种基于自学习的遥感多光谱数据半监督标注方法,通过各类别手动标注少量种子点,基于自学习算法及异常点检测算法完成无标签数据的分类,主要包括四个过程的多次循环迭代:1)获取带标签数据;2)带标签数据预处理;3)基于带标签数据完成自学习算法迭代;利用迭代后算法对无标签数据进行分类,获取更新的带标签数据;4)去除带
标签数据中的异常点。
48.本发明可以实现任意类别的数据标注,对手动标注数据量要求较低,可以在较少的标注数据基础上完成自动标注过程,自学习的方式提高了标注精度以及标注速度快,避免了人工标注数据的经验差异。
49.以下结合附图对本发明作进一步详细说明。
50.如图1所示,本发明的一种基于自学习的遥感多光谱数据半监督标注方法,具体包括以下步骤:
51.步骤一、数据获取及融合
52.获取研究区域内的遥感多光谱影像数据,确定待分类目标的类别信息,将遥感多光谱影像数据进行图像融合,获得融合遥感多光谱影像数据。
53.其中,所说的图像融合方法,主要包括以下步骤:
54.获取同一区域的遥感多光谱影像数据,确定分辨率最高波段的像素大小为height*weight,其中height为该波段图像高度,weight为该波段图像宽度,基于双线性插值算法将所有波段的数据插值到分辨率最高波段同一大小,创建3维矩阵,矩阵大小为n*height*weight,其中n为遥感多光谱影像数据波段数,每一切片为插值后的遥感多光谱影像数据。
55.步骤二、种子点获取
56.在研究区域内选择样地,每块样地面积为50*50平方米,样地可以覆盖所有感兴趣的类别,每块样地的位置均可采用全球定位系统(gps)进行测量,测量精度在1m以内,记录样地内待分类目标的类别信息,结合融合遥感多光谱影像数据和待分类目标的类别信息确定样地内待分类目标与融合遥感多光谱影像数据的像素对应关系,获取融合遥感多光谱影像数据的像素类别信息,完成种子点获取。所说的种子点,是指取手动标注的带标签的数据样本,需要覆盖所有待分类的类别。
57.步骤三、带标签数据预处理
58.初始带标签数据为步骤二生成的种子点数据。融合遥感多光谱影像数据的每个像素点均包含了多个波段的光谱信息,不同波段通常存在较高的相关性,数据预处理中利用主成分分析方法去除波段之间的多余信息,具体操作流程如下:
59.7)利用带标签数据构建矩阵x=(x1,x2,...,x
p
),x是一个n*p的矩阵,其中,n为遥感多光谱影像数据谱段的数量,p为带标签数据的数量,xj是一个n*1的列向量,表示第j个种子点的多光谱信息,1≤j≤p。
60.8)将x的每一行(每一行均表示一个遥感多光谱影像数据谱段)分别进行零均值化,即减去这一行的均值。
61.9)求出协方差矩阵其中,表示零均值化后的矩阵,t表示矩阵转置,表示矩阵的转置。
62.10)求解协方差矩阵的特征值及对应的特征向量。
63.11)将特征向量对应的特征值从大到小排序,取前k个特征值及特征向量,使得k为
满足的最小值,其中,λi为排序后的特征值。
64.12)则降维后的数据为其中,q为k个特征值对应的特征向量,维度为k*n。该数据y即为去除了波段之间多余信息的带标签数据。
65.步骤四、构建分类模型
66.利用步骤三中预处理后的带标签数据采用随机森林算法构建分类模型。其中,随机森林算法中,随机森林中每棵树的生成规则如下:
67.1)如果步骤三获取的带标签数据集大小为p,对于每棵树,采用有放回抽样方式随机抽取p个训练样本,作为该棵树的训练集。
68.2)每个训练样本的特征维度为k,利用袋外错误率确定常数m,随机地从k个特征值中选择m个特征子集,每次树分裂时,从这m个特征子集中选择最优的特征。
69.其中,m的确定步骤如下:
70.d)对每个训练样本,计算作为袋外样本的分类结果。
71.e)利用投票方式简单确认该训练样本的分类类别。
72.f)用误分样本数量占训练样本总数的比例作为袋外错误率。
73.3)每棵树尽最大可能生长,不进行剪枝。
74.步骤五、异常点去除
75.利用步骤四构建的分类模型对无标签数据进行分类,同时获取分类类别的置信度,置信度小于0.4的被认为是异常点,剔除异常点后的数据作为新的带标签数据集进行下一轮迭代,重复步骤三至步骤五获取最终的自标注数据集。
76.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1