一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法与流程

文档序号:18869989发布日期:2019-10-14 19:18阅读:198来源:国知局
一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法与流程

本发明涉及土壤中重金属浓度预测领域,具体涉及一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法。



背景技术:

近年来,我国环境污染问题持续严重,为了更加高效的对土壤中重金属浓度进行监测评估,通过新技术新方法对土壤重金属浓度进行监测很有必要。传统土壤重金属浓度监测方法为野外土壤采样进行实验室化验测定,这种方法过于耗时耗力,而且获取的土壤重金属为点状信息,即使通过地理学空间插值方法也无法得到可信度较高的面状信息,不能对区域内连续地理空间进行分析判断。

常用的土壤重金属含量估算建模算法有偏最小二乘回归(pls)、多元线性回归(mlr)等。其中偏最小二乘是土壤重金属含量估算建模中使用最广泛的算法。目前,土壤重金属相关研究较多针对地面实验室光谱进行分析,而基于成像高光谱遥感进行土壤重金属含量估算研究极少,原因是航空成像高光谱数据本身特点与地面实验室光谱数据特性差异较大,使得室内光谱得到的分析与方法不能简单迁移至成像高光谱研究,相关研究与分析仍然停留在实验室分析阶段,无论从航空还是航天高光谱,并没有实现大尺度地理空间范围土壤重金属浓度估算的应用推广,从而一定程度限制了高光谱遥感在土壤重金属含量估算与制图中的应用。

经检索,现有技术中存在相关的申请案,如中国专利申请号201710900422.8,申请日为2017年9月28日的申请案公开了基于无人机高光谱反演土壤中重金属污染监测方法,其监测方法的具体步骤如下:现场采样;样本预处理;使用x射线荧光分析仪采集样本的重金属污染源的主要研究元素的含量;利用地物光谱仪采集样本的实验室高光谱反射率;对原始光谱反射率数据分别进行数据处理;对使用偏最小二乘回归算法分别将已经测得的主要研究元素的含量分别与实验室高光谱原始反射率数据、倒数、对数、一阶微分以及二阶微分数据进行相关性分析并对模型进行验证优化,获得最优的变换方法,使用搭载高光谱成像光谱仪的无人机采集研究区高光谱反射率数据作为待测数据,大面积反演重金属含量。上述方法中x射线荧光分析仪所测定的土壤重金属浓度的精确度远远达不到数据分析的精度要求,同时,该方法虽然可以一定程度上服务于土壤重金属空间分布制图,但基于旋翼的无人机高光谱数据获取能力较低,无法大范围应用;且其数据分析方法过于传统,也未给出实例验证结果。重金属的特征波段之间存在非线性空间关系,传统的偏最小二乘方法在对土壤重金属浓度估算时,是以数值准确性为论断的建模过程,其忽视地理学最基本的地物特征的空间连续性的问题,不具有空间特征。因此面对大范围研究区域时所产生的空间异质性问题不能有效的克服。

因此,基于现有技术的缺陷,亟需发明一种能够有效克服对大范围研究区域预测时所产生的空间异质性问题,从而提高模型准确度和可靠度的建模方法。



技术实现要素:

1.要解决的问题

针对现有探测技术在对土壤重金属浓度估算时,单纯考虑建立数学模型、而忽视地理学最基本的地物特征的空间连续性的问题,不能克服大范围研究区域预测时的空间异质性问题,本发明通过co-training半监督方法建立模型进行土壤重金属浓度估算,实现有标签与无标签数据的综合利用,将部分无标签数据转换为有标签数据,极大扩充有标签样本集数量,使得最终训练得到的模型综合重金属空间分布属性和大量无标签样本提供的学习空间,从而使模型的准确性和可靠性均得到提升。

2.技术方案

为了解决上述问题,本发明所采用的技术方案如下:

本发明提供了一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法,所述方法利用半监督地理空间回归分析方法在重金属浓度和成像高光谱影像数据之间建立模型;所述半监督地理空间回归分析方法是利用co-training半监督回归方法和地理空间回归方法相结合的方法。

作为本发明更进一步的改进,所述半监督地理空间回归分析方法建立模型的具体步骤为:

2-1)将重金属浓度数据与采样点对应的成像高光谱影像数据及采样点地理坐标数据组合,形成有标签数据集;将采样点附近的光谱影像数据和及其对应像元处的地理坐标数据筛选组合,形成无标签数据集;

2-2)将有标签数据集分为有标签训练数据集和有标签验证数据集,所述有标签训练数据集用于模型训练,所述有标签验证数据集用于模型精度检验;

2-3)建立模型:设置地理空间回归模型i和模型ii,分别对标签训练数据集的数据子集a和b进行训练,建立初步模型,再利用co-training训练并建立循环,实现两个模型的互相学习,利用模型精度检验结果选择最终模型。

作为本发明更进一步的改进,所述方法包括以下步骤:

3-1)采集土壤样本,测定土壤样本的重金属浓度;

3-2)获取研究区的成像光谱影像数据并实现预处理;

3-3)利用半监督地理空间回归分析方法建立模型;

3-4)将3-2)预处理后的成像光谱影像数据输入模型,得到土壤重金属浓度估算图。

作为本发明更进一步的改进,所述步骤2-3)具体为:

s1)通过设置初始参数,生成两组不同的地理空间回归模型,模型i和模型ii,同时随机选择两组有标签训练数据集当中的数据子集a和b,将模型i对应数据子集a,模型ii对应子集b;

s2)利用模型i和模型ii分别对其对应子集进行训练,建立初步模型;

s3)进行co-training训练并建立多次循环:将有标签数据集和无标签数据集按照不同比例随机输入模型i和模型ii,根据模型i和模型ii对无标签数据预测的置信度实现两个模型的互相学习;

s4)每次循环结束后利用有标签验证数据集进行模型i和模型ii的精度检验,选择精度好的模型。

作为本发明更进一步的改进,所述建立模型的过程具体为:所述步骤s1)中,两组模型的设置的初始参数各不相同,所述s3)中两个模型互相学习的具体过程如下:当模型i对某个无标签样本i实现了预测,并且取得了较高的置信度时,将样本i输入模型ii进行预测并评估其置信度,当模型i和模型ii均对某个样本得出较高置信度时,将样本i从无标签数据集中删除,放入有标签训练数据集。

作为本发明更进一步的改进,所述步骤s1)中数据子集a和b中样本数量均不超过总的有标签样本数量的1/4。

作为本发明更进一步的改进,所述步骤s3)中所述有标签数据集与无标签数据集的比例为1:1、1:3、1:5、1:8。

作为本发明更进一步的改进,所述的无标签数据集包括采样点附近10个像元距离、30个像元距离和50个距离长度为半径的缓冲区内的光谱影像数据和地理坐标数据。

作为本发明更进一步的改进,所述重金属包括as和cr。

3.有益效果

相比于现有技术,本发明的有益效果为:

(1)本发明的基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法,将半监督地理空间回归分析方法应用于成像高光谱影像土壤重金属预测领域,对成像高光谱数据拥有的极少量有标签样本(土壤重金属浓度)和极大量无标签样本的特征光谱波段之间的复杂线性关系进行拟合,该过程中利用地理学第一定律(地理事物或属性在空间分布上互为相关),结合样本的空间位置属性,建立基于重金属浓度空间自相关约束、同时结合无标签数据进行优化学习的土壤重金属浓度评估模型,该模型具有优异的拟合能力与迁移能力,可以实现大范围地理空间内的重金属浓度空间分布的高精度预测。

(2)本发明的基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法,将机器学习领域的经典半监督学习模型与地理学分析中的地理空间回归方法有机结合,让二者实现优势互补,能够克服传统的以数值准确性为论断的建模过程,综合考虑地理空间要素,同时通过co-training半监督方法实现有标签与无标签数据的综合利用,将部分无标签数据转换为有标签数据,极大扩充有标签样本集数量,为大量无标签样本提供学习空间,因此本发明的方法最终得到的模型的准确性和可靠性均较为优异。

(3)本发明的基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法,与传统的支持向量机模型(svm)、地理空间回归模型(gwr)以及最近邻分析方法(k-nn)作为评估模型相比,根据验证数据集的综合评价(r2和rmse)结果,本发明的评估模型具有更高的精度。

附图说明

图1为本发明的半监督地理空间回归的基本原理图;

图2为本发明方法分析预测的吉林伊通研究区土壤重金属as浓度评估图;

图3为本发明方法分析预测的吉林伊通研究区土壤重金属cr浓度评估图。

具体实施方式

实施例

下面结合具体实施例对本发明进一步进行描述。

本实施例以吉林省伊通县研究区为例进行详细描述基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法的应用,分别采用下述方法进行研究区土壤重金属as的浓度测定。

1)研究区土壤样本采集:研究区选择我国东北重工业地区的黑土地区域,在研究区内按棋盘式方法均匀布设采样点,每个采样点位置的确定需要结合影像空间分辨率与采样点处的地形地貌综合考虑,应尽量选择地表属性比较单一的区域确定土壤采样点位置,这样便于后期准确获取影像中采样点处对应的光谱;具体采样包括:依据研究区地形地貌以及地面土壤属性保持一致的面积大于3*3个影像空间分辨率单位的区域内确定采样点位置;每处采样点按照梅花桩式方法采集4~6个地表2cm厚度的土壤样本;研究区共采集样本95个;每个采样点处坐标记录通过实时动态差分定位方法(rtk)精密确定,实际操作中通过华测rtk基准站-移动站方式实现,基准站架设在研究区海拔最高处山顶,且山顶无遮挡物。

2)土壤样本中重金属浓度及有机质等要素实验室化学测定:通过电感耦合等离子体质谱(icp-ms)方法及国标要求操作对土壤重金属as和cr的浓度进行化验测定;

3)利用航空机载平台及成像光谱仪获取研究区成像光谱数据:通过镜头焦距、行高设置、航线规划等,调整成像光谱仪系统所获取数据空间分辨率,成像光谱数据分析空间分辨率太低则混合像元问题严重,不利于后期建模分析,通过调整镜头焦距及机载平台的飞行航高确定本发明使用数据空间分辨率为4.5m;成像光谱飞行数据获取在当日10:30至14:00期间进行,以保证成像数据光谱辐射质量满足分析要求,飞行条带按30%旁向重叠设置,最终获取研究区成像光谱8个条带数据;

航空高光谱数据预处理,包括几何校正、辐射定标、大气校正和条带拼接等;航空机载平台获取的数据无地理空间坐标,通过机载定向定位系统将成像空间坐标系依次转换至地理空间坐标系完成几何校正,使得每一个影像像元具有地理空间坐标;在几何校正的基础上将成像光谱仪获取的数字信号,根据辐射定标参数转换为入瞳处光谱辐射强度,使得影像数据具有光谱物理意义;再通过前期获取的气象相关数据,通过mondtran大气辐射传输模型完成大气校正;通过预处理之后,原始数据转换为研究区成像反射率数据;

4)利用半监督地理空间回归分析方法进行土壤重金属浓度光谱建模,得到拟合能力与迁移能力强的土壤重金属估算模型:

4-1)将采样点重金属浓度数据与影像中采样点位置对应处的光谱数据、光谱数据所在位置处的坐标数据组合,形成有标签研究数据集,将采样点附近10个像元半径、20个像元半径和30个像元半径缓冲区内的无标签光谱数据及其对应位置处的坐标数据筛选组合形成无标签数据集,整个研究数据集由有标签数据集和无标签数据集构成,每个样本数据都有每条光谱所在位置处的空间坐标信息;将有标签数据集按照2:1比例划分为有标签训练数据集和有标签验证数据集;

4-2)重金属浓度值估算步骤,该步骤具体为:

a)光谱特征选择:根据pearson相关性分析法,选择分析步骤4)有标签研究数据集中相关性较高的波段,选择的波段数量不超过5个;

b)生成空间权重矩阵:根据步骤2)中测定土壤重金属浓度数据,依据每种土壤重金属在采样点位置处的浓度建立空间权重矩阵,该矩阵空间分辨率与航空高光谱影像数据相同

c)半监督地理空间回归分析采用co-training训练模型

半监督地理空间回归分析,是将机器学习领域的经典半监督学习模型与地理学分析中的地理空间回归方法有机结合,让二者实现优势互补。具体原理简单概括为:基于co-training半监督学习框架下训练2个地理空间回归模型,实现在地理空间和半监督学习2个维度的建模。本发明在co-training训练模型中,训练2个地理空间回归模型,2个地理空间回归模型的初始参数各不相同。具体训练过程如图1所示,具体操作步骤如下:

s1:随机选择2组有标签训练数据集数据子集a和b,所述数据子集a和b中样本数量均不超过总的有标签样本数量的1/4。

s2:随机设置2个地理空间回归模型,模型i和模型ii,其初始参数设置各不相同(且差异较大),其目的在于实现不同认知维度的观察学习,从而获得较为全面的学习结果,模型i和模型ii首先分别对应数据子集a和b进行训练,建立初步模型,模型i和模型ii以及后期所有模型具体训练过程中均使用到步骤b)中建立的空间权重矩阵;

s3:开始co-training训练,共建立500次循环,按照有标签数据集与无标签数据集的比例为1:1、1:3、1:5、1:8,将无标签数据集随机输入步骤s2中的模型i和模型ii;所述的模型i或者模型ii均能够实现对无标签样本的预测,所述的模型i和模型ii相互学习;过程如下:如模型i对某无标签样本i实现了预测,并且取得了较高的置信度,此时将i样本输入进模型ii进行预测并评估其置信度,当模型i和模型ii均对某个样本得出较高置信度时,将i样本从无标签数据集中删除,放入有标签训练数据集;当未获得预期的置信度时增加迭代次数,重新回到无标签数据集,每次循环结束后利用有标签验证数据集进行模型i和模型ii的精度检验,同时有标签训练数据集中样本数量得到增加;有标签训练数据集中样本数量的增加能够显著强化模型学习效果,进一步提高最终得到模型的精度;

s4:直至循环结束,有标签训练数据集样本通过步骤s3得到有效增强,模型i和模型ii的学习预测能力互相增长,最终在模型i和模型ii中选择对有标签验证数据集表现最好的模型作为最终评估模型。

采用r2和rmse作为模型精度评价指标。r2称为决定系数,r2值介于0~1之间,r2越接近于1则说明模型拟合精度越高,其中达到0.5以上则说明模型拟合精度较高且有一定的可信性;达到0.6以上则说明可信性强。

图2为利用本发明方法分析预测的吉林伊通研究区土壤重金属as浓度分布图;图3为利用本发明方法分析预测的吉林伊通研究区土壤重金属cr浓度分布图。根据图2,图3可知,本发明预测土壤重金属浓度分布趋势与采样区传统的插值拟合方法得到的结果趋势一致,证明本方法的可靠性;与现有的模型预测方法相比,本发明的预测结果更加符合土壤重金属浓度的地理空间分布特征,而且通过航空高光谱影像数据能够快速实现土壤重金属的大范围地理空间连续分布评估,更加高效。

对比例1

本对比例基本与实施例相同,不同之处在于:在步骤c中采用k-nn作为基学习器方法进行土壤重金属浓度光谱建模。采用k-nn进行建模的原因在于co-training的学习策略是对多视图学习模式的一种经典实现,在半监督研究领域影响力较高,其学习模式的具体实现对于基学习器的选择不同,研究者有不同的策略,选择最为普遍和经典的是k-nn。

对比例2

本对比例基本与对比例1相同,不同之处在于:在步骤4)中采用支持向量机(svm)方法进行土壤重金属浓度光谱建模,且svm方法需要调参。与实施例和对比例1相比较,该方法非半监督回归学习方法,svm方法是经典的统计机器学习方法,预测能力强。

对比例3

本对比例基本与对比例1相同,不同之处在于:在步骤4)中采用地理空间回归方法进行土壤重金属浓度光谱建模。

半监督地理空间回归分析方法简称为co-training(gwr);半监督最近邻分析方法简称为co-training(k-nn);地理空间回归方法简称为gwr;不同模型的高光谱影像土壤重金属估算模型精度评价对比如表1所示。

表1不同模型的高光谱影像土壤重金属估算模型精度评价

根据验证数据综合评价(r2和rmse)结果,本发明的方法与现有的svm和gwr模型预测方法相比,具有最高的精度值。且本发明的方法与k-nn方法作为基学习器的co-training模型相比,也体现出更高的精度值。由于在分类问题中,k-nn算法的核心思想是一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。k-nn方法在类别决策时,只与极少量的相邻样本有关。因此在回归问题上,则是周围近邻样本的平均值或者距离权重组合值。因此与本发明的co-training方法相比,经典的k-nn方法不能较好的实现土壤重金属浓度基于地理空间的回归分析。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1