一种顾及地理环境异质性的空间抽样方法

文档序号:24641427发布日期:2021-04-09 20:54阅读:410来源:国知局
一种顾及地理环境异质性的空间抽样方法

本发明涉及地理、生态与计算科学等多学科交叉技术领域,特别涉及一种顾及地理环境异质性的空间抽样方法。



背景技术:

地理过程或现象的突变或质变往往发生于有限的时空范围内,通常以空间点事件进行抽象表达,例如:生物入侵空间点事件、犯罪空间点事件、滑坡空间点事件等,如何准确预测空间点事件是地理、生态与计算科学等多学科交叉研究热点。

通过收集历史上空间点事件与未出现点事件的地理环境信息,建立空间点事件分布与地理环境变量间的关联关系是空间点事件预测的常用策略。然而,现有数据库中往往只记录了点事件发生的位置信息(正样本点),缺乏点事件不会发生点的位置信息(负样本点)。空间随机抽样是生成负样本点主要技术手段,即通过已知正样本点缓冲区来定义正样本区,在缓冲区外的进行随机空间点样本抽样,该技术假设:与点事件发生空间位置越邻近的区域越可能发生相同的点事件。然而,当缓冲区或邻近区域内存在较大的环境差异,不考虑环境特征而直接假定缓冲区中均为正样本可能存在一定偏差;同时,在缓冲区之外进行空间随机抽样,同样因不考虑到地理环境特征可能误采样到潜在正样本信息,从而导致入侵物种的空间分布预测的可靠性。

现有空间抽样技术中存在如下问题:(1)随机空间负样本抽样方法没有顾及地理环境的异质性,而地理环境差异是空间抽样时需要考虑的一个重要因素;(2)现有的随机采样方式,会抽取到潜在的物种入侵点,即正样本,从而直接影响入侵物种空间分布预测精度。

为了解决上述技术问题,本申请提供的一种顾及地理环境异质性的空间抽样方法,该方法顾及空间点事件正、负样本采集的地理环境特征的差异性,解决了负样本随机空间抽样可能误采样到正样本点的难题。



技术实现要素:

本发明的目的在于提供一种顾及地理环境异质性的空间抽样方法,该方法顾及空间点事件正、负样本采集的地理环境特征的差异性,解决了负样本随机空间抽样可能误采样到正样本点的难题。

本发明提供了一种顾及地理环境异质性的空间抽样方法,包括以下步骤:

s1:将研究区离散格网化,检验每个网格中是否存在地理环境变量观测值,若不存在,则利用反距离加权的空间插值方法进行补全,保证每个格网中均存在地理环境变量观测值;

s2:对收集到的正样本点对应的地理环境变量观测值进行基于主成分分析的降维处理,累计方差贡献率大于80%对应的前p个主成分识别为该研究区地理环境特征;

s3:根据地理环境特征得出整个研究区与负样本区的极差比例,确定每个地理环境特征的权重,并通过对地理环境特征归一化加权操作构建地理环境加权特征空间;

s4:通过空间随机抽样技术生成采样点,在地理环境加权特征空间中,利用共享邻近的异常统计指标度量候选负样本点与正样本点的地理环境异质性,异常度大于给定阈值的采样点选为负样本点;

s5:若需要生成r个负样本点,重复步骤s4,直至产生r个随机且不重复的选取负样本点,且选取负样本点的异常度大于设定的阈值,即获取到r个顾及地理环境特征的负样本点。

进一步地,所述步骤s2具体包括:

s21:对n个正样本点,每个正样本点有m个地理环境变量观测值的原始矩阵x,用维矩阵表示为:

对矩阵x进行中心标准化处理得到维标准化矩阵x*,其中:

式中,i=1,2,…,n;j=1,2,…,m;sj分别为第j个环境变量的均值和方差;

s22:通过标准化矩阵x*建立维相关矩阵r,即:

r=x*tx*/(n-1)(3)

并计算满足的特征值λ1≥λ2≥…≥λm与对应的维特征向量μ1,μ2,…,μm;

s23:依据累计方差贡献率确定主成分个数,累计方差贡献率可以表示为:

累计方差贡献率大于80%对应的前p,p≤m个主成分用于表示原始m个地理环境变量,主成分的个数为p,p个主成分对应的维特征向量矩阵为u=[μ1,μ2,…,μp],则原始m个地理环境变量值可以通过矩阵运算转换为p维地理环境特征值:

其中,zk(i),i=1,2,…,n;k=1,2,…,p表示第i个正样本点的第k个环境特征值;zk为第k个环境特征。

进一步地,所述步骤s3具体包括:

s31:计算第k个环境特征zk的权重w(k),表达式如下:

其中,max(zk,pa)与max(zk,sa)分别为第k个环境特征在整个研究区与正样本中的最大值,min(zk,pa)与min(zk,sa)分别为第k个环境特征在整个研究区与正样本中的最小值;

s32:计算样本点在环境加权特征向量值其中:

其中,为第i个正样本的第k个环境加权特征值;

s33:计算第i个正样本与第s,s=1,2,…,n,s≠i个正样本在环境加权特征空间中的距离:

对dis(i,s)从小到大排序,选择第l小的距离值,将该值定义为第i个正样本的l近邻距离l-dis(i)。

进一步地,所述步骤s4具体包括:

s41:通过空间随机采样生成o点,根据o的空间位置信息提取该点的地理环境变量值[x1(o),...,xm(o)],并基于公式(5)计算出该采样点p维环境特征向量值:

依据公式(7)的运算生成空间样本点o在环境加权特征映射中向量值

s42:计算空间样本点o与其它n个正样本点在环境加权特征空间中的距离:

s43:对dis(o,i),i=1,2,…,n从小到大进行排序,选择到o点距离最小的l个正样本点集,即q1,q2,…,qk,统计dis(o,q),q=q1,…,qk,小于l-dis(q)的个数,并设为t,t表示与p互为l近邻的正样本数目;

s44:计算采样点o的异常度d=(l-t)/l,d的取值范围为[0,1],设定阈值判断d是否为负样本空间采样点。

与现有技术相比,本发明具有如下显著优点:

本发明提出的一种顾及地理环境异质性的空间抽样方法,充分考虑了空间点事件的地理环境特征,主要技术优点如下:

1)顾及地理环境特征以及贡献度,增强了本发明的实用性;

2)地理环境特征下的共享近邻的异常探测方法,科学的识别潜在的负样本空间数据,提高负样本空间采样准确度。

附图说明

图1为本发明实施例提供的一种顾及地理环境异质性的空间抽样方法的整体结构流程图;

图2为本发明实施例提供的气象站与一年蓬生物入侵点分布图。

具体实施方式

下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

参照图1-2,本发明提供了一种顾及地理环境异质性的空间抽样方法,包括以下步骤:

s1:将研究区离散格网化,即划分为相同大小的正方形网格,检验每个网格中是否存在地理环境变量观测值,若不存在,则利用反距离加权的空间插值方法进行补全,保证每个格网中均存在地理环境变量观测值;

s2:对收集到的正样本点对应的地理环境变量观测值进行基于主成分分析的降维处理,累计方差贡献率大于80%对应的前p个主成分识别为该研究区地理环境特征;

s3:根据地理环境特征得出整个研究区与负样本区的极差比例,确定每个地理环境特征的权重,并通过对地理环境特征归一化加权操作构建地理环境加权特征空间;

s4:通过空间随机抽样技术生成采样点,在地理环境加权特征空间中,利用共享邻近的异常统计指标度量候选负样本点与正样本点的地理环境异质性,异常度大于给定阈值的采样点选为负样本点;

s5:若需要生成r个负样本点,重复步骤s4,直至产生r个随机且不重复的选取负样本点,且选取负样本点的异常度大于设定的阈值,即获取到r个顾及地理环境特征的负样本点。

实施例1

所述步骤s2具体包括:

s21:对n个正样本点,每个正样本点有m个地理环境变量观测值的原始矩阵x,用维矩阵表示为:

对矩阵x进行中心标准化处理得到维标准化矩阵x*,其中:

式中,i=1,2,…,n;j=1,2,…,m;sj分别为第j个环境变量的均值和方差;

s22:通过标准化矩阵x*建立维相关矩阵r,即:

r=x*tx*/(n-1)(3)

并计算满足的特征值λ1≥λ2≥…≥λm与对应的维特征向量μ1,μ2,…,μm;

s23:依据累计方差贡献率确定主成分个数,累计方差贡献率可以表示为:

累计方差贡献率大于80%对应的前p(p≤m)个主成分用于表示原始m个地理环境变量,主成分的个数为p,p个主成分对应的维特征向量矩阵为u=[μ1,μ2,…,μp],则原始m个地理环境变量值可以通过矩阵运算转换为p维地理环境特征值:

其中,zk(i)(i=1,2,…,n;k=1,2,…,p)表示第i个正样本点的第k个环境特征值;zk为第k个环境特征。

实施例2

所述步骤s3具体包括:

s31:计算第k个环境特征zk的权重w(k),表达式如下:

其中,max(zk,pa)与max(zk,sa)分别为第k个环境特征在整个研究区与正样本中的最大值,min(zk,pa)与min(zk,sa)分别为第k个环境特征在整个研究区与正样本中的最小值;

s32:计算样本点在环境加权特征向量值其中:

其中,为第i个正样本的第k个环境加权特征值;

s33:计算第i个正样本与第s(s=1,2,…,n,s≠i)个正样本在环境加权特征空间中的距离:

对dis(i,s)从小到大排序,选择第l小的距离值,将该值定义为第i个正样本的l近邻距离l-dis(i)。

实施例3

所述步骤s4具体包括:

s41:通过空间随机采样生成o点,根据o的空间位置信息提取该点的地理环境变量值[x1(o),...,xm(o)],并基于公式(5)计算出该采样点p维环境特征向量值:

依据公式(7)的运算生成空间样本点o在环境加权特征映射中向量值

s42:计算空间样本点o与其它n个正样本点在环境加权特征空间中的距离:

s43:对dis(o,i)(i=1,2,…,n)从小到大进行排序,选择到o点距离最小的l个正样本点集,即q1,q2,…,qk,统计dis(o,q)(q=q1,…,qk,)小于l-dis(q)的个数,并设为t,t表示与p互为l近邻的正样本数目;

s44:计算采样点o的异常度d=(l-t)/l,异常度反映了随机采样点o与正样本数据在地理环境加权空间中邻近程度,d的取值范围为[0,1],d值越大,表示d的异常度越高,o点与正样本集的地理环境差异越大,该样本越有可能为潜在的负样本,设定阈值(如:0.80)判断d是否为负样本空间采样点。

实施例4

本发明适用于地理学、生态学与公共安全等诸多领域,如生物入侵、地质灾害以及犯罪空间点事件负样本生成等。本发明以生物入侵负样本生成为实施例进行说明。参照图2,实施例采用我国长江经济带区域内包含60个一年蓬入侵点正样本数据,地理环境变量全为气候变量,即1985~2015年长江经济带197个气象站点收集的11个气候变量数据,分别为:年平均气温、冷季平均温度、暖季平均温度、冷季平均湿度、暖季平均湿度、年平均降水量、月均气温日较差、最干月份平均湿度、最湿月份平均湿度、最湿月份平均温度以及最干月份平均温度。

步骤(1):将研究区划分为离散的格网点(格网的大小为),由于气象站较为离散的分布在研究区,较多网格中不包含气象站点,需要对这些网格气象变量缺失值进行补充,利用空间插值方法中的反距离加权算法对整个研究区的气候变量值进行估计,并评价插值精度是否满足分析要求。表1给出了不同变量空间插值精度,可以发现相对误差大于10%的变量包括:最湿月份平均温度以及最干月份平均温度,这2个气候变量(地理环境变量)需要删除,剩余的9个气候变量(地理环境变量)参与后续分析,即:最湿月份平均温度、冷季平均温度、暖季平均温度、冷季平均湿度、暖季平均湿度、年平均降水量、月均气温日较差、最干月份平均湿度、最湿月份平均湿度。

表1地理环境变量空间插值精度

步骤(2):基于收集到60个一年蓬入侵点正样本数据,采用主成分分析对剩余9个地理环境变量降维分析,识别出该研究区地理环境特征,具体而言:

对60个正样本的9个地理环境变量值构成维矩阵x:

对矩阵x进行中心标准化处理得到维标准化矩阵x*,其中:

式中,i=1,2,…,60;j=1,2,…,9;sj分别为第j个环境变量的均值和方差;

通过标准化矩阵x*建立维相关矩阵r,即:

r=x*tx*/60(3)

并计算满足的特征值λ1≥λ2≥…≥λ9与对应的维特征向量μ1,μ2,…,μ9。其中,λ1=0.482,λ2=0.102,λ3=0.095,λ4=0.082,λ5=0.076,λ6=0.068,λ7=0.043,λ8=0.033,λ9=0.019,由特征值可以计算其累计方差贡献率,结果如下:η1=48.2%,η2=58.4%,η3=67.9%,η4=76.1%,η5=83.7%,η6=90.5%,η7=94.8%,η8=98.1%,η9=100.0%。由于η5=83.7%大于80%,因此,主成分的个数为5,5个主成分对应的维特征向量矩阵为u=[μ1,μ2,μ3,μ4,μ5],则原始9维地理环境向量值可以通过矩阵运算转换为5维环境特征向量;

其中,zk(i)(i=1,2,…,60;k=1,2,…,5)表示第i个正样本的第k个环境特征值;zk为第k个环境特征。

步骤(3):计算5个环境特征权重w(k),进而通过地理环境特征归一化以及其权重的组合构建环境加权特征空间,具体而言:

计算第k个环境特征权重w(k),表达式如下:

其中,详细参数计算结果列入表2。

表2地理环境参数与环境特征权重统计结果

对环境特征进行归一化处理后,并构建环境加权特征空间

其中,为第k个环境加权特征。对60个已知的正样本,计算每个样本在环境加权特征空间中向量值并计算第i个正样本与第s(s=1,2,…,60,s≠i)个正样本在环境加权特征空间中的距离:

对dis(i,s)从小到大排序,选择第8(l=8)小的距离值,将该值定义为第i个正样本的8近邻距离l-dis(i)。

步骤(4):通过空间随机抽样技术生成采样点,在环境加权特征空间中,基于互为l近邻的异常指标度量候选负样本与正样本的地理环境异质性,异质性高的采样点样被判别为负样本,具体而言:

通过空间随机采样生成o点,根据o的空间位置信息提取该点所在网格的原始9个地理环境变量值并基于降维公式(5)与映射公式(7)操作可以生成空间样本点o在环境加权特征映射中向量值计算o与其它60个样本点在环境加权特征空间中的距离:

对dis(o,i)(i=1,2,…,60)从小到大进行排序,选择到o点距离最小的8个正样本点集(2,8,12,24,29,36,41,54)。其中,dis(o,2)<l-dis(2),dis(o,8)>l-dis(8),dis(o,12)>l-dis(12),dis(o,24)>l-dis(24),dis(o,29)>l-dis(29),dis(o,36)>l-dis(36),dis(o,41)>l-dis(41),dis(o,54)>l-dis(54),

dis(o,i)(i=1,2,…,60)小于l-dis(i)的个数为1,即:t=1,60个正样本中仅有1个与o互为8近邻,计算采样点o的异常度异常值大于通过设定阈值(0.80)可以判断点o为有效负样本空间采样点。

步骤(5):若需要生成30个生物入侵负样本点,重复步骤(4),至到有30个随机且不重复选取负样本点的异常度大于设定的0.90,即获取到30个负样本空间采样点。

以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1