一种基于相互作用力的地理空间异常聚集区扫描统计方法与流程

文档序号:11865074阅读:423来源:国知局
一种基于相互作用力的地理空间异常聚集区扫描统计方法与流程
本发明涉及地理空间信息处理
技术领域
,尤其是一种基于相互作用力的地理空间异常聚集区扫描统计方法。
背景技术
:地理空间扫描统计属于地理空间聚类方法。空间聚类是指将地理对象按照空间特征和属性特征分组为若干类,使得同类对象之间相似度最大、类间对象之间差别最大,不同类的对象在空间分布上具有明显的区分。空间聚类的目的是发现地理空间分布模式,以及地理对象之间潜在的相互关系。传统的空间聚类方法可分为划分聚类、层次聚类、密度聚类、网格聚类等多种类型。区别于传统意义上的空间聚类方法,地理空间扫描统计是探测地理空间异常区域的方法。空间异常区是指参考其它地理对象,指定属性特征显著不同的地理对象聚集区域。空间异常区可分为属性高值异常区、属性低值异常区两种类型。空间扫描统计方法对研究区内的地理对象进行扫描/搜索,在扫描过程中根据扫描范围内外地理对象属性值之间的差异,探测是否存在统计意义上的高风险聚集区,并确定聚集区域的位置、范围以及聚集程度,为早期预警和决策提供依据。1997年美国哈佛大学的KulldorffM.提出的基于圆形窗口的扫描统计是经典方法之一,该方法以研究区内的每个地理对象作为扫描起始单元,即以该空间对象中心作为圆形扫描窗口的圆心,以可变半径对周围空间单元进行扫描,根据窗口覆盖区域内外属性实际比值和随机分布假设下理论比值计算扫描统计量——对数似然比LLR(LogLikelihoodRatio),直至统计量不再变化,在生成的候选聚集窗口中选取统计量最大/最小的聚集窗口(对应高值异常聚集/低值异常聚集),并对聚集窗口进行假设检验,验证其分布的非随机性,从而确定聚集程度最高的空间区域,称为最可能聚类MLC(MostLikelyCluster)或最可能聚集区。在此基础上,2006年KulldorffM.提出了椭圆形空间扫描统计方法,扫描窗口为形状、角度不断变化的椭圆,同时为了对探测到的聚集区形状进行约束,引入非紧凑(non-compactness)惩罚因子[4s/(s+1)2]a,其中由椭圆离心率e决定,参数a≥0决定惩罚强度,值越大对聚集区形状的不规则程度惩罚越强,形状越趋于紧凑。现实中的地理空间异常聚集区形状各异、多数是不规则的,因此,基于Kulldorff圆形、椭圆形扫描统计方法,现有研究将重点放在提高不规则区域的探测能力方面,即对扫描方式、窗口形状等进行优化,从而能探测到各种不规则形状的空间异常聚集区,但这些研究均没有考虑地理空间对象之间固有的相互作用影响。实际上,地理空间中的实体不是孤立存在的,彼此之间存在着关联性。正如Tobler地理学第一定律阐述的观点,空间对象呈现出相互关联的空间格局,并且这种关联性随着空间对象之间距离的增加而减弱。关联性决定了空间对象之间存在相互作用。当然,即使对于相同的作用距离,假定相互作用强度在研究区域内处处相同也是不现实的,表现为在局部区域的高值(“热点”)和低值(“冷点”)聚集或异常。技术实现要素:为解决现有技术存在的不足,本发明公开了一种基于相互作用力的地理空间异常聚集区扫描统计方法,考虑了地理对象之间固有的相互作用影响,相比于经典Kulldorff圆形、椭圆形扫描方法,该方法(尤其是广度扫描方式)对不规则形状异常聚集区的探测能力更强,更易探测出包含弱连接的异常聚集区,且不会将非异常空间对象包含在探测出的异常聚集区中。为实现上述目的,本发明的具体方案如下:一种基于相互作用力的地理空间异常聚集区扫描统计方法,包括以下步骤:判断探测的异常聚集区类型,若为属性低值异常聚集区,则通过对探测的地理对象属性值进行变换转化为属性高值异常聚集区;对于属性高值异常聚集区,基于选择的空间邻接类型构建空间邻接关系矩阵;采用空间相互作用模型度量相邻对象之间的作用强度;基于深度扫描方式或广度扫描方式不断选择作用强度最大的邻接对象加入到候选聚集区中,直至高值异常聚集对应的似然比LR/对数似然比LLR值不再增大或候选聚集区达到最大指定尺寸时停止;对形成的多个候选聚集区进行蒙特卡罗模拟,从而探测出通过非随机性假设检验的异常聚集区。进一步的,对于属性低值异常聚集区,将地理空间对象Si探测的属性值ci变换为ci’,ci’为所有地理对象属性值{c1,c2,…,cN}的最大值减去ci,公式为:ci’=max{c1,c2,…,cN}-ci其中N为空间对象个数,通过上述变换将低值异常聚集区探测转化为高值异常聚集区。进一步的,构建空间邻接关系矩阵为二进制型矩阵W,wij=1表示空间对象Si与Sj相邻,wij=0表示不相邻,空间邻接关系采用地理空间对象具有公共边界、公共顶点的形式。进一步的,空间相互作用模型称为SIM模型,具体为:两个空间对象Si和Sj之间存在作用力,其作用力Fij与对象的事例发生率成正比,与它们之间的距离成反比,作用力越大则对象Si、Sj之间的空间关联性越强,公式为:Fij=k(ri·rj)bdija=k(cibi·cjbj)bdija]]>其中,k为常数,可取为1;ri、rj分别为空间对象Si、Sj的事例率,即事例数与总体数之比;ci为探测的属性,称为事例;bi为与探测属性相关的基础属性,称为总体;dij为Si、Sj之间的距离;a、b为常数。进一步的,在构建空间邻接关系矩阵之后从N个空间对象{S1,S2,...,SN}中选择空间对象Si作为候选聚集区Z的起始单元,将Si加入到候选聚集集合Z中,进一步的,所述深度扫描方式:以新加入候选聚集区Z的空间对象为当前活动单元,依据邻接矩阵W获取当前单元的所有邻接单元,但不包含已加入集合Z中的单元;依据SIM模型公式计算当前单元与这些邻接单元之间的空间相互作用强度,选择SIM强度最大的邻接单元Sj加入到候选聚集集合Z中,进一步的,所述广度扫描方式:依据邻接矩阵W获取候选聚集区Z中各空间对象的邻接单元,但不包含已加入集合Z中的单元;依据SIM模型公式计算Z中各对象与其邻接单元之间的SIM强度,选择SIM强度最大的邻接单元Sj加入到候选聚集集合Z中,进一步的,计算Z覆盖区域的统计量LR/LLR值;当统计量不再增大或Z中包含的空间对象数目达到设定的最大聚类尺寸时,则停止扫描,集合Z形成一个候选聚集区。进一步的,空间扫描统计量LR/LLR构建过程为:选择概率模型,设p为扫描窗口即候选聚集区Z内空间对象Sk的事例ck发生的概率且服从该概率模型,q为窗口Z外事例发生的概率且服从该概率模型,零假设为H0:p=q表示假设窗口Z内外的事例发生概率不存在差异,备择假设为HZ:对于高值聚集,p>q表示假设窗口Z内的事例发生概率高于窗口外的发生概率,设HZ、H0假设下候选聚集区Z的似然函数分别为L(Z)、L0,则统计量LR=L(Z)/L0称为似然函数比,LLR=ln(LR)称为对数似然函数比。进一步的,对形成的多个候选聚集区进行蒙特卡罗模拟之前还需要对候选聚集区进行筛选:根据LR/LLR值对N个候选聚集区从大到小排序;之后从大到小依次进行筛选:若当前筛选的候选聚集区包含的空间对象与已保留的候选聚集区包含的空间对象重复,则剔除当前候选聚集区,否则保留当前候选聚集区。进一步的,设筛选后保留了M个互不重叠的候选聚集区,M≤N,从大到小依次对各候选聚集区进行蒙特卡罗模拟假设检验。进一步的,对各候选聚集区进行蒙特卡罗模拟假设检验时,具体包括:(1)针对当前候选聚集区的分布形态,计算选定概率模型的参数值;(2)以零假设即随机分布为前提,对整个区域产生NSim个符合相应概率分布的模拟数据集;(3)利用深度扫描方式或广度扫描方式,获取各模拟数据集的最可能异常聚集区及相应的LR/LLR值;(4)将当前候选聚集区与NSim个模拟数据集的异常聚集区按照LR/LLR值从大到小进行排序,确定当前候选聚集区在NSim+1个LLR中的位序Rank,计算统计显著性值P=Rank/(NSim+1);(5)当P小于显著性水平α时,则拒绝随机分布的零假设H0,接受候选聚集区的属性高值发生概率高于聚集区外的备择假设HZ,表明当前候选聚集区通过蒙特卡罗非随机性假设检验。进一步的,蒙特卡罗模拟之后通过非随机性假设检验的各候选聚集区依据LR/LLR值从大到小依次为异常程度从高到低的异常聚集区。本发明的有益效果:本发明考虑了地理对象之间固有的相互作用影响,相比于经典Kulldorff圆形、椭圆形扫描方法,本发明克服未考虑地理对象相互影响之不足,该方法(尤其是广度扫描方式)对不规则形状异常聚集区的探测能力更强,更易探测出包含弱连接的异常聚集区,且不会将非异常空间对象包含在探测出的异常聚集区中。本申请中对于属性低值异常聚集区探测问题,通过对各空间对象探测的属性值进行变换,从而将问题转化为属性高值异常聚集区探测问题,能够实现对低值异常聚集区的准确探测。附图说明图1是本发明流程图;图2(a)-图2(c)分别是空间邻接关系的Rook邻接、Bishop邻接及Queen邻接;图3(a)选取扫描起始单元Si;图3(b)选取SIM强度最大的邻接单元Sj加入到候选聚集区Z中;图3(c)深度扫描:继续选取新加入对象Sj的SIM强度最大的邻接单元加入到Z中;图3(d)广度扫描:继续选取Z中所有空间对象的SIM强度最大的邻接单元加入到Z中;图4(a)-图4(d)分别是模拟数据集Ⅰ的带状聚类、S形聚类、O形聚类及十字形聚类的真实形状;图5(a)是模拟数据集Ⅱ的含凹陷单元带状聚类数据集的真实形状;图5(b)是SIM深度扫描的探测结果;图5(c)是SIM广度扫描的探测结果;图5(d)是Kulldorff圆形扫描的探测结果;图6(a)是模拟数据集Ⅱ的含凹陷单元十字形聚类数据集的真实形状;图6(b)是SIM深度扫描的探测结果;图6(c)是SIM广度扫描的探测结果;图6(d)是Kulldorff圆形扫描的探测结果;图7(a)是模拟数据集Ⅲ的O形和I形聚类的真实形状;图7(b)是模拟数据集Ⅲ的L形和S形聚类的真实形状;图8是SIDS2数据集SIDS死亡率空间分布图。图9(a)是SIDS2数据集SIM深度扫描MLC聚类探测结果;图9(b)是SIDS2数据集SIM广度扫描MLC聚类探测结果;图10(a)是SIDS2数据集Kulldorff圆形扫描MLC聚类探测结果;图10(b)是a=0的Kulldorff椭圆形扫描MLC聚类探测结果;图10(c)是a=0.5的Kulldorff椭圆形扫描MLC聚类探测结果;图10(d)是a=1的Kulldorff椭圆形扫描MLC聚类探测结果。具体实施方式:下面结合附图对本发明进行详细说明:1.相关定义:(1)设研究区G有N个空间对象G={S1,S2,...,SN},空间对象Si的位置为{xi,yi},对于线状和面状对象,位置可以是质心、几何中心等。(2)对于空间对象Si,设探测的属性为ci,如患病人数、犯罪人数等,常称为事例(cases),并设与探测属性相关的基础属性为bi,如人口数等,常称为总体(population),则相应的事例率为(3)对于研究区G,空间对象个数为N,总事例数为总体数为事例率为对于候选聚集区(即扫描窗口区域)Z,空间对象个数为nZ,事例数为总体数为事例率为(4)定义二进制型空间邻接关系矩阵W,wij=1表示空间对象Si与Sj相邻,wij=0表示不相邻,其中i=1,2,...,N,j=1,2,...,N,且i≠j,wii=0。2、空间相互作用模型将相邻空间对象间的作用强度作为衡量空间对象之间关联程度的因子引入到空间扫描统计方法中,对象间作用强度越大表示关联性越强。空间相互作用模型是基于重力模型改进的计算空间相互作用力的模型,称为SIM模型(SpatialInteractionModel)。重力模型的原始形式表示:任意两物体之间存在相互吸引的作用力,作用力大小与物体的质量成正比,与物体间的距离成反比。改进后的重力模型,即SIM模型见公式(1),含义为:两个空间对象Si和Sj之间存在作用力,其作用力Fij与对象的事例发生率成正比,与它们之间的距离成反比,作用力越大则对象Si、Sj之间的空间关联性越强。Fij=k(ri·rj)bdija=k(cibi·cjbj)bdija---(1)]]>其中,k为引力常数,可取为1,ri、rj分别为空间对象Si、Sj的事例率(即事例数与总体数之比),dij为Si、Sj之间的距离,a、b为常数。针对不同类型的应用,r和d可以有不同的表达形式,r可以是事例数、事例数密度等其它形式,d可以是欧式普通距离、欧式加权距离、曼哈顿距离(Manhattandistance)、切比雪夫距离(Chebyshevdistance)等形式。SIM模型引入到空间扫描统计方法中,在对不规则形状MLC扫描探测过程中考虑了地理空间对象固有的相互作用因素,反映了地理空间数据有别于传统数据的独特性质——空间依赖性。以探测高值异常聚集区为例进行说明:如图1所示,一种基于相互作用力的地理空间异常聚集区扫描统计方法,包括以下步骤:步骤一:选择空间邻接类型,构建空间邻接关系矩阵W;根据问题类型,选择合适的概率分布模型;令循环次数i=1。空间邻接关系采用地理空间对象具有公共边界、公共顶点的形式,具体包括Rook邻接、Bishop邻接、Queen邻接三种类型,Rook邻接定义空间对象共享同一边界时为相邻,Bishop邻接定义空间对象共享同一顶点时为相邻,Queen邻接定义空间对象共享同一边界或顶点时为相邻,分别如图2(a)~2(c)所示,填色单元即为中心单元的邻接单元。常用的概率模型有:泊松分布模型、二项分布模型、正态分布模型等,不同的概率模型适合不同类型的数据,泊松分布适用于未分类离散型随机分布的时序、空间和时空数据,二项分布适用于两分类计数的离散型随机分布数据,正态模型适用于服从正态分布的连续性时序、空间和时空数据。其它概率模型包括时空排列模型(Space-timePermutationmodel)、多项分布(Multinomialmodel)、有序/序列模型(Ordinalmodel)、指数分布(Exponentialmodel)等。表1列出了不同概率模型的适用场合。表1不同概率模型的适用场合步骤二:对于第i次循环,从{S1,S2,...,SN}中选择空间对象Si作为候选聚集区Z的起始单元,将Si加入到候选聚集集合Z中,如图3(a)所示;随后选择深度扫描或广度扫描方式分别执行步骤三或步骤四。步骤三:深度扫描方式:以新加入候选聚集区Z的空间对象为当前活动单元,依据邻接矩阵W获取当前单元的所有邻接单元,但不包含已加入集合Z中的单元;依据SIM模型公式(1)计算当前单元与这些邻接单元之间的空间相互作用强度,选择SIM强度最大的邻接单元Sj加入到候选聚集集合Z中,如图3(b)、3(c)所示;重复本步骤直至满足步骤五的条件。步骤四:广度扫描方式:依据邻接矩阵W获取候选聚集区Z中各空间对象的邻接单元,但不包含已加入集合Z中的单元;依据SIM模型公式(1)计算Z中各对象与其邻接单元之间的SIM强度,选择SIM强度最大的邻接单元Sj加入到候选聚集集合Z中,如图3(b)、3(d)所示;重复本步骤直至满足步骤五的条件。步骤五:计算Z覆盖区域的统计量LR/LLR值;当统计量不再增大或Z中包含的空间对象数目达到设定的最大聚类尺寸(如:聚集区包含的空间对象个数应小于研究区域空间对象总数的50%)时,则停止扫描,集合Z形成一个候选聚集区。似然比LR(LikelihoodRatio)或对数似然比LLR(LogLikelihoodRatio)是用来评价候选聚集区Z聚集程度的统计量。对于高值聚集,LR/LLR值越大则认为与窗口外的区域相比,窗口中指定属性的聚集性越强;对于低值聚集,LR/LLR值越小则表明聚集性越强。对于高值聚集,空间扫描统计的目的就是在空间邻接关系约束下,找到通过非随机性假设检验的LR/LLR值最大窗口,其覆盖的区域即为最大可能聚集区MLC。1、泊松分布的LR/LLR统计量基于泊松分布的空间扫描检验统计量LR/LLR构建过程如下:设p为扫描窗口(候选聚集区)Z内空间对象Sk的事例ck发生的概率且服从泊松分布,q为窗口Z外事例发生的概率且服从泊松分布,零假设(nullhypothesis)为H0:p=q,表示假设窗口Z内外的事例发生概率不存在差异,备择假设(alternativehypothesis)为HZ:对于高值聚集,p>q,表示假设窗口Z内的事例发生概率高于窗口外的发生概率,或HZ:对于低值聚集,p<q,表示假设窗口Z内的事例发生概率低于窗口外的发生概率。HZ、H0假设下扫描窗口Z的似然函数分别为:L(Z)=e-CGCG!(cZbZ)cZ(CG-cZBG-bZ)CG-cZΠSk∈Zck---(2)]]>L0=e-CGCG!(CGBG)CGΠSk∈Zck---(3)]]>L(Z)是备择假设的似然函数,L0是零假设的似然函数,则窗口Z的似然函数比LR为:LR=L(Z)L0=(cZbZ)cZ(CG-cZBG-bZ)CG-cZ(CGBG)CG---(4)]]>对上式取对数,可得到对数似然函数比LLR:LLR=ln(L(Z)L0)=cZ(ln(cZ)-ln(bZ))+(CG-cZ)(ln(CG-cZ)-ln(BG-bZ))-GG(ln(CG)-ln(BG))---(5)]]>2、二项分布的LR/LLR统计量与泊松分布的空间扫描统计量构建过程类似,可得到零假设H0下的空间扫描似然函数L0:L0=(CGBG)CG(1-CGBG)BG-CG---(6)]]>及备择假设HZ下的似然函数L(Z):L(Z)=(cZbZ)cZ(1-cZbZ)bZ-cZ(CG-cZBG-bZ)CG-cZ(1-CG-cZBG-bZ)(BG-bZ)-(CG-cZ)---(7)]]>则可以得到似然函数比LR=L(Z)/L0及对数似然函数比LLR=ln(LR)。3、正态分布的LR/LLR统计量对于研究区G的空间扫描窗口区域Z,零假设H0表示窗口内外的事例ci(i=1,2,…,N)发生概率不存在差异,且服从同一个正态分布(均值为μG、方差为),H0下窗口Z的似然函数为:L0=ΠSk∈Z1σG2πe-(ck-μG)22σG2---(8)]]>其中,上式求对数得到对数似然函数:lnL0=-Nln(2π)-Nln(σG)-ΣSk∈Z(ck-μG)22σG2---(9)]]>备择假设HZ表示窗口Z内外的事例发生概率服从不同的正态分布且具有同方差性,即两个正态分布的均值不同、方差相同,窗口内正态分布的均值为方差为窗口外正态分布的均值为方差为窗口内外正态分布的方差相同为:σZ2=σZc2=1N(ΣSk∈Zck2-2cZμZ+nZμZ2+ΣSk∉Zck2-2(CG-cZ)μZc+(N-nZ)μZc2)---(10)]]>HZ下窗口Z的对数似然函数为:lnL(Z)=-Nln(2π)-Nln(σZ2)-12σZ2(ΣSk∈Zck2-2cZμZ+nZμZ2+ΣSk∉Zck2-2(CG-cZ)μZc+(N-nZ)μZc2)---(11)]]>化简为:lnL(Z)=-Nln(2π)-Nln(σZ2)-N/2---(12)]]>则窗口Z的对数似然函数比LLR为:LLR=lnL(Z)lnL0=Nln(σG)+ΣSk∈Z(ck-μG)22σG2-N2-Nln(σz2)---(13)]]>步骤六:令i=i+1,当i<=N时,从{S1,S2,...,SN}中重新选择空间对象Si作为新的候选聚集区Z的起始单元,对于深度搜索的扫描方式,重复上述的步骤二、步骤三、步骤五,对于广度搜索的扫描方式,重复上述的步骤二、步骤四、步骤五;直至所有的空间对象均被作为起始单元搜索完毕,从而形成了N个候选聚集区。步骤七:根据LR/LLR值对N个候选聚集区从大到小排序;之后从大到小依次进行筛选:若当前筛选的候选聚集区包含的空间对象与已保留的候选聚集区包含的空间对象重复,则剔除当前候选聚集区,否则保留当前候选聚集区。步骤八:设筛选后保留了M(≤N)个互不重叠的候选聚集区,从大到小依次对各候选聚集区进行蒙特卡罗模拟假设检验,具体步骤为:(1)针对当前候选聚集区的分布形态,计算选定概率分布模型(如泊松分布、二项分布、正态分布等)的参数值;(2)以零假设(即随机分布)为前提,对整个研究区产生NSim个符合相应概率分布的模拟数据集,为便于计算,NSim通常取以999结尾的数字,如999、1999、9999、99999等;(3)利用前述的深度搜索或广度搜索扫描方式,获取各模拟数据集的最可能聚集区MLC及相应的LR/LLR值;(4)将当前候选聚集区与NSim个模拟数据集的MLC按照LR/LLR值从大到小进行排序,确定当前候选聚集区在NSim+1个LLR中的位序Rank,计算统计显著性值P=Rank/(NSim+1);(5)当P<显著性水平α,如α=0.05、0.01、0.001等,则拒绝随机分布的零假设H0,接受候选聚集区的属性高值发生概率高于聚集区外的备择假设HZ,表明当前候选聚集区通过蒙特卡罗非随机性假设检验。步骤九:通过非随机性假设检验的各聚集区依照LR/LLR值从大到小依次输出为:异常聚集性最高的1stMLC聚类、次高的2ndMLC聚类、3rdMLC聚类、...、等。下面通过对比实施例进行说明:实施例1:模拟数据集Ⅰ模拟数据集Ⅰ包括4个数据集,每个数据集包含一个不同形状的MLC聚类,形状分别为带状、S形、O形、十字形,如图4(a)~4(d)所示。每个数据集的空间单元总数N=400,每个单元的总体属性bi=40,聚类中单元的事例属性ci=20,聚类外单元的事例属性ci=10。4个数据集的聚类空间单元个数分别为40、40、80、80,MLC聚类尺寸比率(指MLC聚类单元个数与数据集单元总数N之比)依次为0.1、0.1、0.2、0.2。空间邻接关系采用公共边界和顶点直接相邻的Queen形式。空间相互作用SIM模型的参数k、b取值为1,a取值为2,d采用单元质心间的普通欧式距离。检验统计量采用泊松分布的对数似然函数比。蒙特卡罗检验的显著性水平α=0.01,模拟次数NSim=99,当统计显著性值P=α=0.01时,认为探测到的异常聚集区是通过非随机性假设检验的MLC聚类。表2是模拟数据集Ⅰ的4个数据集SIM深度扫描、SIM广度扫描、Kulldorff圆形扫描的聚类探测结果,表中所列结果均为P=0.01时通过检验的MLC聚类结果。对于真实聚类尺寸为0.1的带状聚类、S形聚类,最大聚类尺寸分别设定为0.05、0.1、0.15;对于真实聚类尺寸为0.2的O形聚类、十字形聚类,最大聚类尺寸分别设定为0.15、0.2、0.25。表中各指标含义:LLR比率:探测到的MLC聚类与真实MLC聚类的LLR之比;正确率:探测到的聚类中属于真实聚类的单元个数与真实MLC聚类单元总数之比;错误率:探测到的聚类中非真实聚类单元个数与聚类单元总数之比;最大聚类尺寸:聚类探测的终止条件之一,指聚类允许包含的空间单元最大个数与数据集单元总数N之比;MLC尺寸比率(MLCSizeRatio):真实MLC聚类尺寸比率,指真实MLC聚类单元总数与数据集单元总数N之比。当LLR比率为1且正确率为100%时,表示探测到的聚集区与真实MLC聚类完全一致。表2SIM深度扫描、SIM广度扫描、Kulldorff圆形扫描对模拟数据集Ⅰ的4个不同形状MLC聚类探测结果从表中可以看出,SIM深度扫描、SIM广度扫描、Kulldorff圆形扫描三种方法的探测结果均受到指定的最大聚类尺寸的影响。当最大聚类尺寸不小于真实聚类尺寸时,SIM广度扫描可以完整地探测出4种不同形状的真实聚类(LLR比率为1、正确率为100%、错误率为0%)。对于其它与真实聚类不一致的探测结果,SIM深度扫描和广度扫描的LLR比率也大多高于Kulldorff圆形扫描的LLR比率(唯一例外出现在O形聚类最大聚类尺寸设定为0.25的SIM深度扫描结果)、且错误率均为0%。而Kulldorff圆形扫描结果大多出现了程度不同的错误率,错误率为0%仅出现一次(O形聚类最大聚类尺寸设定为0.15时)、错误率最高达到54.55%(O形聚类最大聚类尺寸设定为0.25时)。基于SIM的扫描方法不依赖于一定形状的扫描窗口,扫描时根据空间相邻单元之间的作用力Fij强度进行深度或广度搜索,两个对象Si和Sj之间的作用力Fij总是与其事例率ri、rj之积成正比,因此,空间对象的事例率对搜索过程起到了决定性的约束作用,使事例率低的非真实聚类单元不会被加入到探测结果中,SIM深度扫描和广度扫描错误率均为0%的聚类结果也验证了这一点,这是SIM扫描方法区别于Kulldorff圆形、椭圆形扫描方法的一个优良特性。实施例2:模拟数据集Ⅱ模拟数据集Ⅱ包括2个数据集,每个数据集包含一个存在凹陷单元的MLC聚类,MLC聚类形状分别为带状、十字形,如图5(a)、图6(a)所示,凹陷单元(depressionunit)是指事例率比聚类外单元的事例率略高、但比聚类中其它单元事例率显著低的聚类单元,凹陷单元的存在增加了空间扫描方法的探测难度,当扫描方法探测能力较弱时,可能因探测不出凹陷单元而导致聚类结果在此处中断。带状聚类包含1个凹陷单元,十字形聚类在左右两侧各包含3个邻接的凹陷单元,如果探测不到凹陷单元,由凹陷单元隔离的少量聚类单元(带状聚类被隔开1个单元,十字形聚类左右两侧分别被隔开7个和6个单元)将不会被包括在探测的聚类结果中。每个数据集的空间单元总数N=400,每个单元的总体属性bi=40,聚类中凹陷单元的事例属性ci=13、其它单元ci=20,聚类外单元的事例ci=10。带状聚类的空间单元个数为40,MLC尺寸比率为0.1;十字形聚类的空间单元个数为80,MLC尺寸比率为0.2。空间邻接关系采用公共边界和顶点直接相邻的Queen形式。空间相互作用SIM模型的参数k、b取值为1,a取值为2,d采用单元质心间的普通欧式距离。检验统计量采用泊松分布的对数似然比函数。蒙特卡罗检验的显著性水平α=0.01,模拟次数NSim=99。表3是模拟数据集Ⅱ的2个数据集SIM深度扫描、SIM广度扫描、Kulldorff圆形扫描的探测结果,表中所列结果均为P=0.01时通过检验的MLC聚类结果。表3模拟数据集Ⅱ的MLC聚类探测结果从表中可以看出,对于带状聚类,当指定的最大聚类尺寸不小于真实聚类尺寸时,SIM广度扫描的探测结果与真实聚类完全一致,如图5(c)所示。对于十字形聚类,SIM广度扫描的正确率达到96.25%,仅有左侧相邻的3个单元未被探测出,图6(c)所示。并且,对于两种形状的聚类,SIM广度扫描均可以探测到被凹陷单元隔离的真实聚类单元。SIM深度扫描的探测结果虽不如SIM广度扫描,但与SIM广度扫描方法一样,均不会将非真实聚类单元加入到探测的聚类结果中,如图5(b)、5(c)、6(b)、6(c)所示,即错误率为0%。而Kulldorff圆形扫描方法不能做到这一点,如图5(d)、6(d)所示。实施例3:模拟数据集Ⅲ模拟数据集Ⅲ包括2个数据集Ⅲ(a)、Ⅲ(b),每个数据集分别包含两个不同形状的MLC聚类,如图7(a)、7(b)所示。每个数据集的空间单元总数N=400,每个单元的总体属性bi=40,聚类中单元的事例属性ci=20,聚类外单元的事例属性ci=10。Ⅲ(a)包含O形和I形两个聚类,聚类空间单元个数分别为80、40,聚类单元总数为120,聚类总尺寸比率为0.3。Ⅲ(b)包含L形和S形两个聚类,聚类空间单元个数分别为40、40,聚类单元总数为80,聚类总尺寸比率为0.2。这两个数据集从同时探测多个不同形状MLC聚类的角度对SIM深度扫描、SIM广度扫描、Kulldorff圆形扫描三种方法进行对比测试,设定的单个聚类最大尺寸为0.2,结果见表4,表中所列结果均为P=0.01时通过检验的MLC聚类结果。表4模拟数据集Ⅲ的MLC聚类探测结果从表4可以看出,SIM广度扫描的探测结果与Ⅲ(a)、Ⅲ(b)真实聚类完全一致。SIM深度扫描的LLR比率结果虽不如SIM广度扫描、但好于Kulldorff圆形扫描,且错误率均为0%。并且,基于SIM的深度和广度方法可以准确地探测出真实的聚类个数2,Kulldorff圆形扫描探测的聚类个数不仅与真实聚类个数不符,且完全没有探测出Ⅲ(b)中的L形聚类(LLR比率为0)。实施例4:SIDS2数据集SIDS2数据集是美国北卡罗莱纳州1974-1978、1979-1984期间各县婴儿猝死综合症SIDS(SuddenInfantDeathSyndrome)死亡人数(数据来源:https://geodacenter.asu.edu/sdata),数据集包含100个县(N=100),出生婴儿总人数为752354人(BG=752354),SIDS死亡总人数为1503人(CG=1503),总死亡率RG=1.9977(单位:每千人),各县SIDS死亡率的分布情况如图8所示。该数据集常用于对不同空间、时空扫描统计方法的性能分析。采用Kulldorff圆形、椭圆形扫描方法与基于SIM的深度、广度扫描方法进行对比,对SIDS死亡率异常高的聚集区域进行探测。Kulldorff椭圆形方法的形状惩罚函数为[4s/(s+1)2]a,其中由椭圆离心率e决定,参数a决定惩罚强度,分别取值为0、0.5、1,a值越大对聚集区形状不规则程度的惩罚越强。空间邻接关系采用公共边界相邻的Rook形式。SIM模型的参数k、b取值为1,a取值为2,d采用各县质心间的普通欧式距离。检验统计量采用泊松分布的对数似然比函数。最大聚类尺寸设置为空间对象总数N的50%。蒙特卡罗模拟次数NSim=9999。各扫描统计方法的探测结果见表5和图9(a)-图9(b)、图10(a)-图10(d)。表5SIDS2数据集MLC聚类探测结果在表5中,LLR值最高的是SIM广度扫描方法探测出的聚集性最高的1stMLC,LLR值达到46.04,远高于其它方法探测出的MLC聚类。在Kulldorff系列方法中,a=0的椭圆形方法LLR值最高,为28.57,但其仅探测出1个MLC聚类,未探测出右上角区域的MLC聚类。比较图9(a)-图9(b)、图10(a)-图10(d)的MLC分布情况,可以看到不同方法的MLC聚类均部分或完全重叠,说明探测的MLC结果是稳定的。具体地,图9(a)的SIM深度扫描探测结果与图10(d)a=1的Kulldorff椭圆形方法探测结果完全一致。图9(b)的SIM广度扫描MLC聚类完全包含了图9(a)的SIM深度扫描、图10(c)a=0.5的Kulldorff椭圆形扫描、图10(d)a=1的椭圆形扫描的MLC聚类,也包含了图10(a)的Kulldorff圆形方法和图10(b)a=0的椭圆形方法MLC聚类中的大部分单元。结合前述对含凹陷单元模拟数据集Ⅱ的探测结果,说明相对于其它方法,基于SIM的广度扫描方法对存在弱连接(即凹陷单元)的MLC聚类探测能力更强。综合上述4个实施例的分析结果,可以认为,与SIM深度扫描方法、Kulldorff圆形扫描方法、Kulldorff椭圆形扫描方法相比,基于SIM的广度扫描方法对地理空间不规则形状异常聚集区的探测能力更强,且更易探测出包含弱连接的异常聚集区。SIM深度扫描方法探测性能虽不如SIM广度扫描,但不弱于Kulldorff系列方法,且基于SIM的深度和广度扫描方法均不会将非异常空间对象包含在探测的MLC结果中。上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1