基于Getis-OrdGi*的用电量多元空间聚类方法与流程

文档序号:15852995发布日期:2018-11-07 10:26阅读:3054来源:国知局
基于Getis-Ord Gi*的用电量多元空间聚类方法与流程

本发明涉及空间聚类方法,尤其涉及基于getis-ordgi*的用电量多元空间聚类方法。

背景技术

以往对用电量的分析多集中在某个单一产业之中,然而不同产业之间的用电情况可能彼此是互相关联的,并以一种整体面貌反映着当地的经济发展。分析用电区域中不同产业用电的集聚和离散情况对配电企业对该区域制定用电政策有着很大帮助。因为相近区域的用电情况可以彼此借鉴,一个城市的用电政策可以移植到与它相似的其他城市。一般对多变量用电产业的分析采用的是无监督聚类方法,常见的有分割聚类、层次聚类、基于密度的聚类和基于网格的聚类方法,但这些方法都忽略了不同产业用电量的空间特性,由于用电量的空间特性会产生地理学第一定律“任何事物都相关,只是相近的事物关联更紧密”的现象,因此用电量会因为区域之间的接近关系产生聚集情况。而一般的聚类方法并未考虑到由于变量的空间依赖关系而产生的集聚,忽略这层空间关系产生的聚类是不完备的,导致聚类结果不准确,不能客观反映多产业用电区域的用电热点、冷点集聚情况。



技术实现要素:

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于getis-ordgi*的用电量多元空间聚类方法,以达到准确分析用电行业数据在区域空间中的情况目的。为此,本发明采取以下技术方案。

基于getis-ordgi*的用电量多元空间聚类方法,包括以下步骤:

1)获取数据;

数据来源为电力行业数据,包括农、林、牧、渔业,工业,建筑业,交通运输、仓储和邮政业,信息传输、计算机服务和软件业,商业、住宿和餐饮业,金融、房地产、商务及居民服务业,公共事业及管理组织的电力数据;

2)对所在区域构建空间依赖关系,确定空间权重;

通过判断是否有存在公共边界或顶点来确定空间权重,当地区为岛屿时,将其分配给陆地的地区,相应陆地的地区对称性地增加该岛屿,即认为相邻;空间权重确定后,生成的空间权重为0-1的矩阵,并通过rookcontiquity转换为距离权重以用于后续计算;

3)对每个变量进行空间自相关分析确定其存在空间依赖关系;

4)将属性变量转换为带有空间元素的gi*统计变量,对gi*做最小优估计的z转换形式;公式如下:

其中,wi*=∑jwij

xj是要素j的属性值,xi是要素i的属性值,n为区域单元数,x为用电量,wij为空间权重;

通过z(gi*)重新构建多变量空间矩阵;

5)对多变量空间矩阵采用轮廓线系数方法来确定最优聚类数,然后采用k-means聚类方法来进行聚类;

6)可视化聚类地图,以识别哪些多产业用电区域为热点区域,哪些区域为冷点区域。

本技术方案基于局部热点探测技术getis–ordgi*统计和k-means结合的方法对多产业用电区域进行聚类分析,由于getis–ordgi*统计指数只能处理单变量属性的空间聚类,且它在聚类效应中表现突出,而k-means聚类能够处理多变量聚类,因此在计算多变量聚类的时候将gi*空间统计加入到k均值聚类中,通过gi*将多变量属性矩阵改造为多变量空间矩阵,并利用k-means方式对其进行聚类,形成一种非空间-空间结合的聚类方法。

作为优选技术手段:在步骤5)中,包括以下步骤:

501)给定一个空间权重w,为每个变量计算标准的局部getis-ord统计指数计算第i个单元(i=1,…,n)中第j个变量(j=1,…,p)的值将这些值组合成(n×p)维度的矩阵z,其中z的每个列代表其中一个变量的局部空间自相关模式,z的每一行描述了每一个局部单元的聚类属性构成;

502)将k均值聚类算法应用于这组空间结构化的变量矩阵z,依据既包含空间属性又包含位置属性的多元空间属性来聚类观察单元;k均值聚类是将一组数据划分为预先设定好的k个簇,簇的质心是k均值聚类的关键;通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果;对于选择好k个质心后,接下来将数据中的每个点与距离它最近的质心联系起来,如果无数据点与质心相连,则质心计算结束,否则,将第一步生成的围绕质心的样本点求均值,作为新的质心,再计算与其最近的样本点的聚集情况,以此类推迭代,直到质心点不再发生变动为止,质心计算结束;

503)最优主题数的确定;k均值聚类的目标是最小化每一个类内部的差异,最大化类之间的差异;聚类最优数目采用silhouette方法来完成最优聚类数目的寻找。

作为优选技术手段:步骤5)中还包括步骤:

504)方差拟合优度比较两种聚类效果;

选择方差拟合优度gvf来评测空间聚类方法的效度,遵循聚类内部要素要越具相似性且聚类之间要越具差异性的原则,并将其与非空间的k-means聚类进行比较;方差拟合优度是评价聚类精度的有效方法,公式如下:

其中zi,i=1,...,n是观察值,且n为区域总数目;k为聚类数目,是聚类j中的观察值的均值,nj是聚类j中的区域数目;反映了聚类之间的差异性,反映了聚类内部的要素的相似性;gvf越接近于1说明聚类内容越相近;判断gvf计算值是否超过设定的阈值,若是,则采用上述聚类方法,否则,重新选择聚类方式。

作为优选技术手段:在步骤2)中,通过判断是否有存在公共边界或顶点来确定空间权重,当地区为岛屿时,将其分配给陆地的地区,相应陆地的地区对称性地增加该岛屿,即认为相邻;空间权重确定后,生成的空间权重为0-1的矩阵,并通过rookcontiquity转换为距离权重以用于后续计算。

作为优选技术手段:在步骤503)中,silhouette方法中的轮廓线系数s(i)的计算公式如下:

其中,a(i)为实体i与和它同属于同一个聚类中其他实体的平均距离;b(i)是实体i与其他聚类中所有实体平均距离的最小值;轮廓线系数的取值范围为–1到1,值越大表示聚类效果越好,那个最大值对应的聚类数目就是最佳聚类数目;如果某实体的轮廓线系数为0,则表明该实体可能已经被分配到了其他类别中;如果轮廓线系数接近于-1,则意味着这个实体被错误分类了;如果所有的轮廓线系数都接近于1,那么意味着全部实体都得到很好的聚类;为了避免局部最优解,令聚类数目k从2到8,在每个k值上重复运行30次k-means,并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的聚类数目。

有益效果:本技术方案提出了一种非空间-空间组合在一起的多元聚类方法,通过将getis–ordgi*统计和k-means多元聚类方法结合在一起来分析用电行业数据在空间中的集聚情况,识别出哪些多产业用电区域的是热点区域,哪些区域是冷点区域。本技术方案解决了多变量的空间聚类问题,有效提升了变量的聚类效果,客观反映多产业用电区域的用电热点、冷点集聚情况。

附图说明

图1是本发明流程图。

图2是本发明轮廓线系数确定最优主题数曲线图。

图3(a)是本发明非空间多变量k-means的聚类结果图。

图3(b)是本发明非空间-空间多变量k-means聚类结果图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示,本发明包括以下步骤:

1)获取数据;

数据来源为电力行业数据,包括农、林、牧、渔业,工业,建筑业,交通运输、仓储和邮政业,信息传输、计算机服务和软件业,商业、住宿和餐饮业,金融、房地产、商务及居民服务业,公共事业及管理组织的电力数据;

2)对所在区域构建空间依赖关系,确定空间权重;

通过判断是否有存在公共边界或顶点来确定空间权重,当地区为岛屿时,将其分配给陆地的地区,相应陆地的地区对称性地增加该岛屿,即认为相邻;空间权重确定后,生成的空间权重为0-1的矩阵,并通过rookcontiquity转换为距离权重以用于后续计算;

3)对每个变量进行空间自相关分析确定其存在空间依赖关系;

4)将属性变量转换为带有空间元素的gi*统计变量,对gi*做最小优估计的z转换形式;公式如下:

其中,wi*=∑jwij

xj是要素j的属性值,xi是要素i的属性值,n为区域单元数,x为用电量,wij为空间权重;

通过z(gi*)重新构建多变量空间矩阵;

5)对多变量空间矩阵采用轮廓线系数方法来确定最优聚类数,然后采用k-means聚类方法来进行聚类;

6)可视化聚类地图,以识别哪些多产业用电区域为热点区域,哪些区域为冷点区域。

现以浙江省为例,进一步说明本技术方案。

1、数据来源

数据来源于浙江省8大电力行业数据,分别是农、林、牧、渔业(a000),工业(gg00),建筑业(e000),交通运输、仓储和邮政业(f000),信息传输、计算机服务和软件业(g000),商业、住宿和餐饮业(h000),金融、房地产、商务及居民服务业(j000),公共事业及管理组织(m000)。这些电力行业分布在浙江省的11个地区。

2、空间权重设计

为了进行空间探测,需要构建空间权重矩阵。进行空间数据分析的重要一步是生成空间权重文件。权重的设计选取空间计量软件geoda进行。在geoda中根据判断邻居关系的规整不同,主要有三种方式产生空间权重:一是有公共边界或顶点即为相邻,queencontiquity和rookcontiquity两种情况。二是在一定距离阈值范围内相邻;三是将距离最近的k个单元设为相邻。三种方式生成的空间权重矩阵均为0-1矩阵。本发明选择rookcontiquity模式,rookcontiquity模式是空间分析常用的一种权重处理方法。因为舟山在地图呈现中与其他各个城市没有共同边界,因此其单元的邻居数为零,这样导致舟山的行权重无法参与到空间计算。解决的方法是将宁波分配给它作为它的邻居。同时宁波的邻居数中同样对称性地增加了舟山。因为gi*指数的权重设计需要距离作为权重的设计标准,因此要将rookcontiquity权重转换为距离权重以便于计算所用。

3、局部指数

getisandord(1992)提出两种局部计算指标gi*和gi,gi*统计中要素j中包含着i,gi统计要素中j中不包含i。由于要探测每一个变量的空间聚集程度,选择gi*比较合适。公式如下:

其中,xj是要素j的属性值,wi,j是要素i和j之间的空间权重,它是空间权重矩阵w的n×n元素,n为要素总数。将相邻规则形成的空间权重转换为距离权重参与gi*测度,gi*测度计算的是以第i个位置为中心其邻居的值与空间权重的乘积之和与所有数据值总和的比值。为了提高统计检验,ordandgetis(1995)发展了一种将gi*做最小化估计的z转换形式。公式如下:

其中,n为区域单元数,x为用电量,wij为空间权重,

wi*=∑jwij。

后续计算以统计为主。对于具有显著统计学意义的正的z得分来说,z得分越高,高值(热点)的聚类就越紧密。对于统计学上的显著性负z得分,z得分越低,低值(冷点)的聚类就越紧密。

4、非空间-空间组合数据聚类

依照图1的框架逻辑,需要将标准化的gi*加入到多变量的属性数据中,构造新的n×p列联表结构,其中n为浙江省所在的11个城市,p为经过空间处理的每一个用电量的值。具体内容见表1所示:

表1部分n×p列联表数据

然后对这个列联表采用k-means来聚类,寻找其最优的聚类数,然后处理基于gi*的非空间-空间组合的聚类,过程如下:

1)给定一个空间权重w,为每个变量计算标准的局部getis-ord统计指数。通过公式(2)计算第i个单元(i=1,…,n)中第j个变量(j=1,…,p)的值将这些值组合成(n×p)维度的矩阵z,其中z的每个列代表其中一个变量的局部空间自相关模式,z的每一行描述了每一个局部单元的聚类属性构成。

2)将k均值聚类算法应用于这组空间结构化的变量矩阵z,这步要依据既包含空间属性又包含位置属性的多元空间属性来聚类观察单元。k均值聚类是将一组数据划分为预先设定好的k个簇,簇的质心是k均值聚类的关键。基本思想是通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。对于选择好k个质心后,接下来将数据中的每个点与距离它最近的质心联系起来,如果无数据点与质心相连了,那么第一步结束。接下来,将第一步生成的围绕质心的样本点求他们的均值,作为新的质心,再计算与它最近的样本点的聚集情况,以此类推迭代,直到质心点不再发生变动为止。整个推演过程为:设sj表示第j个聚类集,聚类质心为cj,nj为第j个聚类集sj中包含的样本数。聚类中心cj的选择应该遵循使得准则函数j的值最小,即

解得上式表明,sj类的聚类中心应该选为该类样本的均值。同理对于所有k个聚类的模式对所有k个聚类均遵循准则函数j的值最小的原则,从而计算出k个聚类的质心点。

3)最优主题数的确定。k均值聚类的目标是最小化每一个类内部的差异,最大化类之间的差异。由于聚类采用的是无监督方法,聚类最优数目要提前确定。聚类最优数目确定有多种手段,有kl方法、scott方法、marriot方法、ball方法、silhouette方法,gap方法等。轮廓线系数(silhouettecoefficient)表达了所聚的类的内部要素是紧密联系,而该类之外的元素和它的内部元素是分离的观念,与k均值聚类特别契合而且表现稳定(charradm,2014)。因此本次聚类采用silhouette方法来完成最优聚类数目的寻找。

4)方差拟合优度比较两种聚类效果

为了评测空间聚类方法的效度,遵循聚类内部要素要越具相似性且聚类之间要越具差异性的原则,选择方差拟合优度(gvf)来测度它的有效性,并将其与非空间的k-means聚类进行比较。方差拟合优度是评价聚类精度的有效方法(armstrongp,etal.2003),公式如下:

其中zi,i=1,...,n是观察值,且n为区域总数目,就当前研究内容来说指31个省市自治区。k为聚类数目,是聚类j中的观察值的均值,nj是聚类j中的区域数目。反映了聚类之间的差异性,反映了聚类内部的要素的相似性。gvf越接近于1说明聚类内容越相近。

5、实现事例

如图2所示,轮廓线系数确定最优主题数。选择k=3聚类数目分别对带空间依赖的8个用电行业和不带空间依赖的8个用电行业进行k-means聚类。表1比较了未考虑空间要素的多变量k-means聚类和考虑了空间要素的多变量聚类的情况,发现在考虑了空间要素后,各个类别用电量观察值的gvf都有所提升,说明空间聚类较好地改善了非空间聚类。

表2非空间聚类与空间聚类的gvf比较

非空间多变量k-means的聚类结果和非空间-空间多变量k-means聚类结果见图3(a)、图3(b)所示。从地图效果上看,右侧的多变量非空间-空间结合的kmeans聚类明显比左侧的多变量非空间kmeans聚类有规则,聚类效果更好,这一点在方差拟合优度中也得到了说明。说明论文所提供的多变量非空间-空间聚类方法是可行的。图中坐标值是大地坐标wgs-84坐标系转为平面坐标北京-54坐标系的数值。

由于局部gi*指数能够对聚类变量进行热点冷点探测,因此可以将它应用于观察多变量空间聚类的热点监测情况,从而判断哪些聚类是高值聚类,哪些聚类是低值聚类。参照单变量gi*统计的要求,观察各个变量在不同聚类中的z得分情况,选取每个空间聚类中的z得分均值来判断多变量空间聚类的热点、冷点以及无空间相关性的分布。avivapeeters等人(2015)认为z均值大于1.65的为高值聚类且为热点聚类,1.2到1.65的为一般程度的高质聚类,而在-1.65到1.65之间的则无空间相关性,空间分布呈现随机性。小于-1.65的为低值聚类且为冷点聚类。从非空间-空间k-means聚类可知,其中绍兴、嘉兴、湖州属于第一聚类,查找其z得分的均值为2.2811074,衢州、金华、宁波、杭州、台州属于第二聚类,查找其z得分的均值为1.2250944,温州、丽水、舟山属于第三聚类,查找其z得分的均值为-0.9208435。依照z得分情况说明绍兴、嘉兴、湖州属于热点区域,这三个区域的经济发展迅猛,八大行业的用电量在这几个城市呈现需求增长趋势。而衢州、金华、宁波、杭州、台州属于一般热点聚类。由于温州、丽水、舟山的z得分均值为-0.9208435,与z值的标准有些偏差,可能属于随机分布状态,这说明了八大行业在这几个城市的发展并不均衡,有些产业的发展比较迅猛有些产业的发展比较薄弱。

以上图1所示的基于getis-ordgi*的用电量多元空间聚类方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行等同修改,均在本方案的保护范围之列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1