基于gis的海量统计数据的空间奇异点发掘方法

文档序号:6535927阅读:278来源:国知局
基于gis的海量统计数据的空间奇异点发掘方法
【专利摘要】本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:读取GIS数据库中已存储的空间数据集;对空间数据集中各个空间数据的分布情况进行分析,判断各个空间数据的分布情况是否符合正态分布要求,如果判断结果为是,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
【专利说明】基于GIS的海量统计数据的空间奇异点发掘方法
【技术领域】
[0001]本发明属于计算机【技术领域】,具体涉及一种基于GIS的海量统计数据的空间奇异点发掘方法。
【背景技术】
[0002]近年来,随着计算机技术的迅速发展以及广泛应用,人们积累的数据越来越多,海量统计数据是管理层越来越多面临的问题,奇异点检测更成为一大难题。
[0003]海量统计数据具有覆盖面广、信息量大的特点,传统上,人们处理海量统计信息数据并从中挖掘有用的知识的技术和手段相对却非常贫乏和软弱。
[0004]奇异点是指样本中的一个或几个距离其他观测值较远的观测值,暗示这些奇异点可能来自不同的总体。奇异点不同于邻近域属性值的目标对象是由某种特有的机制产生的,因此,奇异点的识别能够导致很多有意义知识的发掘。从空间意义上来说,发现局部异常对象是极其重要的,空间奇异点就是在空间上非空间属性显著不同于空间邻近域的目标对象。有些情况下,空间奇异点在整个数据集合上并不是那么显著地,但是对于局部而言就是一个非常不稳定点,所以,及时准确的查找空间奇异点具有重要意义。
[0005]传统的空间奇异点查找方法主要有大量观察法、统计分组法、综合分析法、统计模型法和归纳推断法等。但是,上述几类查找方法普遍具有查找效率慢的不足,难以从海量空间数据中快速准确的查找到空间奇异点数据。

【发明内容】

[0006]针对现有技术存在的缺陷,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
[0007]本发明采用的技术方案如下:
[0008]本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
[0009]SI,读取GIS数据库中已存储的空间数据集;
[0010]S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3 ;如果判断结果为是,则直接执行S4;
[0011]S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4 ;
[0012]S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
[0013]优选的,SI之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中。
[0014]优选的,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为:
[0015]通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
[0016]优选的,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
[0017]通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求;
[0018]通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
[0019]将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。
[0020]优选的,S4中,对各个所述空间数据进行全局奇异点查找具体为:
[0021]通过频度直方图、熵值方法或聚类方法生成的VOTonoi图对各个所述空间数据进行全局奇异点查找。
[0022]优选的,S4中,对各个所述空间数据进行局部奇异点查找具体为:
[0023]通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
[0024]优选的,所述变异理论分析工具为协方差点云图或半变异点云图。
[0025]本发明的有益效果如下:
[0026]本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
【专利附图】

【附图说明】
[0027]图1为本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法的流程示意图;
[0028]图2为频度直方图展现的整个数据集值分布状况的一个图示意图;
[0029]图3为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
【具体实施方式】
[0030]以下结合附图对本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法进行详细介绍:
[0031]如图1所示,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
[0032]SI,读取GIS数据库中已存储的空间数据集;[0033]S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
[0034]其中,判断各个空间数据的分布情况是否符合正态分布要求具体为:通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
[0035]具体的,频度直方图用于展现整个空间数据集中各个空间数据的分布状况,在与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述数据中的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的离散值,从而得到整个空间数据集的分布特征,也可以从中得到空间数据集的特征数值。频度直方图的频率分布可以从形状、分布、峰度等方面来考虑,呈正态分布的空间数据的均值和中值近似相等,偏度接近0,峰度接近3。
[0036]将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。其中,QQPlot图用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中是一种常用的检验数据是否来自于正态分布。如图3所示,为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
[0037]S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4 ;
[0038]对每一个空间数据进行对数变换,即:将每一个采集到的空间数据根据对数函数进行一一映射,用得到的结果代替原有的空间数据进行判断是否符合正态分布,理由为:因为采集到的空间数据尤其是不符合正态分布的空间数据可能会有指数的失真,对其进行对数变换能够抵消这一指数失真,再进行正态分布的分析。
[0039]S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
[0040]其中,对各个所述空间数据进行全局奇异点查找具体为:通过频度直方图、熵值方法或聚类方法生成的VOTonoi图对各个所述空间数据进行全局奇异点查找。
[0041]对各个所述空间数据进行局部奇异点查找具体为:通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
[0042]具体的,奇异点类型包括两大类:全局奇异点和局部奇异点。下面对全局奇异点和局部奇异点分别介绍:
[0043](一)全局奇异点
[0044]全局奇异点是指,对于整个空间数据集而言,具有很高或很低值的观测样点。从本质上来看,全局奇异点是偏离于整个空间数据集分布的极大值或者极小值,所以需要从整个空间数据集的分布来寻找。
[0045]全局奇异点可以通过以下方式查找:
[0046](I)频度直方图
[0047]全局奇异点在频度直方图上表现为孤立存在的点或是被一群显著不同的值所包围的点。需要注意的是,在频度直方图中孤立存在或被一群显著不同的值所包围的样点不一定是全局奇异点,也可能就是真实值。
[0048]本发明应用频度直方图查找全局奇异点,频度直方图与普通应用的直方图的区别在于:普通的直方图关注于空间数据集中的个体,而频度直方图更注重于展现整个空间数据集中各个空间数据的分布状况,如图2所示,为频度直方图展现的整个数据集值分布状况的一个图示,本发明与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述空间数据的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的奇异点,同时也可以计算一些概括性的统计指标。从频度直方图可以看到整个空间数据集的分布特征,也可以得到空间数据集的奇异点。
[0049](2)熵值方法或聚类方法生成的Voronoi图
[0050]熵值是量度相邻单元相异性的指标,一般来说,相互距离近的样本点比相互距离远的样本点具有更大的相似性。因此,全局奇异点可以通过高熵值的区域识别出来。同样的原理,聚类方法也可以识别出区别于周围单元的奇异点。Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。Vorono i图的生成方法是每个多边形内有一个样点,多边形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后,某个样点的相邻样点便会与该样点的多边形有相邻边。
[0051](二)局部奇异点
[0052]局部奇异点是指,对于整个空间数据集而言,观测样点值属于正常,但与其相邻的样点值比较,观测样点值又偏高或偏低。
[0053]局部奇异点可以通过以下方式查找:
[0054]( I)变异理论分析工具
[0055]变异理论分析工具包括协方差点云图和半变异点云图,通过这两种分析工具可以检测一定范围内的局部奇异点。对于半变异点云图,半变异函数值越小,空间相似性越大;而半变异函数值越大,空间相似性越小。ArcMap是一个可用于数据输入、编辑、查询、分析等等功能的应用程序,具有基于地图的所有功能,实现如地图制图、地图编辑、地图分析等功能。在ArcMap视图中,用x轴表示样点对间的距离,y轴表示样点对间的半变异值/协方差值,得到半变异/协方差函数云图。在半变异/协方差函数云图中,局部奇异点主要表现在函数的分布形式上,如果存在一个局部奇异点,则可以看到一组靠得很近的样本点,在X轴左端,y轴有较高值。对这些样点对,如果是一个样点与其他样点间产生,则要对这个样点的数据源仔细考虑,如果确认调查数据准确,则可以确认是真实异常,不需剔除,反之,则需要对样点对进行剔除或重新调查。此外,半变异/协方差函数云图也可以反应空间数据的空间相关程度,根据距离越近越相似的原理,X值越小,y值应该越小。
[0056]空间协方差点云图可以用于表示区域化随机变量之间的差异。在概率论中,随机向量X与Y的协方差被定义为
【权利要求】
1.一种基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,包括以下步骤: SI,读取GIS数据库中已存储的空间数据集; S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3 ;如果判断结果为是,则直接执行S4 ; S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4 ; S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
2.根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,SI之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中。
3.根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为: 通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
4.根据权利要求3所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为: 通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求; 通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为: 将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。
5.根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S4中,对各个所述空间数据进行全局奇异点查找具体为: 通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。
6.根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S4中,对各个所述空间数据进行局部奇异点查找具体为: 通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
7.根据权利要求5所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,所述变异理论分析工具为协方差点云图或半变异点云图。
【文档编号】G06F17/30GK103853817SQ201410020649
【公开日】2014年6月11日 申请日期:2014年1月16日 优先权日:2014年1月16日
【发明者】孙永华, 李小娟, 王彦兵, 杨灿坤, 连健 申请人:首都师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1