一种态势中标识符号的聚合和解聚方法与流程

文档序号:12723796阅读:820来源:国知局

本发明涉及一种地理信息系统,具体涉及一种在电子地图上将标识的信息提取和智能显示的方法。



背景技术:

现有地理信息系统(GIS)基本是基于单个要素的符号显示,即根据系统采集到的各要素位置数据对应在GIS图上显示。当需要显示的要素数量较多时,在地图可视范围内将出现密密麻麻的符号,由于符号显示距离相对较小,用户很难操作提取这些符号信息,不利于用户快速有效地把握整体态势。



技术实现要素:

本发明的目的在于提供一种态势中标识符号的聚合方法,基于采集的要素符号地理信息,结合要素属性提取要素的组织和活动信息,解决态势图信息冗余、杂乱、无规则的问题,方便各级用户充分快速了解态势信息。

本发明的技术方案如下:

一种态势中标识符号的聚合和解聚方法,其特征在于;

(1)异常点剔除:利用距离表示点与点间关系,将远离样本中的其它点,即与多数点的距离较大的点剔除;

(2)随机队标聚合线段计算:采用最小二乘法拟合直线的方式,首先获取最佳的直线参数,然后根据所有编成单元中最大和最小的经度值,重新计算对应的纬度值,将两个极值连接,形成的线段作为随机队标中使用的线段;对于机动类队标,通过扫描所属实体,拟合形成机动线段;

(3)随机队标包络线计算:行动类、部署类队标,通过系统扫描所属实体,形成面积包络线,依据包络线形状确定队标的地域线、纵深线和方向线;

(4)椭圆拟合:由于凸包是不规则的几何图形,难以根据凸包计算地域线、纵深线和方向指示线,使用椭圆拟合凸包的边界,根据圆心、长半轴、短半轴来地域线、纵深线和方向指示线。

本发明提出了的方法,可根据用户需求分层级展示各级用户关心的要素态势信息,整个聚合和解聚过程依据特定规则自动生成,根据用户操作智能匹配显示层级和要素信息,快速方便。依靠符号自动聚合和解聚,可充分展示各级要素态势信息,有效地提高了用户业务能力。

具体实施方式

1、异常点剔除:

在显示过程中,在一个相对高层次的编成组织内,存在个别实体位置异常的情况,会对聚合结果的准确性产生影响,需要在聚合之前将异常实体点剔除。

理论基础:异常点检测是数据挖掘领域的一类重要任务,在许多应用中具有重要作用。异常数据挖掘,又称为离群点分析或者孤立点挖掘。异常数据是少量的、与众不同的,与大多数数据相比是有偏差的,而且产生这种偏差的原因不是随机的,而是有其更深层次的必然原因,它产生于完全不同的机制。

为了从数据集中识别异常数据,就必须有一个明确的标准。这需要找到数据的内在规律,在一个可接受的误差范围内,满足内在规律的数据就是正常数据,而不满足内在规律的数据就是异常数据。这种数据间的内在规律可以根据数据本身的特点从位置关系、函数关系、规则关系、序列关系等方面来考查。

位置关系:位置关系是数据间的最常见的一种关系,大多数正常数据具有很大的相似性而符合一个共同模式,在空间上表现在一起的趋势,团结在一个或者多个核心的周围,而那些异常数据则表现得离群,他们总是离所有的核心都很远。

函数关系:函数关系也是一种常见的数据关系,即大多数数据都符合某个函数模型,因此数据点大多分布在函数曲线附近,而那些异常数据则距离曲线比较远。

规则关系:如果数据集中某些符合某个规则条件,则称这些数据具有规则关系。具有同一规则关系的正常数据一般会使该规则的结论成立,而如果某个数据具有该规则关系但不能是该结论成立,那么他就是异常。

序列关系:序列关系是指数据集中的某些数据满足某种序列模式,而那些相同条件下不满足序列模式的数据就是异常数据。

解决途径:从技术来源看,异常点剔除方法可以划分为基于统计的方法、基于距离的方法、基于偏离的方法和基于聚类的方法。

基于统计的方法:根据数据集的特性事先假定一个数据分布的概率模型,然后根据模型的不一致性来确定异常。首先对给定的数据集假设一个概率分布模型,然后在某个显著水平 上,确定数据集的拒绝域或者接受域,拒绝域是出现概率很小的区间,如果数据落在此区间,则判定为异常数据。

统计学的方法的优点是很明显的,它建立在成熟的统计学理论基础上,只要给定概率模型,其他统计模型非常有效,异常点的含义也非常明确。

基于距离的方法:基于距离的方法主要是基于数据点间的距离来发现异常点,由于它具有比较明显的几何解释,是当前使用最普遍的方法。基于距离的方法的基本思想是以距离的大小来检测小模式,异常点是那些被认为没有足够的邻居的点。他可以述为数据集N中,至少有P个对象和对象O的距离大于d,则对象O是一个带参数P和d的基于距离的异常点。

基于密度的方法:基于距离的方法对全局各个聚类的数据提出了统一的P和d参数,但是如果各个聚类本身密度的不同,则基于距离的方法会出现问题,因此提出了基于密度模型的局部异常点挖掘算法。

在这种情况下,数据是否异常不仅取决于它与周围数据的距离得大小,而且与邻域内的密度状况有关,一个邻域内的密度可以用包含固定数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。

基于偏离的方法:基于偏离的方法的基本思想是通过检查一组对象的主要特性来确定异常,如果一个对象的特性与给定的描述过分的偏离,则该数据被认为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据看立体方法。序列异常技术的核心是要构建一个相异度函数,对于一个包含了很多样本的数据集,如果样本间的相似度较高,相异度函数的值就比较小,反之,如果样本间的相异度越大,相异度函数的值就越大(例如方差就是满足这种要求的函数)。OLAP数据立方体方法利用在大规模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单元值显著不同于根据同居模型得到的期望值,则该单元值被认为是一个异常点。

基于聚类的方法:基于聚类的方法的基本思想是将异常挖掘的过程转换成聚类的过程。首先是将数据集利用已经成熟的模型进行聚类分析,将数据集划分为多个簇,然后选择那些离簇的质心比较远的样本作为异常点。

方案选择:建立异常点的识别、剔除方法,首先应寻找一个可以表达多指标情形下点与点之间关系的、简单易用的数量指标。距离是可以满足这个要求的指标之一,利用距离可以表示点与点间关系。如果某点是样本中的异常点,它必远离样本中的其它点,即与多数点的距离较大,其平均距离也必大。反之,若某点为正常值,则它必与样本中的某些点相邻较近,距离较小,则其平均距离必不大。基于此种思想,利用“基于距离的方法”,作为识别、剔除编成单元中异常点的方法。

2、随机队标聚合线段计算:

对于机动类队标,通过扫描所属实体,拟合形成机动线段。

理论基础:在一定程度上,具有地理信息的每个部队实体都可以看作由经度和纬度表示的一个点。由多个实体拟合线段就转变为由多点拟合线段的问题。曲线拟合中常用方法的是直线拟合。

解决途径:设x(经度)和y(纬度)之间的函数关系为:

y=a+bx

式中有两个待定参数,a代表截距,b代表斜率。对于等精度测量所得到的N组数据(xi,yi),i=1,2……,N,xi值被认为是准确的,所有的误差只联系着yi。利用最小二乘法把观测数据拟合为直线。

用最小二乘法估计参数时,要求观测值yi的偏差的加权平方和为最小。

方案选择:采用最小二乘法拟合直线的方式,首先获取最佳的直线参数a和b,然后根据所有编成单元中最大和最小的经度值,重新计算对应的纬度值,将两个极值连接,形成的线段作为随机队标中使用的线段。

3、随机队标包络线计算:

行动类、部署类队标,通过系统扫描所属实体,形成面积包络线,依据包络线形状确定队标的地域线、纵深线和方向线。

理论基础:凸包是计算几何中一种基本结构。凸包是物体形状描述、特征抽取的一个重要工具,已被广泛地应用于计算机图形学、图像处理、设计自动化、模式识别和运筹学等研究领域。

解决途径:计算平面点集凸包有一系列算法,包括卷包裹法、Graham(格雷厄姆)方法、分治算法、Z3-1算法、Z3-2算法、实时凸包算法、增量算法及近似算法。

方案选择:从时间复杂度和算法复杂度综合考虑,采用格雷厄姆算法来计算凸包。

4、椭圆拟合:

由于凸包是不规则的几何图形,难以根据凸包计算地域线、纵深线和方向指示线。如果使用椭圆拟合凸包的边界,则可根据圆心、长半轴、短半轴来地域线、纵深线和方向指示线。

理论基础:将凸包的顶点作为离散点,则转换为平面中的离散点集拟合椭圆的问题。

椭圆拟合法的基本思路是:对于给定平面上的一组样本点,寻找一个椭圆,使其尽可能靠近这些样本点。也就是说将平面中的一组数据以椭圆方程为模型进行拟合,使某一椭圆方程尽量满足这些数据,并求出该椭圆方程的各个参数。

解决途径:最小二乘法是为了解决如何从一组测量值中寻求可信赖值的方法,广泛应用 于科学实验与工程技术中。

常用的椭圆拟合方法主要有三类,一类是基于Hough变换的椭圆拟合方法,另一类方法是基于不变矩的方法,再一类则是基于最小二乘的方法。这些方法中,基于最小二乘的方法适用于各种复杂的对象模型,并能直观地给出关于某种拟合误差的测度,达到很高的拟合精度。

在二维平面坐标系中,椭圆一般可以用2种形式来表示,一种是利用圆锥曲线方程的代数形式表示。

另外一种更直观的方式是用平面坐标系的几何参数表示,即椭圆中心位置(xC,yC),长轴和短轴(a,b),长轴的转角(θ)。二维平面里的任意椭圆都可以用这5个参数唯一确定。

最小二乘法椭圆拟合是较常用的椭圆拟合方法。最小二乘法是在随机误差为正态分布时,由最大似然法推出的一个最优估计技术,它可使测量误差的平方和最小,因此也被视为从一组测量值中求出一组未知量的最可信赖的方法之一。最小二乘技术主要是寻找参数集合,从而最小化数据点与椭圆之间的距离度量。这里的距离度量常见的有几何距离和代数距离。几何距离表示某点到曲线最近点的距离。平面内某点(x0,y0)到方程f(x,y)=0所代表曲线的代数距离就是f(x0,y0)。以下是以代数距离作为距离度量介绍最小二乘法。

假设一般形式的椭圆方程,为了避免零解,并将解的任何整数倍都视为对同一椭圆的表述,对参数做一些限制,约束条件设为A+C=1。显然,直接应用上述方程对边缘检测后的离散点进行最小二乘处理,就可以得到方程中的各系数。也即,求目标函数的最小值来确定各系数。再由极值原理,可得一个线性方程组,然后运用求解线性方程组的算法(如全主元高斯消去法),结合约束条件,就可以求得方程系数A、B、C、D、E、F的值。

方案选择:最小二乘椭圆拟合算法,由于包含误差较大样本点在内的所有样本点都参与运算,所以会对椭圆拟合的最后结果产生偏差。针对这种情况,采用随机理论的思想,先随机选取6个点拟合椭圆,然后计算与此椭圆匹配的所有样本点个数。重复此过程一定次数,采用投票机制,匹配样本点多的椭圆即为最优椭圆。

根据求得的椭圆参数,使用长半轴作为纵深线和方向指示线,短半轴作为地域线。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1