一种面向基础地理信息异常数据的挖掘方法

文档序号：6548120阅读：257来源：国知局

一种面向基础地理信息异常数据的挖掘方法
【专利摘要】本发明公开了一种面向基础地理信息异常数据的挖掘方法，本发明根据基础地理信息门牌号属性，按照道路数据和非道路数据分别挖掘异常数据，其中道路数据包括距离异常数据和密度异常数据，非道路异常数据主要为距离异常数据。道路距离异常数据以道路点到拟合曲线的距离来判断，密度异常数据的特点是在其一定范围内没有相同属性的数据；非道路异常数据是以重心点为参考，计算每点到重心的距离判断其是否是异常数据。本发明的方法实现了在海量数据中高效、自动挖掘异常数据的功能。
【专利说明】一种面向基础地理信息异常数据的挖掘方法
【技术领域】
[0001]本发明属于地理信息系统统计分析应用领域，涉及一种面向基础地理信息异常数据的挖掘方法，特别是针对具有门牌号属性的海量基础地理数据的挖掘方法。
【背景技术】
[0002]随着经济社会和地理信息技术的高速发展，大量基础数据急剧增长，从海量数据中挖掘有用信息和异常数据成为当务之急。数据挖掘可以当作是一个在海量数据中探索数据间的关系、利用各种分析工具构建数据分析模型，并发现隐藏于数据之中的知识的过程。对海量基础地理数据进行分析，研究异常数据的挖掘方法，使异常对象从其他对象中自动分离出来，并可将异常数据提供给相关部门，检查该地理数据是否符合实际情况。
[0003]异常数据的挖掘方法主要包括基于统计的、基于距离的、基于偏离的和基于聚类的方法等。基础地理数据库中存在大量异常数据，由于数据来源不同或是数据测量和收集的失误，会存在异常数据，导致该数据与实际不符。依靠人工在海量数据中分离异常数据是不科学和不易实现的。客观上有必要根据基础地理信息数据的属性和分布特点，发明一种面向该类数据异常数据的挖掘方法。

【发明内容】

[0004]本发明的目的在于结合数据挖掘理论等相关知识，提供一种面向基础地理信息异常数据的挖掘方法，可以稳健和自动地挖据出其中隐含的异常数据。
[0005]为实现上述目的，本发明的解决方案是:一种面向基础地理信息异常数据的挖掘方法，主要是针对具有门牌号属性的地理数据，综合考虑其属性和地理分布特点。方案设计主要分为两部分，即挖掘道路异常数据和非道路异常数据，包括以下步骤:
[0006]首先由门牌号属性字段值提取道路数据，根据道路特点，将数据采用多项式方式拟合为最佳曲线，按照道路点到曲线的距离以及道路点与道路点的距离，判断该道路点是否异常；然后由门牌号属性字段提取非道路数据，按照非道路数据一般具有集聚性的特点，计算出其重心位置，根据非道路数据与重心点的距离，判断该非道路点是否异常；
[0007]经过第I步和第2步之后，得到异常数据的初步结果，由于得到的初步结果中包含与实际相符的数据，故利用相同属性数据具有集聚性的特点，进一步滤除该结果中的正常地理数据；得到最终异常数据结果。
[0008]换言之，一种面向基础地理信息异常数据的挖掘方法，针对基础地理信息数据按照其门牌号属性分为道路数据和非道路数据，分别挖掘异常数据；其中道路异常数据包括距离异常数据和密度异常数据，非道路异常数据则主要为距离异常数据。
[0009]进一步,包含以下步骤:
[0010]首先由门牌号属性字段值提取道路数据，判断该道路点是否异常；
[0011]然后由门牌号属性字段提取非道路数据，判断该非道路点是否异常；
[0012]经过前述步骤之后，得到异常数据的初步结果，进一步滤除该结果中的正常地理数据；得到最终异常数据结果。
[0013]所述的挖掘道路数据中的距离异常数据为:首先根据道路数据拟合出该道路曲线，然后计算所有点到该拟合曲线的平均距离的二倍，将其作为阈值，判断道路上的每一点到拟合曲线的距离与阈值的关系，若该距离大于阈值，则定义该点为异常点，否则，为正常点；循环所有道路数据之后，得到道路距离异常值。
[0014]所述的挖掘道路数据中的密度异常数据为:首先统计道路上任意相邻两点的距离，然后选定某一值作为阈值；对于道路上的每个点，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点，如果存在，定义该点为正常数据；若不存在，定义该点为异常点；以此为依据，挖掘道路密度异常数据。
[0015]所述的挖掘非道路数据中的距离异常数据为:首先将地理数据按照门牌号属性分组，使具有相同属性的数据分为一组，然后计算非道路数据各分组的重心坐标，之后计算组中所有点到该组重心的平均距离，并以平均距离的二倍作为阈值，判断点到重心的距离与阈值的关系；若所得距离小于阈值，定义该点为正常数据；若所得距离大于阈值，定义该点为异常数据；所有分组循环本操作之后，得到非道路数据的距离异常数据。
[0016]所述的过滤初步异常数据结果中的聚集点为:经过步骤I)和步骤2)之后，得到异常数据的初步结果，对于结果中的每一点，选定某一阈值，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点；如果存在，则在初步异常数据结果中去除该点；如果不存在，则在异常数据结果中保留该点，循环初步异常数据结果中所有点之后，最终得到异常数据的结果。
[0017]由于人为失误或是实际地理数据更新变化，数据库中存储的海量数据存在较多异常数据集，现有技术中仅依靠人工逐一检测异常值，不但浪费人力物力，而且降低工作效率。本发明的方法实现自动挖掘异常数据，在实际生产中具有重要的应用价值。
【专利附图】

【附图说明】
[0018]图1为本发明方法的流程图。
[0019]图2为道路拟合曲线图。
[0020]图3为道路密度异常点图。
[0021]图4为非道路数据的重心位置和距离异常值的阈值图。
[0022]图5为某道路挖掘异常数据的结果图。
[0023]图6为依据本发明的方法挖掘上海市普陀区基础地理数据异常数据结果图。【具体实施方式】
[0024]以下结合附图所示实施例对本发明作进一步的说明。
[0025]请参阅图1，本发明的方法包括以下步骤:
[0026](a)读取基础地理信息；
[0027](b)根据地理数据门牌号属性进行判断是否为道路，若是，转入步骤(C);不然，转入步骤⑷；
[0028](C)道路异常数据包括距离异常数据和密度异常数据，首先，将本道路上的所有点拟合一条曲线，计算道路上的点到该拟合曲线的距离，并确定阈值；判断所得距离是否大于阈值，若是，则得到距离异常点初步结果，转入步骤（e);不然，判断为正常点；
[0029]然后继续对该道路数据统计，统计相邻两点间的距离，确定阈值；判断在道路点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点；若是，判断为正常点；不然，则得到密度异常点初步结果，转入步骤（e);
[0030](d)根据门牌号码属性进行分组，并计算每一分组的重心坐标；计算该区域内所有点到其所在分组的重心的距离，并确定阈值；判断该点到重心的距离是否大于阈值；若是，则得到异常点初步结果，转入步骤（e);不然，判断为正常点；
[0031](e)判断在初步异常点为圆心、阈值为半径的圆的范围内，是否还存在与其属性相同的点；若是，则确定为正常点，在异常点初步结果中删除；不然，判断为异常数据结果。
[0032]进一步，具体来说：
[0033](I)首先由门牌号属性字段值提取道路数据，判断该道路点是否异常；
[0034]对属于道路的地理数据，异常数据包括距离异常数据和密度异常数据。首先挖掘距离异常数据，该类异常数据判别的标准为道路上的点到该道路的距离是否异常，因此需按照多项式方法拟合出与道路走向最接近的曲线，并以确定系数（R-square)作为依据。实验中以最小二乘法的原则拟合出道路函数曲线，由道路地理数据X、Y坐标拟合直线的误差方程式可列为：
[0035]
【权利要求】
1.一种面向基础地理信息异常数据的挖掘方法，其特征在于:针对基础地理信息数据按照其门牌号属性分为道路数据和非道路数据，分别挖掘异常数据；其中道路异常数据包括距离异常数据和密度异常数据，非道路异常数据则主要为距离异常数据。
2.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法，其特征在于: 包含以下步骤: 1)首先由门牌号属性字段值提取道路数据，判断该道路点是否异常； 2)然后由门牌号属性字段提取非道路数据，判断该非道路点是否异常； 3)经过步骤I)和步骤2)之后，得到异常数据的初步结果，进一步滤除该结果中的正常地理数据； 4)得到最终异常数据结果。
3.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法，其特征在于:所述的挖掘道路数据中的距离异常数据为:首先根据道路数据拟合出该道路曲线，然后计算所有点到该拟合曲线的平均距离的二倍，将其作为阈值，判断道路上的每一点到拟合曲线的距离与阈值的关系，若该距离大于阈值，则定义该点为异常点，否则，为正常点；循环所有道路数据之后，得到道路距离异常值。
4.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法，其特征在于:所述的挖掘道路数据中的密度异常数据为:首先统计道路上任意相邻两点的距离，然后选定某一值作为阈值；对于道路上的每个点，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点，如果存在，定义该点为正常数据；若不存在，定义该点为异常点；以此为依据，挖掘道路密度异常数据。
5.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法，其特征在于:所述的挖掘非道路数据中的距离异常数据为:首先将地理数据按照门牌号属性分组，使具有相同属性的数据分为一组，然后计算非道路数据各分组的重心坐标，之后计算组中所有点到该组重心的平均距离，并以平均距离的二倍作为阈值，判断点到重心的距离与阈值的关系；若所得距离小于阈值，定义该点为正常数据；若所得距离大于阈值，定义该点为异常数据；所有分组循环本操作之后，得到非道路数据的距离异常数据。
6.根据权利要求2所述的面向基础地理信息异常数据的挖掘方法，其特征在于:所述的过滤初步异常数据结果中的聚集点为:经过步骤I)和步骤2)之后，得到异常数据的初步结果，对于结果中的每一点，选定某一阈值，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点；如果存在，则在初步异常数据结果中去除该点；如果不存在，则在异常数据结果中保留该点，循环初步异常数据结果中所有点之后，最终得到异常数据的结果。
【文档编号】G06F17/30GK104035985SQ201410236076
【公开日】2014年9月10日申请日期:2014年5月30日优先权日:2014年5月30日
【发明者】乔刚, 米环, 毛炜青, 吴张峰, 叶文凯, 陆赛赛, 邓讯, 王伟, 王聪, 李海申请人:同济大学, 上海市测绘院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔刚;米环;毛炜青;吴张峰;叶文凯;陆赛赛;邓讯;王伟;王聪;李海
技术所有人：同济大学;上海市测绘院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。