一种空间数据属性补全方法与流程

文档序号:35626239发布日期:2023-10-05 22:51阅读:30来源:国知局
一种空间数据属性补全方法与流程

本发明涉及空间数据处理,尤其涉及一种空间数据属性补全方法。


背景技术:

1、数据缺失是各研究领域一个很常见的问题,因诸多因素的不确定性,导致这种现象在现实生活中难以避免,同时,基础数据质量决定着研究成果准确与否,为了给科学研究提供准确的基础数据,开展数据缺失值的分析与研究非常具有理论和现实意义。多年来,对于数据缺失值补全的方法研究一直以来都是学者们研究的热门方向。2021年,徐文权通过对交通数据的挖掘,提取路网的空间特征和流量数据的时间特征,同时还捕获了不同类型数据之间的相关性信息,对缺失的数据进行有效的恢复,为智能交通系统中基于交通数据的应用提供有效的数据完整性支撑。2022年,杨哲通过实验对gan-trti模型和均值填充法、knn填充法、缺失森林填充法等方法进行了对比分析,实验表明gan-trti模型具有更好的填充性能。2023年周楚昊等提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(seq2seq-att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。现阶段,数据补全方法常用机器学习方法,其需要大量训练样本,前期样本标记需要耗费大量人力物力,样本决定模型精度和适用性。

2、目前,空间数据缺失值主要从空间关联性、时间关联性和时空关联性分析后进行补全。大多数学者都采用同时考虑时间和空间关联性研究方法,以至于提高数据补全效果。如公开号为cn114330146a的专利申请公开了一种卫星气体数据补全方法和系统,以及公开号为cn114756727a的专利申请公开了一种获得数据补全模型、数据补全的方法、装置及介质。对数据补全使用训练机器学习模型,待模型稳健后对数据缺失值进行补全。但是,空间数据属性缺失值补全通常具有很强的地域性,比如说岩性、土壤类型、土壤指标等,需要考虑到相邻要素位置和分布情况。鉴于邻近的空间数据具有相同或者相似空间特征,因此需要提出一种空间数据属性补全方法,以克服现有技术存在的不足。


技术实现思路

1、本发明的主要目的是提出一种空间数据属性补全方法,旨在解决上述技术问题。

2、为实现上述目的,本发明提出一种空间数据属性补全方法,包括以下步骤:

3、s1、数据准备:所述数据包括长时间序列空间数据中的本期空间数据和上一期空间数据,其中本期数据为待补全数据;

4、s2、获取本期空间数据的内部点:计算本期空间数据中各要素栅格单元尺寸,将其要素栅格化,统计每个要素栅格化单元数量,计算出栅格单元数量的中位数,提取中位数栅格单元,并将其中心点位置转换为点要素作为本期要素内部点;

5、s3、空间关联:将步骤s2中获取的本期空间数据的内部点与上一期空间数据进行空间关联,有空间位置重叠的记录为1,无空间位置重叠的记录为0;对于存在空间位置重叠的内部点,直接继承上一期空间数据属性值,完成对本期空间位置重叠的内部点的属性值补全,将内部点属性挂接到本期空间数据上,获得第一次数据补全结果;对于无空间位置重叠的内部点,分别读取记录本期空间数据和上一期空间数据内各要素结点集合和标识码,设置本期要素需要参照邻近上一期要素的个数n,通过距离公式,采用遍历方式,分别计算出本期要素与上一期各要素最小距离值,通过升序排序,保留前n条记录,循环上述遍历步骤获得本期要素邻近上一期要素集合,分别挂接本期要素和上一期要素属性表,删除类别不一致记录行,对余下记录进行核对补全,获得第二次数据补全结果;

6、s4、补全结果合并:将步骤s3中获得的第一次数据补全结果与第二次数据补全结果进行合并,得到最终空间数据属性补全结果。

7、优选的,在步骤s2中,计算本期空间数据中各要素栅格单元尺寸时,单独计算各要素栅格化单元尺寸,栅格单元尺寸采用以下公式进行计算:

8、cellsize=int((sqr(tbmj)-1)/2),

9、其中:tbmj为要素的面积;

10、在步骤s2中,对数据进行栅格化后统计栅格单元标识码频数,当存在频数与本期要素总数不一致时,筛选出未被栅格化要素,调整栅格单元尺寸,调整数为原来栅格单元尺寸的一半再次进行栅格化,获得本期栅格数据。

11、优选的,在步骤s2中,在进行栅格化时,采用扫描线种子点填充算法实现矢量数据栅格化,包括如下步骤:

12、s201、选择一个种子点seed(x,y),并将其存入栈内;

13、s202、若栈已空,算法结束,否则执行步骤s203;

14、s203、从栈中取出要填色的像素,对在同一扫描线上与该点相连的所有需要填色的点进行填色操作,记下进行填色的最左位置xleft和最右位置xright;

15、s204、对步骤s203的上一行和下一行扫描,在xleft≤x≤xright范围内,考察是否全是边界点或已被填色的点,若不完全是,则将要填色的每一段最右位置作为新的种子点存入栈;

16、s205、返回步骤s202。

17、优选的,在步骤s2中,在计算栅格单元数量的中位数时,以每个栅格为单位,按栅格单元中心矢量化为点要素的方式,每个栅格单元矢量化后形成的一个点,其计算公式如下:

18、x=x0+(j-0.5)*dx

19、y=y0+(i-0.5)*dy

20、其中:x0,y0为左上角原点坐标,dx,dy为栅格单元的两边边长。

21、优选的,在步骤s2中,在获得本期要素内部点时,对各要素栅格化单元进行自增编码,按照公式median=int((frequency/2)+0.5)计算获得要素内部栅格单元数量的中位数,提取获得要素内部点,其中frequency为本期各要素被栅格化后的栅格单元数量。

22、优选的,在步骤s3中,对于无空间位置重叠的内部点,分别读取本期再次补全数据和上一期数据轮廓点坐标,记录包括要素id和x,y坐标,记录如下:

23、r={id,(x1,y1),(x2,y2),…,(xn,yn)};

24、sa={1,(x1,y1),(x2,y2),…,(xn,yn);2,(x1,y1),(x2,y2),…(xn,yn);...;k,(x1,y1),(x2,y2),…(xn,yn)};

25、fa={1,(x1,y1),(x2,y2),…,(xn,yn);2,(x1,y1),(x2,y2),…(xn,yn);...;w,(x1,y1),(x2,y2),…(xn,yn)};

26、式中,r为每个要素记录形式,id为要素标识码,n为要素节点数量,sa和fa分别关联记录为0的本期补全数据和上一期数据,k,w分别为两期要素个数。

27、优选的,在步骤s3中,进行升序排序时,包括以下步骤:

28、s301、将初始待排序序列(r1,r2…rn)创建为大顶堆,其为初始的无序堆;

29、s302、将堆顶元素r[1]与最后一个元素r[n]交换,得到新的无序区(r1,r2,……rn-1)和有序区(rn),且满足r[1,2…n-1]<=r[n];

30、s303、交换后新的堆顶r[1]可能违反堆的性质,因此需要对当前无序区(r1,r2,……rn-1)调整为新堆,然后再次将r[1]与无序区最后一个元素交换,得到新的无序区(r1,r2…rn-2)和有序区(rn-1,rn),重复此过程直到有序区的元素个数为n-1,则整个排序过程完成。

31、由于采用了上述技术方案,本发明的有益效果如下:

32、(1)本发明根据时序空间数据缺失情况,结合邻近空间数据分布,采用地理信息数据处理和分析技术,通过输入本期数据(即待补全数据)和上一期数据,根据两期数据空间位置重叠,快速地实现空间数据属性初次补全工作,然后再对无空间位置重叠的待补全数据分析其与上一期数据邻近关系,设置邻近参考上一期要素个数,生成空间位置邻近关联表,经分析核实后确定补全内容,最后合并生成最终补全数据,为空间数据管理分析和应用提供准确数据支撑。

33、(2)在本发明中,在考虑互相邻近的空间对象具有相同或相似的属性特征条件下,分情况分步骤采用不同补全方法对数据进行补全,最终获得补全数据,形成了一种空间数据属性补全方法,有利于实现空间数据属性内容自动补全,降低了用户入门门槛。本发明方法可以快速实现矢量点、线和面要素的属性自动补全,为空间数据管理和分析应用提供准确完整的数据支持。

34、(3)该方法既考虑了空间数据之间拓扑关系又提供设置邻近要素个数接口形成了一种空间数据属性补全方法,得到准确完整的数据集,使得补全结果更符合实际,在多期数据缺失情况下同样适用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1