一种空气质量数据缺失值插补方法及装置

文档序号:26947387发布日期:2021-10-12 19:56阅读:245来源:国知局
一种空气质量数据缺失值插补方法及装置

1.本发明涉及数据处理领域,尤其涉及一种空气质量数据缺失值插补方法及装置。


背景技术:

2.为了实时监测空气质量,近年来一些空气质量监测站相继成立 ,然而特别是在早期,这些数据集中有许多缺失的记录,现有的空气质量数据缺失值的插补方法通常使用基于回归的方法、地统计方法和机器学习方法。基于回归的方法可能会导致过拟合问题,地统计方法的计算中没有对最小估计误差进行约束,而机器学习方法需要大量的空气质量数据来训练且缺乏明确定义统计参数的机制含义,现有的三种方法对于插补空气质量数据的缺失值的准确度都不够,所以本领域急需一种能够准确插补空气质量数据缺失值的方法。


技术实现要素:

3.本发明提供一种空气质量数据缺失值插补方法及装置,以至少解决现有技术中存在的以上技术问题。
4.本发明一方面提供一种空气质量数据缺失值插补方法,包括:获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段的中包含该第一时间点;分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性;根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
5.其中,所述从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,包括:将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
将第二时间点到第三时间点确定为第二预设时段;从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
6.其中,所述计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,还包括:分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
7.其中,所述根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性,包括:计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
8.其中,所述根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,包括:将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
9.本发明另一方面提供一种空气质量数据缺失值插补装置,包括:采集模块,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;查找模块,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;处理模块,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;计算模块,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;所述计算模块,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;所述计算模块,还用于根据多个第三空气质量数据序列与第一空气质量数据序列
计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;所述计算模块,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;所述计算模块,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
10.其中,所述处理模块,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;所述处理模块,还用于将第二时间点到第三时间点确定为第二预设时段;所述处理模块,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
11.其中,所述计算模块,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
12.其中,所述计算模块,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;所述计算模块,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
13.其中,所述计算模块,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;所述计算模块,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;所述计算模块,还用于将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;所述计算模块,还用于根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
14.在本发明上述方法中,通过找出与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个第三空气质量序列,再根据多个第三空气质量序列计算与缺失空气质量数据所在的第一空气质量序列的协方差和统计偏性,充分考虑了与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个数据,并通过协方差和统计偏性计算出该缺失空气质量数据,使得计算出的缺失空气质量数据的误差更小,提高了插补空气质量数据的缺失值的准确度。
附图说明
15.图1示出了本发明一实施例提供的空气质量数据缺失值插补方法流程示意图;图2示出了本发明一实施例提供的计算第一空气质量数据序列中第一时间点对应的空气质量数据的示意图;图3示出了本发明一实施例提供的空气质量数据缺失值插补装置结构示意图。
具体实施方式
16.为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
17.为了准确地插补空气质量数据中的缺失值,如图1所示,本发明一实施例提供了一种空气质量数据缺失值插补方法,该方法包括:步骤101,获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量。
18.获取多个空气质量数据集,该多个空气质量数据集都是由不同地点的空气污染监测站在第一预设时段内采集的空气质量数据所组成的,每个空气质量数据集中包含第一预设时段内每个小时该地点的空气质量数据。
19.步骤102,遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点。
20.由于空气质量数据集中有许多缺失的空气质量数据,遍历这些空气质量数据集,找出这些空气质量数据集中所有缺失空气质量数据对应的多个第一时间点;例如在对应奥林匹克公园站的空气质量数据集中的5月13号0时的空气质量数据是缺失的,那么将5月13号0时确定为第一时间点。
21.步骤103,对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点。
22.在找到第一时间点后,对于每一个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,第二预设时段要包含该第一时间点;例如,某个第一时间点为5月13号0时,该第一时间点缺失的空气质量数据在对应奥林匹克公园站的空气质量数据集中,那么从对应奥林匹克公园站的空气质量数据集中提取出第二预设时段内的空气质量数据作为第一空气质量数据序列,从除了对应奥林匹克公园站的空气质量数据集外的每个空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
23.在步骤103中,从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,在一可实施方式中,将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;将第二时间点到第三时间点确定为第二预设时段;从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空
气质量数据,得到多个第二空气质量数据序列。
24.例如,某个第一时间点为5月13日0时,预设时长为10小时,那么将该第一时间点往前延伸10小时,得到第二时间点5月12日14时,将该第一时间点往后延伸10小时,得到第三时间点5月13日10时,将5月12日14时到5月13日10时确定为第二预设时段,从对应奥林匹克公园站的空气质量数据集中提取出5月12日14时到5月13日10时内的空气质量数据作为第一空气质量数据序列,从除了对应奥林匹克公园站的空气质量数据集外的每个空气质量数据集中提取5月12日14时到5月13日10时内的空气质量数据,得到多个第二空气质量数据序列。
25.步骤104,分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列。
26.分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,并将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列,由于第二空气质量数据序列和第一空气质量数据序列都是在第一时间点的前后预设时段内的数据,且选取相关性最高的多个第二空气质量数据序列确定为第三空气质量数据序列,充分考虑了空气质量数据在空间和时间上的相关性,提高了最后结果的准确度。
27.步骤105,计算多个第三空气质量数据序列中两两序列之间的多个第一协方差。
28.将上一步确定的多个第三空气质量数据序列两两序列之间进行计算协方差,得到多个第一协方差。
29.在步骤105中,计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,在一可实施方式中,分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
30.步骤106,根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
31.在步骤106中,根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,在一可实施方式中,计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
32.例如,有5个第三空气质量数据序列,分别计算这5个第三空气质量数据序列中空气质量数据的均值,分别为12、14、15、12、13,再计算第一空气质量数据序列中空气质量数据的均值为10,分别将这5个第三空气质量数据序列对应的均值除以第一空气质量数据序列对应的均值,得到这5个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,分别为1.2、1.4、1.5、1.2、1.3。
33.步骤107,根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重。
34.在步骤107中,根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,在一可实施方式中,将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
35.例如,将第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵,将第二协方差转置矩阵和1组成第二矩阵,根据以下公式计算每个第三空气质量数据序列的权重:其中,为拉格朗日系数。
36.步骤108,根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
37.如图2所示,图中有三个第三空气质量数据序列,该三个第三空气质量数据序列中第一时间点对应的空气质量数据分别为、和,权重分别为、和,那么第一空气质量数据序列中第一时间点对应的空气质量数据则可以根据以下公式计算:例如,有5个第三空气质量数据序列,这5个第三空气质量数据序列对于第一空气质量数据序列的权重分别为0.2、0.3、0.1、0.1、0.3,这5个第三空气质量数据序列对应第一时间点的空气质量数据分别为14、17、12、19、9,那么第一空气质量数据序列中第一时间点对应的空气质量数据的估计值为0.2*14+0.3*17+0.1*12+0.1*19+0.3*9,得到13.7,将13.7作为第一空气质量数据序列中第一时间点对应空气质量数据。
38.在本发明上述方法中,通过找出与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个第三空气质量序列,再根据多个第三空气质量序列计算与缺失空气质量数据所在的第一空气质量序列的协方差和统计偏性,充分考虑了与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个数据,并通过协方差和统计偏性计算出该缺失空气质量数据,使得计算出的缺失空气质量数据的误差更小,提高了插补空气质量数据的缺失值的准确度。
39.本发明一实施例还提供了一种空气质量数据缺失值插补装置,如图3所示,该装置包括:采集模块10,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;查找模块20,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;处理模块30,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集
中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;计算模块40,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;所述计算模块40,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;所述计算模块40,还用于根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;所述计算模块40,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;所述计算模块40,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
40.其中,所述处理模块30,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;所述处理模块30,还用于将第二时间点到第三时间点确定为第二预设时段;所述处理模块30,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
41.其中,所述计算模块40,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
42.其中,所述计算模块40,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;所述计算模块40,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
43.其中,所述计算模块40,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;所述计算模块40,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;所述计算模块40,还用于将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;所述计算模块40,还用于根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
44.除了上述方法和设备以外,本技术的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
45.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执
行本技术实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
46.此外,本技术的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
47.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
48.以上结合具体实施例描述了本技术的基本原理,但是,需要指出的是,在本技术中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本技术为必须采用上述具体的细节来实现。
49.本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
50.还需要指出的是,在本技术的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
51.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本技术的范围。因此,本技术不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
52.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1