用于估计时空数据的设备和方法与流程

文档序号:11323495阅读:166来源:国知局
用于估计时空数据的设备和方法与流程

本申请涉及数据分析领域,具体涉及一种用于估计时空数据的设备和方法。



背景技术:

大气等污染受扩散条件、地理环境等因素影响,其成因复杂多样。然而,基于移动监测设备的数据采集无法覆盖所有的时间空间。因此,如何对缺失记录进行补全并使之用于更准确的污染浓度预测和原因追溯,成为了一个主要问题。

现有的时空数据插值方法基于不同数学模型,并且通常结合时序列分析方法和空间插值算法。例如,参考文献1(cn104680021a)提出了一种融合时空信息的气温缺失记录重建(即插值)方法,该方法在数据建模中考虑了气温的时空分布特性。其主要步骤包括:

-对气温时序列数据进行预处理,缺失值采用特定的符号表示;

-计算未缺失气温记录的残差,并采用克里金(kriging)方法进行空间插值,估计缺失记录的残差项;

-对气温时间序列进行时序列插值,以估计缺失记录的气温趋势项;

-综合缺失记录的气温残差项和气温趋势项,实现缺失气温记录的重建。

然而,上述方案的计算负荷较大。同时,当缺失数据在时空上呈散在特性(即时间上非连续,空间上不相邻)的数据较多时,上述方案的计算准确度较低。



技术实现要素:

本发明提出了一种基于时空动态性特征分析来估计缺失数据的方法。时空动态性是指,例如某个观测点的监测值的变化与它周围点(空间上)在临近时刻(时间上)监测值的变化之间的关联性。本发明的主要思想在于:通过计算在时间和空间邻域互相影响的条件下,数据监测点间的监测值的变化概率来估算缺失数据。

具体地,根据本发明的一个方面,提供了一种用于估计时空数据的设备,包括:预处理单元,被配置为将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;概率计算单元,被配置为基于划分级别后的数据来计算各个级别之间的时空变化概率;以及估计单元,被配置为基于所述均值和所述时空变化概率来估计时空数据。

在一个实施例中,预处理单元被配置为:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。

在一个实施例中,概率计算单元被配置为:计算时空数据的空间权重矩阵;基于所述空间权重矩阵,计算空间延迟算子;以及基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。

在一个实施例中,概率计算单元基于空间点的邻接关系或距离来计算所述空间权重矩阵。

在一个实施例中,概率计算单元通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。

根据本发明的另一个方面,提供了一种用于估计时空数据的方法,包括:将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;基于划分级别后的数据来计算各个级别之间的时空变化概率;以及基于所述均值和所述时空变化概率来估计时空数据。

在一个实施例中,将时空数据进行排序并划分为若干级别包括:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。

在一个实施例中,计算各个级别之间的时空变化概率包括:计算时空数据的空间权重矩阵;基于所述空间权重矩阵,计算空间延迟算子;以及基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。

在一个实施例中,基于空间点的邻接关系或距离来计算所述空间权重矩阵。

在一个实施例中,通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。

本发明考虑到时空数据之间的时空变化的关联性,即使当缺失记录在时空上呈散在特性(即时间上非连续,空间上不相邻)的缺失数据较多时,也能保证估算值的准确度。此外,本发明的技术方案的计算复杂度较低,更易于实现。

附图说明

通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:

图1是示出了根据本发明一个实施例的用于估计时空数据的设备的框图。

图2-6是示出了根据本发明一个实施例的时空数据的估计示例的示意图。

图7是示出了根据本发明一个实施例的用于估计时空数据的方法的流程图。

具体实施方式

下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。

图1是示出了根据本发明一个实施例的用于对时空序列数据进行分类/预测的设备10的框图。如图1所示,设备10包括预处理单元110、概率计算单元120和估计单元130。

预处理单元110将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值。在本申请中,时空数据是指同时具有时间和空间维度的数据,例如大气污染监测数据,交通流量数据等。

下面,结合图2-4来描述预处理单元110的一个示例操作。在此示例中,预处理单元110计算图2左半部分的所有时空数据的平均值,结果是100.1。然后,预处理单元110将各个时空数据除以所述平均值,以获得标准化的时空数据,如图2右半部分所示。

之后,预处理单元110对标准化的时空数据进行排序并划分为若干级别。优选地,预处理单元110对标准化的数据进行分位处理,使得每个分位(下文也称为“级别”)的数据量相同,以保证概率计算的准确性(下文详述)。例如,预处理单元110可以把数据进行五分位(即,把所有数据值由小到大排列,并分成五等份,处于四个分割点位置的数值就是五分位数),如图3所示。

进一步地,预处理单元110计算各分位(级别)的均值,即落在不同分位(级别)间所有数据实际值的均值,如图4所示。

回到图1,概率计算单元120基于划分级别后的数据来计算各个级别之间的时空变化概率。在一个实施例中,概率计算单元120的具体操作如下。

首先,概率计算单元120计算时空数据的空间权重矩阵w。该空间权重矩阵w可以表示如下:

其中,空间权重ω可以基于邻接关系或者距离来计算。

然后,概率计算单元120基于空间权重矩阵w计算空间延迟算子()。空间延迟算子表示空间点(zi)的变量值受邻近点(zj)的变量值的影响,其计算公式如下:

接下来,概率计算单元120基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。作为示例,概率计算单元120构建马尔可夫链,得到当目标点的空间邻接点处于不同级别时该目标点的级别变化的概率。

其中,

表示空间邻接点处于k级别时,目标点的级别的变化概率,其计算方式如下:

其中,

表示在整个期间内,所有与观测值为级别k的空间点为邻的空间点中,某时刻观测值属于级别i的空间点在下一时刻转移为级别j的空间点数量点之和,

表示所有时刻中观测值属于级别i且有与观测值为级别k的空间点为邻的空间点数量之和。

作为示例,图5示出了监测点的pm2.5浓度监测数据之间的时空变化概率的计算结果。

回到图1,估计单元130基于之前计算得到的均值和时空变化概率来估计(缺失的)时空数据。该估计结果取决于空间邻接点的级别状态及其所对应的变化概率。假设待估算的缺失值为uvalue,i为待估算点前一临近时刻的级别,估计单元130可以采用以下公式来进行估计:

其中,

表示邻接监测点的级别为m时的个数;

表示邻接监测点的级别为m时,目标监测点从级别l到j的变化概率;

xj表示j分位(级别)上的所有数据的实际值的均值。

图6示出了估计缺失值的一个示意图。如图6所示,目标点u的前一临近时刻(t-1)的级别为i=4,与其空间一阶相邻的观测点的级别分别为5,4,4,3。从图5的计算结果中,可以查找到相应的概率如下:

那么,估计单元130可以根据以上公式(4),将该点在t时刻的缺失值uvalub估计为:

uvalue=[(0.03*23十0.09*65十0.25*109十0.51*168十0.13*302)*1

+(0.03*23+0.07*65+0.22*109+0.54*168+0.15*302)*2

+(0.04*23+0.09*65+0.16*109+0.45*168+0.26*302)*1]/4≈167

本发明的实施例通过考虑时空数据之间的时空变化的关联性,能够在时间上非连续、空间上不相邻的缺失值较多时保证估算值的准确度。此外,本发明的实施例的计算复杂度较低,易于实现。

图7是示出了根据本发明一个实施例的用于估计时空数据的方法的流程图。如图7所示,方法700在步骤s710处开始。

在步骤s720,将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值。在本申请中,时空数据是指同时具有时间和空间维度的数据,例如大气污染监测数据,交通流量数据等。

优选地,将时空数据进行排序并划分为若干级别可以通过以下方式来实现:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。

在步骤s730,基于划分级别后的数据来计算各个级别之间的时空变化概率。优选地,计算时空数据的空间权重矩阵。基于所述空间权重矩阵,计算空间延迟算子。基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。

优选地,空间权重矩阵可以基于空间点的邻接关系或距离来计算。优选地,通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。例如,可以根据上述公式(1)-(3)来计算,此处不再赘言。

回到图7,在步骤s1340,基于所述均值和所述时空变化概率来估计时空数据。例如,可以根据上述公式(4)来估计时空数据,此处不再赘言。

最后,方法700在步骤s750处结束。

应该理解,本发明的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,上述实施例中的系统内的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路、数字电路、通用处理器、数字信号处理(dsp)电路、可编程处理器、专用集成电路(asic)、现场可编程门阵列(fpga)、可编程逻辑器件(cpld),等等。

另外,本领域的技术人员可以理解,本发明实施例中描述的初始参数可以存储在本地数据库中,也可以存储在分布式数据库中或者可以存储在远程数据库中。

此外,这里所公开的本发明的实施例可以在计算机程序产品上实现。更具体地,该计算机程序产品是如下的一种产品:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作以实现本发明的上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如cd-rom)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个rom或ram或prom芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。

尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1