用于对时空序列数据进行分类/预测的设备和方法与流程

文档序号:11063503阅读:609来源:国知局
用于对时空序列数据进行分类/预测的设备和方法与制造工艺

本申请涉及数据分析领域,具体涉及一种用于对时空序列数据进行分类/预测的设备和方法。



背景技术:

环境、气象、交通、经济等多个领域积累了海量的时空序列数据。时空序列通常描述某一变量在不同空间位置上随时间的变化。例如,北京市35个空气监测站点某天24小时的PM2.5浓度值。时空序列建模旨在描述时空变量间的相关关系,进而通过这种关系对时空序列的某些值进行分类或者对未来值进行预测。

极限学习机(Extreme learning machines,ELM)是一种新型神经网络算法,最早由HuangGuangbin于2004年提出。与传统神经网络相比,ELM的训练速度快,需要人工干扰较少。参考文献1(“Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:A new learning scheme of feedforward neural networks[J].Proc.int.jointConf.neuralNetw,2006,2:985--990.”)中描述了ELM算法的基本流程。

然而,现有的极限学习机虽然可以对时空序列建模,但是不能反映出数据集中的时空特性,没有考虑地理上的异构性,因此分类或预测的精度不够好。



技术实现要素:

本发明提出了一种利用地理加权极限学习机(Geographically Weighted Extreme Leaning Machine,GWELM)的技术方案,在建模过程中考虑地理上的异构性,将地理位置转化为局部加权系数,从而能够更好地应用于时空序列数据。

根据本发明的一个方面,提供了一种用于对时空序列数据进行分类/预测的设备,包括:接收单元,被配置为接收时空序列数据;建模单元,被配置为基于时空序列数据产生与地理上的异构性有关的权重参数,并基于所产生的权重参数构建用于分类/预测的模型;以及分类/预测单元,被配置为采用所构建的用于分类/预测的模型对时空序列数据进行分类/预测。

在一个实施例中,所述建模单元包括:空间距离矩阵构建子单元,被配置为基于时空序列数据构建空间距离矩阵;空间权重矩阵构建子单元,被配置为针对每个空间位置分别选择至少两个不同的权重参数,以构建相应的空间权重矩阵;模型输出权值计算子单元,被配置为基于相应的空间权重矩阵来计算相应的模型输出权值;以及选择子单元,被配置为选择与产生最小代价值的权重参数相对应的输出权值,作为最终的模型输出权值。

在一个实施例中,所述空间距离矩阵是高斯空间距离矩阵,所述空间权重矩阵是高斯空间权重矩阵。

在一个实施例中,所述至少两个不同的权重参数是从最小空间距离至最大空间距离的范围中选择的。优选地,所述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中线性选择。备选地,所述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中随机选择。

根据本发明的另一个方面,提供了一种用于对时空序列数据进行分类/预测的方法,包括:接收时空序列数据;基于时空序列数据产生与地理上的异构性有关的权重参数;基于所产生的权重参数构建用于分类/预测的模型;以及采用所构建的用于分类/预测的模型对时空序列数据进行分类/预测。

在一个实施例中,基于时空序列数据构建空间距离矩阵。针对每个空间位置分别选择至少两个不同的权重参数,以构建相应的空间权重矩阵。基于相应的空间权重矩阵来计算相应的模型输出权值。然后,选择与产生最小代价值的权重参数相对应的输出权值,作为最终的模型输出权值。

在一个实施例中,所述空间距离矩阵是高斯空间距离矩阵,所述空间权重矩阵是高斯空间权重矩阵。

在一个实施例中,所述至少两个不同的权重参数是从最小空间距离至最大空间距离的范围中选择的。优选地,所述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中线性选择。备选地,所述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中随机选择。

本发明提出的地理加权极限学习机考虑到地理空间的异构性,能够提高对时空序列数据进行分类或预测的精度。

附图说明

通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:

图1是示出了根据本发明一个实施例的用于对时空序列数据进行分类/预测的设备的框图。

图2是示出了根据本发明一个实施例的时空序列数据的表格。

图3是示出了图1中所示的建模单元的框图。

图4是示出了根据本发明一个实施例的时空序列数据的示意图。

图5是示出了根据本发明一个实施例的模型的示意图。

图6是示出了根据本发明一个实施例的时空序列数据的示意图。

图7是示出了根据本发明一个实施例的构建空间距离矩阵的示意图。

图8是示出了根据本发明一个实施例的模型的示意图。

图9是示出了根据本发明一个实施例的模型的示意图。

图10是示出了根据本发明一个实施例的模型的示意图。

图11是示出了根据本发明另一个实施例的用于对时空序列数据进行分类/预测的方法的流程图。

具体实施方式

下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。

图1是示出了根据本发明一个实施例的用于对时空序列数据进行分类/预测的设备10的框图。如图1所示,设备10包括接收单元110、建模单元120和分类/预测单元130。

接收单元110接收时空序列数据。在本申请中,时空序列数据是指一组具有时间和空间特征的数据。可以将时空序列数据定义为:

Z={zs(t),s∈S,t∈T},

其中,s表示空间位置,t表示时间,zs(t)表示t时刻空间位置s的属性值,S表示时空序列所涉及的空间区域,T表示时空序列所涉及的时间范围。图2是示出了根据本发明一个实施例的时空序列数据的表格,其中,以均匀采样的格网数据为例示出了时空序列数据。例如,如图2中所示,当s=(2,4)且t=1时,z=10,即变量z在t=1时刻第2行第4列位置上的值为10。因此,时空序列数据为所有空间单元在1至T时刻属性值构建的时间序列集合。

建模单元120基于时空序列数据产生与地理上的异构性有关的权重参数,并基于所产生的权重参数构建用于分类/预测的模型。下面,参考图3来详细描述建模单元120的操作。

图3是示出了图1中所示的建模单元120的框图。如图3所示,建模单元120包括空间距离矩阵构建子单元1210、空间权重矩阵构建子单元1220、模型输出权值计算子单元1230和选择子单元1240。

空间距离矩阵构建子单元1210基于时空序列数据构建空间距离矩阵M。参考附图4,其中示出了个数为n=6的时空序列数据,假设每个时间序列的长度为k。相应地,空间距离矩阵M为:

其中,表示i和j点之间的距离

空间权重矩阵构建子单元1220针对每个空间位置分别选择至少两个不同的权重参数,以构建相应的空间权重矩阵。例如,空间权重矩阵构建子 单元1220可以针对空间位置i,构建不同的权重参数c下的高斯空间权重矩阵W:

其中,wij=exp(-(dij/c))

c∈{c1,c2,…,cm},c的取值范围在最小的dij和最大的dij之间。

由于每个空间位置进行了k次观测,为了方便后续计算,可以进一步定义混合空间权重矩阵

优选地,上述空间距离矩阵可以是高斯空间距离矩阵,上述空间权重矩阵可以是高斯空间权重矩阵。

模型输出权值计算子单元1230基于相应的空间权重矩阵来计算相应的模型输出权值。首先,模型输出权值计算子单元1230获取模型的输入权值与偏置,这些值可以是随机给定的。图5是示出了根据本发明一个实施例的模型的示意图。从图5中可以看出,模型的输入权值包括a1、a2、…a1,模型的偏置包括b1、b2、…b1。可以参考传统ELM算法来获得上述输入权值与偏置。另外,模型输出权值计算子单元1230计算隐含层输入矩阵H:

Hnk×lβl=onk

在此基础上,模型输出权值计算子单元1230求解模型的输出权值的加权最小二乘范数解使以下代价函数最小化:

从而求解得到相应的

其中,Z为真实值,o为模型输出值。

选择子单元1240选择与产生最小代价值的权重参数相对应的输出权值,作为最终的模型输出权值。即,选择子单元1240选择与最优拟合对应的权重参数c所对应的模型,作为空间位置i的最终模型。例如,对于空间位置i,计算不同的权重参数c1,c2,…,cm中对应的最小CV值:

并以此来选择最终的模型。

回到图1,分类/预测单元130采用建模单元120所构建的模型,对时空序列数据进行分类/预测。最后,输出分类或预测的结果,例如未来时刻的空气质量、天气情况等。

下面,结合附图6-10来描述图1所示的设备10的一个具体应用示例。

图6是示出了根据本发明一个实施例的时空序列数据的示意图。例如,该时空序列数据可以是:

即,空间上有p1至p6六个位置,每个位置对应一个长度为6的时间序列(T=1-6)。每个位置都有两个特征向量x1、x2,这里假设它们对所有位置的值是相同的:

因此,空间距离矩阵构建子单元1210可以按照图7所示的方式来构建空间距离矩阵M:

下面以空间位置i=3(p3)为例,说明如何建立GWELM模型。

对于空间位置p3,权重参数c分别选取不同的c1,c2,…,cm。优选地,权重参数是在从最小距离至最大距离的范围中线性选择的:

cmin=min(dij),cmax=max(dij) (i=1,…,n;j=1,…,n;i≠j)

其中,m表示权重参数的个数。该选择策略的优点是可以较快地得到最优解。

备选地,可以采用其他策略来选择权重参数c。例如,可以按照随机的方式从最小距离至最大距离的范围中选择权重参数c。

假设m=6,则相应的权重参数c计算如下:

cmin=1.4,cmax=3.6

c1=1.40;c2=1.84;c3=2.28;c4=2.72;c5=3.16;c6=3.60

空间权重矩阵构建子单元1220针对空间位置i=3,构建不同权重参数下的高斯空间权重矩阵:

Wi,c=diag(wi1,wi2,…,wi6)

其中,wij=exp(-(dij/c)2)

当c1=1.40时,W3,1.40=diag(0.08,0.36,1,0.13,0.36,0.36)

当c2=1.84时,W3,1.84=diag(0.23,0.55,1,0.31,0.55,0.55)

当c3=2.28时,W3,2.28=diag(0.38,0.68,1,0.46,0.68,0.68)

当c4=2.72时,W3,2.72=diag(0.51,0.76,1,0.58,0.76,0.76)

当c5=3.16时,W3,3.16=diag(0.61,0.82,1,0.67,0.82,0.82)

当c6=3.60时,W3,3.60=diag(0.68,0.86,1,0.73,0.86,0.86)

图8是示出了根据本发明一个实施例的模型的示意图,其中,随机给出模型的输入权值与偏置:

a1=[0.8147;0.9058]

a2=[0.1270;0.9134]

a3=[0.6324;0.0975]

b=[0.2785;0.5469;0.9575]

在此基础上,模型输出权值计算子单元1230计算隐含层输入矩阵H:

计算结果是

由于各个位置点的变量x均相同,因此

然后,模型输出权值计算子单元1230求解不同权重参数下的模型的输出权值:

当c1=1.40时,

cv=3.96

当c2=1.84时,

cv=4.33

当c3=2.28时,

cv=4.59

当c4=2.72时,

cv=4.77

当c5=3.16时,

cv=4.89

当c6=3.60时,

cv=4.97

可见,对于空间位置p3,当c取1.40时对应的CV值最小。因此,选择子单元1240选择与最小CV相对应的估计值作为预测模型的输出权重:

由此,可以得到如图9所示的针对空间位置p3的GWELM模型。

对于空间位置p3,当需要预测t=7时刻的取值时,首先需要获取变量x1与x2在t=7时刻的取值。假设x1(7)=4,x2(7)=6,代入图9的模型中,得到最终的预测值如图10所示。

可见,采用本发明的上述实施例提出的地理加权极限学习机模型,能够提高对时空序列数据进行分类或预测的精度。

图11是示出了根据本发明另一个实施例的用于对时空序列数据进行分类/预测的方法的流程图。如图11所示,方法1100在步骤S1110处开始。

在步骤S1120,接收时空序列数据。

在步骤S1130,基于时空序列数据产生与地理上的异构性有关的权重参数。然后,在步骤S1340,基于所产生的权重参数构建用于分类/预测的模型。优选地,基于时空序列数据构建空间距离矩阵,并针对每个空间位置分别选择至少两个不同的权重参数,以构建相应的空间权重矩阵。然后,基于相应的空间权重矩阵来计算相应的模型输出权值。最后,选择与产生最小代价值的权重参数相对应的输出权值,作为最终的模型输出权值。

上述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中选择。优选地,上述至少两个不同的权重参数可以从最小空间距离至最大空间距离的范围中线性选择。备选地,上述至少两个不同的权重参数是可以最小空间距离至最大空间距离的范围中随机选择。

在步骤S1150,采用所构建的用于分类/预测的模型对时空序列数据进行分类/预测。

最后,方法1100在步骤S1160处结束。

应该理解,本发明的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,上述实施例中的系统内的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路、数字电路、通用处理器、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD),等等。

另外,本领域的技术人员可以理解,本发明实施例中描述的初始参数可以存储在本地数据库中,也可以存储在分布式数据库中或者可以存储在远程数据库中。

此外,这里所公开的本发明的实施例可以在计算机程序产品上实现。更具体地,该计算机程序产品是如下的一种产品:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作以实现本发明的上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。

尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1