一种多元时间序列缺失数据填补方法

文档序号:26589458发布日期:2021-09-10 20:25阅读:105来源:国知局
一种多元时间序列缺失数据填补方法

1.本发明涉及缺失数据填补领域,更具体地说,涉及一种多元时间序列缺失数据填补方法。


背景技术:

2.目前多元时间序列缺失数据填补技术中大多都是从数据的横断面入手,没有考虑到包含时间成分信息的这类数据中的时间信息,并没有利用到数据中潜在的时间信息。这浪费了数据中潜在的时间信息,使得数据填充的准确度和效率都较低。


技术实现要素:

3.本发明要解决的技术问题是提供一种多元时间序列缺失数据填补方法,采取时间序列距离方法,在计算获取过程中考虑到数据本身信息的同时也能关注到数据中存在的纵向时间信息,以此为理论基础,将该方法结合到长短期记忆网络(lstm)更新门控的计算过程上,完成多元时间序列缺失数据中时间信息的获取以及填补任务。
4.为了达到上述目的,本发明采取以下技术方案:
5.一种多元时间序列缺失数据填补方法,n
×
m型多元时间序列数据矩阵为x=(x1,x2,x3,x4,

,x
n
)
t
,其中与x
i
=(x
i1
,x
i2
,x
i3
,

,x
im
)所对应的时间数据为t
i
,i=1~n;缺失数据分布于多元时间序列数据矩阵x中的元素;获取完整多元时间序列数据矩阵的方法如下:
6.s1:定义n
×
m型的缺失矩阵q的元素为:
[0007][0008]
s2:定义n
×
m型的时间序列距离矩阵d的元素d
kj
为:
[0009]
当1<k<n时;
[0010]
当k=1时;
[0011]
当k=n时;
[0012]
其中当t
k
‑1‑
t
k
=0时,另取t
k
‑1‑
t
k
=1;当t
k+1

t
k
=0时,另取t
k+1

t
k
=1;
[0013]
s3:定义n
×
m型的距离矩阵δ的元素为:
[0014]
[0015]
其中,w与b分别是权重和偏置,通过随机方法进行初始化;
[0016]
s4:将距离矩阵δ结合到长短期记忆网络lstm的更新门处,由此获得修改后的lstm;
[0017]
s5:生成式对抗网络gan包括生成网络和判别网络,生成网络和判别网络包括多层感知机mlp,通过使用s4中修改后的lstm替代mlp,组成核心网络为lstm的新型生成式对抗网络记为lstm_gan;
[0018]
s6:利用lstm_gan通过噪声数据生成与x同型号的n
×
m型矩阵记为m型矩阵记为的元素记为由以下运算获得完整多元时间序列数据矩阵的元素的元素
[0019]
本发明相对于现有技术的优点在于:
[0020]
1、在多元时间序列缺失数据的消融实验中,证实了时间序列距离法在填补多元时间序列缺失数据任务中具有积极有效性。
[0021]
2、本发明中的时间序列距离在获取过程中不仅获取到了数据中的时间信息,而且结合了数据本身信息,在多元时间序列缺失数据的填补实验中,取得了很大程度上的优势,证实了时间序列距离法的积极有效性。
附图说明
[0022]
图1是多元时间序列数据矩阵x的示意图;
[0023]
图2是缺失矩阵q的示意图;
[0024]
图3是原始标准的lstm示意图;
[0025]
图4是本发明经过距离矩阵δ改进的lstm示意图;
[0026]
图5是标准的gan示意图;
[0027]
图6是新型生成式对抗网络lstm_gan示意图;
[0028]
图7是完整多元时间序列数据矩阵的元素计算示意图。
具体实施方式
[0029]
下面结合附图对本发明的具体实施方式作描述。
[0030]
如图所示,本发明一种多元时间序列缺失数据填补方法,n
×
m型多元时间序列数据矩阵为x=(x1,x2,x3,x4,

,x
n
)
t
,其中与x
i
=(x
i1
,x
i2
,x
i3


,x
im
)所对应的时间数据为t
i
,i=1~n;缺失数据分布于多元时间序列数据矩阵x中的元素,如图1所示,其中“na”表示缺失数据;获取完整多元时间序列数据矩阵的方法如下:s1:根据数据缺失情况定义n
×
m型的缺失矩阵q的元素为:
[0031][0032]
缺失矩阵q中的元素{0,1}标识了数据是否缺失,如图2所示。
[0033]
s2:若q
kj
=0时,x
kj
=0,定义n
×
m型的时间序列距离矩阵d的元素d
kj
为:
[0034]
当1<k<n时;
[0035]
当k=1时;
[0036]
当k=n时;
[0037]
其中当t
k
‑1‑
t
k
=0时,另取t
k
‑1‑
t
k
=1;当t
k+1

t
k
=0时,另取t
k+1

t
k
=1;
[0038]
由此定义的时间序列距离所包含的优点是:将多元时间序列视为一种函数关系,无关绝对值差异,并且可以在获取到数据中时间成分信息的同时也能关联到数据本身。
[0039]
s3:为了控制时间信息所带来的影响,通过一个负指数倒数定义n
×
m型的距离矩阵δ的元素为:
[0040][0041]
其中,w与b分别是权重和偏置,通过随机方法进行初始化;
[0042]
s4:长短期记忆网络是传统循环神经网络的一种变体,有着独特的单元门空结构,分别是遗忘门、更新门和输出门。将s3中获得到的距离矩阵δ结合到长短期记忆网络lstm的更新门处,由此获得修改后的lstm,原始标准的lstm如图3所示,经过距离矩阵δ改进的lstm如图4所示,由此理论上改进后的lstm可以有效的获取数据中的时间成分信息;
[0043]
s5:传统的生成式对抗网络gan包括生成网络和判别网络,由于gan的特性使它有着强大的拟合数据分布和生成能力。标准的gan如图5所示,生成网络和判别网络由多层感知机mlp组成,通过使用s4中修改后的lstm替代mlp,如图6所示,组成核心网络为lstm的新型生成式对抗网络记为lstm_gan。
[0044]
由此可以得到填补模型的训练流程,如表1所示为表2的符号说明,表2为模型训练流程,最终模型输出为真实值与模型预测值的根均方误差值,由此评估模型的填补性能。
[0045]
表1
[0046][0047]
表2
[0048][0049]
s6:利用lstm_gan通过噪声数据生成与x同型号的n
×
m型矩阵记为m型矩阵记为的元素记为由以下运算获得完整多元时间序列数据矩阵的元素
[0050]
该运算可由图7所示。
[0051]
通过本发明所设计的填补模型在mimic、kdd、air quality、physionet challenge 2012数据集上进行填补实验,评估填补模型的性能指标为rmse,rmse对一组测量中的特大或特小误差反应十分敏感,并且跟均方差是插补研究中最具代表性和普遍使用的性能指标之一,所以本发明采用rmse作为评估指标。最终获得表3中模型预测值与真实值间的根均方误差结果,证实了本发明所提出的时间序列距离法在多元时间序列数据填补任务上的积极有效性。其中模型_tsd代表了使用本发明所提出的时间序列距离法的填补模型,模型_i则是使用了其他方法的填补模型,模型gain则是基于多层感知机的填补模型。
[0052]
表3
[0053][0054]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1