一种监测数据智能在线插补方法与流程

文档序号:35498901发布日期:2023-09-20 03:35阅读:68来源:国知局
一种监测数据智能在线插补方法与流程

本技术涉及一种监测数据智能在线插补方法,属于监测数据自动处理分析领域。


背景技术:

1、目前在气象、水文、水利、环保等领域,自动监测设备的应用越来越广泛。涉及气象、雨量、流速、水位、流量、水质等指标的自动监测数据在快速增加,如果由于设备故障、线路故障等原因导致监测数据出现缺失或者异常,错误数据将在结果中不断累积,最终影响到后续决策分析的准确性和有效性。从物理角度,无法回到发生缺失值或异常值的时间点进行重新监测。因此,在发现监测数据中存在缺失值或者异常值后,只能采取可靠的方法对监测数据中的缺失值和异常值进行插补和替换,从而确保监测数据总体准确可用。

2、在现有的技术手段中,往往采用线性插值或者均值法对缺失值和异常值进行插补替换。这两种方法忽视了监测站点之间的时空关联关系,同时对于离散型的监测数据而言,通过线性插值或者均值法获得的插补数据在精准度方面也较为欠缺,因此,亟需对现有的插值方法做出改进,更好地应用于监测数据缺失值和异常值的分析处理。


技术实现思路

1、有鉴于此,本技术提供一种准确可靠、兼顾监测站点时空关联关系的监测数据智能在线插补方法,具体采用如下的技术方案:

2、根据分析需求,选取存在缺失值或者异常值的监测数据时间序列;

3、利用时间插值方法,对监测数据中的缺失值进行插补或对异常值进行初步替换;

4、将存在空间关联关系的监测站点的监测数据组合成矩阵,并对矩阵进行张量转换;

5、将张量数据代入btmf算法计算得到第一种插值结果;

6、将张量数据代入lrtc-tnn算法计算得到第二种插值结果;

7、对两种插值结果根据权重进行融合,利用融合后的插值结果替换监测数据中的缺失值或异常值,得到插补后的监测数据时间序列。

8、通过以上技术方案,能够综合利用问题监测站点本身的监测数据以及与问题监测站点有空间关联的其他正常站点的监测数据,对问题站点监测数据时间序列中的缺失值和异常值进行插补,从而得到可靠性较高的监测数据时间序列,支撑后续决策。本技术方案能够在线部署,对前序步骤识别出的问题数据进行实时插补,为流域管理部门节约大量的人工分析和处理的时间和精力,并显著提升插补结果的准确度。

9、优选的,所述选取存在缺失值或者异常值的监测数据时间序列,是指包含空值或者超过正常值范围读数的监测数据时间序列,时间序列长度根据实际的缺失值或者异常值的持续时间确定。缺失值或者异常值产生的可能原因包括设备故障、传输故障或者运行环境等。本方法假设监测数据中的缺失值或者异常值已经由前序步骤识别并定位。

10、优选的,所述利用时间插值方法对监测数据中的缺失值或对异常值进行初步替换,具体包括:

11、时间插值方法如下式所示。

12、

13、式中,st表示监测数据t时刻的缺失值或异常值;st-1、st+1表示监测数据中距离st最近的前一时刻和后一时刻正常值;dt-1、dt、dt+1表示st-1、st、st+1的时间戳,如2022-10-20 11:00:00。

14、通过上述技术方案,能够强化插补数据与正常值数据之间的时间关联性,与常规算法的不进行时间插值、直接将含有缺失值的数据代入插补的方式相比,本技术方案能够显著提升插补结果的准确度。

15、优选的,所述将存在空间关联关系的监测站点的监测数据组合成矩阵并对矩阵进行张量转换,具体包括:

16、首先按照下式对不同站点的同一指标监测数据组合成矩阵:

17、a=[a1j,...,anj]

18、式中,an表示第n个站点某指标的所有监测数据时间序列,行列数分别为监测数据总量j、1;a表示由不同站点同一指标监测数据组合而成的矩阵,行列数分别为监测数据总量j、站点数n。

19、然后按照下式将上述矩阵转为插补算法所需的张量:

20、

21、式中,表示a中处于第t天的n个站点的k个数据组成的矩阵,行列数分别为每日监测数据量k、站点数n;m表示a中的总天数;b表示由上述矩阵转换的张量,数据格式为天数*每日监测数据量*监测站点数。

22、优选的,所述将张量数据代入btmf算法计算得到第一种插值结果,具体包括:将经过张量转换的监测数据矩阵分解为空间因子矩阵和时间因子矩阵,即经过张量转换的数据矩阵为y∈rn×t,将y分解成一个空间因子矩阵w∈rr×n和一个时间因子矩阵x∈rr×t,三个矩阵之间存在以下关系:

23、y≈wtx

24、假设矩阵y中的元素yit服从均值为witxt,方差为τ-1的正态分布,则有:

25、

26、

27、式中,向量wi和xt分别表示矩阵w中第i行和x中第t行。

28、对于时间因子矩阵中元素t时刻的向量xt,由于满足向量自回归关系,因此保证了插补过程对数据间的时间关联性有较好的表达:

29、

30、式中,ak表示第k个之前时刻与xt相关的向量的系数向量;hk表示延滞系数,如hk=2时,表示xt-2与xt有关;εt表示xt向量自回归过程中的误差向量;a、vt、∑,分别表示ak、εt向量组合而成的矩阵。

31、对于wi、xt、τ,基于监测数据中的正常值,可以获得wi、xt、τ的先验分布及其分布参数,并利用贝叶斯公式推导出相应的后验分布:

32、

33、π(θ|d)∝l(d|θ)π(θ)

34、式中,d表示观测数据;θ表示观测数据的分布参数;l(d|θ)表示似然函数;π(θ)表示参数的先验分布;π(θ|d)表示参数的后验分布,正比于似然和先验的乘积;ω表示参数的分布空间。

35、wi、xt、τ及其分布参数μw、aw、a、∑的分布分别如下:

36、wi~n(μw,(λw)-1)

37、xt~n(atvt,∑)

38、τ~g(α0,β0)

39、μw|λw~n(μ0,(β0aw)-1),λw~w(w0,v0)

40、a~mn(m0,ψ0,∑),∑~γw(s0,v0)

41、式中,g、w、mn、γw分别表示gamma分布、wishart分布、wishart-gaussian分布和逆wishart分布;α0、β0、μ0、w0、v0、s0、m0、ψ0等参数随机指定,但在gibbs抽样过程中会根据监测数据自行迭代。

42、在此基础上,再使用gibbs抽样方法,以参数向量的分量的条件分布族来构建markov链{θi},使它的稳定分布为目标分布,从而获得wi、xt、τ相关参数的数值及其本身的分布,抽样步骤如下:

43、1)任意选取一个初始点θ(0)=(θ1,0,…,θp,0)′,令i=0;

44、2)按下列方法生成θ(i+1)=(θ1,i+1,...,θp,i+1)′;

45、生成θ1,i+1~π(θ1|θ2,i,...,θp,i),

46、生成θ2,i+1~π(θ2|θ1,i+1,θ3,i,...,θp,i),

47、生成θp,i+1~π(θp|θ1,i+1,θ2,i+1,...,θp-1,i+1,d)

48、3)令i=i+1,并返回到第2步。

49、通过上述gibbs抽样方法获得wi、xt、τ相关参数的抽样结果后,取其均值作为yit所服从分布参数的估计值,抽样即可得到张量数据y各元素的估计值,从而计算出张量数据y的估计值,该结果即为使用btmf方法得到的第一种插补结果。

50、通过上述技术方案,能够对具有时间和空间关联关系的监测数据时间序列缺失值和异常值进行较为准确地插补。

51、优选的,所述将张量数据代入lrtc-tnn算法计算得到第二种插值结果,具体包括:将经过张量转换的监测数据记为y∈ra×b×c,对于恢复后的张量数据t有如下目标函数:

52、mint rank(t)

53、s.t.fω(t)=fω(y)

54、式中,ω是张量中所有元素的集合。上式表示插补目标是使得经过插补后的张量数据t秩最小且和y中各元素相同的概率达到最大。

55、其中对于张量数据秩的定义,使用截断核范数进行定义,由此,上述优化问题进一步改写成:

56、

57、

58、式中,m表示y张量的估计张量;x1、x2、x3分别表示y张量补全的中间变量;α1、α2、α3表示奇异值阈值-截断核范数最小化(singular value thresholding-truncated nuclearnorm minimization,svt-tnn)算法中的tnn权重,α1+α2+α3=1。

59、为求解上述优化问题,定义增广拉格朗日函数对问题进行求解:

60、

61、式中,xk(k)表示xk张量对应张量的第k阶展开后的矩阵;tk表示xk更新过程中的辅助变量;β表示张量更新中的学习率,||||f表示矩阵的f范数,<xk-m,tk>表示xk-m和tk的内积运算。

62、对于上述问题,可以使用admm(alternating direction method ofmultipliers)方法,得到m,{xk,tk}(k=1,2,3)的交替迭代公式,如下所示。

63、

64、式中,mi+1表示第i+1次迭代时tk、xk、m的张量数据;foldk()表示按照对应张量的第k阶折叠后的张量;d表示奇异值分解,即其中v由正交的奇异向量构成,

65、按照上述公式计算得到最终的x1,x2,x3后,按照下式可计算出张量数据y的估计值,该结果即为使用lrtc-tnn方法得到的第二种插补结果。

66、

67、通过上述技术方案,能够对具有时间和空间关联关系的监测数据缺失值进行较为准确地插补。针对不同站点监测数据插补情况,可以以随机连续缺失的模式,将监测数据随机时段数据变为缺失值,再使用k折交叉验证方法评估方法的插值精度,并以此作为调整算法参数的依据。

68、优选地,所述对两种插值结果根据权重进行融合,利用融合后的插值结果替换监测数据中的缺失值或异常值,得到插补后的监测数据时间序列,具体包括:利用加权平均的方法,对btmf和lrtc调参后的插值结果进行融合,结合人工经验对权重赋值,以融合后的数值替换监测数据中对应时间点的缺失值或异常值。具体计算过程如下:

69、

70、综上所述,本技术包括以下至少四种有益技术效果:

71、1、本技术提出的监测数据智能在线插补方法广泛适用于气象、雨量、流速、水位、流量、水质等多种自动监测数据的缺失值和异常值插补,不受监测数据频次、类型、时长等的限制。

72、2、本技术提出的监测数据智能在线插补方法能够充分考虑数据的时间关联性和监测站点之间的空间关联性,比常规的插补方法得到的结果更精准。

73、3、本技术提出的监测数据智能在线插补方法兼顾btmf和lrtc两种方法的优势,允许结合专家经验进行参数调整,能够适应多种监测数据的缺失或者异常状况,得出准确可靠的插补结果。

74、4、本技术提出的监测数据智能在线插补方法可以在服务器部署,实时对前序步骤中识别出的缺失值和异常值进行插补,实现数据分析处理的自动化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1