一种数据仓库技术的水务数据预测的方法及系统与流程

文档序号:17990040发布日期:2019-06-22 00:43阅读:242来源:国知局
一种数据仓库技术的水务数据预测的方法及系统与流程

本发明涉及水务领域,特别涉及一种数据仓库技术的水务数据预测的方法及系统。



背景技术:

随着智慧城市和智慧水务的发展,各水务企业都安装了大量的智能远传终端设备。在智能远传终端设备的数据采集和传输等环节,由于信号干扰、人为干扰、设备故障、环境等因素影响,再加上问题定位排查需要时间,异常问题无法及时处理等,都会影响供水调度和漏损监控的准确性。



技术实现要素:

本发明要解决的技术问题,在于提供一种数据仓库技术的水务数据预测的方法,通过该方法可有效解决现有技术中存在的由于信号干扰、人为干扰、设备故障、环境等因素影响,再加上问题定位排查需要时间,异常问题无法及时处理等,会影响供水调度和漏损监控的准确性的问题。

本发明是这样实现的:一种数据仓库技术的水务数据预测的方法,所述方法包括如下步骤:

步骤s1、通过数据仓库技术来确定水务数据的区间范围以及平均值;

步骤s2、利用时间序列来预测水务数据,得到时间序列的预测值;

步骤s3、通过平均值与预测值组合的方式来确定最终预测值;

步骤s4、利用插值法计算出的缺失值来修正最终预测值。

进一步地,所述步骤s1具体包括:

步骤s11、利用oracle数据库自带的分析函数来获取表盘读数,并利用表盘读数来计算间隔流量;

步骤s12、从最新的时间点开始,往回选取一设定的第一连续时间段内的间隔流量数据,并根据选取的间隔流量数据来获得星期一至星期日中各天的数据最大值和数据最小值,从而确定出星期一至星期日中各天的水务数据的区间范围;

步骤s13、从最新的时间点开始,往回选取一设定的第二连续时间段内的间隔流量数据,并计算出该第二连续时间段内的间隔流量数据的平均值;

其中,所述第二连续时间段小于所述第一连续时间段。

进一步地,在所述步骤s11中,在利用表盘读数来计算间隔流量时,对于时间间隔大于一天的水务数据,采用递归法来平均分摊每一天的间隔流量。

进一步地,所述步骤s2具体包括:

步骤s21、在spss软件的数据预处理中,选择线点处的线性插值法替换缺失值;

步骤s22、定义日期标签和变量,将设定的第一连续时间段内每日的用水量读数作为样本开展模型训练,从而建立出时间序列模型;

步骤s2、利用建立的时间序列模型来对未来的水务数据进行预测,得到时间序列的预测值。

进一步地,在所述步骤s22中,所述将设定的第一连续时间段内每日的用水量读数作为样本开展模型训练具体包括如下步骤:

步骤a1、在spss软件中根据数据的时间序列做出累计用水量序列图;

步骤a2、在spss软件根据数据的时间序列做出每日用水量序列图;

步骤a3、spss软件根据做出的累计用水量序列图和每日用水量序列图,选择每日用水量序列图进行自相关分析;

步骤a4、根据自相关分析后得到的p值、序列的自相关图以及序列的偏自相关图,通过专家建模法在指数平滑法和arima算法中自动选择最优模型,同时在专家建模器中选择考虑季节性模型,从而建立出时间序列模型。

进一步地,所述步骤s3具体为:判断时间序列的预测值是否处于确定出的水务数据的区间范围内,且如果是,则将时间序列的预测值作为最终预测值;如果否,则将平均值作为最终预测值。

进一步地,所述步骤s4具体包括:

步骤s41、在采集到真实数据后,计算缺失值上下的已知值的斜率k:

k=(b2-b1)/(n+1);

其中,n表示缺失数据的个数;b1表示上一次读取的表盘度数;b2表示最新读取的表盘度数;

步骤s42、计算对应的缺失值a(i):

a(i)=b1+k*i;

其中,i表示天数;

步骤s43、使用计算出的缺失值来修正最终预测值。

本发明具有如下优点:本发明通过运用传统的数据分析方式,以及时间序列的方式,结合神经网络的算法,并通过组合的方式来预测异常采集的数据以及未来的数据趋势,可以极大的提升数据预测的准确性,有助于辅助城市供水调度、监控小区供水管网的漏损情况。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种数据仓库技术的水务数据预测的方法的执行流程图。

图2为本发明具体实施方式中做出的累计用水量序列图。

图3为本发明具体实施方式中做出每日用水量序列图。

图4为本发明具体实施方式中的自相关分析图。

图5为本发明具体实施方式中的模型拟合表。

图6为本发明具体实施方式中的模型统计量表。

具体实施方式

请参阅图1至图6所示,本发明一种数据仓库技术的水务数据预测的方法的较佳实施例,所述方法包括如下步骤:

步骤s1、通过数据仓库技术来确定水务数据的区间范围以及平均值;

步骤s2、利用时间序列来预测水务数据,得到时间序列的预测值;

步骤s3、通过平均值与预测值组合的方式来确定最终预测值;

步骤s4、利用插值法计算出的缺失值来修正最终预测值。

在本发明中,所述步骤s1具体包括:

步骤s11、利用oracle数据库自带的分析函数来获取表盘读数,并利用表盘读数来计算间隔流量;

步骤s12、从最新的时间点开始,往回选取一设定的第一连续时间段内的间隔流量数据,并根据选取的间隔流量数据来获得星期一至星期日中各天的数据最大值和数据最小值,从而确定出星期一至星期日中各天的水务数据的区间范围;

在具体实施时,例如可以选取最近3个月的间隔流量数据,并从这些间隔流量数据中取出所有星期一的间隔流量数据,接着从所有星期一的间隔流量数据中获取数据最大值和数据最小值,这样就可以确定出星期一的水务数据的区间范围,例如获取的数据最大值为1,数据最小值为0.3,那么,确定出的星期一的水务数据的区间范围就是[0.3,1];同理,还需要确定出星期二、星期三、星期四、星期五、星期六以及星期日的水务数据的区间范围。

步骤s13、从最新的时间点开始,往回选取一设定的第二连续时间段内的间隔流量数据,并计算出该第二连续时间段内的间隔流量数据的平均值;在具体实施时,例如可以选取最近一个月的间隔流量数据,并计算出最近一个月的间隔流量数据的平均值;

其中,所述第二连续时间段小于所述第一连续时间段。

在所述步骤s11中,在利用表盘读数来计算间隔流量时,对于时间间隔大于一天的水务数据,采用递归法来平均分摊每一天的间隔流量。

例如,在某月1号采集到的表盘读数为45,4号采集到的表盘读数为54,那么,在1号到4号之间,每一天的间隔流量就是(54-45)/3=3。

在本发明中,所述步骤s2具体包括:

步骤s21、在spss软件的数据预处理中,选择线点处的线性插值法替换缺失值;由于用水量读数是呈不规律的线性上升趋势,因而选择线点处的线性插值法替换缺失值;

步骤s22、定义日期标签和变量,将设定的第一连续时间段内(如最近3个月内)每日的用水量读数作为样本开展模型训练,从而建立出时间序列模型;

在该步骤s22,由于数据是根据时间点的顺序进行排列的,在进行分析之前,spss软件需要知道序列的时间定义,然后才能够进行时间特征分析,因此,我们需要先定义日期标签和变量;

步骤s2、利用建立的时间序列模型来对未来的水务数据进行预测,得到时间序列的预测值。

在所述步骤s22中,所述将设定的第一连续时间段内每日的用水量读数作为样本开展模型训练具体包括如下步骤:

步骤a1、在spss软件中根据数据的时间序列做出累计用水量序列图;如图2所示的累计用水量序列图,变量为“red_num_1”,即读水量;时间轴标签为“date–”;

步骤a2、在spss软件根据数据的时间序列做出每日用水量序列图;如图3所示的每日用水量序列图,变量为“red_n_1”,即每日读水量;时间轴标签为“date–”;

步骤a3、spss软件根据做出的累计用水量序列图和每日用水量序列图,选择每日用水量序列图进行自相关分析;由于累计用水量序列图呈不规律的线性上升趋势,不适合进行自相关分析,因此,在具体实施时,spss软件会选择每日用水量序列图进行自相关分析;

步骤a4、根据自相关分析后得到的p值、序列的自相关图以及序列的偏自相关图,通过专家建模法在指数平滑法和arima算法中自动选择最优模型,同时在专家建模器中选择考虑季节性模型,从而建立出时间序列模型。

如图4所示的自相关分析图,由于p值(即sig)均小于0.05,说明这个序列不是白噪声,因此,这些数据之间是有关联性的,自相关性比较好。且由于得出的序列的自相关图(acf)和偏自相关图(pacf)都是拖尾的,因此可以不用对原始序列(即每日用水量)再进行差分,可以建立arima(p,0,q)算法模型;当然,根据p值不同以及序列的自相关图(acf)和偏自相关图(pacf)是拖尾或者截尾,也可能选择建立指数平滑法的模型,spss软件会根据分析结果来自动选择最优的模型。

在建立出时间序列模型后,还需要对建立的时间序列模型进行分析,例如得出的时间序列模型为arima(2,0,0)(1,0,1),该模型可解读为:对除去季节性变化的序列和包含季节性变化的序列分别进行了0阶差分和0移动平均,并综合两个序列模型建立出最终的时间序列模型。

如图5所示的模型拟合表提供了更多的统计量可以用来评估时间序列模型的拟合效果。虽然平稳r方仅仅是32.1%,但是“杨-博克斯q(18)”统计量的显著性p=0.206(如图6所示的模型统计量表),大于0.05(此处p>0.05是期望得到的结果),所以可以认为这个序列的残差符合随机分布,同时没有离群值出现,也都反映出数据的拟合效果。

在建立出时间序列模型后,还将时间序列模型的预测值与真实数据进行对比,并做出真实的用水量数据和预测的用水量数据的序列图,以判断建立出的时间序列模型是否符合预期效果,当然,如果符合预期效果,则说明可以使用建立的时间序列模型进行预测,如果不符合预期效果的话,则说明建立的时间序列模型不适合,此时就需要进行参数调整或者重建模型。

所述步骤s3具体为:判断时间序列的预测值是否处于确定出的水务数据的区间范围内,且如果是,则将时间序列的预测值作为最终预测值;如果否,则将平均值作为最终预测值。例如,确定出的星期一的水务数据的区间范围为[0.3,1],当时间序列对星期一的水务数据的预测值为0.7时,由于预测值在区间范围内,因此,将预测值0.7作为最终预测值;否则,如果时间序列对星期一的水务数据的预测值为1.5,由于预测值1.5不在区间范围,所以要使用平均值来作为最终预测值。

所述步骤s4具体包括:

步骤s41、在采集到真实数据后,计算缺失值上下的已知值的斜率k:

k=(b2-b1)/(n+1);

其中,n表示缺失数据的个数;b1表示上一次读取的表盘度数;b2表示最新读取的表盘度数;

步骤s42、计算对应的缺失值a(i):

a(i)=b1+k*i;

其中,i表示天数;

步骤s43、使用计算出的缺失值来修正最终预测值,也就是说,在采集到真实数据后,就使用真实的数据去修正预测的数据。

综上所述,本发明优点在于:本发明通过运用传统的数据分析方式,以及时间序列的方式,结合神经网络的算法,并通过组合的方式来预测异常采集的数据以及未来的数据趋势,可以极大的提升数据预测的准确性,有助于辅助城市供水调度、监控小区供水管网的漏损情况。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1