一种基于ARIMA和SVM的企业用电最大需量预测方法与流程

文档序号:19157601发布日期:2019-11-16 01:01阅读:459来源:国知局
一种基于ARIMA和SVM的企业用电最大需量预测方法与流程
本发明涉及在线监测
技术领域
,具体涉及一种基于arima和svm的企业用电最大需量预测方法。
背景技术
:按照中国法律规定,用户以计量点方式计费(一个计量点内可以有多个变压器)缴费,而不是按照变压器或用电设备,缴纳电费包括容量收费、电度电费和力率调整电费。根据经验,节省电费最多的情况是调整容量收费的申报方式,容量收费即用户每月根据运行的变压器容量向电网公司缴纳的固定电费,即使用户当月不消耗电量,电网公司也会收取这笔费用。我国国内工商业用户可按变压器容量计费和以最大需量计费两种方式缴费。虽然按变压器容量计费单价低,但一般企业每月的最大需量也低于固定的按变压器容量计费,根据经验调整容量收费为最大需量计费的申报方式可以节省较多电费。最大需量是电网公司计费表记录用户每15分钟的平均运行负荷,当月所有记录值中最大的数为最大需量值。以最大需量计费的收费方式为按最大需量缴费以“多罚少不退”的基本计算原则,即当最大需量小于申报需量时,容量电费为(例如)[申报需量*32元],最大需量超过申报需量的5%时,超出部分按照2倍价格执行,即64元/kw。需要特别说明的是最大需量的申报值和高压变压器安装容量的大小无关,用户无需进行繁琐的变压器容量报停操作。从而节省的电费即:f节约费用=f容量计费费用-f最大需量计费费用期中容量计费电费为:容量计费电费=计费变压器容量×变压器容量计费电价+w峰电量·t1用电峰电价+w平电量·t1用电平电价+w谷电量·t1用电谷电价最大需量计费电费为:最大需量电费=最大需量费用+w峰电量·t2用电峰电价+w平电量·t2用电平电价+w谷电量·t2用电谷电价现阶段,对企业或工厂的最大需量预测的方法、算法还比较少,大多数企业要么采用按变压器固定的容量收费,要么就是凭自身经验来预估未来月的月用电最大需量,这种方式得出的最大需量误差通常较大,并不能起到节约较多电费的作用,还有可能面临高额罚款。近几年,也有一些研究尝试去通过数据分析的方式去预测月最大需量,如上海申瑞继保电气有限公司提出的一种企业用电月最大需量的预测方法,根据企业用电负荷的特性,分别使用不同的系数来确定特征表达式,再结合历史月的月最大需量数据,对未来月月最大需量进行预测。这些系数是通过公式理论计算得来,还有一些经验上的改进,不是经过训练得来,没有结合企业实际情况,而且结合历史月的月最大需量并没有充分利用历史数据进行分析,忽略了历史数据的周期性,季节性和整体趋势性,所以这一方法存在许多不足。中深科技能源(深圳)有限公司也介绍了一种预测未来月月最大需量的方案,在其提出的具体方案步骤中只对用户的用电曲线数据和用电行为进行分析,缺少对企业用电负荷特性的考虑,以及对采集的数据进行数据清洗的步骤,会对未来月月最大需量的预测造成偏差,从而不能充分地为企业用户节省电费。技术实现要素:本发明要解决的技术问题是:针对上述问题,基于差分整合移动平均自回归模型(arima)时序预测和支持向量机(svm),本发明提供一种基于arima和svm的企业用电最大需量预测方法。arima模型全称为自回归积分滑动平均模型(autoregressiveintegratedmovingaveragemodel,简记arima),是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。arima模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(ma)、自回归过程(ar)、自回归移动平均过程(arma)以及arima过程。svm(supportvectormachine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。本发明所采用的技术方案为:一种基于arima和svm的企业用电最大需量预测方法,其特征在于,所述方法实现过程包括:1.从电网公司计费表tsdb中读数;2.使用滑动平均方法添补缺失值;3.使用k-means聚类算法剔除离群点;4.使用arima时序预测用电量;5.结合天气因素和生产状况的预测,使用训练好的svm模型决策;6.取预测月最大值,计算未来月月最大需量。所述arima时序预测用电量计算公式包括内容如下:arima模型包括三部分:p阶自回归模型,q阶移动平均模型和d阶差分,其中:p阶自回归模型公式表示为:描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测;q阶移动平均模型公式表示为:关注的是自回归模型中的误差项的累加;d阶差分为时间序列t与t-1时刻的差值的d阶差,以使时间序列平稳;arima公式表示为:所述arima时序预测用电量计算过程如下:确定好p、q和d后,arima模型的μ、γ、θ由最大似然和卡尔曼滤波优化得到,具体根据历史数据、当前时刻真实数据和该时刻的估计值估算该时刻的最优值,保留该时刻的协方差,再用相同方法估算下一时刻的最优值,不断的把均方误差递归得出训练数据时刻的最优值,根据训练最优值不断更新arima模型的μ、γ、θ,得到arima模型的具体公式;本发明使用的时间序列及一个月每天、每时或每刻的用电量,自变量为时间。使用arima时序预测用电量的实现过程包括步骤如下:1.根据数据得出acf和pacf;2.根据acf和pacf的拖尾得到arima的p,q;3.选择差分系数i;4.获得预测数据曲线和数据。所述acf(自相关函数,autocorrelationfunction)计算公式如下:k代表滞后期数。pacf(偏自相关函数,partialautocorrelationfunction)描述的是在给定中间观测值的条件下,时间序列观测值预期过去的观测值之间的线性相关性。1、对于一个平稳ar(p)模型,求出滞后期数k自相关系数p(k)时实际上得到的并不是x(t)与x(t-k)之间单纯的相关关系;2、x(t)同时还会受到中间k-1个随机变量x(t-1)、x(t-2)……、x(t-k+1)的影响,而这k-1个随机变量又都和x(t-k)具有相关关系,所以自相关系数p(k)里实际掺杂了其他变量对x(t)与x(t-k)的影响;3、剔除了中间k-1个随机变量x(t-1)、x(t-2)……、x(t-k+1))的干扰之后x(t-k)对x(t)影响的相关程度;4、acf还包含了其他变量的影响而偏自相关系数pacf是严格这两个变量之间的相关性。这两个函数根据编程得出,也可以通过分析软件直接得出查看。所述p、q根据acf和pacf判断截尾得出。时间序列中拖尾指序列以指数率单调递减或震荡衰减,而截尾指序列从某个时点变得非常小。根据arima的相关性质,ar模型通过pacf得出p,ma模型通过acf得出q:模型(序列)ar(p)ma(q)arma(p,q)自相关函数(acf)拖尾第q个后截尾拖尾偏自相关函数(pacf)第p个后截尾拖尾拖尾根据上面表格,可以根据acf和pacf图判断截尾位置得出p,q的值。k-means基于给定的聚类目标函数,算法采用迭代更新的方法,每一次迭代过程都是向目标函数减小的方向进行,最终聚类结果使得目标函数取得极小值,达到较好的分类效果。所述k-means聚类算法计算过程如下:1)给定大小为n的数据集,令o=1,选取k个初始聚类中心zj(o),j=1,2,3,...,k,o代表不同迭代轮数的聚类中心;2)计算每个样本数据对象与聚合中心的距离d(xi,zj(o)),i=1,2,3,…,并分类;3)令o=o+1,计算新的聚类中心和误差平方和准则f(目标函数)值:4)判断:若|f(o+1)-f(o)|<θ(f收敛)或者对象无类别变化,则算法结束,否则,o=o+1,返回2)步。计算过程:1.随机选择k个中心点2.把每个数据点分配到离它最近的中心点;3.重新计算每类中的点到该类中心点距离的平均值4.分配每个数据到它最近的中心点;5.重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数(r把10次作为默认迭代次数)。我们使用k-means来对所需数据进行预处理,剔除异常值,使模型易于收敛并提高准确性。所述svm模型训练过程包括内容如下:svm的基本思路就是,通过寻找一个能够正确划分的数据集,并且几何间隔最大的超平面,即最优超平面;点(x,y)到平面(w,b)的距离公式是:svm模型公式表达为:等价于:训练过程即最优超平面求解,求最优超平面:ωt·x+b,即求其中的ω,b参数:根据上述公式,先求最大几何间隔:n为训练样本数;把约束条件融合到优化目标函数中,建立拉格朗日公式:优化目标变为:满足kkt条件(在优化理论中,kkt条件是非线性规划(nonlinearprogramming)最佳解的必要条件。kkt条件将lagrange乘数法(lagrangemultipliers)中的等式约束优化问题推广至不等式约束。),能够求其对偶问题:对ω和α求偏导并令其值为0:将ω和α回代l(ω,b,α),则得:采用序列最小最优化算法求解对偶问题,对αi求导,即求出最优超平面。所述svm模型的核函数包括:线性核函数:k(x,xi)=x·xi,主要用于线性可分的情况;或,高斯径向基核函数:高斯径向基函数是一种局部性强的核函数,其可以将一个样本映射到一个更高维的空间内,该核函数是应用最广的一个,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,因此大多数情况下在不知道用什么核函数的时候,优先使用高斯核函数;或,多项式核函数:k(x,xi)=((x·xi)+1)d多项式核函数可以实现将低维的输入空间映射到高纬的特征空间,但是多项式核函数的参数多,当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算,但其他核函数效果不好时,可以使用多项式核函数;或,神经元的非线性作用核函数sigmoid:k(x,xi)=tanh(η<x,xi>θ)采用sigmoid核函数,支持向量机实现的就是一种多层神经网络;在选用核函数的时候,如果对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最小的即为效果最好的核函数,或者也可以将多个核函数结合起来,形成混合核函数。本发明的有益效果为:本发明充分考虑了历史电量的时序性,包括趋势性,周期性和季节性,同时也兼顾了天气因素和生产情况的预测,使用机器学习决策和时序预测的算法将两种因素统一在一种模型中,通过训练得到准确的结果,而且随着数据越来越多,使用年数越来越长,未来月最大需量的预测误差就越小,为企业节省更多的电费。附图说明图1为基于arima和svm的月最大需量预测流程图;图2为arima流程图;图3为acf拖尾示意图;图4为pacf截尾示意图;图5为k-means对所需数据进行预处理流程图;图6为svm决策流程图。具体实施方式下面结合说明书附图,通过具体实施方式对本发明进一步说明:实施例1如图1所示,一种基于差分整合移动平均自回归模型(arima)时序预测和支持向量机(svm)的未来月月最大需量预测方法,所述方法实现过程如下:1、对数据进行预处理,首先填补上传数据中的缺失值,因为上传的抄表值为每十五分钟记录电表显示的总电量,算时间段电量就要做差,有时会上传“0”值,造成数据错误,我们使用滑动平均法来填补缺失值;2、如图5所示,使用k-means聚类方法剔除离群值,使曲线更好收敛,具体计算过程如下:1)随机选择k个中心点;2)把每个数据点分配到离它最近的中心点;3)重新计算每类中的点到该类中心点距离的平均值4)分配每个数据到它最近的中心点;5)重复步骤3)和4),直到所有的观测值不再被分配或是达到最大的迭代次数(r把10次作为默认迭代次数)。3、如图2所示,基于大数据算法对数据进行训练并作出预测,考虑到用电的趋势性,周期性和季节性,使用arima时序预测算法,首先确定p、q值,根据acf和pacf(局部acf)图,判定这两个值,如图3、4所示,得到的acf和pacf图,选择p为3,q为0;然后选择差分系数,一般测试1或2,使用rmse检验发现1的误差小,所以选择arima系数为3,0,1;rmse(均方根误差)公式表示为:使用一段时间的用电量,通过多次迭代训练,得到arima预测曲线和测试集曲线;4、对svm模型进行训练,选择核函数,输入为预测的已知年份的用电量(时间间隔15分钟),已知年份的天气情况包括温度、湿度、光照和已知年份每月生产情况预测,输出为已知年份的用电量最终预测值(时间间隔15分钟),真实值为已知年份的月用电量(时间间隔15分钟)。比较得出均方根误差,选择合适的核函数,并记住误差。5、如图6所示,使用svm进行决策,输入为预测下月的用电量(时间间隔15分钟),下月的天气情况包括温度、湿度、光照和下月生产情况预测,输出为下月的用电量最终预测值(时间间隔15分钟);6、取得预测月的用电量最大值,加上误差,然后再除以0.25即需要申报的下月最大需量值(单位:kw)。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关
技术领域
的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1