基于大数据的数字化经营信息预测及模拟推演方法与流程

文档序号:31703730发布日期:2022-10-01 09:47阅读:52来源:国知局
基于大数据的数字化经营信息预测及模拟推演方法与流程

1.本发明属于预测分析技术领域,具体说是基于大数据的数字化电力数据预测及经营模拟预测方法。


背景技术:

2.随着电网企业管理的发展,精细化管理及盈利的需求压力不断增大,目前,电网企业进行经营规划是通过历史经验及政府指导规划相结合的模式进行,但是在市场化政策背景下,传统的管理与规划模式无法满足新的市场环境及管理需求,传统规划方式对于现有海量经营数据无法进行分析和预测,导致经营预测分析能力跟不上新的要求,数据处理效率低下。因此电网企业需要在数字化转型等大环境与趋势下,充分挖掘发挥现有各口径数据价值,并将数据与人工智能、机器学习等先进技术手段充分结合,开发建设基于大数据的预测分析平台,服务支撑公司输配电价核定、经营策略优化与战略提升,从而保证提升公司管理创新水平,优化现金流及营收利润。


技术实现要素:

3.本发明目的是提供一种基于大数据的数字化电力数据预测及经营模拟预测方法,以克服上述预测方法的缺陷。
4.本发明为实现上述目的所采用的技术方案是:基于大数据的数字化经营信息预测及模拟推演方法,包括以下步骤:
5.获取电网历史数据并进行预处理;
6.构建时序预测模型及大数据预测模型,并通过预处理后的电网历史数据对大数据预测模型进行训练;
7.将待测电网数据输入时序预测模型及训练完的大数据预测模型,对未来电网数据进行预测。
8.所述预处理包括以下步骤:
9.确定数据异常值并剔除;
10.对于缺失值通过线性插值法补全,得到完整的数据;
11.将完整的数据按照数据库数据要求进行处理,使其存储于数据库中;
12.对于数据库中属性值相同的记录认为是重复记录,将重复的记录合并为一条,即获得用于模型训练的数据。
13.所述时序预测模型为移动平均模型、整合移动平均自回归模型中的一种,所述大数据预测模型为多层感知机模型。
14.所述电网历史数据为历史经营信息,所述未来电网数据为未来经营信息。
15.所述移动平均模型为以下方式中的一种:
16.f
t
=(a
t-1
+a
t-2
+a
t-3
+
……
+a
t-n
)/n
17.其中,f
t
为未来电网数据预测值,n为移动平均的时期个数,a表示电网历史数据,at-n
表示第n期的电网历史数据实际值,t表示所需预测的时点;
18.f
t
=k1a
t-1
+k2a
t-2
+k3a
t-3
+
……
+k
nat-n
19.其中,f
t
为未来电网数据预测值,n为移动平均的时期个数,a表示电网历史数据,a
t-n
表示第n期的电网历史数据实际值,kn表示第n期的系数,t表示所需预测的时点。
20.所述整合移动平均自回归模型如下:
21.y
t
=μ+φ1*y
t-1
+...+φ
p
*y
t-p
+θ1*e
t-1
+...+θq*e
t-q
22.其中,y
t
表示未来电网数据预测值,φ表示ar的系数,θ表示ma的系数,p、q分别为阶层和阶数,e表示误差,t表示所需预测的时点。
23.分别通过移动平均模型、整合移动平均自回归模型和多层感知机模型进行未来电网数据的预测,将各预测结果分别乘以权重,得到最终预测结果。
24.所述电网历史数据为电网运营参数的历史数据,所述未来电网数据为电网运营指标。
25.所述电网运营参数的历史数据为包含电量、电价、线损的历史数据;所述未来电网数据为用于电网运营的含有经济指标、发电成本、电力运营的指标。
26.一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现基于大数据的数字化经营信息预测及模拟推演方法。
27.本发明具有以下有益效果及优点:
28.1.相较于现有技术方式,本发明对于各类源数据文件类型及数据库类型都有良好的适配性与集成性。
29.2.相较于现有技术方式,本发明对于最终用户的操作基本实现全程自动化,且最终的输出数据结果具有更好的普遍适用性。
30.3.可处理海量历史数据及实时数据,并支持分析时间颗粒度的进一步细化,在高数据质量支撑下,最多可以分析预测到秒级数据。
31.4.数据处理效率更高,结果输出速度更快,可以更及时的协助企业为后续管理经营等操作提供草靠协助。
32.5.大数据预测模型具有良好的普遍适用性,在完成基本系统搭建并顺利运行后,可通过对相关指标的调整,实现更多的应用及预测需求。
附图说明
33.图1深度学习预测模型运作原理示意图;
34.图2多层感知机mlp神经网络示意图。
具体实施方式
35.下面结合附图及实施例对本发明做进一步的详细说明。
36.本发明用于以下2个业务需求:(1)经营信息预测;(2)核心参数驱动的公司经营模拟推演。
37.基于上述2项业务需求,通过2个应用场景来实现:(1)经营信息预测;(2)经营模拟推演。其中经营信息预测是针对电网企业购电侧中长期市场交易数据、现货市场分时电价、发电企业辅助服务、电网企业售电侧分电压等级、分用户类型的售电电力数据预测;经营模
拟推演则是在前序预测功能的基础上,基于相关预设指标,通过控制变量法对需要进行模拟的数据进行调整,从而进一步分析电价、电量、线损等核心参数对经营效益的驱动作用与联动模型。
38.一、从数据源中获取电网数据,并对数据进行预处理:
39.(1)数据异常值
40.用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值等,或者用最简单的规则来检查数据值,通过观察数据的趋势图,寻找、确定并剔除异常值。
41.(2)数据部分缺失
42.缺失值须人工处理,从本数据源或其它数据源推导出来,就是使用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,本实施例首选线性插值法补全缺失值达到清理的目的,因该方法具有简单、方便的特点。
43.(3)非结构化数据
44.因为非结构化数据无法直接代入模型,因此对非结构化的数据,按照所使用的关系数据库数据规则对其进行结构化处理,从而利用现有的分析工具对数据进行分析。
45.(4)数据重复
46.数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否重复,重复的记录合并(删除多余条数)为一条即可。
47.二、单一预测模型
48.典型的单一预测模型主要分为两大类,一是时间序列预测模型,另一个就是深度学习预测模型(深度学习作为人工智能的一个细分领域,也可以称深度学习预测模型为“ai算法预测模型”)。
49.时间序列预测模型:时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是一方面承认事物发展的延续性,运用过去的时间序列数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到由于偶然因素影响而产生的随机性,为了消除随机波动产生的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。
50.深度学习预测模型:神经网络是深度学习中最重要的模型结构,而所谓深度学习,其实就是将神经网络堆叠起来,即增加神经网络的深度(从一个输入到一个输出的最长路径的长度),从而建立起从输入到输出所对应的函数关系。
51.(1)传统时序预测模型-mv移动平均法
52.mv(moving average)移动平均法是用一组最近的实际数据值来预测未来一期或几期将要发生的数据的预测方法。移动平均法适用于即期预测,当预测目标既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的预测方法。移动平均法根据预测时使用的各元素的权重不同,可以分为简单移动平均和加权移动平均。
53.算法相对简单,系统运算压力小,出结果速度快,实施难度低,后期基本不用考虑迭代优化,最简单,很多时候可以作为第一个预测参考标杆使用。
54.①
简单移动平均的计算公式为:
55.f
t
=(a
t-1
+a
t-2
+a
t-3
+
……
+a
t-n
)/n
56.其中f
t
为下一期预测值,n为移动平均的时期个数,a表示历史实际数据,a
t-1
、a
t-2
、a
t-3
、a
t-n
表示前1期、前2期、前3期、前n期的历史实际值。由公式可以看出,简单移动平均法的计算最为简单,简单地就说是直接将历史数据整体拉平从而求得预测数据,因此历史数据选取要选与预测期相似度高的历史数据,否则相似度低的历史数据会像脏数据一样进一步拉低预测精度。
57.②
加权移动平均的计算公式为:
58.f
t
=k1a
t-1
+k2a
t-2
+k3a
t-3
+
……
+k
nat-n
59.加权移动平均法是在简单移动平均法的基础上为每一期历史实际值加了一个系数k,且所有各期系数k之和等于1。而各期权重选择一般会运用经验法或试算法,一般而言,近期数据最能预示未来情况,因而会分配更高权重,此外基于经验而言,判定为更具有参考意义的期数也会给予更高权重。
60.(2)传统时序预测模型-es指数平滑法
61.es指数平滑法(exponential smoothing)通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测,其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。削弱短期随机波动对序列的影响,使序列平滑化,从而显示出长期趋势变化的规律。用序列过去值的加权均值来预测将来的值,序列中近期的数据被赋以较大的权重,远期的数据被赋以较小的权重,这一近重远轻的理由是一般情况下某一变量值对其后继行为的影响作用是逐渐衰减的。
62.算法相对简单,系统运算压力小,出结果速度快,实施难度低,后期基本不用考虑迭代优化;加权平均计算的加入弥补了各段学习预期长短选择带来的精度差。
63.指数平滑法的计算公式为:
64.f
t
=aa
t-1
+(1-a)f
t-1
65.其中f
t
是本期预测值,f
t-1
是上期预测值,a
t-1
是上期实际值,a是平滑系数。基于公式可以看出指数平滑法只需要最近一期实际数与预测值,是历史数据量有限情况下的最优选择。
66.(3)传统时序预测模型-arima整合移动平均自回归模型
67.arima整合移动平均自回归模型(autoregressive integrated moving average)属于对自回归模型(ar模型)与滑动平均模型(ma模型)的差分整合,从而吸收了相关模型的优势。但arima预测模型也有其劣势,其预测对象要满足变化趋势要有规律(恒定的均值和方差)的假设,并且时间序列数据不能有缺失。arima的预测原理是通过将预测对象随时间推移而形成的数据序列当成一个随机序列,根据反映出来的发展过程、方向和趋势,并从中寻找该数据随时间变化而变化的规律,从而得出一定的计算模式来进行类推或延伸,借以预测下一段预测期间可能达到的数据结果。
68.算法相对简单,系统运算压力小,出结果速度快,实施难度低,后期基本不用考虑迭代优化;属于传统时序模型中最高级存在,整合了传统模型各种优势。
69.arima模型本身有三个参数arima(p,d,q),其中p代表预测模型中采用的时序数据本身的滞后数(lags),也叫做ar(auto-regressive)项;d代表时序数据需要进行几阶差分
化,才是稳定的,也叫integrated项;q代表预测模型中采用的预测误差的滞后数(lags),也叫做ma(moving average)项。arima预测模型可以简单理解为:y的预测值=一个常量+一个或多个最近时间的y的加权和+一个或多个最近时间的预测误差假设。在p,q,d参数已知情况下,arima模型的计算公式可表示为:
70.y
t
=μ+φ1*y
t-1
+...+φ
p
*y
t-p
+θ1*e
t-1
+...+θq*e
t-q
71.其中,φ表示ar的系数,θ表示ma的系数。arima预测模型需对以获取历史数据数据绘图,观测是否为平稳时间序列,对于非平稳时间序列要先进行d阶差分运算,化为平稳时间序列;随后对平稳时间序列分别求得其自相关系数acf和偏自相关系数pacf,通过对自相关图和偏自相关图的分析,得到最佳的阶层p和阶数q;p,q,d参数确定后对得到的模型进行检验。
72.(4)深度学习预测模型-mlp多层感知机
73.mlp多层感知机(multi-layer perception)也叫人工神经网络(ann,artificial neural network),其最典型模型包括三层,即输入层、隐藏层和输出层,mlp神经网络不同层之间是全连接的(即上一层任一神经元与下一层所有神经元都连接),且所有的连接都配有权重。如图2所示。
74.其三层各自作用如下:
75.输入层:输入层的各个输入节点都起从外部获取信息的作用。在输入节点中,不进行任何的计算,仅向隐藏节点传递信息。
76.隐藏层:隐藏层的各个隐藏节点和外部世界没有直接联系。这些节点只负责进行计算,并起到将信息从输入节点传递到输出节点的作用。尽管多层感知机只有一个输入层和一个输出层,但隐藏层的实际层数则取决于建模需求。
77.输出层:输出层的输出节点负责基于隐藏层传来的信息并计算最终结果,并从网络向外部传递结果信息。
78.相对传统时序模型,深度学习模型对海量多维度数据具有更好的处理能力,比传统预测模型更灵活且预测结果的精度更稳定。
79.(5)深度学习预测模型-lstm长短期记忆网络
80.lstm长短期记忆网络(long short term memory network)与传统循环网络相比,因加入了遗忘门这一设置,通过学习选择记忆历史,从而提高预测精度。作为循环神经网络的一种,拥有比mlp更好的学习连续时序特征的能力和记忆长期信号能力,预测时间颗粒度可以细化到小时级甚至分钟级。
81.三、组合&混合预测模型
82.对于各类单一预测模型而言,其各有各的优势与长处,但也各有各的局限性,因此研究数据预测的人们也会使用组合预测模型或混合预测模型,从而在发挥单一预测模型的优势同时弥补其缺陷。但在实际应用中也存在着各自的不足或缺陷。
83.(1)组合预测模型
84.组合预测模型的核心操作在于先用多个单一预测模型从不同角度进行预测,随后再将各个预测结果通过设定计算权重进行组合得出最终预测结果,从而在一定条件下相对改善模型拟合度、提高预测精度。
85.组合预测的思路有两种,一是固定权重组合预测法,即通过学习数据和验证数据
跑出最终预测结果误差最小的权重配比,且该权重在整个预测时序中都是固定的;另外一种是可变权重组合预测法,即在运用学习数据及验证数据抛出最终结果的过程中,按照各个时间段中各单一预测模型的精度对权重进行动态调整(例如某一时间段模型a精度更高,那么这一时间段内数据计算时a模型输出结果的权重就会被调高,其他模型计算结果的权重就会相应调低,在另一个时间段内b模型精度更高,则动态调高b模型输出结果的权重,降低别的模型的权重)。
86.混合预测模型
87.混合预测模型的核心操作(也是与组合模型的核心区别)在于预测模型自身直接整合各个不同的单一预测模型,并基于学习数据与验证数据来确定整个混合模型内各运算指标的权重,从而让共同工作的各个单一预测模型跑出最终预测结果。
88.组合&混合预测模型方法更加平稳,运算结果相对平均,虽没有激进的变化,但强在没有严重的错误。对于固定权重组合预测模型,运算方法更加平稳,运算结果相对平均,虽没有激进的变化,但强在没有严重的错误。对于可变权重组合预测模型,运算结果会对特定时序中特定计算模型结果进行放大处理,凸显特定计算模型的优势与特征。
89.四、应用场景
90.(1)市场电力数据预测(经营信息预测)
91.由于市场购电侧数据受诸多外部因素决定,且影响现货市场分时数据、中长期市场交易数据、辅助服务数据的相关外部变量不尽相同,且不同发电项目发电成本影响因素也各不相同。因此,对购电侧指标进行划分,并按照现货市场、中长期市场两大市场维度进行分类,从而形成内部变量参考指标。此外考虑到发电成本与购电成本强相关,在外部变量中要优先放入煤炭价格、发电机组所在地天气及水文环境情况、天然气价格等在模型里进行运算。此外售电侧数据主要受购电成本、输配成本、各类基金及附加影响,但是在对模型进行训练和预测时,应避免使用非确定型未来数据(如工作日节假日就是确定型未来数据,使用预测模型得出的购电成本就属于非确定型未来数据),因此对于训练及校验用历史数据取近几年的大工业用电数据、一般工商业用电数据、居民生活用电数据、农业生产用电数据来作为内部变量,此外考虑到目录电价的取消与代理电价的接替关系,需要依据内在对应关系做一下转换。
92.计算模型使用移动平均法、整合移动平均自回归模型和多层感知机三种预测模型,其中传统时序预测模型的输入数据就是需要预测的经营信息类市场历史电力数据,输出数据就是需要预测的未来时间区间的经营信息类市场电力数据。其中,经营信息包括:电力市场数据,辅助服务价格数据,售电量,日均用电负荷率,日均用电峰谷差,日均用电最高负荷,等中的至少一种。多层感知机预测模型则需要梳理较多的外部变量,如表1所示。
93.表1市场电力数据预测场景下深度学习预测模型配置的内外变量选取指标
[0094][0095]
(2)经营模拟推演
[0096]
如图1所示,经营模拟推演主要分析电价、电量、线损等核心电网运营参数的内价值联动模型,并研究这些核心参数对经营效益的驱动作用。因此只能选取具有多指标数据输入能力的深度学习模型进行模拟计算。将需要预测结果的指标作为内部变量,其他相关指标作为外部变量进行输入,从而得出各变量在模型中的权重系数。内在计算逻辑及相关指标的权重系数确定后,即可通过控制变量法来研究各预设情况下其他指标的调整思路,如今年的盈利、线损要求,则将盈利目标及线损要求当作确定性未来数据带入模型,从而计算出支撑目标实现的售电量、价数据。如表3所示。
[0097]
表2经营模拟推演场景下深度学习预测模型配置的内外变量选取指标
[0098][0099]
数据期间选取:
[0100]
对于训练数据而言,深度学习预测模型一般选最近三到五年数据为佳,而校验数据则选最近三个月左右数据即可(训练数据与校验数据不可以重叠);传统时序预测模型则需要用经验法和试算法来进行调整。
[0101]
对于预测结果而言,不管使用哪一种模型,其预测准确率都会因为时间的拉长而下降,因此认为短期预测数据的精度及价值更高,因此优先建议针对预测运行时点后续30天到3个月的时间区间进行预测最优,当然也可按需求预测后续一年的数据,但需要接受精度下降的客观情况。
[0102]
深度学习模型内外变量(关键指标)的筛选:
[0103]
内外部变量指标选取是预测的核心,要预测什么指标,一般该指标就是最核心的内部变量,该指标的历史数据就是最关键的数据。
[0104]
外部变量的选取则需要通过两步实现,第一步称之为专家打分法,即通过对数据指标及相关业务有相当了解的专家来确定(或建议)需要引入哪些外部变量;第二部就是将外部变量带入模型计算并跑出各个外部变量的指标权重,从而确定外部变量与内部变量的关联强度。此外也可以在将外部变量指标引入模型计算前,先跑一次相关性分析,将一些过拟合的指标进行删减,从而减少执行预测模型计算时的系统运行压力。
[0105]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0106]
本发明是参照根据本技术实施例的方法流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
[0107]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程中指定的功能。
[0108]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
[0109]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1