一种基于大数据的用电负荷预测方法及系统与流程

文档序号:16038191发布日期:2018-11-24 10:15阅读:219来源:国知局

本发明属于电力行业的大数据运算分析领域,具体涉及一种基于大数据的用电负荷预测方法及系统。



背景技术:

电量预测是当今电力行业中十分重要的一部分,而电力系统负荷预测的水平也是衡量电力系统管理现代化的标志之一。随着电力市场改革的深入,作为电力市场主体的各电力公司要立足于电力市场,其一切经济活动就必须以经济效益为中心,并把深入研究电力市场的供需形势及其发展作为公司经营活动的基础。因此,做好电力负荷预测工作是准确把握市场脉搏、分析未来电力需求走势的必要工具。在电力系统运行、控制和计划管理中,负荷预测决定了发电、输电和配电的合理安排,既是电力系统规划的重要组成部分,又是提高电力企业的经济效益和促进国民经济发展的重要因素之一。

随着电力行业规模的不断扩大,日益增长的海量电力负荷数据,使传统的分析方法面临着数据量巨大而带来的挑战。这个挑战一方面是对数据的存储和备份提出了高要求,另一方面在对这些大数据进行处理运算的速度和效率上给计算机的性能带来了更高的要求。而且,传统的方法只能有效地处理小型的数据量,对于大规模的数据的处理分析上,除了效率方面受到影响外,预测的准确性也可能大打折扣。



技术实现要素:

为了克服上述缺陷,本发明提供了一种基于大数据的用电负荷预测方法,所述方法包括:

基于预测时间,获取用电区域的天气预报数据;

将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的预测用电负荷;

所述预测训练模型包括:基于gbdt由用电负荷、时间和天气数据的训练特征数据集确定。

优选的,所述预测训练模型的确定,包括:

基于用电区域的历史用电负荷数据和天气数据,进行处理后获得训练特征数据集;

基于训练特征数据集按照时间进行区域划分;

基于每个区域对建立的模型进行训练,获得所述区域的预测训练模型。

优选的,所述预测训练模型的确定,还包括:

采用测试特征数据集对所述预测训练模型进行验证,得到预测误差最小的预测训练模型;

所述测试特征数据集,包括:历史用电负荷数据和天气数据。

优选的,所述训练特征数据集和测试特征数据集的获得,包括:

获取同一地区的历史用电负荷数据和天气数据基于天气因素和时间因素按照设定的格式构建初始特征数据集;

提取所述初始特征数据集的电负荷数据和天气数据对应的特征维度信息,将所述电负荷数据和天气数据进行关联,得到用电负荷数据和天气数据相关联的特征数据集;

基于所述特征数据集按照预设比例进行划分,得到训练特征数据集和测试特征数据集。

优选的,所述预测训练模型,如下式所示:

其中,x为天气数据和用电负荷数据的输入区域;θ为对应天气数据和用电负荷数据的输入区域常数;t为训练模型;m为天气数据和用电负荷数据的输入区域总和;m为天气数据和用电负荷数据的输入区域第m个子区域。

优选的,所述训练模型,函数式如下:

其中,r为将天气数据和用电负荷数据的输入区域划分为j个互不相交区域,rj为第j个子区域;c为每个区域对应的用电负荷的输出均值;i为指示函数,当(x∈rj)为真时,i=1,否则i=0。

优选的,所述将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的预测用电负荷,包括:

从所述预测训练模型中获取与所述预测时间、天气预报数据相同的历史预测用电负荷数据作为所述预测时间段内的预测用电负荷。

优选的,所述预测训练模型,还包括:

通过图形界面将用电区域的历史预测用电负荷数据、历史用电负荷数据和相同时间段内的天气数据以图形的方式呈现。

一种基于大数据的用电负荷预测系统,所述系统包括:

数据模块:用于基于预测时间,获取用电区域的天气预报数据;

预测模块:用于将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的预测用电负荷;

其中,所述预测训练模型包括:基于gbdt由用电负荷、时间和天气数据的训练特征数据集确定。

优选的,所述预测模块,还包括:建立模块;

用于基于用电区域的历史用电负荷数据和天气数据,进行处理后获得训练特征数据集;

基于训练特征数据集按照时间进行区域划分;

基于每个区域对建立的模型进行训练,获得所述区域的预测训练模型。

与现有技术相比,本发明具有如下有益效果:

1、本发明提供一种基于大数据的用电负荷预测方法,基于预测时间,获取用电区域的天气预报数据;将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的历史预测用电负荷;所述预测训练模型包括:基于gbdt由用电负荷、时间和天气数据的训练特征数据集确定,大数据实现了将中间数据写入内存的操作,可以快速对历史的大量用电负荷数据进行获取、处理、分析和存储,实时处理数据的系统,该系统大大提高了运算效率,而且预测准确性高。

2、本发明提供一种基于大数据的用电负荷预测方法,通过建立一个数学模型,并不断地用这些历史数据集进行模型训练、优化模型参数,最终能获得一个更符合实际需求的用电负荷预测模型,从而来更有效地进行用电负荷预测,进而给某些地区的电量分配上提出一些指导性的建议。

附图说明:

图1为本发明的电负荷预测方法流程图;

图2为本发明的电负荷预测方法实现步骤流程图;

图3为本发明的电负荷预测方法大数据平台搭建图。

具体实施方式:

为了更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围:

实施例1

本发明为实现这种基于大数据的gbdt用电负荷预测方法,gbdt(gradientboostingdecisiontree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。综合现实的场景,考虑到天气因素、时间因素、地区关联性等因素,通过数学建模,在保证一定容错率与精度的条件下,对未来某一地区对应某一时刻的用电负荷量进行预测,给相关部门对于电量资源的调度提供一定的借鉴参考意义。如图1所示,所述方法包括:

步骤一:基于预测时间,获取用电区域的天气预报数据;

步骤二:将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的历史预测用电负荷;

所述预测训练模型包括:基于gbdt由用电负荷、时间和天气数据的训练特征数据集确定。

详细步骤如图2所示,主要的内容包括:

步骤一:将预先选取用电区域的用电负荷数据和天气数据进行处理得到特征数据集;

步骤s1:获取某区域历史的用电负荷数据,以及相同区域、相同时间段内的相关天气数据。

对于原始的电量数据集以及天气数据集,分别事先存储在hbase中,hbase可以轻松地存储海量的数据集,作为一种列存储式的nosql类型数据库,它的数据列可以根据需求动态地增加,每个单元格中的数据可以有多个版本。hbase向下提供了存储功能,通过利用hadoop提供的hdfs的存储能力向用户提供数据存储服务,通过zookeeper的协调管理,又能解决单点问题,在主节点故障时做到转移节点;向上又提供了数据运算的能力。

步骤s2:在大数据下对数据集进行数据预处理操作。

大数据使用经典的master-slave的主从节点集群分布模式,通过主节点master进行资源的调度调控,让从节点slave对数据进行处理运算。通过大数据的任务调度处理,让多台节点的计算机并行地对大数据进行预处理,包括数据清洗、数据切分、数据转换和数据融合。

步骤s3:进行数据的特征提取并建立对应的特征维度信息。

在对数据进行特征提取的时候要充分考虑各种天气因素、时间因素、用电负荷相关因素,构建并生成一个对该模型最适用的数据格式的数据集。比如,对用电负荷数据集中的有用列的数据进行筛选以及对无用列数据进行剔除;对所提取的天气数据中的有缺失数据的部分行进行过滤;对非标准格式的数据的数据格式进行转换,将字符串数据转化为浮点型数据;对时间格式的数据进行拆分转化成多个特征,如年、月、日、星期、时、分、是否周末等;对用电负荷数据的城市与对应的天气站之间进行映射关联,并将两者数据集的时间单位进行相似度的整合;计算并生成某个时间点的前一天、前一周、前一个月的相同时间点的用电负荷量;对预处理的用电负荷数据集与天气数据集进行融合。

在大数据中对于已经进行预处理与融合后的新数据集进行特征列项的数据进行提取,并进行特征维度信息关联的建立,包括用电负荷和天气特征数据的关联性建立;将关联好的特征集按照7:3的比例进行拆分,拆分成训练特征数据集与测试特征数据集两部分。

步骤二:基于所述特征数据集和预测训练模型,得到预设时间段内的预测用电负荷;

所述预测训练模型由特征数据集进行优化训练确定。

步骤s1:建立基于gbdt的训练模型。

步骤s2:根据过去用电负荷量与实际的天气特征数据集,通过建立的gbdt训练模型进行某个时间段的用电负荷量预测。

通过使用gbdt算法对特征进行建模,依据最小二乘法,递归地选取最优特征进行数据划分,以增强型学习方法为思想建立多棵特征回归树,完成对数据集建模。

其中,gbdt回归算法是一种采用加法模型,即基函数的线性组合与前向分布算法。gbdt算法使用二叉回归树为基函数。将众多弱学习模型,集成为一个强学习模型,从而达到良好的预测效果。

在用电负荷预测模型中,已知一个训练数据集χ为输入空间,输入空间参数为温度、湿度、风速、结露点等天气特征集以及前1天、前7天、前30天的同一时刻历史用电负荷数据。为输出空间,为将要预测的用电负荷量。将输入空间χ划分为j个互不相交的区域,r1,r2,···,rj,在每个区域上确定输出的常量cj,cj属于区域rj上的用电负荷记录的均值。每棵二叉回归树预测模型为为指示函数,当(x∈rj)为真时值为1,否则为0。

参数θ={(r1,c1),(r2,c2),····,(rj,cj)}表示树的区域划分,和各区域上的常数,j是回归树的复杂度,即叶节点个数。

使用前向分布算法,最终gbdt集成预测模型为

求解其中损失函数使用l(y,f(x))=(y-f(x))2

为使得模型具有良好泛化性能,对gbdt的生成子树进行剪枝操作,定义子树损失函数为cα(t)=c(t)+α|t|,α为剪枝后子树t的损失度,c(t)为剪枝前原损失度,|t|为子树叶节点数。

求解最优α,并获得其对应最优生成子树t。

上述求解步骤为初始α=+∞,自下而上对每个内部节点t计算c(tt),|tt|以及

α=min(α,g(t)),对的结点进行剪枝合并。不断增大α进行剪枝得到子树ti,得到子树序列t0,t1,···,tn。

采用交叉验证法在子树序列t0,t1,···,tn中选取最优子树tα。

通过输入训练数据集与测试数据集不断对预测模型进行优化,通过rmse、mape等系数对模型预测性能进行评估,选取具有最小预测误差的预测模型。

步骤s3:对所得的用电负荷量的预测值进行存储,以及将对应的训练模型进行存储保存。

对于获得的最优的预测模型,将其保存在hdfs中,方便日后重复调用,以减少重复建模带来的时间上的开销;在应用中将某个时间段的用电负荷的预测结果,按预测时间的先后顺序存储在hive中。

通过关系型数据库数据抽取工具sqoop将hive中的用电负荷预测数据抽取出来进行数据融合和整合后存入关系型数据库中。

步骤s4:实时提取存储的用电负荷量的预测值,在web端通过图形化的界面呈现出来。

在javaee的web端读取关系型数据库中的数据,通过图形化界面的方式将数据呈现出来,呈现结果包括可查看对某一个时间段内的用电负荷预测值,以折线图的方式展现出来;以及对历史用电负荷数据、天气信息的浏览。

实施例2

基于同一发明构思,本发明实施例中还提供一种基于大数据的用电负荷预测系统,如图3所示,展示了本发明提供的用电负荷预测系统结构框图。所述系统包括:

数据模块:用于基于预测时间,获取用电区域的天气预报数据;

预测模块:用于将所述预测时间、用电区域和天气预报数据带入预先建立的预测训练模型,得到所述预测时间段内的历史预测用电负荷;

其中,所述预测训练模型包括:基于gbdt由用电负荷、时间和天气数据的训练特征数据集确定。

优选的,所述预测模块,还包括:建立模块;

用于基于用电区域的历史用电负荷数据和天气数据,进行处理后获得训练特征数据集;

基于训练特征数据集按照时间进行区域划分;

基于每个区域对建立的模型进行训练,获得所述区域的预测训练模型。。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和方框图来描述的。应理解可由计算机程序指令实现流程图和方框图中的每一流程和方框、以及流程图和方框图中的流程和方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1