一种基于大数据的短期负荷预测平台的制作方法

文档序号:9453525阅读:315来源:国知局
一种基于大数据的短期负荷预测平台的制作方法
【技术领域】
[0001] 本发明涉及一种以Hadoop集群为架构的基于大数据的短期负荷预测平台。
【背景技术】
[0002] 电力系统负荷预测是电力系统调度、用电、计划和规划等管理部门的重要工作之 一,准确的负荷预测,有利于经济合理的安排电网内部发电机组的启停,保持电网运行的安 全稳定性,减少不必要的旋转储备容量;有利于用电管理,合理的安排电网运行方式和机组 检修计划,保证社会的正常生产和生活。
[0003] 近年来,随着科技界、学术界以及社会经济的高速发展,大数据技术成为全球研究 热点,相应的传感通信技术、智能电网的快速发展,也形成了电力大数据。传统短期电力负 荷预测系统主要有基于神经网络(ANN)的短期负荷预测方法、基于模糊逻辑推理的短期负 荷预测方法、基于混沌理论的非线性系统与方法应用于短期负荷预测、组合预测等分析方 法,其预测速度与精度已经不能满足大数据环境下的要求,需要建立一个完整的基于大数 据分析的负荷预测平台,实现从数据加载、数据处理、负荷预测、反馈控制、可视化的一体 化、并行化、自适应的负荷预测流程。

【发明内容】

[0004] 本发明的目的是提供一种能高速处理多种海量用电数据并能够实现从数据加载、 数据处理、负荷预测、参数控制、可视化的一体化、并行化、自适应的负荷预测流程的可扩展 化负荷预测平台,以解决目前负荷预测系统数据处理数量有限、预测速度低、处理数据结构 单一的问题。
[0005] 本发明的技术解决方案如下:
[0006] -种基于大数据的短期负荷预测平台,采用Hadoop集群为架构,其特点在于:包 括数据整合模块、负荷预测模块、结果可视化模块,
[0007] 所述数据整合模块,用于采集、存储并处理与负荷相关的多源异构数据,并对这些 多源异构数据进行融合以及历史数据的校正、填补和归一化处理;
[0008] 所述负荷预测模块,根据负荷周期性分析理论、相似性分析理论以及影响负荷的 因素相关性分析,将局部加权线性回归算法Mapreduce化进行负荷预测,计算相对误差、日 负荷准确率来调整算法参数以实现参数调节控制,得到最终最优参数的局部加权线性回归 算法,进行负荷预测得到预测结果;
[0009] 所述结果可视化模块,用于显示负荷预测结果。
[0010] (一)数据整合模块
[0011] (1)数据加载模块:将采集到的多源异构数据:结构化数据(包括历史负荷数据、 气象数据、阶梯电价、分时电价、分负荷性质电价、周属性与节假日信息、交通数据)、半结构 化数据(包括电价政策、经济人口数据表)、非结构化数据(包括GIS数据)三种类型的数 据加载到分布式数据库HBase中;
[0012] (2)数据存储模块,对于海量的半结构化、非结构化小文件以及复杂多变的结构 化数据,使用fffiase的key-value存储,对于较大的单个三种数据类型的文件,直接存储在 HDFS文件系统中;
[0013] (3)多级综合索引模块,用于快速按用户的查找条件找到所需的数据。一级索引采 用多维R树基本结构,依据非传统地理分类规则,将清理后数据对象分成多个子空间,每个 子空间对应R树的一个节点,非叶节点存放节点所有子树的最小外接矩形(MBR),叶节点中 存放每个空间对象对应的MBR;二级及以下索引采用基于相邻密度(LCF)的对象聚类,根据 相对密度的接近程度实现聚类后的对象划分;
[0014] (4)数据处理模块,实现数据预处理,对于所有多源异构数据,选用多核函数学习 方法进行融合;对于历史负荷数据中的缺失数据,采用插补法补全数据;对于历史负荷数 据中的异常数据,采用纵横法来校正异常数据;最后对所有处理之后的数据进行归一化。
[0015] (二)负荷预测模块
[0016] 根据负荷周期性分析理论、相似性分析理论以及影响负荷的因素相关性分析,将 局部加权线性回归算法Mapreduce化进行负荷预测,计算相对误差、日负荷准确率来评估 预测方法,并根据评估结果调整的算法参数以实现参数调节控制。具体实现步骤为:
[0017] 步骤1、选取实验数据特征值:根据负荷周期性分析理论、相似性分析理论以及影 响负荷的因素相关性分析,选取历史负荷数据、历史气象数据、周属性信息、预测日数据作 为实验数据,影响负荷的特征值选取为每日时刻、日平均气温、星期属性。
[0018] 步骤2、构造实验样本训练集、测试集:应用多元局部加权线性回归模型进行负荷 预测,要得到负荷1与影响因素x之间的关系需要构造训练集和测试集,根据步骤1中选取 的影响负荷的特征值属性进行训练集、测试集的构造,构造形式:
[0019] 【时刻Xi,气温x2,星期属性x3】
[0020] 时刻11:每日每隔30分钟采样负荷数据,一天共48个时刻,表示如下:
[0021]
[0022] 气温x2:日平均气温
[0023] 星期属性x3:用数字1至7表示星期一至星期日。
[0024] 预测方式:日前负荷预测,训练样本为待预测日前两年每日每30分钟的负荷数 据,用以预测待预测日每30分钟的负荷,即测试样本为待预测日每30分钟的数据。
[0025]最终的训练集:(xu,xi2,xi3, 1;),i= 1,2,…,n,对变量xu,xi2,xi3, 1;作n次观 察,得到n个训练样本。
[0026]最终的测试集:(x_n,x_j2,x_j3),j= 1,2,…,48,共48个待预测负荷点。
[0027] 步骤3、实验数据加载:实验训练集与测试集文件被Hadoop集群自主分成若干个 数据块,存放于分布式文件系统HDFS中。
[0028] 建立输入流对象,将HDFS中的训练集文本文件输入到Stream中以获得HDFS实 例,逐行读取训练集文本文件,进行类别转换并记为:traindata[i] = (xu,xi2,xi3),L[i] =込,i= 1,2,…,n,n为训练样本个数。测试集文本文件则在Map过程中输入。
[0029] 步骤4、实现Map过程:实现KNN算法中所有待预测点与所有样本点之间的距离计 算。输入为测试集文本文件,记为testdata[j] = ^4243),」=1,2,*",111。具体实现 步骤为:
[0030] 4A.定义Map函数输出值及其类型;
[0031] 4B.将测试集文本进行类型转换;
[0032] 4C.计算第j个测试样本与第i个训练样本之间的距离distance[j][i]::
[0033] dista.ncc\j][i] ~ \\testdata\j] - tramdata[i]\\2
[0034]i= 1,2,…n为训练样本个数,j= 1,2,…48为测试样本个数
[0035]4D?定义Map函数输出键值对〈key,value〉:key=testdata[j],value= distance[j] [i]〇
[0036] 步骤5、实现Reduce过程:输入为Map函数输出的键值对〈key,value〉,输出为负 荷预测结果。具体实现步骤为:
[0037] 5A?定义K值:K=constant,令j= 1;
[0038] 5B.读取测试样本testdata[j] =x.j= (x.jpx.jrx.p),distance[j] [i],i= 1,2,... n;
[0039] 5C?对读取的testdata[j]与distance[j] [i]键值对进行类型转换;
[0040] 5D.将distance[j] [i]升序排歹(J,选择前K个最小距离并记为:d[j] [1]、d[j] [2]、…、d[j] [K];
[0041] 5E?记前K个最小距离对应训练样本为traindata_k[s] = (xsl,xs2,xs3),L_k[s] =ls,s= 1, 2, ???,K;
[0042] 5F.计算ro中选出的K个点的权重:
[0043]
[0044] 5G.确定特征值矩阵X、因变量矩阵L、权矩阵W(Xj):
[0045]
[0046]W(X.) =diag[w! (Xj),
w2(Xj),…K (X.)]
[0047] 5H.采用加权最小二乘法求得在自变量X]处得曲线参数估计值:
[0048] ci(x;) = [a()(^),a,(xy),av(x;),ffs(A-;)] = %XV/{xj)L_k
[0049] 51.构造局部加权线性回归方程,在自变量testdata[j] =x.j=(x.n,x.
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1