实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法

文档序号:9433242阅读:1292来源:国知局
实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法
【技术领域】
[0001] 本发明涉及发一种基于多源异构大数据的短期电力负荷预测方法。
【背景技术】
[0002] 在负荷预测领域中,影响负荷预测的因素丰富多样,包括历史负荷、天气、季节、日 类型、交通、实时电价、经济、政策等等,这些数据的各自治系统建设的时间、研发单位、采用 的技术和具体业务的特定要求等,导致了数据的存储方式、数据类型以及更新频次等不同, 进而呈现出数据异构、来源多样和海量数据等诸多特点,使得这些特征通常拥有各自不同 的物理意义、量纲以及统计特性等。现有的负荷预测方法中,基于时间序列模型不能很好 处理影响因素;回归分析方法虽然考虑了部分影响因素,但并没有考虑影响因素的异构特 性,未能对这些特征进行区分对待,可能导致对这些异源异构特征利用效率的降低;现有的 利用基于单核的SVM进行负荷预测,其将所有的特征都并列堆叠成一个向量,比如,特征是 由两个特征融合而成,第一个特征服从多项式分布,而第二个特征服从正态分布而后一起 输入一个固定形式固定参数的核映射函数当中来建立模型,这种处理方式显得有些简单低 效,尤其是用来应对来自不同数据源的不同种类特征。
[0003] 当数据规模庞大、数据异构或者样本分布不均匀时,采用多核学习这一理论框架 则能够提供更加灵活和有效的信息组织与挖掘功能。多核学习首先利用像一系列传感器一 样的基核对各自的信息进行感知,而后通过在映射后高维空间中对各基核的优化线性加权 集成,形成一种在原始空间中对不同信息的非线性优化集成,从而提高了核机器的性能以 更好的利用不同数据源中的信息。因此,研究基于多核学习的负荷预测算法具有重要意义。

【发明内容】

[0004] 本发明的目的是提供一种能有效处理影响负荷预测的多种多源异构数据的多核 函数学习方法,以解决因智能电网不断发展,采集到的影响负荷变化的随机因素的数量、结 构种类越来越多,导致传统负荷预测方法无法精确处理及应用这些多源异构影响因素而不 能满足大数据环境下短期负荷预测精度与速度要求的问题。
[0005] 本发明为解决上述技术问题而提供一种实现多源异构数据融合的多核函数学习 SVM的Mapreduce化短期负荷预测方法,该预测方法的步骤如下:
[0006] 步骤1、配置负荷预测平台:选定主节点服务器与从节点计算机,搭建集群分布式 Hadoop平台,并配置集群环境JDK、SSH、HDFS以及Mapreduce等;
[0007] 步骤2、调研待预测配电网区域负荷情况:调研待预测配网区域底层线路如IOKV 专线、35KV专线的负荷种类以及配电网区域范围内工业负荷、农业负荷、商业负荷、居民负 荷的构成比例;
[0008] 步骤3、选定多源异构数据种类:根据步骤2的调研结果筛选M种影响负荷预测的 随机多源异构因素特征值属性,第M种属性特征值包含m个子特征值,并从气象网、交通网、 SCADA系统以及数据库等采集各特征值历史样本,每天的采集频率为f,采集样本个数为N ;
[0009] 【特征值 Xlll, Xll2,…,Xlln,特征值 Xl21,X122,…,xl2n,......,特征值 xlM1,xlM2,… ,xiMm】,i = 1,2,…,N
[0010] 步骤4、数据预处理:将步骤3中采集的多源异构数据进行归一化处理;
[0011] 步骤5、选定M个核函数Kk,k = 1,2,…M,组合的多核函数为:if = Σ?=14&。式 中,dk为核函数K k对应的权系数,具体选定核函数种类的步骤为:
[0012] 5A.采用单变量法,选定某一属性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m为 该属性的特征值所含子特征值个数;
[0013] 5B.采用单核SVM法,输入变量为5A.中选取的单属性特征值,核函数分别选线性 核函数、多项式核函数、RBF核函数,进行单核SVM负荷预测;
[0014] 5C.计算四种单核SVM负荷预测精度;
[0015] 5D.选择预测精度最高的核函数作为该单属性特征值对应的核函数Kk;
[0016] 5E.对M种属性的特征值分别进行5A至操作,得到最终的M个核函数Kk,k = 1,2,…M0
[0017] 步骤6、多源异构数据特征融合:利用Hadoop平台将多核函数学习 SVM算法 Mapreduce化,实现多源异构数据特征融合,并得到负荷预测结果。具体步骤为:
[0018] 6A.将步骤4归一化后的多源异构数据划分为X个训练样本与C个测试样本,X+C =N:
[0019] 训练样本:
[0020] Xu=【特征值 X ull,Xul2,…,Xuln,特征值 Xu21,Xu22,…,Xu2n,......,特征值 XUM1, XuM2,…,XuMm,Yu 】
[0021] 测试样本:
[0022] Xv -【特征值 X vll,Xv12,…,XvIm,特征值 Xv21,Xv22,…,Xv2m,......,特征值 ΧνΜ1,XvM2,… ,XvMm, yv】
[0023] 其中:yu、yvS 目标负荷值,u = 1,2, · · ·,X,v = 1,2, · · ·,C.
[0024] 6B.将6A中的训练样本{xu,u = 1,2,…,X}分割为D个数据子集:确定需要并 行多核SVM计算的数目D和数据集大小,修改HDFS配置文件,设置块大小,并将数据上传至 HDFS ;
[0025] 6C.实现D个节点的Map过程:
[0026] ①设定精度为常数ε ;
[0027] ②利用步骤5的组合核函数K 4心计算数据子集的核矩阵,实现多源异构
数据特征融合:
[0028] 给定初值
[0029] 初始化核矩阵为
[0030] 其中
[0031] ③利用初始化核矩阵,采用求解多核函数SVM的双层交替优化算法对数据子集进 行训练,得到D个节点的子支持向量,输出为〈key, value〉,key为训练样本,value为子支 持向量;
[0032] 6D.实现Reduce过程:D个节点的子支持向量进行合并,对合并后的支持向量集 进行多核函数SVM训练,得到最优核函数权重4&= 1,2,-·,Μ)、最优拉格朗日乘子 <与 = :U.…A/)以及最终支持向量,建立多核SVM回归估计函数:
[0034] 其中
i为训 练样本中的任意两个样本的特征值,yu为训练样本中的目标负荷值,X为待预测负荷的各特 征值向量。利用该多核SVM回归估计函数,对测试样本进行负荷预测,并计算相对误差,输 出为〈key, value〉,key为测试样本,value为负荷预测值与相对误差。
[0035] 与现有技术相比,本发明的有益效果是:
[0036] 传统负荷预测有的无法考虑影响因素,有的虽然考虑了部分影响因素,但并没有 考虑影响因素的异构特性,未能对这些特征进行区分对待,导致对这些异源异构特征利用 效率的降低,而且随着智能电网的发展,大数据环境下影响负荷预测的数据随机性、复杂程 度增加,传统负荷预测方法数据处理方面的劣势愈加明显,本发明根据不同的影响因素选 用不同的核函数来代表其异构特征,利用组合核函数来有效融合、处理影响负荷预测精度 的多源异构数据因素,提高这些异源异构特征利用效率,进而提高负荷预测精度。
【附图说明】
[0037] 图1是实现多源异构数据融合的多核函数学习 SVM的Mapreduce化短期负荷预测 方法流程图
[0038] 图2是选择核函数的流程图
【具体实施方式】
[0039] 为使本发明更明显易懂,兹以优选实施例子,并配合附图作详细说明如下。
[0040] 步骤1、配置负荷预测平台:选定主节点服务器与从节点计算机,搭建集群分布式 Hadoop平台,并配置集群环境JDK、SSH、HDFS以及Mapreduce等;
[0041] 步骤2、调研待预测配电网区域负荷情况:调研待预测配网区域底层线路如IOKV 专线、35KV专线的负荷种类以及配电网区域范围内工业负荷、农业负荷、商业负荷、居民负 荷的构成比例;
[0042] 步骤3、选定多源异构数据种类:根据步骤2的调研结果筛选M种影响负荷预测的 随机多源异构因素特征值属性,第M种属性特征值包含m个子特征值,并从气象网、交通网、 SCADA系统以及数据库等采集各特征值历史样本,每天的采集频率为f,采集样本个数为N ;
[0043] 【特征值xm,Xil2,…,Xilm,特征值 Xi21 ? Xi22,··、Xi2m,·· .…,特征值XiMl,XiM2,…,XiMm】, i = 1,2,…,N
[0044] 例如,此处选择的多源异构数据构造形式:
[0045] 【时刻X1,星期属性x2,日最高气温Xy日最低气温x4,日平均气温 x;>,预测点电价 X6、预测点前一时刻电价X7、前一天同一预测点电价X8、前一周同一预测点电价X 9、日最大车 流量X1。、日最小车流量χη、日进出地铁人数χ12】
[0046] 时刻X1 :每日每隔30分钟米样负荷数据,一天共48个时刻表不如下:
[0048] 星期属性x2:用数字1至7表示星期一至星期日。
[0049] 预测方式:日前负荷预测,以待预测日前T (自定义)天每天每15分钟的数据作为 训练样本,来预测待预测日每15分钟的负荷值。
[0050] 步骤4、数据预处理:将步骤3中采集的多源异构数据进行归一化处理,归一化方 法为:
[0052] 步骤5、选定M个核函数Kk,k = 1,2,…M,组合的多核函数为:[ = 。式 中,dk为核函数K k对应的权系数,具体选定核函数种类的步骤为:
[0053] 5A.采用单变量法,选定某一属性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m为 该属性的特征值所含子特征值个数;
[0054] 5B.采用单核SVM法,输入变量为5A.中选取的单属性特征值,核函数分别选线性 核函数、多项式核函数、R
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1