一种基于决策树的电力负荷数据处理方法

文档序号:9708909阅读:528来源:国知局
一种基于决策树的电力负荷数据处理方法
【技术领域】
[0001] 本发明提出一种基于决策树的电力负荷数据处理方法,属于电网负荷预测领域。
【背景技术】
[0002] 电力负荷预测是电力调度系统中的一项非常重要的工作。负荷预测是根据负荷历 史数据和其它各类相关影响因素进行预测的。因此其预测精度很大程度上取决于历史数据 的准确性。
[0003] 现有的电力负荷预测方法采用数据挖掘技术。数据挖掘技术是在所有属性值均已 知确定的前提下使用的,很多情况下,尤其是大型公司企业每天都会采集数以亿计的信息 数据,经常会出现某些样本的一些属性值丢失现象。由于属性值和该样本不是相关联的,或 者采集样本时未对它进行记录,或者把数据录入数据库时人为造成的错误,从而出现样本 属性值缺失现象。如果将具有缺失值的数据从信息系统中去掉,不仅会造成资源的过度浪 费,还可能会丢失隐含在其中的、不为人知的、有价值的信息,从而丢失数据挖掘技术所寻 求的规则。但是,对属性缺失值进行不正确的处理会带来新的噪声污染,使数据挖掘技术产 生错误的结果,对分析产生影响。现实世界中的数据经常会出现数据不完整或不一致,数据 含有噪声情况,数据预处理能够改善数据的质量,提高数据挖掘过程的有效性和准确性。高 质量的决策方法来自高质量的数据。因此,如何正确处理缺失数据是数据挖掘技术预处理 过程中非常重要的问题,也是整个数据挖掘与知识发现的关键步骤,更对最终的分析结果 至关重要。
[0004] 决策树的"分而治之"方法是由澳大利亚悉尼大学的J.R.Quinlan开发和完善的。 他于1986年在机器学习杂志上发文介绍了 ID3算法,该算法基于信息熵理论,是当时最早和 最有影响的决策树算法。该算法是以信息增益作为测试属性的选择标准,但由于信息增益 度量倾向于许多值的属性,取值较多的属性不一定是最佳的属性,所以该算法存在一定的 偏差和误区;只能处理具有离散值的属性,没有考虑训练集中的缺值问题,所以ID3算法有 待进一步改进。C4.5算法是在ID3算法基础上的改进,不仅可以处理离散值属性,还能够处 理连续值属性。C4.5算法采用信息增益率作为选择测试属性的标准,信息增益率的计算方 法如下:
[0005] 设S为一个包含s个数据样本的集合,类别属性可以取η个不同的值,就对应于η个 不同的类别(^^^{^。。,...,"。假设&为类别匕中的样本个数^卩么要对一个给定数据 对象进行分类所需的信息量为:
[0006]
.⑴:
[0007] 式中,Pl是任一个数据对象属于类别Ci的概率,可按Sl/s计算;I(Sl, S2,...,Sn% 样本的信息量,即样本属性的信息期望。
[0008] 设属性A具有m个不同的值,分别为ai,a2, . . .,am,可以用属性A将S划分为m个子集, 分别为. . .,Sm,其中Sj包含S集合中属性A取a」值的数据样本。若A被选作测试属性,设 Sij为子集Sj中属于Ci的样本数。贝ij由A划分子集的信息熵为:
[0009]
(2)
[0010]式中,E(A)为子集的信息熵,作为第j个子集的权值,它是由所有子集中属性A取 aj值的样本数据之和除以S集合中的样本总数。而对于一个给定的子集&,其信息值为:
[0011](3)
[0012]式中,叫= Slj/I
I,即子集s冲任一个数据样本属于类别Cl的概率。这样利用属 性A对当前分枝节点进行样本集合划分所获得的信息增益Gain(A)为:
[0013] Gain(A) = I(Si,S2,…,Sn)-E(A) (4)
[0014] 信息增益率的计算公式为:
[0015]
(5)
[0016] 由此可见,C4.5算法采用的信息增益率表示的是由分枝产生的有用信息的比率, 这个值越大,表示分枝包含的有用信息越多。虽然C4.5算法是在ID3算法上的改进,但其对 缺失属性值的补全方法不够完善。

【发明内容】

[0017] 发明目的:本发明提出一种基于决策树的电力负荷数据处理方法,提高了历史负 荷数据的准确性。
[0018] 技术方案:本发明提出一种基于决策树的电力负荷数据处理方法,包括以下步骤:
[0019] 1)对训练集T中某一属性具有确定值的样本划分成确定值样本集;
[0020] 2)计算训练集T中缺失值样本和确定值样本的相似度;
[0021] 3)以与缺失值样本具有最大相似度的确定值样本属性值补全缺失值样本的样本 属性。
[0022]优选地,所述相似度为:
[0023]
[0024]
[0025]式中,^是确定值样本集中第j个样本,是缺失值样本集中第i个样本,D(s'η 8」)为8」与8/:1的相似度;4表示数据训练集中的所有属性集合4^={3£4|31 = 3」}表示81和 Sj取值相同且确定的属性集合,| Α |和| |分别表示相应集合中的元素数目,为权重系 数。
[0026]有益效果:本发明提出的采用样本相似度原则对缺失属性值进行补全,并将其应 用到电力负荷预测中,不仅提高了历史负荷数据的准确性,还提高了电力负荷预测结果的 精度,通过算例仿真分析,验证了该方法的可行性和准确性,具有一定的实用价值。
【具体实施方式】
[0027] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同 形式的修改均落于本申请所附权利要求所限定的范围。
[0028] 本发明采用样本相似度原则对属性缺失值进行补全,根据已知样本数据和缺失样 本数据的相似度大小来修正缺失数据,提高原始数据的准确性,从而提高电力负荷预测的 精度。
[0029] 设A为训练集T的某一属性,A的取值为:ai,a2, ...,am,定义s为确定值样本,s'为缺 失值样本。根据T定义一个子集合f ={s£T|ax矣未知数(x = l,2,. . .,m)},子集合f表 示为属性ax取值确定的所有样本集合。那么对于数据训练集T中的缺失值样本s'与子集合 f中的确定值样本s的相似度为:
[0030]
[0031] (6)
[0032] 式中,Dk^sj)为与样本s的相似度;A表示数据训练集中的所有属性集合,Aij = {aeA|ai = aj}表示Si和Sj取值相同且确定的属性集合,|A|和|Aij |分别表示相应集合中的 元素数目,3ij为权重系数。
[0033] 以与~具有最大相似度的子集合?"中的样本~的属性值作为的属性值,补全缺 失值,同时删去决策树中其他节点的,直至所有数据的缺失值补充完整为止。
[0034] 上述缺失值补全原则只适用于数据缺失值较少的情况,当数据库中的数据较少而 缺失值较多时,此方法可能会使分析结果产生偏差。不过,若在具有海量数据的数据库中出 现较多属性值缺失情况,这样的数据已经失去研究的意义和价值,且实际情况中,在信息获 取方面一般不会出现这种情况。
[0035]最后给出一个算例,如表1所示是江苏省2013年3月1日到3月14日的历史负荷数 据,用前面提到的样本相似度原则对缺失属性值进行补全,然后再利用决策树C4.5算法形 成决策树,从而对未来电力负荷进行预测。下面给出具体数据如表1所示,表1中"?"处表示 该数据缺失。
[0036]表1:历史负荷数据
[0037]
[0038]
[0039] 首先,确定目标属性和条件属性。由于表中给定的数据只有温度、相对湿度、日类 型和负荷数据,所以根据经验可将数据中的温度、相对湿度和日类型属性定为条件属性,将 负荷属性定为目标属性。
[0040] 日类型属性虽然不是连续型数据,但决策树算法不能识别此属性值,必须对其进 行转换,转换成决策树识别的属性才能运用。本论文用数值1、2、3、4、5、6、7分别代替星期 一、星期二、星期三、星期四、星期五、星期六、星期日,这样就把决策树不能识别的属性值转 换为能够识别的属性值。
[0041] 其次,由表中数据可知,温度、湿度和负荷数据属性值均为连续型数据,其中温度 和相对湿度能直接应用于算法中,因为决策树C4.5算法能够处理连续型属性值,但负荷数 据是目标属性,算法不能直接处理,所以需要对负荷数据进行离散化。本发明将负荷平均划 分为四类,算例中的负荷数据均在区间[42833,545412]内,所以将区间划分为四部分,即四 个类型:[42833,45760]、[45760,48687]、[48687,51614]、[51614,54542],本发明分别用1、 2、3、4代替这四个类型。
[0042] 最后,根据前面提到的公式和方法,利用MATLAB软件对决策树C4.5算法进行编程 仿真,将处理后的数据代入程序中,根据结果分析得到决策树,根据决策树形成规则,利用 这些规则就可以对该省2013年3月15日到3月28日的负荷进行预测分析。
【主权项】
1. 一种基于决策树的电力负荷数据处理方法,其特征在于,包括以下步骤: 1) 对训练集T中某一属性具有确定值的样本划分成确定值样本集; 2) 计算训练集T中缺失值样本和确定值样本的相似度; 3) 以与缺失值样本具有最大相似度的确定值样本属性值补全缺失值样本的样本属性。2. 根据权利要求1所述的基于决策树的电力负荷数据处理方法,其特征在于,所述相似 度为: = ^1^· .+ ? i = ^(?) = \ φ d(s:j) 式中,^是确定值样本集中第j个样本,Α是缺失值样本集中第i个样本,DWnsJ为~ 与S' i的相似度;A表示数据训练集中的所有属性集合,Aij= {&£4|&1 = 3」}表示81和8」取值 相同且确定的属性集合,IAI和II分别表示相应集合中的元素数目,为权重系数。
【专利摘要】本发明提出一种基于决策树的电力负荷数据处理方法,本发明提出的采用样本相似度原则对缺失属性值进行补全,并将其应用到电力负荷预测中,不仅提高了历史负荷数据的准确性,还提高了电力负荷预测结果的精度,通过算例仿真分析,验证了该方法的可行性和准确性,具有一定的实用价值。
【IPC分类】G06Q50/06, G06Q10/06
【公开号】CN105469219
【申请号】CN201511021630
【发明人】沈培锋, 余昆, 宁艺飞, 陈星莺, 嵇文路, 周冬旭, 王春宁, 罗兴
【申请人】国家电网公司, 江苏省电力公司, 江苏省电力公司南京供电公司, 河海大学
【公开日】2016年4月6日
【申请日】2015年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1