一种基于决策树的电力负荷数据处理方法

文档序号：9708909阅读：528来源：国知局

一种基于决策树的电力负荷数据处理方法
【技术领域】
[0001] 本发明提出一种基于决策树的电力负荷数据处理方法，属于电网负荷预测领域。
【背景技术】
[0002] 电力负荷预测是电力调度系统中的一项非常重要的工作。负荷预测是根据负荷历史数据和其它各类相关影响因素进行预测的。因此其预测精度很大程度上取决于历史数据的准确性。
[0003] 现有的电力负荷预测方法采用数据挖掘技术。数据挖掘技术是在所有属性值均已知确定的前提下使用的，很多情况下，尤其是大型公司企业每天都会采集数以亿计的信息数据，经常会出现某些样本的一些属性值丢失现象。由于属性值和该样本不是相关联的，或者采集样本时未对它进行记录，或者把数据录入数据库时人为造成的错误，从而出现样本属性值缺失现象。如果将具有缺失值的数据从信息系统中去掉，不仅会造成资源的过度浪费，还可能会丢失隐含在其中的、不为人知的、有价值的信息，从而丢失数据挖掘技术所寻求的规则。但是，对属性缺失值进行不正确的处理会带来新的噪声污染，使数据挖掘技术产生错误的结果，对分析产生影响。现实世界中的数据经常会出现数据不完整或不一致，数据含有噪声情况，数据预处理能够改善数据的质量，提高数据挖掘过程的有效性和准确性。高质量的决策方法来自高质量的数据。因此，如何正确处理缺失数据是数据挖掘技术预处理过程中非常重要的问题，也是整个数据挖掘与知识发现的关键步骤，更对最终的分析结果至关重要。
[0004] 决策树的"分而治之"方法是由澳大利亚悉尼大学的J.R.Quinlan开发和完善的。他于1986年在机器学习杂志上发文介绍了 ID3算法，该算法基于信息熵理论，是当时最早和最有影响的决策树算法。该算法是以信息增益作为测试属性的选择标准，但由于信息增益度量倾向于许多值的属性，取值较多的属性不一定是最佳的属性，所以该算法存在一定的偏差和误区；只能处理具有离散值的属性，没有考虑训练集中的缺值问题，所以ID3算法有待进一步改进。C4.5算法是在ID3算法基础上的改进，不仅可以处理离散值属性，还能够处理连续值属性。C4.5算法采用信息增益率作为选择测试属性的标准，信息增益率的计算方法如下：
[0005] 设S为一个包含s个数据样本的集合，类别属性可以取η个不同的值，就对应于η个不同的类别(^^^{^。。，...，"。假设&为类别匕中的样本个数^卩么要对一个给定数据对象进行分类所需的信息量为：
[0006]
.⑴：
[0007] 式中，Pl是任一个数据对象属于类别Ci的概率，可按Sl/s计算；I(Sl， S2，...，Sn% 样本的信息量，即样本属性的信息期望。
[0008] 设属性A具有m个不同的值，分别为ai，a2, . . .，am，可以用属性A将S划分为m个子集，分别为. . .，Sm，其中Sj包含S集合中属性A取a」值的数据样本。若A被选作测试属性，设 Sij为子集Sj中属于Ci的样本数。贝ij由A划分子集的信息熵为：
[0009]
(2)
[0010]式中，E(A)为子集的信息熵，作为第j个子集的权值，它是由所有子集中属性A取 aj值的样本数据之和除以S集合中的样本总数。而对于一个给定的子集&，其信息值为：
[0011](3)
[0012]式中，叫= Slj/I
I，即子集s冲任一个数据样本属于类别Cl的概率。这样利用属性A对当前分枝节点进行样本集合划分所获得的信息增益Gain(A)为：
[0013] Gain(A) = I(Si，S2,…，Sn)-E(A) (4)
[0014] 信息增益率的计算公式为：
[0015]
(5)
[0016] 由此可见，C4.5算法采用的信息增益率表示的是由分枝产生的有用信息的比率，这个值越大，表示分枝包含的有用信息越多。虽然C4.5算法是在ID3算法上的改进，但其对缺失属性值的补全方法不够完善。

【发明内容】

[0017] 发明目的：本发明提出一种基于决策树的电力负荷数据处理方法，提高了历史负荷数据的准确性。
[0018] 技术方案:本发明提出一种基于决策树的电力负荷数据处理方法，包括以下步骤：
[0019] 1)对训练集T中某一属性具有确定值的样本划分成确定值样本集；
[0020] 2)计算训练集T中缺失值样本和确定值样本的相似度；
[0021] 3)以与缺失值样本具有最大相似度的确定值样本属性值补全缺失值样本的样本属性。
[0022]优选地，所述相似度为：
[0023]
[0024]
[0025]式中，^是确定值样本集中第j个样本，是缺失值样本集中第i个样本，D(s'η 8」)为8」与8/：1的相似度;4表示数据训练集中的所有属性集合4^={3￡4|31 = 3」}表示81和 Sj取值相同且确定的属性集合，| Α |和| |分别表示相应集合中的元素数目，为权重系数。
[0026]有益效果:本发明提出的采用样本相似度原则对缺失属性值进行补全，并将其应用到电力负荷预测中，不仅提高了历史负荷数据的准确性，还提高了电力负荷预测结果的精度，通过算例仿真分析，验证了该方法的可行性和准确性，具有一定的实用价值。
【具体实施方式】
[0027] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同形式的修改均落于本申请所附权利要求所限定的范围。
[0028] 本发明采用样本相似度原则对属性缺失值进行补全，根据已知样本数据和缺失样本数据的相似度大小来修正缺失数据，提高原始数据的准确性，从而提高电力负荷预测的精度。
[0029] 设A为训练集T的某一属性，A的取值为:ai，a2, ...，am，定义s为确定值样本，s'为缺失值样本。根据T定义一个子集合f ={s￡T|ax矣未知数(x = l，2,. . .，m)}，子集合f表示为属性ax取值确定的所有样本集合。那么对于数据训练集T中的缺失值样本s'与子集合 f中的确定值样本s的相似度为：
[0030]
[0031] (6)
[0032] 式中，Dk^sj)为与样本s的相似度;A表示数据训练集中的所有属性集合，Aij = {aeA|ai = aj}表示Si和Sj取值相同且确定的属性集合，|A|和|Aij |分别表示相应集合中的元素数目，3ij为权重系数。
[0033] 以与~具有最大相似度的子集合?"中的样本~的属性值作为的属性值，补全缺失值，同时删去决策树中其他节点的，直至所有数据的缺失值补充完整为止。
[0034] 上述缺失值补全原则只适用于数据缺失值较少的情况，当数据库中的数据较少而缺失值较多时，此方法可能会使分析结果产生偏差。不过，若在具有海量数据的数据库中出现较多属性值缺失情况，这样的数据已经失去研究的意义和价值，且实际情况中，在信息获取方面一般不会出现这种情况。
[0035]最后给出一个算例，如表1所示是江苏省2013年3月1日到3月14日的历史负荷数据，用前面提到的样本相似度原则对缺失属性值进行补全，然后再利用决策树C4.5算法形成决策树，从而对未来电力负荷进行预测。下面给出具体数据如表1所示，表1中"？"处表示该数据缺失。
[0036]表1:历史负荷数据
[0037]
[0038]
[0039] 首先，确定目标属性和条件属性。由于表中给定的数据只有温度、相对湿度、日类型和负荷数据，所以根据经验可将数据中的温度、相对湿度和日类型属性定为条件属性，将负荷属性定为目标属性。
[0040] 日类型属性虽然不是连续型数据，但决策树算法不能识别此属性值，必须对其进行转换，转换成决策树识别的属性才能运用。本论文用数值1、2、3、4、5、6、7分别代替星期一、星期二、星期三、星期四、星期五、星期六、星期日，这样就把决策树不能识别的属性值转换为能够识别的属性值。
[0041] 其次，由表中数据可知，温度、湿度和负荷数据属性值均为连续型数据，其中温度和相对湿度能直接应用于算法中，因为决策树C4.5算法能够处理连续型属性值，但负荷数据是目标属性，算法不能直接处理，所以需要对负荷数据进行离散化。本发明将负荷平均划分为四类，算例中的负荷数据均在区间[42833,545412]内，所以将区间划分为四部分，即四个类型：[42833，45760]、[45760，48687]、[48687,51614]、[51614,54542]，本发明分别用1、 2、3、4代替这四个类型。
[0042] 最后，根据前面提到的公式和方法，利用MATLAB软件对决策树C4.5算法进行编程仿真，将处理后的数据代入程序中，根据结果分析得到决策树，根据决策树形成规则，利用这些规则就可以对该省2013年3月15日到3月28日的负荷进行预测分析。
【主权项】
1. 一种基于决策树的电力负荷数据处理方法，其特征在于，包括以下步骤： 1) 对训练集T中某一属性具有确定值的样本划分成确定值样本集； 2) 计算训练集T中缺失值样本和确定值样本的相似度； 3) 以与缺失值样本具有最大相似度的确定值样本属性值补全缺失值样本的样本属性。2. 根据权利要求1所述的基于决策树的电力负荷数据处理方法，其特征在于，所述相似度为： = ^1^· .+ ? i = ^(?) = \ φ d(s：j) 式中，^是确定值样本集中第j个样本，Α是缺失值样本集中第i个样本，DWnsJ为~ 与S' i的相似度;A表示数据训练集中的所有属性集合，Aij= {&￡4|&1 = 3」}表示81和8」取值相同且确定的属性集合，IAI和II分别表示相应集合中的元素数目，为权重系数。
【专利摘要】本发明提出一种基于决策树的电力负荷数据处理方法，本发明提出的采用样本相似度原则对缺失属性值进行补全，并将其应用到电力负荷预测中，不仅提高了历史负荷数据的准确性，还提高了电力负荷预测结果的精度，通过算例仿真分析，验证了该方法的可行性和准确性，具有一定的实用价值。
【IPC分类】G06Q50/06, G06Q10/06
【公开号】CN105469219
【申请号】CN201511021630
【发明人】沈培锋, 余昆, 宁艺飞, 陈星莺, 嵇文路, 周冬旭, 王春宁, 罗兴
【申请人】国家电网公司, 江苏省电力公司, 江苏省电力公司南京供电公司, 河海大学
【公开日】2016年4月6日
【申请日】2015年12月31日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈培锋;余昆;宁艺飞;陈星莺;嵇文路;周冬旭;王春宁;罗兴;
技术所有人：国家电网公司;江苏省电力公司;江苏省电力公司南京供电公司;河海大学;
我是此专利的发明人

上一篇：一种物品的智能管理方法和智能管理系统的制作方法
上一篇：智能用电互动体系技术构架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。