一种基于电力调度数据的数据挖掘方法

文档序号:8430797阅读:380来源:国知局
一种基于电力调度数据的数据挖掘方法
【技术领域】
[0001] 本发明涉及智能电网电力调度领域,尤其涉及一种基于电力调度数据的数据挖掘 方法。
【背景技术】
[0002] 电力系统是我国重要的能源部门,它直接影响和控制人民的生活用电以及其他行 业的生产,在国民经济生产过程当中占有非常重要的地位与作用,因此,确保其正常、安全 运行是第一要务。为了确保电力系统的安全运作,需要实时对其的运行状态进行监管,在监 管的过程当中还需要对其运行的性能进行评估,从大量数据中找出规律和模式,以帮助人 们更好地利用数据进行决策和研究。数据挖掘是从大量已有的数据中发现未知的、具有潜 在应用价值的信息。在电力调度系统中,经过长年累月积聚下来的数据量是相当惊人的,在 这些海量数据中同时蕴藏着大量未知的、潜在的和有价值的信息。然而,如此庞大的数据对 人工处理来说是非常困难的。因此,在电力调度系统中应用数据挖掘技术,具有非常重要的 意义。
[0003] 现有的数据挖掘一般通过关联规则来挖掘数据,关联规则是数据依赖关系的有效 描述方法,是数据挖掘研究的重要内容。然而数据集的庞大,往往导致所生成的关联规则的 数量也很庞大,对用户来说,大量而无组织的规则使得分析和使用起来十分困难。同时,在 生成的规则中有相当一部分是冗余的。这些冗余的部分对于数据挖掘并没有多大的信息价 值,保留其不利于数据挖掘的准确性和易用性。

【发明内容】

[0004] 本发明为克服上述的不足之处,目的在于提出了一种基于电力调度数据的数据挖 掘方法,该方法消除了由传统数据挖掘方法所生成的大量冗余关联规则,并且使用户可以 从整体上把握整个规则集,提高了关联规则挖掘的准确性和易用性。
[0005]本发明是通过以下技术方案达到上述目的:一种基于电力调度数据的数据挖掘方 法,包括步骤:
[0006] (1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支 持度阈值的项目的集合,并设该集合的X2检验的显著水平为T;
[0007] (2)对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规 则;
[0008] (3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;
[0009] (4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;
[0010] (5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。
[0011] 作为优选,所述步骤(2)中的CS测试步骤包括:
[0012] (1)按照规则级别从高到低分别对规则集R中的规则r计算可信度;
[0013] (2)比较规则r的可信度与其祖先规则可信度大小,选取所有可信度大于其祖先 规则的规则组成新的规则集Rt ;
[0014] (3)对Rt中的所有规则进行X2测试;
[0015] (4)若规则的X2值大于T,则标记为有用规则;反之,则标记为无用规则。
[0016] 作为优选,所述规则集R包括所有满足支持度与可信度的规则。
[0017] 本发明的有益效果在于:(1)提高了关联规则挖掘的准确性和易用性;(2)保持关 联规则集的完整性,对关键规则集进行囊括;(3)删除了用户不感兴趣的规则冗余的规则。
【附图说明】
[0018] 图1是本发明方法的方法步骤流程图。
【具体实施方式】
[0019] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于 此:
[0020] 实施例:如图1所示,一种基于电力调度数据的数据挖掘算法,具体包括以下步 骤:
[0021] (1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支 持度阈值的项目的集合,并设该集合的X2检验的显著水平为T;
[0022] (2)对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规 则;
[0023] (3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;
[0024] (4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;
[0025] (5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。
[0026] 输入:使用关联规则算法挖掘所得的规则集R,满足支持度阈值的项目的集合 S(480项),对应一定显著水平T的X2值(记为T)。
[0027] 输出:代表规则集Rd,非代表规则集Rnd。
[0028] 步骤 1:fori= 1tondo
[0029] 步骤 2:foreachr(X-yGR)oflevel_ido
[0030] 步骤 3 :chi_squ_test(r,R,S,T)
[0031]步骤 4 :if(r.prune=0)and(r.dele_ance=NIL)thenRtemp -RtempU{r}endif
[0032] 步骤 5 :end_for
[0033] 步骤 6 :if(Rtemp 尹NIL)then
[0034]步骤7Classification(Rtemp,R)
[0035]步骤 8:Rd -RdURtemp
[0036] 步骤 9:end_if
[0037] 步骤 10 :end_for
[0038] 步骤 11 :Rnd ={rGR-Rd|r.prune= 0}
[0039] 规则集R包括所有满足支持度与可信度阈值的规则,S中包括所有满足最小支持 度限制的项目,代表规则集Rd与非代表规则集Rnd的初值为空。步骤1-10步,对1级到n 级的规则执行修剪与分类操作,n为规则级别的最大值。步骤的第3步执行过程chi_SqU_ test对当前规则r的意义进行测试。若r被删除,则chi_squ_test将r.prune设为1 ;否 则设为0。第4步判断如果r.prune为0且r的dele_ance域(即r的最近满足规则的集 合)为空,则r即为代表规则,将r加入临时代表规则集(RtMP)。算法的第6步判断RtMP是 否为空,如果不为空,则算法第7步执行过程Classification对级别为i的代表规则进行分 类。算法第8步将经过分类的第i级代表规则加入代表规则集Rd。算法的第11步形成非 代表规则集Rnd。
[0040] 以下是chi_squ_test(r,R,S,T)的具体步骤如下:
[0041]步骤 12:fori=level_r_lto0do
[0042]步骤 13:foreach(ra |raGRUS)and(C'价 你)and(ra.cons=r.cons) and(ra.prune= 0)oflevel」do
[0043]步骤 14 :if(r.conf>ra.conf)then
[0044]步骤 15 :test_count++
[0045]步骤 16 :if(X2 (r,ra) >T)then
[0046]步骤 17 :r.prune= 0
[0047]步骤 18 :if((茫S)thenr.dele_ance=r.dele_anceUra;endif
[0048]步骤 19 :endif
[0049]步骤 20 :endif
[0050]步骤 21 :endfor
[0051]步骤 22 :iftest_count>0thenexit_for;endif
[0052]步骤 23 :endfor
[0053] 步骤的第12-23步对r的祖先规则由高级别向低级别测试。第12-22步对r的第 i级祖先规则进行测试,第13步中r.ante是规则r的前提,r.cons是规则r的结论;第14 步判断r的可信度是大于此祖先规则;若成立,第15步进行将测试计数加1 (test_count初 值为〇);第16步进行X2测试,如果结果大于T,则第17步将r标记为不可删除,即r.prune =0(r.prune初值为1);第18步判断ra是否是无前提规则,如果不是,则将ra放入r的 dele_anCe集(r的最近满足规则的集合);第22步判断r是否已被测试,若是,可结束测 试;否则,继续对下一级别祖先规则进行测试。
[0054] 以下是Classification(Rtemp,R)的具体步骤如下:
[0055] 步骤24 :While(rGRtemp,且r未被用户分类)and(用户想继续进行分类)do
[0056]步骤 25:r=SelectRule(Rtemp)
[0057]步骤 26:c=UserClassification(r)
[0058]步骤 27:ProcessRule(c,r,Rtemp,R)
[0059]步骤 28:Endwhile
[0060] 步骤第25步执行过程SelectRule选择一条代表规则r,为提高效率,每次选择的 是未经用户分类且家族最大(规则最多)的代表规则。步骤第26步将r提交用户进行分 类。步骤第27步,根据r的类别(^对!*的家进行处理。
[0061] 表1是支持度阈值为1%,显著水平为5%时不同电力调度数据时的实验结果。比 较第2列和第3列可以看出:经本发明算法处理后的规则集要比使用传统方法所产生的初 始规则集小得多,大量冗余规则被删除。从第4列和第5列可以看出:代表规则集的规模相 当小,且大多数为1级规则,用户使用起来很方便。
[0062]
【主权项】
1. 一种基于电力调度数据的数据挖掘方法,其特征在于包括步骤: (1) 对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支持度 阈值的项目的集合,并设该集合的X2检验的显著水平为T ; (2) 对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规则; (3) 删除无用规则,并对有用规则进行分类测试,得到代表规则r ; (4) 按照规则级别从高到低将代表规则!进行排列,形成代表规则集Rd ; (5) 把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。
2. 根据权利要求1所述的一种基于电力调度数据的数据挖掘方法,其特征在于:所述 步骤(2)中的CS测试步骤包括: (1) 按照规则级别从高到低分别对规则集R中的规则r计算可信度; (2) 比较规则r的可信度与其祖先规则可信度大小,选取所有可信度大于其祖先规则 的规则组成新的规则集Rt ; (3) 对Rt中的所有规则进行X2测试; (4) 若规则的X2值大于T,则标记为有用规则;反之,则标记为无用规则。
3. 根据权利要求2所述的一种基于电力调度数据的数据挖掘方法,其特征在于,所述 规则集R包括所有满足支持度与可信度的规则。
【专利摘要】本发明涉及智能电网电力调度领域,尤其涉及一种基于电力调度数据的数据挖掘方法,包括:(1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支持度阈值的项目的集合,并设该集合的X2检验的显著水平为T;(2)对规则集R进行CS测试,把所有规则分为有用规则和无用规则;(3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;(4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;(5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。本发明综合考虑了对关联规则集进行概括、保持关联规则集的完整性、删除用户不感兴趣的规则和删除冗余规则四个方面。
【IPC分类】G06F17-30, G06Q50-06
【公开号】CN104750766
【申请号】CN201410360513
【发明人】周天和, 卢晓飞, 张元元
【申请人】杭州天宽科技有限公司
【公开日】2015年7月1日
【申请日】2014年7月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1