一种面向智能电网的缺失数据填充方法

文档序号:6620663阅读:440来源:国知局
一种面向智能电网的缺失数据填充方法
【专利摘要】本发明公开一种面向智能电网的缺失数据填充方法,首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D;然后将重新生成的数据集D分成两部分,即完整数据子集Dc和缺失数据子集Di,并对完全数据集D进行聚类;最后通过聚类结果对缺失数据子集Di进行填充,得到填充结果Di’。本发明能够在存在噪声和离群点的情况下,有效聚类空间数据,将其应用于缺失值填充中,提升了数据填充的准确性,为电力公司实现对业务系统数据的智能管理奠定了基础。
【专利说明】—种面向智能电网的缺失数据填充方法

【技术领域】
[0001]本发明属于智能电网术领域,涉及一种缺失值填充方法,特别是一种面向智能电网的缺失数据填充方法。

【背景技术】
[0002]由于电力行业数字化技术的广泛应用,电力系统中各种数据正以前所未有的速度剧增,数据类型也越来越复杂。海量多源异构数据的深度分析和利用,对于电力企业盈利与控制水平的提升有很高的价值。有电网专家分析称,每当数据利用率调高10%,便可使电网提高20%?49%的利润。而数据质量的高低对数据分析的准确性和实时性有直接的影响。这是因为由于信息、技术、流程等种种因素,电力系统中数据存在着种种质量问题,如数据不完整、不一致、冗余,程序逻辑错误等,其中至关重要的就是数据缺失问题。
[0003]数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘与分析来说,数据缺失可能造成以下影响:(I)系统可能丢失大量的有用信息;(2)系统中所表现出的不确定性可能更加显著;(3)系统产生不可靠的输出。因此在电网数据分析和利用中,为了能够更加充分地利用已经搜集到的数据,对缺失数据进行处理是非常必要的。
[0004]针对电网系统中存在的数据缺失问题,综观已有缺失数据填充方法,K-means填补算法是一种比较常用的方法,该方法的主要思想是:首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行填充。但是该算法针对电网系统缺失数据填充的准确性不甚理想,尤其是对于噪声点和离群点的处理方面,仍待进一步提闻。


【发明内容】

[0005]针对电网系统缺失数据填充数据准确性不甚理想的问题,本发明的目的是提供一种面向智能电网的缺失数据填充方法,该方法首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集D。和缺失数据子集Di构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集Di进行填充,得到填充结果Di'
[0006]本发明的目的通过以下技术方案实现:
[0007]—种面向智能电网的缺失数据填充方法,其特征在于:该方法首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集D。和缺失数据子集Di构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集进行填充,得到填充结果。具体步骤如下:
[0008]I)将源系统数据集中的部分不完整数据打回让源系统重新生成,这些数据包含有较多缺失值的记录和较少完整值的属性;通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录;如果某个属性的完整属性值占全部记录的比例低于50%,也需要打回该属性;
[0009]2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D。和缺失数据子集Di,并对D进行K-Means聚类,从而产生紧密耦合的K个小簇,这些小簇能够将噪声和离群点与其他点有效地分离开来,然后通过动态合并的方式不断地合并这些小簇,在D上产生N个紧密耦合的簇;
[0010]3)根据聚类后的结果对缺失数据子集进行填充,在填充过程中,如果簇中含有完整属性的数据,利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据,则根据完整数据子集D。的平均值和方差,基于正态分布数据分发器来对这些缺失值进行填充。
[0011]本发明在对数据集进行聚类时,采用基于动态建模的K-means聚类算法,该算法采用K-means算法来划分数据集,并基于自相似性概念合并簇。
[0012]对完全数据集D进行聚类的具体步骤如下:
[0013]步骤一:选择K个点作为初始质心;
[0014]步骤二:根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心,形成K个小簇,K值一般选取为数据集中总记录条数的10% -20%,欧几里得距离的计算公式如公式(I)所示:

【权利要求】
1.一种面向智能电网的缺失数据填充方法,其特征在于:首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集D。和缺失数据子集01构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集Di进行填充,得到填充结果D/,具体步骤如下: 1)将源系统数据集中的部分不完整数据打回让源系统重新生成,这些数据包含有较多缺失值的记录和较少完整值的属性;通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录;如果某个属性的完整属性值占全部记录的比例低于50%,也需要打回该属性; 2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D。和缺失数据子集Di,并对D进行K-Means聚类,从而产生紧密耦合的K个小簇,这些小簇能够将噪声和离群点与其他点有效地分离开来,然后通过动态合并的方式不断地合并这些小簇,在D上产生N个紧密耦合的簇; 3)根据聚类后的结果对缺失数据子集进行填充,在填充过程中,如果簇中含有完整属性的数据,利用该簇相应的属性均值来填充该记录的缺失值;如果簇中没有完整属性的数据,则根据完整数据子集D。的平均值和方差,基于正态分布数据分发器来对这些缺失值进行填充。
2.根据权利要求1所述的面向智能电网的缺失数据填充方法,其特征在于:步骤(2)中,对完整数据子集进行聚类时,采用基于动态建模的K-means聚类算法,该算法采用K-means算法来 划分数据集,并基于自相似性概念合并簇。
3.根据权利要求2所述的面向智能电网的缺失数据填充方法,其特征在于:对完全数据集D进行聚类的具体步骤如下: 步骤一:选择K个点作为初始质心; 步骤二:根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心,形成K个小簇,K值一般选取为数据集中总记录条数的10% _20%,欧几里得距离的计算公式如公式⑴所示:
其中:X = (X1, χ2,...,χη),Y = (y” y2,..., yn); 步骤三:根据指派到簇的点,重新计算每个簇的质心; 步骤四:重复步骤二和步骤三,直到簇不发生变化; 步骤五:采用相近邻近度量,合并各个小簇对,并设置一个阈值,如果RC (Ci, CP值小于阈值,则不断地合并小簇,如果合并过程中某个类簇对之间的距离大于阈值,则停止类簇合并,并以此阶段得到类簇作为最总的类簇结果,合并后产生N个类簇;相对接近度的计算公式如公式(2)所示:
其中,ki; h分别是簇Ci和q的大小;]EciCi, Γ,)是连接簇Ci和的边的平均权值;IirCr2)是二分簇Ci的边的平均权值;I『(C,.)是二分簇&的边的平均权值;EC表示割边; 基于自相似性概念,两个簇合并,仅当结果簇中的点之间的接近程度与原来的每个簇一样,能够有效聚类空间数据,即便存在噪声和离群点。
【文档编号】G06Q50/06GK104133866SQ201410344391
【公开日】2014年11月5日 申请日期:2014年7月18日 优先权日:2014年7月18日
【发明者】祁建, 周红林, 王青国 申请人:国家电网公司, 江苏省电力公司, 江苏电力信息技术有限公司, 江苏省电力公司信息通信分公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1