一种基于电力大数据的负荷曲线并行聚类方法

文档序号:6552011阅读:301来源:国知局
一种基于电力大数据的负荷曲线并行聚类方法
【专利摘要】本发明公开了一种基于用电大数据的负荷曲线并行聚类方法,通过dbN小波系对所有负荷曲线进行小波去噪,以降低曲线中的小波动对聚类结果产生的影响,并采用了基于多核并行技术的K均值聚类算法进行负荷曲线聚类,筛选出特征明显的聚类结果,整合分析得到了最终的负荷曲线分类。本发明实现了海量负荷曲线的并行聚类算法,有效地提高了负荷曲线聚类的速度,为研究电力用户负荷特性,进行负荷、电量预测打下了基础。
【专利说明】一种基于电力大数据的负荷曲线并行聚类方法

【技术领域】
[0001] 本发明涉及一种基于电力大数据的负荷曲线并行聚类方法,属于电力营销智能应 用【技术领域】。

【背景技术】
[0002] 电力营销、生产、调度等信息系统产生了海量的电力信息数据,仅江苏用采系统, 每日需采集全省3000余万居民用户日负荷电量和20余万负控大用户的96点用电量数据, 共计30多GB,自2006年以来积累的用电信息数据达39TB之多。江苏电力大数据时代已然 来临,但如何驾驭如此海量的数据信息,从中获取有用的信息,挖掘潜在的价值,是江苏电 力面临的挑战和机遇。
[0003] 电力系统负荷建模是电力系统仿真分析的重要基础,负荷建模的准确性直接关系 到仿真计算的可信度和精确性。负荷建模需要建立在对电力负荷特性充分分析的基础之 上,而面对江苏省用电采集系统中海量的负荷数据,对每一个用户的负荷特性进行分析是 不可能的,因此有必要对用户进行负荷聚类,根据聚类结果分析不同用户群的负荷特性。
[0004] κ-means聚类算法简单易行,操作简便,是目前使用最为广泛的聚类方法之一。它 首先选定一组初始聚类中心,通过迭代使得类间保持独立、类内保持紧密,迭代期间将聚类 子集中所有数据样本的均值作为类的中心。目前K-means聚类算法在图形分割、客户分类、 负荷聚类等领域得到了广泛的应用。
[0005] 但在用电信息大数据的背景下,数以万亿的日负荷曲线需要进行聚类分析,传统 的K-means聚类算法计算难以应付。目前主流的台式电脑、笔记本电脑cpu中均包含多个 核心,因此可以充分利用现有的硬件资源,开发基于多核并行技术的K-means聚类算法,以 加快负荷聚类的速度,提高负荷聚类的效率。


【发明内容】

[0006] 本发明所要解决的技术问题是针对用电大数据背景下的负荷特性分析,提供一种 基于多核并行技术的K-means聚类算法,用于提高负荷聚类的速度。
[0007] 本发明为实现上述目的,采用如下技术方案:
[0008] -种基于电力大数据的负荷曲线并行聚类方法,包括如下步骤:
[0009] 1)收集负荷曲线并进行筛选;
[0010] 2)对负荷曲线进行归一化;
[0011] 3)对负荷曲线进行去噪;
[0012] 4)对负荷进行聚类分析;
[0013] 5)对所述步骤4) K均值聚类得到的K类负荷聚类结果进行特征分析,摘取用电特 征明显的聚类结果,计算所得各类曲线的聚类中心,对各类曲线的聚类中心进行二次分类, 得到几种典型的负荷聚类结果。
[0014] 前述的步骤1)中,数据收集与筛选是指从省用电采集系统库中抽取企业客户的 96点负荷曲线,删除其中负荷数据不全和负荷容量为0的曲线,得到数据完整且情况正常 的大客户负荷曲线。
[0015] 前述的步骤2)中,负荷曲线归一化是指对所述步骤1)的每条负荷曲线进行遍历, 找出96点中负荷最大的点,作为基准容量,进行曲线归一化,归一化公式如下:
[0016] .. = ρ/ρ.μχ
[0017] 其中:下标i表示负荷曲线编号,j表示每条负荷曲线中的负荷采集序号,Pu表示 第i个用户在第j个采集点的负荷值,p iimax表示第i个用户日负荷96点中的负荷最大值。
[0018] 前述的步骤3)中,负荷去噪包括以下步骤:
[0019] 3-1)选择小波函数并确定分解的层数,然后进行小波分解;
[0020] 3-2)对各个分解尺度下的高频系数选择一个阈值进行软阈值量化处理;
[0021] 3-3)根据小波分解的各层频域系数进行负荷曲线的小波重构,得到去噪后的负荷 曲线。
[0022] 前述的步骤3-1)中,小波函数选定Daubechies小波系中的'dN4',分解层数为3 层。
[0023] 前述的步骤4)中,采用基于多核并行技术的K均值聚类算法进行负荷曲线的聚类 分析,包括以下步骤:
[0024] 4-1)检测当前电脑CPU的核心数n,激活所有核心,准备进行计算;
[0025] 4-2)对所述步骤3)的去噪后的负荷曲线进行相异度分析,找出相异度最大的K条 负荷曲线,作为并行K-means聚类算法的初始聚类中心;
[0026] 4-3)将所有负荷曲线等分成η份,交给当前电脑的η个核心,分别与K个聚类中心 进行相似度计算,并将负荷曲线归入相似度最高的作为聚类中心的负荷曲线那一类中;
[0027] 4-4)所有负荷曲线全部分类完成后,计算并更新各类别当前的聚类中心,检查当 前所有聚类中心与上一次迭代得到的聚类中心差值是否均小于预设阀值,若是,则进入步 骤4-5),否则,转入步骤4-3);
[0028] 4-5)聚类结束,关闭并行计算进程,释放内存,显示聚类结果。
[0029] 前述的步骤5)中,典型的负荷聚类结果包括:短时出现高负荷;全天负荷均衡;白 天负荷较1? ;白天负荷较1?,但中午略降;夜间负荷较
[0030] 本发明无需建立分布式计算系统,仅仅利用现有台式电脑或笔记本电脑的多核 CPU,即可实现负荷曲线聚类的并行计算,且该算法可获取当前电脑的CPU核心数,并自动 开启所有核心参与聚类,充分利用了当前电脑的计算性能,极大地提高了海量负荷曲线聚 类的速度。本发明相较于传统的K均值聚类方法,充分利用了计算机的多核CPU,有效提高 了大数据背景下的负荷聚类效率,因此值得推广和应用。

【专利附图】

【附图说明】
[0031] 图1是本发明方法的主体流程图;
[0032] 图2是基于多核并行技术的K均值聚类方法的流程图;
[0033] 图3是江苏某用电大客户日负荷曲线小波软、硬阈值去噪效果比较示意图;
[0034] 图4是江苏部分用电大客户日负荷曲线K均值聚类得到的曲线聚类结果;
[0035] 图5是图4聚类后得到的曲线条数分布情况。

【具体实施方式】
[0036] 下面结合附图和【具体实施方式】详细说明本发明。
[0037] 如图1所示,本发明的基于电力大数据的负荷曲线并行聚类方法包括以下步骤:
[0038] 一、收集负荷曲线并进行筛选
[0039] 具体方法为:从省用电采集系统库中抽取企业客户的96点负荷曲线,企业客户指 的是安装有负荷控制终端的企业用户,删除其中负荷数据不全和负荷容量为〇的曲线,得 到数据完整且情况正常的大客户负荷曲线。96点负荷曲线是指用户一般15分钟采集1个 点,一天96点,构成1个客户的96点负荷曲线。
[0040] 二、对负荷曲线进行归一化
[0041] 电力系统中各用户的负荷电量、负荷容量千差万别,用电量高的日均用电量高达 数十万千瓦时,负荷容量高达十数万千瓦,而用电量低的日均用电量低至几十个千瓦时,负 荷容量仅几个千瓦。因此需要对所有负荷曲线进行归一化处理。归一化是指对第一步中的 每条负荷曲线进行遍历,找出96点中负荷最大的点,作为基准容量,进行曲线归一化,归一 化公式如下:
[0042] i,j = Pi,j/Pi,max
[0043] 其中:下标i表不负荷曲线编号,j表不每条负荷曲线中的负荷米集序号,一般15 分钟1个点,一天96点,Pu表示第i个用户在第j个采集点的负荷值,P i niax表示第i个用 户日负荷96点中的负荷最大值。
[0044] 三、对负荷曲线进行去噪
[0045] 由于目前多数曲线聚类算法均通过曲线的数值相似度进行聚类,而大数据聚类背 景下,曲线中存在的小波动并不能代表用户的用电趋势,而且会导致聚类结果不理想、聚类 趋势不明朗的问题。因此本发明首先利用Daubechies小波系对每条负荷曲线进行小波分 解,通过自定义软阈值小波去噪对负荷曲线进行平滑处理,然后进行小波重构得到去噪后 的负荷曲线。进行去噪处理的具体步骤如下:
[0046] Stepl选择小波函数并确定分解的层数,然后进行小波分解,本发明的小波函数 选定Daubechies小波系中的'dN4',分解层数为3层;
[0047] Step2对各个分解尺度下的高频系数选择一个阈值进行软阈值量化处理;
[0048] Step3根据小波分解的各层频域系数进行负荷曲线的小波重构,得到去噪后的负 荷曲线。
[0049] 本发明选定Daubechies小波系中的'dN4'作为小波函数,分解层数为3层。Matlab 的强制和默认阈值去噪会改变负荷曲线的走势,因此本方法采用自定义软阈值去噪。
[0050] 四、对负荷进行聚类分析
[0051] 用电大数据背景下,用户负荷曲线的数量非常庞大,传统的K均值聚类方法进行 聚类时速度非常缓慢,本发明采用基于多核并行技术的K均值聚类算法进行负荷曲线的聚 类分析,以提高聚类分析的速度。参见图2,具体步骤如下:
[0052] 4-1)检测当前电脑CPU的核心数n,激活所有核心,准备进行计算;
[0053] 4-2)对第三步去噪后的负荷曲线进行相异度分析,找出相异度最大的K条负荷曲 线,作为并行K-means聚类算法的初始聚类中心;
[0054] 4-3)将所有负荷曲线等分成η份,交给当前电脑的η个核心,分别与K个聚类中心 进行相似度计算,并将负荷曲线归入相似度最高的作为聚类中心的负荷曲线那一类中;
[0055] 4-4)所有负荷曲线全部分类完成后,对各类别下的所有曲线群取平均值,并以此 平均值曲线更新各类别当前的聚类中心,检查当前所有聚类中心与上一次迭代得到的聚类 中心差值是否均小于预设阀值,若是,则进入步骤4-5),否则,转入步骤4-3);
[0056] 4-5)聚类结束,关闭并行计算进程,释放内存,显示聚类结果。
[0057] 五、对第四步Κ均值聚类得到的Κ类负荷聚类结果进行特征分析,摘取用电特征明 显的聚类结果,如具有全天负荷均衡、白天负荷较高、晚上负荷较高的特征,计算所得各类 曲线的聚类中心,辨识各类曲线的特征,对各类曲线的聚类中心进行二次分类,得到几种典 型的负荷聚类结果。典型的负荷聚类结果包括短时出现高负荷;全天负荷均衡;白天负荷 较1? ;白天负荷较1?,但中午略降;夜间负荷较
[0058] 下面通过一个具体实施例详细说明本发明。
[0059] 从江苏省用电采集系统中抽取45, 000个企业客户某一日的96点负荷曲线,删除 其中负荷数据不全和负荷容量为〇的曲线,得到数据完整且情况正常的41487条负荷曲线。 为减少聚类的计算量,将96点曲线等效为24小时日负荷曲线。
[0060] 按照本发明,进行归一化处理和去噪处理后某用电大客户日负荷曲线小波软、硬 阈值去噪效果比较如图3所示。
[0061] 可见硬阈值小波降噪后,曲线从双峰变为单峰,失去了中午负荷降低的特性;而自 定义阈值小波降噪后,曲线变得更为平滑,且基本特性均得以保留。
[0062] 为了提高用电曲线大数据聚类的速度,采用基于并行技术的改进K均值聚类方法 将40, 000多条负荷曲线聚为20类,即对41487条负荷曲线进行相异度分析,找出相异度最 大的20条负荷曲线,作为并行K-means聚类算法的初始聚类中心。在处理器为Intel Core i7-2600K,核心数为4,内存4GB的电脑上进行聚类,即将41487条负荷曲线等分成4份,交 给4个核心分别与20个聚类中心进行相似度计算,并将曲线归入相似度最高的作为聚类中 心的负荷曲线所在的类别。
[0063] 多核并行算法与传统算法的计算时间比较如表1所示。
[0064] 表1并行K均值聚类计算时间
[0065]

【权利要求】
1. 一种基于电力大数据的负荷曲线并行聚类方法,其特征在于,包括如下步骤: 1) 收集负荷曲线并进行筛选; 2) 对负荷曲线进行归一化; 3) 对负荷曲线进行去噪; 4) 对负荷进行聚类分析; 5) 对所述步骤4) K均值聚类得到的K类负荷聚类结果进行特征分析,摘取用电特征明 显的聚类结果,计算所得各类曲线的聚类中心,对各类曲线的聚类中心进行二次分类,得到 几种典型的负荷聚类结果。
2. 根据权利要求1所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤1)中,数据收集与筛选是指从省用电采集系统库中抽取企业客户的96点负荷 曲线,删除其中负荷数据不全和负荷容量为〇的曲线,得到数据完整且情况正常的大客户 负荷曲线。
3. 根据权利要求1所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤2)中,负荷曲线归一化是指对所述步骤1)的每条负荷曲线进行遍历,找出96 点中负荷最大的点,作为基准容量,进行曲线归一化,归一化公式如下: P,i,j = Pi.j/Pi.max 其中:下标i表示负荷曲线编号,j表示每条负荷曲线中的负荷采集序号,Pu表示第i 个用户在第j个采集点的负荷值,Piimax表示第i个用户日负荷96点中的负荷最大值。
4. 根据权利要求1所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤3)中,负荷去噪包括以下步骤: 3-1)选择小波函数并确定分解的层数,然后进行小波分解; 3-2)对各个分解尺度下的高频系数选择一个阈值进行软阈值量化处理; 3- 3)根据小波分解的各层频域系数进行负荷曲线的小波重构,得到去噪后的负荷曲 线。
5. 根据权利要求4所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤3-1)中,小波函数选定Daubechies小波系中的'dN4',分解层数为3层。
6. 根据权利要求1所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤4)中,采用基于多核并行技术的K均值聚类算法进行负荷曲线的聚类分析,包 括以下步骤: 4- 1)检测当前电脑CPU的核心数n,激活所有核心,准备进行计算; 4-2)对所述步骤3)的去噪后的负荷曲线进行相异度分析,找出相异度最大的K条负荷 曲线,作为并行K-means聚类算法的初始聚类中心; 4-3)将所有负荷曲线等分成η份,交给当前电脑的η个核心,分别与K个聚类中心进行 相似度计算,并将负荷曲线归入相似度最高的作为聚类中心的负荷曲线那一类中; 4-4)所有负荷曲线全部分类完成后,计算并更新各类别当前的聚类中心,检查当前 所有聚类中心与上一次迭代得到的聚类中心差值是否均小于预设阀值,若是,则进入步骤 4-5),否则,转入步骤4-3); 4-5)聚类结束,关闭并行计算进程,释放内存,显示聚类结果。
7. 根据权利要求1所述的一种基于电力大数据的负荷曲线并行聚类方法,其特征在 于,所述步骤5)中,典型的负荷聚类结果包括:短时出现高负荷;全天负荷均衡;白天负荷 较尚;白天负荷较尚,但中午略降;夜间负荷较尚。
【文档编号】G06F17/30GK104063480SQ201410312530
【公开日】2014年9月24日 申请日期:2014年7月2日 优先权日:2014年7月2日
【发明者】郑海雁, 金农, 顾国栋, 丁晓, 谢林枫, 熊政, 徐金玲, 仲春林, 方超, 李昆明, 季聪 申请人:国家电网公司, 江苏省电力公司, 江苏方天电力技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1