基于自编码和分布式聚类相结合的用户用电特性分析方法与流程

文档序号:32443341发布日期:2022-12-06 23:02阅读:89来源:国知局
基于自编码和分布式聚类相结合的用户用电特性分析方法与流程

1.本发明属于电力系统用电数据挖掘与分析技术领域,涉及一种低压用户用电特性分析方法。


背景技术:

2.近年来,随着电力负荷结构趋于多样化,广义负荷开始逐渐进入人们的视野。广义负荷指含有一定比例新能源电源或者分布式电源的电网,但仍然以电力负荷为主,其含量大于电源的含量。广义负荷与电网的互动关系通常是双向的,除了从电网吸收功率以外,能在特定时段向电网输送电能,广义负荷是对于传统负荷的一种拓展。在对于广义负荷特性的研究中,首先,由于广义负荷结构特殊,有着分布性和不确定性,并且广义负荷中的电源部分是传统负荷模型所无法描述的,所以传统的负荷研究方法已不再适用,其次﹐研究中所采集到的广义负荷用户数据量级高、实时性强,传统方法在处理这样的大数据时有效率低的问题。因此,必须找到新的能够高效处理广义负荷数据的方法来研究其变化特性。
3.在用户用电行为感知中,如何快速、高效的提取用户用电行为特征数据成为用户用电行为感知中的重要环节。目前,国内外针对用电行为特征提取技术,从负荷特征角度出发,存在瞬时功率、谐波、噪声等多种类型的提取方式。提取瞬时功率作为特征数据,鲁棒性强,但不适用于永久运行负荷及连续变化型负荷;提取电压噪声作为特征数据,抗干扰能力差,通用性差;提取谐波作为特征数据,无法对变速驱动型负荷进行进一步区分。
4.随着配用电大数据的发展,通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。但是,一方面用户用电数据随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在用户侧,具有极强的分散性。针对海量、分散的用电数据带来的挑战,因此,本发明提出了一种基于自编码和分布式聚类相结合的用户用电特性分析方法。


技术实现要素:

5.本发明的目的在于克服现有技术的不足之处,提供一种基于自编码和分布式聚类相结合的用户用电特性分析方法,解决海量用户数据集维数过高带来的问题,以及海量用电数据难以进行有效特征提取的问题,降低高维用电数据带来的分析难度,能够有效减少数据的通信成本,提高数据的处理效率。
6.本发明解决技术问题所采用的技术方案是:
7.一种基于自编码和分布式聚类相结合的用户用电特性分析方法,首先利用自编码对用电数据进行预处理,提取高维数据的核心数据,然后利用自适应k-means聚类算法对分布在各区域的用电数据进行局部聚类分析,提取各局部数据的典型负荷曲线,构建局部模型;然后利用传统聚类算法对获取的局部模型进行二次聚类分析,获取全局的典型负荷曲线,构建全局模型;最后向局部数据中心反馈全局聚类结果,实现全局聚类分析。解决用户用电数据体量大、分布广的特性,达到快速、全面提取特征数据的目的。
8.包括以下步骤:
9.步骤1、将所有数据划分为n个区域,每个区域的数据标记为局部数据;
10.步骤2、对各局部数据的每一条原始日负荷曲线进行校验和归一化处理;
11.步骤3、对数据进行自编码,获得高维数据的核心数据;
12.步骤4、对各局部数据开展自适应k-means聚类,所有的聚类中心构成该局部数据的局部模型,并传送至全局数据中心;
13.步骤5、全局数据中心接收所有n个局部数据中心得到的局部模型,然后对其进行二次聚类,形成m个聚类中心;
14.步骤6、根据所述局部模型和全局聚类之间的聚类归属关系,向各局部数据中心反馈最终聚类标号。
15.进一步地,步骤1对所有数据的划分是将数据物理存储区较近的区域划分在一起,每个局部数据的数据量相近似。
16.进一步地,步骤2按照下式对每一条无空缺值负荷采集点的原始日负荷曲线进行标幺化处理:
[0017][0018]
式中:x
t
,x
min
,x
max
,x'
t
分别为一条原始日负荷曲线中的t时刻负荷值、最小负荷、最大负荷和标幺化后的t时刻负荷值,其中1≤t≤t,t为每日总时段。
[0019]
进一步地,步骤3自编码为无监督学习算法,它由三层网络组成,其中输入层与输出层神经元数量相等,隐藏层神经元数量少于输入输出层,自编码机将输入的特征经过非线性变化到隐藏层上。
[0020]
进一步地,步骤3自编码机的训练分为编码和解码两个步骤.其中编码部分,数据x在输入层通过激活函数映射到隐藏层h,激活函数下所示:
[0021][0022]
式中,ω1为编码部分的权值,b1为偏置单元;
[0023]
解码部分为隐藏层h还原输入数据,还原得到的数据用y表示,解码公式如下所示:
[0024][0025]
式中,ω2为解码部分的权值,b2为偏置单元.自编码机的目标函数如下所示:
[0026][0027]
式中,n为输入的样本个数。
[0028]
进一步地,步骤4对局部数据自适应k-means聚类分析的步骤如下:
[0029]
步骤4.1:对该局部数据中心经过处理及自编码得到数据曲线进行k取值为k
i,min
的k-means聚类分析,得到k
i,min
个聚类,并将该k
i,min
个聚类标记为未检验聚类,其中下标i表示第i条归一化电力数据曲线;
[0030]
步骤4.2:对该局部数据中心的未检验聚类进行检验,判断其是否满足所述聚类误差指标b,其中,判断步骤4.1得到的第j个聚类是否满足所述聚类误差指标b,即判断该第j
个聚类是否满足以下条件的约束,即
[0031][0032]
式中:j为正整数且1≤j≤kmin;ej为第j个聚类的总代表误差;nj为属于第j个聚类的归一化日负荷曲线的数量;为第j个聚类的聚类中心的第t个负荷值;为属于第j个聚类的第i条归一化日负荷曲线的t时刻负荷值;
[0033]
步骤4.3:当步骤4.2中对一个未检验聚类进行检验的判断结果为是时,将满足所述聚类误差指标b的未检验聚类标记为已检验聚类;当步骤4.2中对一个未检验聚类进行检验的判断结果为否时,对该不满足所述聚类误差指标b的未检验聚类进行k取值为2的k-means聚类分析,使得该不满足所述聚类误差指标b的未检验聚类再次聚类划分为两个新的聚类,并将这两个新的聚类标记为未检验聚类;
[0034]
步骤4.4:重复步骤4.2和步骤4.3,直至该局部数据中心的所有未检验聚类均已标记为已检验聚类或者该局部数据中心的包含未检验聚类和已检验聚类的聚类总数量达到最大聚类数量k
i,max
,并将此时该局部数据中心的所有聚类均标记为该局部数据中心的局部聚类,将局部聚类的聚类中心标记为局部典型曲线。
[0035]
本发明的优点和积极效果是:
[0036]
1.本发明方法特征提取速度快,实现简单,能够解决高维数据带来的复杂问题,为用户负荷识别提供数据支持,具有良好的经济效益和实用价值。
[0037]
2.本发明方法降低了高维用电数据带来的分析难度,能够有效减少数据的通信成本,提高数据的处理效率。
附图说明
[0038]
图1为本发明用户用电特性分析方法的流程示意图;
[0039]
图2为本发明的自编码神经网络的结构图;
[0040]
图3为本发明的自适应k-means聚类的流程图。
具体实施方式
[0041]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0042]
需要指出的是,除非另有指明,本技术使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0043]
一种基于自编码和分布式聚类相结合的用户用电特性分析方法,包括以下步骤:
[0044]
步骤1、将所有待聚类的数据划分为n个区域,即局部数据中心,每个区域的数据标记为局部数据i;
[0045]
对所有数据的划分主要遵循两个原则:

就近原则,尽可能将数据物理存储区较近的区域划分在一起,一方面以减少数据通信成本与时间开销,另一方面同一区域用户的用电行为模式接近,相同规模原始数据下能减少局部模型的大小;

均匀原则,尽可能保证每个局部数据的数据量差异性较小,这样局部模型构建的时间也相对均匀,有利于提高整
体聚类效率。
[0046]
步骤2、在数据清洗环节,对各局部数据的每一条原始日负荷曲线进行校验和归一化处理;
[0047]
进行校验和归一化处理的具体步骤包括:删除包含有空缺值负荷采集点的原始日负荷曲线。为了重点分析用户用电波动部分,按照下式对每一条无空缺值负荷采集点的原始日负荷曲线进行标幺化处理:
[0048][0049]
式中:x
t
,x
min
,x
max
,x'
t
分别为一条原始日负荷曲线中的t时刻负荷值、最小负荷、最大负荷和标幺化后的t时刻负荷值,其中1≤t≤t,t为每日总时段。
[0050]
步骤3、为了降低高维数据的复杂度,对数据进行自编码,获得高维数据的核心数据,提高后续数据的工作效率;
[0051]
自编码是一种无监督学习算法,它由三层网络组成,其中输入层与输出层神经元数量相等,隐藏层神经元数量少于输入输出层。自编码机将输入的特征经过非线性变化到隐藏层上,通过这种方法,可以降低特征的维度,提高了计算效率。
[0052]
自编码机的训练分为编码和解码两个步骤.其中编码部分,数据x在输入层通过激活函数映射到隐藏层h,激活函数下所示:
[0053][0054]
式中,ω1为编码部分的权值,b1为偏置单元.
[0055]
解码部分为隐藏层h还原输入数据,还原得到的数据用y表示,那么解码公式可以如下所示:
[0056][0057]
式中,ω2为解码部分的权值,b2为偏置单元.自编码机的目标函数如下所示:
[0058][0059]
式中,n为输入的样本个数.
[0060]
首先训练好自编码网络,使得输出尽可能等于输入,在整个过程会去失信息,但训练能够使丢失的信息尽量少,最大化地保留其主要特征。利用训练好的网络对数据进行编码,实现数据的降维处理,减少后续聚类的复杂度,完成聚类后,为了还原原数据的特征,可以通过解码实现对原数据复现。从总体上提高对用户用电特性分析的速度。
[0061]
步骤4、对自适应k-means的分布式聚类算法中的参数进行设定,包括可容忍误差阈值b、局部最小聚类数量kmin、局部最大聚类数量kmax和全局聚类数m;自适应k-means聚类是对传统k-means聚类的一种延拓。以对第i个局部数据自适应k-means聚类分析为例,其主要步骤描述如下:
[0062]
步骤4.1:对该局部数据中心经过处理及自编码得到数据曲线进行k取值为k
i,min
的k-means聚类分析,得到k
i,min
个聚类,并将该k
i,min
个聚类标记为未检验聚类,其中下标i表示第i条归一化电力数据曲线。
[0063]
步骤4.2:对该局部数据中心的未检验聚类进行检验,判断其是否满足所述聚类误差指标b,其中,判断步骤4.1得到的第j个聚类是否满足所述聚类误差指标b,即判断该第j个聚类是否满足以下条件的约束,即
[0064][0065]
式中:j为正整数且1≤j≤kmin;ej为第j个聚类的总代表误差;nj为属于第j个聚类的归一化日负荷曲线的数量;为第j个聚类的聚类中心的第t个负荷值;为属于第j个聚类的第i条归一化日负荷曲线的t时刻负荷值。
[0066]
步骤4.3:当步骤4.2中对一个未检验聚类进行检验的判断结果为是时,将满足所述聚类误差指标b的未检验聚类标记为已检验聚类;当步骤4.2中对一个未检验聚类进行检验的判断结果为否时,对该不满足所述聚类误差指标b的未检验聚类进行k取值为2的k-means聚类分析,使得该不满足所述聚类误差指标b的未检验聚类再次聚类划分为两个新的聚类,并将这两个新的聚类标记为未检验聚类。
[0067]
步骤4.4:重复步骤4.2和步骤4.3,直至该局部数据中心的所有未检验聚类均已标记为已检验聚类或者该局部数据中心的包含未检验聚类和已检验聚类的聚类总数量达到最大聚类数量k
i,max
,并将此时该局部数据中心的所有聚类均标记为该局部数据中心的局部聚类,将局部聚类的聚类中心标记为局部典型曲线。
[0068]
步骤5、对各局部数据开展自适应k-means聚类,其中所有的聚类中心构成该局部数据的局部模型,并传送至全局数据中心。
[0069]
步骤6、在全局二次聚类阶段,全局数据中心接收所有n个局部数据中心得到的局部模型,然后对其进行二次聚类,形成m个聚类中心。
[0070]
全局二次聚类是对所有局部模型,即局部聚类中心进行聚类分析,可以采用传统的聚类方法来完成,但全局二次聚类的特殊之处在于,每一个局部聚类中心具有不同的代表性。例如:a聚类中心所在类有a条负荷曲线,则说明a聚类中心“代表”了a条负荷曲线参与到全局聚类。因此,在二次聚类中,需要充分考虑不同聚类中心“代表性”的大小,即在聚类过程中需要赋予不同的权重,需要对不同的聚类算法进行相应的修订。
[0071]
步骤7、根据所述局部模型和全局聚类之间的聚类归属关系,向各局部数据中心反馈最终聚类标号。
[0072]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1