一种高维海量量测数据的用电模式分类方法与流程

文档序号:21547880发布日期:2020-07-17 18:00阅读:252来源:国知局
一种高维海量量测数据的用电模式分类方法与流程

本发明涉及电力系统及自动化技术领域,特别是涉及一种高维海量量测数据的用电模式分类方法。



背景技术:

随着智能表计大规模推广应用以及电网精益化管理带来的配用电数据爆炸性增长,电力用户精准分类及特征分析成为电网公司的一项重要内容。合理地分析用户需求响应特性有助于充分挖掘用户需求响应用户潜力,提高需求响应实施效率,是制定需求侧管理方案和电价套餐的基础。然而,随着经济与技术的发展,用户参与类型及用电行为越发复杂多样,用户用电数据呈现出高维海量的特点,使得用户分类及响应特性分析变得更加困难。此种情况下能够处理复杂用户数据且准确性较高的用电特性分析方法至关重要。

目前已有对用户响应特性的研究主要分为机理性与非机理性两类。机理性用户响应特性分析主要为在特定环境下对电价等激励信号与用户负荷之间的关系进行机理性分析并建模,献研究用户对电价的不确定响应行为建模,分析在电力积分激励决策中的应用。经济学角度分析用户响应行为变化特征以及在时间上的相关性,提出基于长短期记忆的用户响应行为特性分析方法。以往研究能够清楚解释电价等激励信号对用户负荷的机理性作用,对小规模特定用户适应较好,但建模较为复杂,不适合于特性差异较大且数量众多的用户。非机理性分析通过对用户数据挖掘等手段来分析电价等激励性手段对用户负荷的作用,主要分为两步,首先通过聚类算法对用户用电特性进行分类,将用电特性一致的用户归为一类,然后利用历史数据对每类用户需求响应特性进行建模。其核心技术为聚类算法与数据拟合。目前已有大量聚类算法被用于用户用电模式聚类,针对智能用电数据挖掘面临数据量大、挖掘效率低的问题,提出了一种改进k-means聚类算法,该方法能够高效处理大规模的电数据,但由于初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定。利用凝聚层次聚类法对用电数据进行分析,该方法不需要确定分类数,但是一个合并被执行,就不能修正,聚类质量受限制。使用模糊c均值(fcm)聚类法对电力用户进行聚类,该方法是一种软聚类算法,克服了硬聚类非此即彼的分类缺点,但该方法对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优解。以上三种算法聚类效率高,在处理海量数据上有优势,但面对高维数据时将会出现“维度灾难”,导致聚类结果不准确。随着经济科技的迅猛发展,用户用电行为将更加多样化,用电数据维度将更高,聚类所面临的不仅是数据量越来越大的问题,更重要还有用电数据高维度的问题。针对该问题,自组织映射(som)聚类算法与深度学习法被提出用于电力用户的用电模式分类,这两种算法属于机器学习聚类方法,能够有效处理高维数据,但难以适应大规模数据。利用主成分分析法-模糊c均值聚类法(pca-fcm)对原始用电数据进行降维,然后在对降维后的数据进行聚类,能够解决部分较高维度的数据聚类问题,但降维过程中对高维非线性数据难以处理。另外如何充分利用大量历史数据,对每类用户需求响应建立准确有效的模型也是研究难点之一,针对不同类型的用户市场机制下考虑风险的售电公司日前电价决策方法,但缺少对非线性量测数据的分析。利用逐段线性回归对用户需求响应进行建模,该方法虽然操作简单,但激励与用户用电量之间并非简单的线性关系,这使得模型准确性较差。构建基于长短时记忆网络的用户响应行为预测模型,通过用户在多元环境不同激励下的预期响应量的预测,并应用等梯度迭代学习的方法,获得合适的激励方案。

随着电网信息化水平的不断提高,智能配电网促使供电企业拥有一套完备的用电计量系统,使用户用电信息的采集更加完善,通过分析用户用电信息,对用户进行用电模式分类,及时掌握客户用电规律,有利于电网企业实现“按需分配”,制定电力调度规划,降低能耗和线损,以采取差异化营销策略,提高企业的收益。

用户数据维度越高所含用电信息越丰富,用户用电模式的分也越符合实际情况。除此之外,受需求响应的驱动,针对用户用电模式分类的研究愈来愈多,用户用电数据将呈现海量的特性。因此在未来用户用电模式分类将主要面对用户用电数据维度与规模越来越大的趋势。



技术实现要素:

本发明实施例所要解决的技术问题在于,提供一种高维海量量测数据的用电模式分类方法,解决用户用电信息的采集更加完善,通过分析用户用电信息,对用户进行用电模式分类,及时掌握客户用电规律的技术问题。

本发明的一方面,提供一种高维海量量测数据的用电模式分类方法,包括以下步骤:

步骤s1,对用户的日负荷曲线进行采样,形成用户特征样本集,对高维海量量测数据进行主成分分析,提取关键特征指标;

步骤s2,利用自适应遗传算法与bp算法对自动编码器进行训练,并利用完成训练的自动编码器对用户的用电数据样本集进行降维;

步骤s3,利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类,对用户用电模式进行分类。

进一步,在步骤s1中,所述对各用户日负荷曲线进行采样,形成用户特征样本集的具体过程为,将获取的带有时标的用户用电计量数据和配合非电计量数据和非计量数据匹配,形成用户特征样本集。

进一步,在步骤s1中,所述对高维海量量测数据进行主成分分析,提取关键特征指标具体过程为,

保存原始高维量测数据协方差结构的基础上根据以下公式计算低维表达:

其中,ni是第i个类中样本的个数,st为总体离散矩阵,xi和yi分别为多维量测数据集合第i个样本,m为所有样本的质心;

根据以下公式对转换矩阵做尺度约束,转化为st的标准的特征值,最优转换矩阵为st的d个最大的特征值所对应的d个m维特征向量:

其中,id为d×d的单位矩阵。

进一步,在步骤s2中,所述利用自适应遗传算法对自动编码器进行训练的具体为,对自动编码器网络的权值与阈值进行实数编码,随机生成初始种群,计算种群中每个个体的适应度函数,通过对群体进行选择、复制、交叉及变异操作不断更新群体,并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后,此时自动编码器网络的权值与阈值为最终获取的权值与阈值;

其中,自适应遗传算法的编码方式为实数编码,根据自动编码器输入层与隐含层之间的连接权值与隐含层与输出层的连接权值对称的特性,每个染色体表示为:

o={o1,o2…olength}

length=96×h+h+96

其中,第一项为自动编码器输入层与隐含层之间的连接权值数目;后两项分别为自动编码器隐含层与输出层的阈值数目;

根据以下公式计算自适应遗传算法的适应度函数:

其中,n为用户个数,sk(i)(i=1,2…96)表示第k个用户的第i维用电数据,为经过自动编码器重构的第k个用户的第i维用电数据;

根据以下公式计算自适应遗传算法的自适应交叉概率:

pcmax=0.9

pcmin=0.6

其中,fmax为个体的最大适应度,favg为种群平均适应度,fhigh为父代中较高的适应度。

进一步,在步骤s2中,所述利用bp算法对自动编码器进行训练具体为,以利用自适应遗传算法获取的权值与阈值为初始权值与阈值,根据以下公式对种群中个体进行非均匀变异操作:

其中,o为个体基因,og(g=1,2…length)为个体o中的基因,omax为历代种群中基因og的最大值,omin为历代种群中基因og的最小值,r1与r2分别为[0,1]内均匀分布的随机数,g为当前迭代次数,gmax为最大迭代次数;

根据以下公式计算自适应变异概率:

pm=0.001+cof·ng

其中,ng为自上次进化以来至当前代为止未进化的代数;cof为变异率提高系数且取值为0.005。

进一步,在步骤s3中,利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类的具体过程包括,

步骤s31,输入降维后用户用电数据与聚类规模,根据用户分析精细化程度以及降维后的的用户用电样本数据类型和数量,设置聚类数;

步骤s32,基于模糊c均值聚类算法对降维数据进行一次聚类,形成初始聚类中心集合;

步骤s33,重复多次聚类,利用伴随机法形成聚类中心的初始种群;

步骤s34,基于平均类间距离指标值确定最佳聚类数,以及用户用电模式的分类结果。

进一步,在步骤s32中,所述基于模糊c均值聚类算法对降维数据进行一次聚类的具体过程为,自适应遗传算法利用模糊c均值聚类算法对降维后的用户用电数据进行多次聚类,得到初始聚类中心集,利用自适应遗传算法优化不断聚类中心,直至适应度函数值达到目标;

其中,自适应遗传算法对对聚类中心的优化过程为:

对聚类中心的进行二进制编码,半随机生成初始种群,计算种群中每个个体的适应度函数,通过对群体进行选择、复制、交叉及变异等操作不断更新群体,并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后,此时的聚类结果为该步骤最终所要获取的用户用电模式分类结果。

其中,半随机生成初始种群为初始种群一半个体为初始聚类中心,另一半个体由随机产生,这保证算法能在一个较好的基础上进行,又使得保证了种群的多样性。

自适应遗传算法的适应度函数为:

其中,zn(n=1,2…n)为第n个样本空间数据,即第n个用户用电数据,n为用户总数,ωm(m=1,2…m)为第m类的聚类中心,m为聚类数,μmn为第n个用户属于第m类的隶属度,u∈(1,+∞)为模糊指数,dmn(zn,ωm)为第n个用户用电数据与第m个聚类中心的欧式距离;

根据以下公式计算dmn(zn,ωm):

dmn(zn,ωm)=||zn-ωm||2

进一步,在步骤s33中,所述重复多次聚类具体为,判断此时聚类数nc是否小于5,若小于5则聚类数加1,再次进行聚类并计算新的聚类数下的平均类内距离指标。

进一步,在步骤s34中,所述基于平均类间距离指标值确定最佳聚类数具体为,

若此时聚类数nc不小于5,则确定nc-1是否为聚类数平均类内距离曲线的拐点;若nc-1为拐点,在聚类数分别为nc+1,nc+2,nc+3下进行聚类,并计算其对应的平均类间距离指标值,与nc-1,nc,nc+1,nc+2,nc+3所对应的平均类间距离指标值进行比较,平均类间距离指标值最大的聚类数为最佳聚类数,在最佳聚类数下的聚类结果即为用户用电模式的分类结果;若nc-1不为拐点,则聚类数nc加1,再次进行聚类并计算新的聚类数下的平均类内距离指标与平均类间距离指标并重复本步骤,直至找到拐点。

进一步,在步骤s34中,所述确定nc-1是否为聚类数平均类内距离曲线的拐点具体为,利用点及点分别确定如下两个正向直线方程:

s1(x,y)=0s2(x,y)=0

其中,分别为聚类数nc-3,nc-2,nc-1对应的平均类内距离指标值;

根据以下公式计算数值:

nc-1为聚类数-平均类内距离曲线内部的拐点,否则不为拐点,其中,为聚类数为nc对应的平均类内距离指标值。

综上,实施本发明的实施例,具有如下的有益效果:

本发明提供的这种高维海量量测数据的用电模式分类方法,利用了主成分分析法-模糊c均值聚类算法与模糊c均值聚类算法对这些用户的用电模式进行了分类,无论平均类间距离指标还是在平均类内指标方面都明显由于其他两种算法,本发明所提分类算法能够更加准确、清晰地对用户用电模式进行分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明提供的高维海量量测数据的用电模式分类方法的主流程图。

图2为本发明提供的高维海量量测数据的用电模式分类方法的逻辑示意图。

图3为本发明提供的于多因素状态分布低压台区线损问题查找方法的基于平均类间距离指标值确定最佳聚类数示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。

如图1所示,为本发明提供的一种高维海量量测数据的用电模式分类方法的一个实施例的示意图。在该实施例中,如图2所示,一种高维海量量测数据的用电模式分类方法,包括:

步骤s1,对用户的日负荷曲线进行采样,形成用户特征样本集,对高维海量量测数据进行主成分分析,提取关键特征指标;

具体一个实施例中,所述对各用户日负荷曲线进行采样,形成用户特征样本集的具体过程为,将获取的带有时标的用户用电计量数据和配合非电计量数据(如水、气、热)和非计量数据(如缴费信息,投诉信息等)匹配,形成用户特征样本集;对各用户日负荷曲线进行采样,对于采样频率为15min/次,形成维度为96的用户用电数据样本集;对于采样频率为60min/次,形成维度为24的用户用电数据样本集。水、气、热等信息采集的时间频率可较低,带需具有时标。

具体的,所述对高维海量量测数据进行主成分分析,提取关键特征指标具体过程为,对于高维海量量测数据,采用方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少;它是在损失很少的信息的前提下把多个指标转化为多元统计指标,保存原始高维量测数据协方差结构的基础上根据以下公式计算低维表达:

其中,ni是第i个类中样本的个数,st为总体离散矩阵,xi和yi分别为多维量测数据集合第i个样本,m为所有样本的质心;

根据以下公式对转换矩阵做尺度约束,转化为st的标准的特征值,最优转换矩阵为st的d个最大的特征值所对应的d个m维特征向量:

其中,id为d×d的单位矩阵;上式问题可以转化为st的标准的特征值,最优转换矩阵为st的d个最大的特征值所对应的d个m维特征向量。把上述数据投影到一个低维的方向,使得投影后不同的组之间尽可能的分开,而同一组内的的样本比较靠拢,然后在新空间中对样本进行特征指标提取。最优的特征向量对应于前若干个最大的非零特征值,通常取值为4~6,取决于对分类的详细要求。

步骤s2,利用自适应遗传算法与bp算法对自动编码器进行训练,并利用完成训练的自动编码器对用户的用电数据样本集进行降维;

具体一个实施例中,所述利用自适应遗传算法对自动编码器进行训练的具体为,对自动编码器网络的权值与阈值进行实数编码,随机生成初始种群,计算种群中每个个体的适应度函数,通过对群体进行选择、复制、交叉及变异操作不断更新群体,并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后,此时自动编码器网络的权值与阈值为最终获取的权值与阈值;

其中,自适应遗传算法的编码方式为实数编码,根据自动编码器输入层与隐含层之间的连接权值与隐含层与输出层的连接权值对称的特性,每个染色体表示为:

o={o1,o2…olength}

length=96×h+h+96

其中,第一项为自动编码器输入层与隐含层之间的连接权值数目;后两项分别为自动编码器隐含层与输出层的阈值数目;

根据以下公式计算自适应遗传算法的适应度函数:

其中,n为用户个数,sk(i)(i=1,2…96)表示第k个用户的第i维用电数据,为经过自动编码器重构的第k个用户的第i维用电数据;

根据以下公式计算自适应遗传算法的自适应交叉概率:

pcmax=0.9

pcmin=0.6

其中,fmax为个体的最大适应度,favg为种群平均适应度,fhigh为父代中较高的适应度。

具体的,所述利用bp算法对自动编码器进行训练具体为,以利用自适应遗传算法获取的权值与阈值为初始权值与阈值,对种群中个体进行非均匀变异操作。设个体o中的基因og(g=1,2…length)一个被变异的基因,根据以下公式对种群中个体进行非均匀变异操作:

其中,o为个体基因,og(g=1,2…length)为个体o中的基因,omin为历代种群中基因og的最大值,omin为历代种群中基因og的最小值,r1与r2分别为[0,1]内均匀分布的随机数,g为当前迭代次数,gmax为最大迭代次数;

为提高收敛速度并避免早熟现象,根据以下公式计算自适应变异概率:

pm=0.001+cof·ng

其中,ng为自上次进化以来至当前代为止未进化的代数;cof为变异率提高系数且取值为0.005;将上述遗传算法中的到权值与阈值作为bp算法权值与阈值训练的初始值,然后利用bp算法对权值与阈值进行训练,直至达到训练要求。

将输入用户用电样本数据,对用户高维海量用电数据进行降维,获得隐含层输出即为降维后的用户用电数据。

步骤s3,利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类,对用户用电模式进行分类;

具体一个实施例中,利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类的具体过程包括,

步骤s31,输入降维后用户用电数据与聚类规模,根据用户分析精细化程度以及降维后的的用户用电样本数据类型和数量,设置聚类数,设置的聚类数通常为2~4,需要基于用户分析精细化程度,以及降维后的的用户用电样本数据类型和数量决定;

步骤s32,基于模糊c均值聚类算法对降维数据进行一次聚类,形成初始聚类中心集合;

具体的,针对模糊c聚类算法已陷入局部最小值的缺点,利用改进自适应遗传算法改进模糊c均值聚类算法,所述基于模糊c均值聚类算法对降维数据进行一次聚类的具体过程为,自适应遗传算法利用模糊c均值聚类算法对降维后的用户用电数据进行多次聚类,得到初始聚类中心集,利用自适应遗传算法优化不断聚类中心,直至适应度函数值达到目标;

其中,自适应遗传算法对对聚类中心的优化过程为:

对聚类中心的进行二进制编码,半随机生成初始种群,计算种群中每个个体的适应度函数,通过对群体进行选择、复制、交叉及变异等操作不断更新群体,并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后,此时的聚类结果为该步骤最终所要获取的用户用电模式分类结果。

其中,半随机生成初始种群为初始种群一半个体为初始聚类中心,另一半个体由随机产生,这保证算法能在一个较好的基础上进行,又使得保证了种群的多样性。

自适应遗传算法的适应度函数为:

其中,zn(n=1,2…n)为第n个样本空间数据,即第n个用户用电数据,n为用户总数,ωm(m=1,2,…m)为第m类的聚类中心,m为聚类数,μmn为第n个用户属于第m类的隶属度,u∈(1,+∞)为模糊指数,dmn(zn,ωm)为第n个用户用电数据与第m个聚类中心的欧式距离;

根据以下公式计算dmn(zn,ωm):

dmn(zn,ωm)=||zn-ωm||2

步骤s33,重复多次聚类,利用伴随机法形成聚类中心的初始种群,所述重复多次聚类具体为,判断此时聚类数nc是否小于5,若小于5则聚类数加1,再次进行聚类并计算新的聚类数下的平均类内距离指标;

步骤s34,基于平均类间距离指标值确定最佳聚类数,以及用户用电模式的分类结果;

如图3所示,具体一个实施例中,所述基于平均类间距离指标值确定最佳聚类数具体为,

若此时聚类数nc不小于5,则确定nc-1是否为聚类数平均类内距离曲线的拐点;若nc-1为拐点,在聚类数分别为nc+1,nc+2,nc+3下进行聚类,并计算其对应的平均类间距离指标值,与nc-1,nc,nc+1,nc+2,nc+3所对应的平均类间距离指标值进行比较,平均类间距离指标值最大的聚类数为最佳聚类数,在最佳聚类数下的聚类结果即为用户用电模式的分类结果;若nc-1不为拐点,则聚类数nc加1,再次进行聚类并计算新的聚类数下的平均类内距离指标与平均类间距离指标并重复本步骤,直至找到拐点;

所述确定nc-1是否为聚类数平均类内距离曲线的拐点具体为,利用点及点分别确定如下两个正向直线方程:

s1(x,y)=0s2(x,y)=0

其中,分别为聚类数nc-3,nc-2,nc-1对应的平均类内距离指标值;

根据以下公式计算数值:

nc-1为聚类数-平均类内距离曲线内部的拐点,否则不为拐点,其中,为聚类数为nc对应的平均类内距离指标值。

算例采用某地区电网的2000户中小型用户负荷数据进行实验,采用本发明所提分类方法对用户用电模式进行分类,共将用户分为4类,其典型用户(每类用户的聚类中心),各类用户特征明显,用户模式可以清晰识别。第一类用户在早上8点时负荷开始快速攀升,在9点左右达到最高水平,并持续维持这一水平直到11点。负荷在11点至下午1点有所下降,在1点之后又恢复至先前负荷水平并维持这一水平至晚上7点,然后开始快速下降至最低水平。根据这一用户的用电特性,可认为这一类用户为商业办公用户,该类用户的用电峰谷期与总体负荷的用电峰谷期基本一致,处于对这一类用户工作性质的考虑,对于这一用户宜采用削峰的需求响应手段。第二类用户负荷为典型的双峰型负荷,第一次峰时段为6:30~8:30,第二次峰时段为19:30~21:30,根据用户负荷特性,可认为是居民用户,其夜间谷时段与总体谷时段相同,可通过调整电价等手段促进用户在夜间时段多使用空调等负荷,以达到该时段负荷填谷的目的。第三类用户负荷在夜间负荷较高,而白天负荷较低,这类用户可认为是充电桩等负荷,该类负荷的峰谷时段与总体峰谷时段基本上相反,是重要的需求响应资源,可通过分时电价等手段进一步提升其需求响应能力。第四类用户负荷较为平稳且负荷相对较小,这类用户可能是便利店或自动取款机,这类用户需求响应能力小,可不执行需求响应。

为了验证本发明所提分类方法的有效性,还利用了主成分分析法-模糊c均值聚类算法与模糊c均值聚类算法对这些用户的用电模式进行了分类,算法1为本发明所提分类算法,算法2为采用主成分分析法-模糊c均值聚类算法,算法3为模糊c均值聚类算法,本发明所提分类算法无论平均类间距离指标还是在平均类内指标方面都明显由于其他两种算法,这说明本发明所提分类算法能够更加准确、清晰地对用户用电模式进行分类。

综上,实施本发明的实施例,具有如下的有益效果:

本发明提供的这种高维海量量测数据的用电模式分类方法,利用了主成分分析法-模糊c均值聚类算法与模糊c均值聚类算法对这些用户的用电模式进行了分类,无论平均类间距离指标还是在平均类内指标方面都明显由于其他两种算法,本发明所提分类算法能够更加准确、清晰地对用户用电模式进行分类。

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1