一种高维海量量测数据的用电模式分类方法与流程

文档序号：21547880发布日期：2020-07-17 18:00阅读：来源：国知局

技术特征：

1.一种高维海量量测数据的用电模式分类方法，其特征在于，包括以下步骤：

步骤s1，对用户的日负荷曲线进行采样，形成用户特征样本集，对高维海量量测数据进行主成分分析，提取关键特征指标；

步骤s2，利用自适应遗传算法与bp算法对自动编码器进行训练，并利用完成训练的自动编码器对用户的用电数据样本集进行降维；

步骤s3，利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类，对用户用电模式进行分类。

2.如权利要求1所述的方法，其特征在于，在步骤s1中，所述对各用户日负荷曲线进行采样，形成用户特征样本集的具体过程为，将获取的带有时标的用户用电计量数据和配合非电计量数据和非计量数据匹配，形成用户特征样本集。

3.如权利要求2所述的方法，其特征在于，在步骤s1中，所述对高维海量量测数据进行主成分分析，提取关键特征指标具体过程为，

保存原始高维量测数据协方差结构的基础上根据以下公式计算低维表达：

其中，ni是第i个类中样本的个数，st为总体离散矩阵，xi和yi分别为多维量测数据集合第i个样本，m为所有样本的质心；

根据以下公式对转换矩阵做尺度约束，转化为st的标准的特征值，最优转换矩阵为st的d个最大的特征值所对应的d个m维特征向量：

其中，id为d×d的单位矩阵。

4.如权利要求1所述的方法，其特征在于，在步骤s2中，所述利用自适应遗传算法对自动编码器进行训练的具体为，对自动编码器网络的权值与阈值进行实数编码，随机生成初始种群，计算种群中每个个体的适应度函数，通过对群体进行选择、复制、交叉及变异操作不断更新群体，并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后，此时自动编码器网络的权值与阈值为最终获取的权值与阈值；

其中，自适应遗传算法的编码方式为实数编码，根据自动编码器输入层与隐含层之间的连接权值与隐含层与输出层的连接权值对称的特性，每个染色体表示为:

o＝{o1,o2…olength}

length＝96×h+h+96

其中，第一项为自动编码器输入层与隐含层之间的连接权值数目；后两项分别为自动编码器隐含层与输出层的阈值数目；

根据以下公式计算自适应遗传算法的适应度函数：

其中，n为用户个数，sk(i)(i＝1，2…96)表示第k个用户的第i维用电数据，为经过自动编码器重构的第k个用户的第i维用电数据；

根据以下公式计算自适应遗传算法的自适应交叉概率:

pcmax＝0.9

pcmin＝0.6

其中，fmax为个体的最大适应度，favg为种群平均适应度，fhigh为父代中较高的适应度。

5.如权利要求4所述的方法，其特征在于，在步骤s2中，所述利用bp算法对自动编码器进行训练具体为，以利用自适应遗传算法获取的权值与阈值为初始权值与阈值，根据以下公式对种群中个体进行非均匀变异操作：

其中，o为个体基因，og(g＝1，2…length)为个体o中的基因，omax为历代种群中基因og的最大值，omin为历代种群中基因og的最小值，r1与r2分别为[0,1]内均匀分布的随机数，g为当前迭代次数，gmax为最大迭代次数；

根据以下公式计算自适应变异概率：

pm＝0.001+cof·ng

其中，ng为自上次进化以来至当前代为止未进化的代数；cof为变异率提高系数且取值为0.005。

6.如权利要求1所述的方法，其特征在于，在步骤s3中，利用改进模糊c均值聚类算法对降维后的用户的用电数据样本集进行聚类的具体过程包括，

步骤s31,输入降维后用户用电数据与聚类规模，根据用户分析精细化程度以及降维后的的用户用电样本数据类型和数量，设置聚类数；

步骤s32,基于模糊c均值聚类算法对降维数据进行一次聚类，形成初始聚类中心集合；

步骤s33,重复多次聚类，利用伴随机法形成聚类中心的初始种群；

步骤s34，基于平均类间距离指标值确定最佳聚类数，以及用户用电模式的分类结果。

7.如权利要求6所述的方法，其特征在于，在步骤s32中，所述基于模糊c均值聚类算法对降维数据进行一次聚类的具体过程为，自适应遗传算法利用模糊c均值聚类算法对降维后的用户用电数据进行多次聚类，得到初始聚类中心集，利用自适应遗传算法优化不断聚类中心，直至适应度函数值达到目标；

其中，自适应遗传算法对对聚类中心的优化过程为：

对聚类中心的进行二进制编码，半随机生成初始种群，计算种群中每个个体的适应度函数，通过对群体进行选择、复制、交叉及变异等操作不断更新群体，并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡。当群体最大适应度不再发生变化或达到最大更新代数后，此时的聚类结果为该步骤最终所要获取的用户用电模式分类结果。

其中，半随机生成初始种群为初始种群一半个体为初始聚类中心，另一半个体由随机产生，这保证算法能在一个较好的基础上进行，又使得保证了种群的多样性。

自适应遗传算法的适应度函数为：

其中，zn(n＝1，2…n)为第n个样本空间数据，即第n个用户用电数据，n为用户总数，ωm(m＝1，2…m)为第m类的聚类中心，m为聚类数，μmn为第n个用户属于第m类的隶属度，u∈(1，+∞)为模糊指数，dmn(zn，ωm)为第n个用户用电数据与第m个聚类中心的欧式距离；

根据以下公式计算dmn(zn，ωm)：

dmn(zn，ωm)＝||zn-ωm||²。

8.如权利要求7所述的方法，其特征在于，在步骤s33中，所述重复多次聚类具体为，判断此时聚类数nc是否小于5，若小于5则聚类数加1，再次进行聚类并计算新的聚类数下的平均类内距离指标。

9.如权利要求8所述的方法，其特征在于，在步骤s34中，所述基于平均类间距离指标值确定最佳聚类数具体为，

若此时聚类数nc不小于5，则确定nc-1是否为聚类数平均类内距离曲线的拐点；若nc-1为拐点，在聚类数分别为nc+1，nc+2，nc+3下进行聚类，并计算其对应的平均类间距离指标值，与nc-1，nc，nc+1，nc+2，nc+3所对应的平均类间距离指标值进行比较，平均类间距离指标值最大的聚类数为最佳聚类数，在最佳聚类数下的聚类结果即为用户用电模式的分类结果；若nc-1不为拐点，则聚类数nc加1，再次进行聚类并计算新的聚类数下的平均类内距离指标与平均类间距离指标并重复本步骤，直至找到拐点。

10.如权利要求9所述的方法，其特征在于，在步骤s34中，所述确定nc-1是否为聚类数平均类内距离曲线的拐点具体为，利用点与及点与分别确定如下两个正向直线方程:

s1(x，y)＝0s2(x，y)＝0

其中，分别为聚类数nc-3，nc-2，nc-1对应的平均类内距离指标值；

根据以下公式计算数值：

若nc-1为聚类数-平均类内距离曲线内部的拐点，否则不为拐点,其中,为聚类数为nc对应的平均类内距离指标值。

技术总结
本发明提供一种高维海量量测数据的用电模式分类方法，包括步骤S1，对用户的日负荷曲线进行采样，形成用户特征样本集，对高维海量量测数据进行主成分分析，提取关键特征指标；步骤S2，利用自适应遗传算法与BP算法对自动编码器进行训练，并利用完成训练的自动编码器对用户的用电数据样本集进行降维；步骤S3，利用改进模糊C均值聚类算法对降维后的用户的用电数据样本集进行聚类，对用户用电模式进行分类。本发明可实现，分类算法能够更加准确、清晰地对用户用电模式进行分类。

技术研发人员：许泽宁;杨远俊;李伟华;张之涵;杨祥勇;罗仙鹏;李超
受保护的技术使用者：深圳供电局有限公司
技术研发日：2020.03.17
技术公布日：2020.07.17

完整全部详细技术资料下载

当前第2页1 2