本发明属于用电特性分析,具体涉及一种基于改进聚类算法的行业用电特性分析方法。
背景技术:
1、在用电特性分析领域,随着电力市场的逐步开放和综合能源系统的不断发展,诸如用户能源消耗方式多样化等问题日益突出,随着智能电表的普及,用户用电数据的规模和复杂度不断增加,对用电特性分析提出了新的挑战和需求。用电特性分析是通过对用户用电数据的挖掘和用电特性的感知,有效识别用户用电模式、评估需求响应潜力,从而做到指导电价制定等。聚类算法是一种无监督的机器学习方法,可以将数据根据相似度分成不同的类别,从而发现数据的内在结构和规律。因此,用电特性分析和聚类算法具有良好的相性,二者的结合具有重要的理论意义和实际价值。
2、然而,在近些年对二者结合的技术的研究与实践过程中,显露出一些困难和问题,如数据量巨大、数据分布不均、数据动态变化、数据质量低等,这些都给聚类分析带来了困难和不确定性。目前的研究大多集中在依据聚类算法将不同电力用户划分成不同类型的簇,但其初始聚类中心的选取无法避免聚类算法自身的缺陷,对不同的电力用户的划分存在误差,且对不同行业中的用户用电行为没有细化,其用电行为分类的准确性有待验证。为了能够准确地分析用户用电行为特征,需要一种既能满足精度要求,又能进行细致划分的技术方案。
技术实现思路
1、针对目前电特性分析和聚类算法结合后显露出数据量巨大、数据分布不均、数据动态变化、数据质量低的问题,本发明提供了一种基于改进聚类算法的行业用电特性分析方法,对用户用电行为特征进行分析和预测,以提高聚类的准确性和稳定性,从而更好地刻画用户用电行为特征。
2、为了达到上述目的,本发明采用了下列技术方案:
3、一种基于改进聚类算法的行业用电特性分析方法,包括如下步骤:
4、步骤1,采集用户用电数据样本,组成数据集,基于误差平方和的elbow method确定聚类簇的个数k,以及最佳聚类簇数k;
5、步骤2,计算数据集中任意两样本的欧氏距离并进行比较,选择所有比较结果数据中最小的一点作为第一个初始聚类中心;
6、步骤3,根据数据集中除第一个初始聚类中心以外的点与当前已有聚类中心的距离确定下一个聚类中心;
7、步骤4,重复步骤3,直至选出k个聚类中心;
8、步骤5,采用原始k-means算法,在k个聚类中心基础上反复迭代,并更新聚类中心,直到聚类中心不再发生变化;
9、步骤6,将聚类结果进行整理,得到k种不同特征的用户用电情况画像,作为对用户用电行为习惯的分析依据。
10、进一步,步骤1:输入用户用电数据样本x={x1,x2,x3,x4,x5,…,xm};定初始聚类簇数k,取不同k值(1,2,…,k),使用原始k-means算法对数据进行预处理;
11、计算每个k值下的总的误差平方和,误差平方和的公式表示为:
12、
13、其中,
14、式中,k为聚类簇数,得到k个簇c={ci,i=1,2,…,k},ci为第i个簇,x为ci中的样本点,di为ci的质心(ci中所有样本的均值)
15、将用户用电数据的误差平方和sse绘制成曲线,然后利用肘部法则(elbowmethod)来确定最佳聚类簇数k(适合的聚类数目,也是应对用户用电特性划分的分类数)。
16、首先使用k-means算法对数据集进行预处理,其目的是得到误差平方和(sum ofthe squared errors,sse)的最优解。误差平方和(sse)的基本原理为:当k值小于真实聚类数附近的阈值时,由于簇内距离较大,sse会随着k值的增大而显著下降,此时曲线呈陡峭下降趋势;当k值超过该阈值时,由于簇内距离较小,sse会随着k值的增大而缓慢下降,此时曲线呈平缓下降趋势。该方法通过绘制sse与聚类数k的关系曲线,找出曲线的拐点,作为最佳的聚类数。
17、进一步,步骤2,在用户用电数据样本x={x1,x2,x3,x4,x5,…,xm}中,计算出所有数据样本间的欧氏距离;任意两样本欧氏距离表示为:
18、
19、式中,n为数据维度,i、j代表不同样本点,i≠j;i,j=1,2,3,4,…,m,m为总样本点数目;
20、选择所有数据样本间欧氏距离最小的一点,取该点的xi作为第一个初始聚类中心a1;
21、进一步,步骤3,对于数据集中除第一个初始聚类中心以外的点,计算它到最近的聚类中心的欧氏距离d(xi),并将所有这些距离求和得到∑d(xi);
22、
23、
24、其中,j为已有初始聚类中心数;j=1时,a1为第一个初始聚类中心,i代表不同样本点,i=1,2,3,4,…,m-1;
25、依次遍历未被选为聚类中心的点,计算公式表示为:
26、k=k-d(xi) (5)
27、其中k为[0,∑d(xi)]区间内取的一个随机数;
28、不断更新k值,直至k≤k-d(xi),此时的点作为下一个聚类中心a2;
29、进一步,步骤4:重复步骤3,直至选出k个聚类中心;这些初始聚类中心可以替代原始k-means聚类算法中随机选取的初始聚类中心,避免其选取结果受噪点影响,从而实现对行业内不同电力用户用电行为的精确划分,同时也能对用户用电行为进行细化分析。
30、进一步,步骤5:采用原始k-means算法,在k个聚类中心基础上反复迭代,并更新聚类中心,直到聚类中心不再发生变化;
31、使用k-means算法进行迭代,计算每个样本点到各个聚类中心的欧氏距离,根据最近邻原则将每个样本划分到距离最近的聚类中心所在的簇中;然后,对于每个簇,计算簇内所有样本的均值向量,
32、
33、式中,为此簇的质心,u=1,2,3,…,k;v表示一个簇内包含的样本点数量,xl、yl为一个簇内样本点的坐标,h表示起始值;
34、将得到的坐标作为此簇的新聚类中心;接着,重复上述步骤,直到聚类中心收敛或达到预设的最大迭代次数,完成聚类过程。
35、进一步,步骤6:将聚类结果进行整理,得到k种不同特征的用户用电情况画像,作为对用户用电行为习惯的分析依据。
36、与现有技术相比本发明具有以下优点:
37、本发明方法能及时地识别出不同用户的用电习惯,提高对用户用电习惯的识别精度和效率,细致地划分不同类型的电力用户,为制定合理的发配电计划,应对用电高低峰的情况,提供有效的依据。
1.一种基于改进聚类算法的行业用电特性分析方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种基于改进聚类算法的行业用电特性分析方法,其特征在于:所述采集用户用电数据样本,组成数据集,基于误差平方和的elbow method确定聚类簇的个数k,以及最佳聚类簇数k的具体方法是:
3.根据权利要求1所述的一种基于改进聚类算法的行业用电特性分析方法,其特征在于:所述步骤2计算任意两样本欧氏距离并进行比较,选择所有数据中最小的一点作为第一个初始聚类中心的具体方法是:
4.根据权利要求1所述的一种基于改进聚类算法的行业用电特性分析方法,其特征在于:所述步骤3,根据数据集中除第一个初始聚类中心以外的点与当前已有聚类中心的距离确定下一个聚类中心的具体方法是:
5.根据权利要求1所述的一种基于改进聚类算法的行业用电特性分析方法,其特征在于:所述步骤5采用原始k-means算法,在k个聚类中心基础上反复迭代,并更新聚类中心,直到聚类中心不再发生变化具体为: