一种考虑双尺度相似性的负荷曲线集成谱聚类算法的制作方法

文档序号:22389633发布日期:2020-09-29 17:54阅读:254来源:国知局
一种考虑双尺度相似性的负荷曲线集成谱聚类算法的制作方法

本发明涉及一种考虑双尺度相似性的负荷曲线集成谱聚类算法,属于电力系统负荷特性分析领域。



背景技术:

在城镇能源互联网背景下,用电采集信息系统与调度、运检、营销业务系统的建设完善促使了电力数据资源的快速积累。电力数据中潜藏了用能特性等有价值的信息,需要应用数据分析技术进行挖掘。聚类作为一种无监督学习技术,适合应用于无标签负荷曲线的归类之中,为电力企业提供依据负荷特性差异的归类结果,帮助电力企业精确掌握用户用能行为规律,为需求侧响应、负荷预测、用电异常检测等应用提供有力支撑。

以聚类技术开展负荷特性分析已经具备较为深入的研究基础。负荷聚类相关研究主要集中在以下三方面:1)负荷聚类算法。负荷聚类结果的有效性是保证其应用价值的关键,如何设计合适的负荷聚类算法以提升负荷聚类质量是研究热点之一。2)负荷相似性度量。根据负荷聚类目的选用合理的距离度量方式,衡量不同用户负荷特性的相似性,可以令聚类效果更加准确有效。3)负荷数据特征提取。从高维负荷曲线数据中提取可有效反映负荷特性差异的低维特征,可以提升负荷聚类质量以及效率。

欧氏距离是负荷聚类中经典的相似性度量方式。有研究文献在变电站负荷特性聚类分析中,通过变电站用户构成以及曲线欧氏距离表征变电站负荷特性。有研究文献将快速搜索密度峰值聚类算法应用到负荷聚类中,并引入直方图均衡化技术提升负荷聚类效果。有研究文献通过结合划分聚类和层次聚类进行两层聚类,实现两类聚类算法的优势互补,优化负荷聚类有效性。上述负荷聚类分析研究均采取欧氏距离作为负荷相似性的度量依据,但欧氏距离注重计算曲线距离,在挖掘负荷曲线形态变化相似性方面存在局限性。为了改进相似性度量问题,有研究文献从距离和形态特征两方面对负荷相似性进行度量并采用谱聚类算法进行负荷归类。有研究文献引入动态时间弯曲距离和互相关方法改进负荷序列的形态相似性计算方式。有研究文献引入典型时间翘曲距离的概念,与高斯核函数结合表征负荷序列在时空双尺度的相似性,对谱多流形聚类方法进行改进。目前的负荷聚类研究大多采用单一聚类算法或两层聚类算法,但这些算法普遍存在局限性,例如对不同的数据集需要重新调试参数,对不同的数据结构的适应性有差异,需要调试多项参数等问题,会对负荷聚类质量造成不良影响。



技术实现要素:

为了解决背景技术中的总结的问题,本发明提供了一种考虑双尺度相似性的负荷曲线集成谱聚类算法,该方法结合双尺度相似性和集成聚类的优点,构建考虑负荷曲线距离及形态特性差异的集成谱聚类模型。

为了实现上述目的,本发明采用了如下的技术方案:

一种考虑双尺度相似性的负荷曲线集成谱聚类算法,该方法结合差分余弦距离与欧氏距离以构造一种双尺度相似性度量方式,采用基于双尺度相似性度量的谱聚类算法构造差异化基聚类模型,以基于聚类内部评价指标自适应加权的一致性矩阵以及谱聚类实现聚类集成。

具体的方法如下:

首先,通过负荷差分向量的余弦距离计算负荷形态变化相似性,构造用以衡量负荷相似程度的双尺度相似性度量方式,以弥补欧氏距离度量负荷特性相似性的不足;然后,以谱聚类作为基聚类模型生成算法,通过选取不同相似性度量方式,设置不同聚类簇数以及随机运行来构造差异化基聚类模型,保证基聚类模型多样性;最后,以加权一致性矩阵与谱聚类作为聚类集成策略,聚类集成过程中采取戴维森堡丁指数dbi或新的指标mdbi作为聚类评价指标,以dbi或mdbi的倒数为权重自适应设置依据计算一致性矩阵,再以谱聚类实现最终的集成聚类划分,通过集成聚类实现聚类性能提升以及对两种度量方式的有效结合。

上述技术方案中,进一步地,为避免负荷曲线幅度差异对负荷形态相似性计算结果的影响,在算法运行前先对负荷曲线进行最大值归一化处理,具体方法为:

不同用户的用电体量存在差异,其日负荷曲线的幅度并不一致甚至相差较大,但是负荷聚类的归类依据是负荷形态的相似性,曲线幅度在相似性计算中没有意义。为避免曲线幅度差异对相似性计算结果的影响,需要先对负荷曲线进行归一化处理。

假设负荷数据集中有m条负荷曲线,负荷曲线维度为n,在聚类时所有负荷样本将被归为k个类簇。采用最大值归一化的方法对负荷数据进行处理,定义如下式所示:

式中,xij为第i条负荷曲线原始数据的第j维度值经归一化后所得值;表示第i条负荷曲线原始数据的第j维度值;表示第i条负荷曲线原始数据所有维度中的最大值。

更进一步地,对归一化后的负荷曲线数据进行一阶差分运算,再计算负荷一阶差分向量的余弦距离,即差分余弦距离,用于反映两条负荷曲线形态变化的一致性,具体方法为:

对归一化后的负荷曲线数据进行一阶差分运算,可提取出反映各负荷曲线上升、下降、平稳等形态变化特征的功率变化向量。余弦距离由余弦相似度计算得到,余弦相似度通过向量空间中两个向量的夹角余弦值衡量两个向量的相似性。余弦距离体现了向量方向上的相对差异,负荷一阶差分向量的余弦距离可用于反映两条负荷曲线形态变化的一致性。差分余弦距离的取值范围为[0,2],其值越小表示两条负荷曲线的形态变化相似性越高。

负荷的一阶差分运算定义为:

式中,表示经一阶差分运算后第i个差分负荷向量的第j维度值。

负荷的差分余弦距离定义为:

dcii′=1-cii′

式中,dcii'表示第i和第i'个负荷差分向量的余弦距离,即第i和第i'条负荷曲线的差分余弦距离;cii'表示第i和第i'个负荷差分向量的余弦相似度;为第i个负荷差分向量;表示第i个负荷差分向量的2-范数;第二个式子中分子的乘号表示向量点乘,分母的乘号表示数值相乘。

进一步地,通过结合差分余弦距离与欧氏距离构造基于双尺度相似性的负荷曲线综合距离,兼顾负荷距离及形态变化的相似程度,综合距离具体可通过线性函数得到,具体方法为:

综合距离定义为:

dsii′=ae·deii′+ac·dcii′·r

式中,dsii'表示第i和第i'条负荷曲线的综合距离;deii'为第i和第i'条负荷曲线的欧式距离;dcii'为第i和第i'条负荷曲线的差分余弦距离;ae、ac分别为计算综合距离时欧氏距离与差分余弦距离的权重系数,考虑到两个相似性均为有效的度量方式,ae与ac均取0.5;由于欧氏距离与差分余弦距离取值范围不一致,因此需要将差分余弦距离放大r倍,r是比例系数。

由于负荷差分余弦距离与欧氏距离最小限值均为0,而最大限值不一致,因此通过下式计算比例系数r:

式中,demax、dcmax分别表示数据集内所有负荷曲线的欧氏距离的最大值以及差分余弦距离的最大值。

选取戴维森堡丁指数dbi以及调整兰德指数ari作为算法聚类效果内部以及外部评价指标,并考虑到经典的dbi公式中采用欧氏距离来度量不同数据样本的距离,不能准确地对采取其他相似性度量方式的聚类方法的结果有效性作出评价,因此将综合距离应用到dbi的距离计算中,具体方法为:

戴维森堡丁指数(davies-bouldinindex,dbi),由大卫·戴维斯和唐纳德·堡丁提出用以评价聚类有效性优劣,又被称为分类适确性指标。dbi综合考虑了聚类结果中类内样本相似度以及类间样本差异度,其值越小表征聚类有效性越高,具体定义为:

式中,dei表示第i类的样本到其类中心的平均欧氏距离,de(ci,cj)表示第i和第j类的类中心的欧氏距离。

调整兰德指数(adjustedrandindex,ari)是一种常见的聚类外部评价指标,其通过计算在真实标签和聚类结果中被分配在相同或不同类簇的样本对的个数来进行聚类有效性的评价,具体定义为:

式中,ri表示兰德指数;tp表示在真实标签中归为同一类并且在聚类结果中也归为同一类的样本对个数;tn表示在真实标签中归为不同类并且在聚类结果中也归为不同类的样本对个数;表示从m个负荷样本里取任意两个样本的组合数。e(ri)是ri的期望值,max(ri)表示ri的最大值。ari取值范围为[-1,1],值越大表示聚类结果越贴近真实情况,ari=1表明聚类结果与真实标签一致。

选取戴维森堡丁指数dbi以及调整兰德指数ari作为算法聚类效果内部以及外部评价指标,并考虑到经典的dbi公式中采用欧氏距离来度量不同数据样本的距离,不能准确地对采取其他相似性度量方式的聚类方法的结果有效性作出评价,因此将综合距离应用到dbi的距离计算中,构造新的指标(modifieddbi,mdbi),即:

式中,mdbi为新的指标,用以评价兼顾双尺度相似性的负荷聚类结果的有效性;dsi为第i类内样本到其类中心的平均综合距离;ds(ci,cj)表示第i和第j类的类中心的综合距离。

进一步地,差异化基聚类模型的构造方法为:

谱聚类算法由图论演化而来,其将数据样本视为空间中的分布点,点与点之间由带权重的边相连,边的权重值与数据样本点之间的相似性成正比。谱聚类对空间内点与加权边构成的无向权重图进行切图,主要目标是使切图后不同子图间边的权重值尽可能低,子图内边的权重值尽可能高。谱聚类性能优异,对数据分布的适应性强。

谱聚类中,无向图的边权重由相似矩阵表示,多数谱聚类算法中采取高斯核函数计算相似矩阵,即:

式中,sii'为相似矩阵第i行第i'列的元素值,即第i和第i'个数据样本点之间的边的权重值;dii'表示第i和第i'条负荷曲线的距离;σ为核函数的尺度参数。

谱聚类算法中,不同负荷曲线间的相似性度量主要体现在相似矩阵的dii'中,一般情况下dii'采用平方欧氏距离,该情况下谱聚类划分负荷类簇时会对类内与类间的平方欧氏距离进行优化。以差分余弦距离代替平方欧氏距离进行相似矩阵计算,可得到以差分余弦距离度量负荷相似性的谱聚类算法,相似矩阵定义如下:

基聚类结果一般可通过采取不同聚类算法,设定不同簇类数,随机运行多次等方法生成。选取谱聚类作为基聚类算法,为其尺度参数取固定值(是实验结果取的一个经验值,具体是根据评价指标来评估结果的好坏,然后根据结果来选取一个在多个数据集表现都不错的尺度参数作为固定值),通过以下三个方面保证基聚类模型的多样性:1)相似性度量方式采用欧氏距离或差分余弦距离;2)设置不同的聚类簇数,取值范围为[kmin,kmax]中每一个整数;3)对前两项参数的每一对参数组合设置的算法都随机运行多次,次数取值为p。在谱聚类的无向图切分方式上,选用ncut切图法对由相似矩阵得到的无向权重图进行处理,并且对切图过程中维度规约后所得到的特征矩阵选用k-means进行聚类。

进一步地,采取加权一致性矩阵法对基聚类模型进行集成的方法为:

一致性矩阵法是一种被广泛应用的经典聚类集成策略,其通过计算不同样本在所有基聚类模型中被划分到相同类簇的概率,将基聚类模型转换成m*m的一致性矩阵:

式中,conij为一致性矩阵第i行第i'列的值;b表示基聚类模型个数;i{}为指示器函数,当括号中公式成立时,其取值为1,否则取值为0;lb(i)表示在第b个基聚类模型中第i个样本的类簇标签。

当基聚类模型集合中含有低有效性的成员时,对每个基聚类模型的有效性不予以考虑而简单进行集成会对集成聚类算法的性能造成不良影响。因此,需要结合不同基聚类模型的聚类评价指标,在一致性矩阵计算过程中考虑其聚类有效性进行自适应权重设置,调整不同基聚类模型对集成聚类的影响。

当仅考虑曲线的距离差异并通过集成聚类优化聚类性能时,可采用dbi计算基聚类模型权重;而当综合考虑负荷曲线的距离及形态变化差异时,可采用mdbi计算基聚类权重。由于dbi和mdbi均为值越小表征聚类结果有效性越高,因此基聚类模型权重取值为对应基聚类模型的dbi或mdbi的倒数。则加权一致性矩阵定义如下:

式中,wb为计算一致性矩阵时第b个基聚类模型的权重;inb表示第b个基聚类模型的聚类评价指标,指标可取为dbi或mdbi。第二个式子对基聚类模型权重进行缩放,使其总和为1,目的为令一致性矩阵元素取值范围为[0,1]。

一致性矩阵可以视作反映样本相似性的相似矩阵,通过谱聚类对相似性矩阵进行处理。与基聚类算法一样,集成过程中的谱聚类同样选用ncut的切图方式以及选用k-means对特征矩阵进行聚类。

本发明的有益效果在于:

本发明的考虑双尺度相似性的负荷曲线集成谱聚类算法,通过集成学习思想对谱聚类算法进行改进,提升了负荷聚类的类簇质量,聚类有效性较优,集成谱聚类在不同数据集中表现更为稳定,鲁棒性较优,且避免了单一谱聚类算法针对不同数据集需要重新调试尺度参数的缺陷;集成谱聚类算法通过差异化基聚类模型的集成将欧氏距离与差分余弦距离有效结合,综合考虑负荷双尺度相似性,可以更精确有效地挖掘反映负荷用能模式的负荷形态变化信息;基聚类集成过程中通过基聚类有效性加权进一步优化了负荷聚类的有效性与鲁棒性。

附图说明

图1为考虑双尺度相似性的负荷曲线集成谱聚类算法框架图;

图2为秋季负荷数据集的考虑双尺度相似性的负荷曲线集成谱聚类结果示意图;

图3为数据集d1示意图;

图4为数据集d2示意图。

具体实施方式

以下结合附图与实施实例对本发明做进一步说明。

本发明的考虑双尺度相似性的负荷曲线集成谱聚类算法的框架如图1所示。

(1)首先采用最大值归一化的方法对负荷数据进行处理,定义如下式所示:

式中,xij为第i条负荷曲线原始数据的第j维度值经归一化后所得值;表示第i条负荷曲线原始数据的第j维度值;表示第i条负荷曲线原始数据所有维度中的最大值。

对归一化后的负荷曲线数据进行一阶差分运算,再计算负荷一阶差分向量的余弦距离,即差分余弦距离,用于反映两条负荷曲线形态变化的一致性。然后通过结合差分余弦距离与欧氏距离构造基于双尺度相似性的负荷曲线综合距离,兼顾负荷距离及形态变化的相似程度,综合距离具体可通过线性函数得到。

(2)选取谱聚类作为基聚类算法,为其尺度参数取固定值,在谱聚类的无向图切分方式上,选用ncut切图法对由相似矩阵得到的无向权重图进行处理,并且对切图过程中维度规约后所得到的特征矩阵选用k-means进行聚类。

通过以下三个方面保证基聚类模型的多样性:

1)相似性度量方式采用欧氏距离或差分余弦距离。采取高斯核函数计算相似矩阵。

2)设置不同的聚类簇数,取值范围为[kmin,kmax]中每一个整数。

3)对前两项参数的每一对参数组合设置的算法都随机运行多次,次数取值为p。

(3)结合不同基聚类模型的聚类评价指标,计算加权一致性矩阵。

当仅考虑曲线的距离差异并通过集成聚类优化聚类性能时,可采用dbi计算基聚类模型权重;而当综合考虑负荷曲线的距离及形态变化差异时,可采用mdbi计算基聚类权重。基聚类模型权重取值为对应基聚类模型的dbi或mdbi的倒数。加权一致性矩阵定义如下:

式中,wb为计算一致性矩阵时第b个基聚类模型的权重;inb表示第b个基聚类模型的聚类评价指标,指标可取为dbi或mdbi。第二个式子对基聚类模型权重进行缩放,使其总和为1。

(4)通过谱聚类对相似性矩阵进行处理。与基聚类算法一样,集成过程中的谱聚类同样选用ncut的切图方式以及选用k-means对特征矩阵进行聚类。

(5)基于聚类评价指标对集成谱聚类模型进行评价,评价指标包括:内部评价指标dbi以及mdbi,外部评价ari。通过指标最优的方法选取聚类数。

采用中国南方某城市四个季节各一天的实测用户负荷数据构造算例,数据采样间隔为15min。经过数据预处理后算例数据共含1565户用户,涵括工业、商业、居民等多种负荷类型。

(1)仅考虑距离差异的集成谱聚类以及内部评价指标验证

在四季负荷数据集上对比多类负荷聚类算法与考虑dbi加权的集成谱聚类算法的性能表现。对比算法包括:1)以欧氏距离度量相似性的k-means算法,简称kmeu;2)以欧氏距离度量相似性且尺度参数固定的谱聚类算法,简称speu;3)以欧氏距离度量相似性且尺度参数寻优的谱聚类算法,简称speu-γ;4)两层聚类算法,简称km-ag;5)不考虑指标加权的集成谱聚类算法,简称esc-1。

算法参数具体设置如表1所示。其中,聚类簇数选取为[kmin,kmax]中每一个整数;考虑到聚类簇数过小会导致聚类失去意义,最小值kmin均取值为3;为保证基聚类模型的多样性且考虑到多数研究中负荷最佳类簇数均为个位数,聚类簇数最大值kmax均取值为9;speu算法中,尺度参数σ固定,经过实验选取令算法在多数数据集中均表现较好的尺度参数:取γ=1/2σ2=1.0。对于所有算法,均采取所设置的参数组合随机运行20次,取dbi最优的结果。

表1算法参数设置

表2给出了各类负荷聚类算法的dbi。由表2可以看出:在四个数据集中,1)考虑dbi加权的集成谱聚类指标均优于speu算法以及kmeu算法,本发明的指标相比speu算法分别提升了0.62%、0.78%、2.75%、0.43%,相比kmeu算法分别提升了30.2%、41.3%、27.7%、9.67%,证明集成谱聚类依靠集成学习思想可以提升聚类有效性;2)speu-γ算法指标多数优于speu算法,但在不同数据集中其最优尺度参数不一致,证明谱聚类对不同负荷数据集需要重新调试尺度参数;3)kmeu算法以及km-ag算法指标比谱聚类算法表现差,指标相差量在所有数据集的均值分别为-0.293、-0.223;4)在春夏秋三季的数据集中,本发明指标优于speu-γ算法,在冬季数据集中,本发明指标劣于speu-γ算法;5)考虑dbi加权的集成谱聚类算法esc指标表现均优于未考虑加权的集成谱聚类算法esc-1,esc-1算法在夏冬两季数据集中指标表现劣于speu算法,原因为基聚类模型中基于差分余弦距离的谱聚类结果的dbi指标较差,对集成聚类性能造成影响,以上证明了不考虑基聚类模型有效性进行集成会影响集成聚类算法的有效性与鲁棒性。

表2六类算法聚类结果dbi对比

(2)考虑双尺度相似性的集成谱聚类以及内部评价指标验证

在四季负荷数据集上对比多类负荷聚类算法与考虑双尺度相似性的集成谱聚类算法的性能表现。对比算法包括:1)以欧氏距离度量相似性的k-means算法,简称kmeu;2)以差分余弦距离度量相似性的k-means算法,简称kmco;3)以欧氏距离度量相似性且尺度参数固定的谱聚类算法,简称speu;4)以差分余弦距离度量相似性且尺度参数固定的谱聚类算法,简称spco;5)以综合距离度量相似性且尺度参数寻优的谱聚类算法,简称spec-γ;6)两层聚类算法,简称km-ag。

算法参数如表3所示。对于所有算法,均采取所设置的参数组合随机运行20次,取mdbi最优的结果。

表3算法参数设置

表4给出了各类负荷聚类算法的dbi。由表4可以看出:在四个数据集中,1)考虑mdbi加权的集成谱聚类算法esc指标均优于其余算法,mdbi相比spec-γ算法分别提升了0.45%、18.68%、4.42%、0.43%,相比speu算法分别提升了0.23%、1.84%、9.32%、2.33%,证明集成谱聚类在综合考虑负荷双尺度相似性聚类时有效性优于单一谱聚类算法,且鲁棒性较优;2)spec-γ算法仅在秋冬两季中mdbi表现优于speu算法,证明单一谱聚类算法鲁棒性的不足;3)spec-γ算法在四个数据集中最优尺度参数不一致,再次验证了谱聚类对不同负荷数据集需要重新调试尺度参数;4)经典的k-means算法以及两层聚类算法km-ag指标比谱聚类算法表现差。

表4七类算法聚类结果mdbi对比

图2展示了秋季负荷数据集的考虑双尺度相似性的负荷曲线集成谱聚类结果。可以看出,集成谱聚类算法将秋季负荷归类成三个类簇,三类典型负荷形态分别可概括为单峰型、避峰i型与避峰ii型。第一类负荷的形态特性主要表现为早晨负荷爬升,白天负荷较平稳,傍晚和凌晨负荷会下降;第二类负荷的形态特性主要表现为清晨时刻负荷快速下降,其他时段负荷相对平稳;第三类负荷的形态特性主要表现为清晨的快速下降与傍晚的快速抬升。三类负荷在距离以及形态变化方面差异较大,可见考虑双尺度相似性的负荷曲线集成谱聚类结果合理有效。

(3)考虑双尺度相似性的集成谱聚类以及外部评价指标验证

构造两个新算例数据集,分别如下:1)数据集d1,负荷类簇数k1=6,分别包含5条至30条曲线不等,总共105条负荷曲线;2)数据集d2,负荷类簇数k2=8,每一类含约20条曲线,总共160条负荷曲线。给定两个数据集真实分类标签如图3与图4所示。

在新数据集d1和d2上对比多类负荷聚类算法与考虑双尺度相似性的集成谱聚类算法的性能表现。对比算法包括:1)以欧氏距离度量相似性的k-means算法,简称kmeu;2)以差分余弦距离度量相似性的k-means算法,简称kmco;3)以欧氏距离度量相似性且尺度参数固定的谱聚类算法,简称speu;4)以差分余弦距离度量相似性且尺度参数固定的谱聚类算法,简称spco;5)以综合距离度量相似性且尺度参数寻优的谱聚类算法,简称spec-γ;6)两层聚类算法,简称km-ag。

算法参数具体设置如表5所示。对于所有算法,均采取所设置的参数组合随机运行20次,取其中ari最优的结果。

表5算法参数设置

表6给出了各类负荷聚类算法的ari。由表6可以看出:在两个数据集中,1)考虑双尺度相似性的集成谱聚类算法的ari均优于或等于spec-γ算法,在数据集d2中ari提升了1.52%~24.7%,证明集成谱聚类在综合考虑负荷双尺度相似性聚类时,对负荷形态特性的区分能力优于单一谱聚类算法,且鲁棒性较好;2)以单一欧氏距离或差分余弦距离度量相似性的谱聚类算法speu或spco在两个数据集中ari波动较大,证明了单一距离度量方式在衡量负荷形态特性时存在不足;3)两层聚类算法km-ag在数据集d1中表现较好,但在数据集d2中表现劣于esc算法、speu算法与spec-γ算法,经典的k-means算法ari比esc算法表现差。

表6七类算法聚类结果ari对比

以上结合附图对本发明的具体实施方式进行了描述,并非对本发明保护范围的限制,所有利用本发明说明书及附图内容所做的等效模型或等效算法流程,通过直接或间接运用于其他相关技术领域,均属本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1