一种基于数据挖掘的电网规划多场景提取方法与流程

文档序号:17290698发布日期:2019-04-03 03:56阅读:471来源:国知局
一种基于数据挖掘的电网规划多场景提取方法与流程

本发明属于智能电网开发技术领域,特别涉及一种基于数据挖掘的电网规划多场景提取方法。



背景技术:

随着智能电网的发展与建设,大规模的新能源接入电网,电网的结构日趋复杂,传统的仅针对冬大、冬小、夏大、夏小四个极端运行方式的评估与分析将无法满足未来电力系统精细化规划计算与分析的客观需要,需要针对精细化电网运行方式开展电网规划多场景提取,以筛选考虑到新能源随机性和波动性的典型场景,从而为全面评估电网规划及运行方案的合理性提出科学指导,提高电网安全稳定分析的合理性。但是,电力系统精细化运行方式规模庞大,若选取的数据挖掘模型不合适,将可能造成计算时间过长甚至无法求解,或提取场景无代表性的后果。

数据挖掘是从大量的数据集中挖掘出隐含的、具有潜在价值的关系、模式和趋势,并且利用这些知识提供预测性决策支持的方法、工具和过程。通过数据挖掘来进行电网规划多场景的提取,不仅要考虑到典型场景的代表性,同时还需要兼顾计算效率和精度,因此,系统化、科学化的电网规划多场景数据挖掘模型显得尤为重要。目前,数据挖掘方法已逐渐拓展应用到电力系统中电网运行、电力状态监测等细分领域,但在电网规划尤其是场景提取中并未有系统、成熟的应用。



技术实现要素:

本发明的目的是提出一种基于数据挖掘的电网规划多场景提取方法,其特征在于,该方法先从大规模多场景数据集中筛选能够描述电网规划的聚类属性变量,然后通过主成分分析法对多场景数据集中特征变量的发电机节点和负荷节点进行降维处理;并以多场景数据集中的每个时刻为场景样本,以降维后的发电机组和负荷节点的有功功率为属性,利用改进的k-means聚类算法进行聚类分析,从聚类结果中选取具有代表性的真实场景作为典型场景;最后输出场景提取结果;具体包括如下步骤:

步骤1:数据输入,输入电网规划场景数据集,其包括系统规模、机组的技术参数、网架信息以及负荷功率;

步骤2:数据特征分析,对场景数据集中的属性变量进行选取,选择发电节点出力的有功、无功功率和负荷节点的有功、无功功率作为聚类的特征变量;

步骤3:数据预处理,从场景数据集中解析属性变量的相关数据,剔除不合理的数据和常年利用率较低的节点,并对数据进行标准化;

步骤4:数据降维,通过主成分分析法在数量繁多的发电机节点和负荷节点中提取出具有典型性和代表性的主成分,同时达到降维分析的目的;

步骤5:聚类分析,设定初始的聚类个数k,同时初始化k个聚类中心,采用改进的k-means聚类算法对降维后的场景数据集进行聚类分析;

步骤6:判断聚类个数k是否合理,如果不合理,通过dbi指标(davies-bouldinindex,dbi)和chi指标(calinski-harabaszindex,chi)、确定最佳聚类个数k,重新设置聚类个数,重复步骤5;

步骤7:多场景提取,从聚类结果的同类场景中选取距离聚类中心最近的真实场景作为代表该类的典型场景,同时通过离群点检测提取离群场景;

步骤8:结果输出,输出聚类结果,包括聚类个数、各聚类场景集数量、各类典型场景以及离群场景;

步骤9:结束多场景提取。

所述改进的k-means聚类算法是对最佳聚类个数和初始聚类点问题进行的改进如下:

改进1:选用chi指标、dbi指标作为聚类结果质量评价指标来确定最佳聚类个数,计算公式如下。

(1)dbi指标

其中:

式中,d(xk)和d(xj)为矩阵内部距离;d(ck,cj)为向量间的距离。针对一个聚类结果,期望类内距离最小,类间距离最大,此时聚类效果最佳,因此,idbi越小聚类效果越好。

(2)chi指标

其中:

式中:b代表所有聚类间距离,w代表所有聚类内对象距离,k代表聚类个数,n代表第k个聚类对象总数,为所有对象的均值,ck代表第k个聚类中心,wk,i表示第i个对象xi对第k个聚类的隶属关系,即

改进2:对初始聚类点的确定方法进行改进,

(1)首先将多场景数据集作为一个大类,选取整个数据集的均值为第1个初始聚类点;

(2)计算与第1个初始聚类点距离最大的场景作为第2个初始聚类点;

(3)在余下的多场景中计算与前两个初始聚类点距离之和最大的场景为第3个初始聚类点;

(4)重复上述步骤,第i个初始聚类点为距离前i-1个初始聚类点距离之和最大的场景;

(5)直到所有的初始聚类点确定完为止。

本发明的有益效果是能够实现系统化、科学化、高效化的典型场景提取,具有如下优点:

(1)本发明提出了基于数据挖掘的电网规划多场景提取模型,填补了数据挖掘在电力系统中电网规划领域的空缺,解决了大规模电网规划中长期基于人工经验编制中存在的效率低、出错高、典型性不强等问题。

(2)电网规划场景影响因素具有高维、复杂等特性,本发明通过主成分分析的场景因素筛选方法,可以权衡各因素对电网规划场景变化模式的影响程度,从而提取适合于大规模电网规划需求的关键影响要素,并大幅降低数据维数,提高效率。

(3)本发明针对典型k-means聚类算法中最佳聚类个数和初始聚类点问题进行了改进,提出了最佳聚类个数评价指标与方法、基于最远距离的初始聚类点确定方法,提高了电网规划多场景提取算法的实用性与适用性。

附图说明

图1为电网规划多场景提取流程图。

图2为dbi指标和chi指标随聚类个数变化趋势图,其中,adbi指标;bchi指标;

具体实施方式

本发明提出一种基于数据挖掘的电网规划多场景提取方法,其特征在于,该方法先从大规模多场景数据集中筛选能够描述电网规划的聚类属性变量,然后通过主成分分析法对多场景数据集中特征变量的发电机节点和负荷节点进行降维处理;并以多场景数据集中的每个时刻为场景样本,以降维后的发电机组和负荷节点的有功功率为属性,利用改进的k-means聚类算法进行聚类分析,从聚类结果中选取具有代表性的真实场景作为典型场景;最后输出场景提取结果;具体如图1所示的电网规划多场景提取流程图。图中所示:

步骤1:数据输入,输入电网规划场景数据集,其包括系统规模、机组的技术参数、网架信息以及负荷功率;

步骤2:数据特征分析,对场景数据集中的属性变量进行选取,选择发电节点出力的有功、无功功率和负荷节点的有功、无功功率作为聚类的特征变量;

步骤3:数据预处理,从场景数据集中解析属性变量的相关数据,剔除不合理的数据和常年利用率较低的节点,并对数据进行标准化;

步骤4:数据降维,通过主成分分析法在数量繁多的发电机节点和负荷节点中提取出具有典型性和代表性的主成分,同时达到降维分析的目的;

步骤5:聚类分析,设定初始聚类个数k,同时初始化k个聚类中心,采用改进的k-means聚类算法对降维后的场景数据集进行聚类分析;

步骤6:判断聚类个数k是否合理,如果不合理,通过dbi指标(davies-bouldinindex,dbi)和chi指标(calinski-harabaszindex,chi)、确定最佳聚类个数k,重新设置聚类个数,重复步骤5;

步骤7:多场景提取,从聚类结果的同类场景中选取距离聚类中心最近的真实场景作为代表该类的典型场景,同时通过离群点检测提取离群场景;

步骤8:结果输出,输出聚类结果,包括聚类个数、各聚类场景集数量、各类典型场景以及离群场景;

步骤9:结束多场景提取。

所述改进的k-means聚类算法是对最佳聚类个数和初始聚类点问题进行的改进如下:

改进1:选用chi指标、dbi指标作为聚类结果质量评价指标来确定最佳聚类个数,计算公式如下。

(1)dbi指标

其中:

式中,d(xk)和d(xj)为矩阵内部距离;d(ck,cj)为向量间的距离。针对一个聚类结果,我们期望类内距离最小,类间距离最大,此时聚类效果最佳,因此,idbi越小聚类效果越好。

(2)chi指标

其中:

式中:b代表所有聚类间距离,w代表所有聚类内对象距离,k代表聚类个数,n代表第k个聚类对象总数,为所有对象的均值,ck代表第k个聚类中心,wk,i表示第i个对象xi对第k个聚类的隶属关系,即

改进2:对初始聚类点的确定方法进行改进,

(1)首先将多场景数据集作为一个大类,选取整个数据集的均值为第1个初始聚类点;

(2)计算与第1个初始聚类点距离最大的场景作为第2个初始聚类点;

(3)在余下的多场景中计算与前两个初始聚类点距离之和最大的场景为第3个初始聚类点;

(4)重复上述步骤,第i个初始聚类点为距离前i-1个初始聚类点距离之和最大的场景;

(5)直到所有的初始聚类点确定完为止。

以如下实际算例对本方法予以说明。

数据来自我国某省实际电网数据,数据范围从2015年5月16日0点开始,至2015年6月5日0点为止,每隔10分钟进行一次采样,共产生2880个电网实际场景数据。

采用本发明提出的方法进行电网规划多场景提取。在经过基于主成分分析的数据降维后,对包含102个特征变量的不同场景开始聚类分析。由于k-means聚类算法需要事先指定聚类数目,本发明选取dbi指标和chi指标作为聚类指标评估聚类效果,最终确定最佳聚类个数,聚类数目的取值范围为

根据dbi指标和chi指标计算公式进行计算,如图2的a,dbi指标和b,chi指标所示的随聚类个数变化的趋势图。

由图2的a,dbi指标和b,chi指标可知,聚类效果最好时,dbi指标最小,chi指标最大,因此将多场景数据集划分为4个场景时,聚类效果最好,即场景划分显著性较好。

聚类结果中各类场景在每一天中存在时段,在每天白天8:30~每天夜晚22:30左右,这段时间人们的社会生产活动最活跃,所以表现为整体负荷水平最高,持续时间最长,聚类效果最好;在每天6:00~9:30和每天夜晚21:30~23:30左右,这两个时间段人们的社会生产活动刚开始或者刚结束,表现为整体负荷水平较低,持续总时长最短;在每天深夜23:00~次日凌晨6:30,这段时间人们大部分的社会生产活动都已经停止,因此,表现为整体负荷水平最低,持续总时长较长。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1