一种基于海量在线历史数据的电力系统暂态稳定评估方法_3

文档序号:9751437阅读:来源:国知局
01] 1st:四分之一分位数;
[0102] 3st:四分之三分位数;
[0103] Mad:中位绝对离差;
[0104] Interq:四分位差;
[0105] Mj 10:10 % 截尾均值;
[0106] Mj 10s :10 %截尾均值方差;
[0107] ---------------------------------以上为具有稳健特性的统计 量----------------
[0108] Skew:偏度;
[0109] Kurt:峰度
[0110] 在对系统状态进行分析时按电压等级统计母线电压和交流线的相关状态量和统 计量,对发电机和负荷按照有功的正负分别统计前述状态量。同时,对于发电机和负荷还包 括:
[0111] SumPz:正有功总量;
[0112] SumPf:负有功总量;
[0113] Pzfb:正负有功总量之比;
[0114] SumQz:正无功总量;
[0115] SumQf:负无功总量;
[0116] Qzfb:正负无功总量之比。
[0117] 对于故障点,其特征量分为两个部分,一是故障点周边两级母线所在分区的运行 状态统计,其统计内容与全系统运行情况统计相同;二是表征故障自身特点的特征量,主要 有故障电流If、故障点电压幅值V f、故障点电压相角0Vf和戴维南阻抗幅值Zf。
[0118] 最终,系统特征量和故障点及其周边区域特征量组成。
[0119] (2)特征量的压缩
[0120]按上面的思路,由初始计算结果得到的样本其长度达到1226维,数据分析的计算 量很大,而且其中有可能存在冗余信息。为了加快分析速度、提升分析效果,可以考虑对初 筛的特征量进行压缩。
[0121] 本课题采用随机森林算法(Random Forest,RF)实现对特征量的筛选。
[0122] RF算法基本思想的要点有:
[0123] 1、生成若干个决策树而不是一个;
[0124] 2、生成决策树时,随机从样本集中选取一组样本,使用完毕后再放回样本集;
[0125] 3、生成决策树时,使用随机选择的、该组样本的一组属性作为候选特征集,而不是 全部属性;
[0126] 4、最后的结果由所有决策树的计算结果共同决定,可采用投票法或其它方法确 定。
[0127 ]选择RF算法筛选特征量的原因有两个:
[0128] 1、RF算法不会出现过拟合,适用于大样本量数据的处理;
[0129] 2、RF可以得到表征特征量重要程度的指标,例如对预测准确度的影响、Gini指数 等。
[0130] RF算法的参数主要是树的个数ntree和候选特征集中特征的个数mtry。对于国调 35000点系统,初筛后的样本经试算发现ntree = 500时,已经足以得到稳定的计算结果,而 mtry可采用经验值,取特征量个数的算数平方根。
[0131] RF算法所获得的特征量重要程度指标,通常表示的是当移去该特征量或在该特征 量中加入噪声时对分类结果的影响。一般情况下,特征量的平均重要性指标(在R语言中是 MeanDecreaseAccuracy)越大表示该特征量越重要,如果指标为负表示该特征量可能对分 类起反作用,如果为〇则可能对分类没有作用。因此,对于指标等于〇的特征量可采取直接去 除的方式,对于指标大于〇的特征量应根据计算能力的实际情况选择剔除,并通过测试确定 剔除比例。
[0132] 经测试,去除重要性为负值的特征量会导致判稳效果不稳定,因此仅剔除掉重要 性为〇的特征量
[0133] 步骤三:针对原始样本中的失稳样本过少的问题,采用扩展边界的方式,进行失稳 样本的扩展和稳定样本的压缩,形成计算样本。
[0134] 本发明采用扩展边界的方式,也就是将一部分与失稳故障"接近"的稳定故障标记 为"失稳",从而增加样本中的失稳故障数量,并在此基础上完成对稳定故障的压缩。
[0135] (1)失稳样本的扩展
[0136] 将与失稳故障"接近"的稳定故障标记为失稳,相当于认为系统的稳定性在该故障 与失稳故障间发生了改变。由于系统状态不会突变,因此"真正"的判稳边界应该在这两类 故障之间。同时,本发明的失稳样本扩展策略是一种以进行更多的实际时域仿真计算为代 价,提高数据分析效率和失稳故障覆盖率的方式。其主要目标是达到两者的均衡点,即实现 在预定时间内完成数据分析计算并覆盖失稳故障的前提下,尽可能减少无用的时域仿真计 算。
[0137] 设初始的单日失稳样本集为Snl,因扩展新增的失稳样本集为Sn2,扩展后的失稳样 本集为S n3,则有:
[0138] Sn2 = svm_sup(Yi) YiESni,i = l,2··· .N,N=num(Sni)
[0139] Sn3 = SnlUSn2
[0140] 其中,svm_sup〇为寻找支持向量并将其标记为失稳样本的运算,Yi为Snl中的单个 样本,num〇为样本集的个数统计运算 。
[0141 ]设与Sn2对应的初始稳定样本为Sn2jb,则扩展后的单日样本集Skzjb可以表不为:
[0142] Skz jb = Sjb~Sn2 jb+Sn2
[0143] 可见,扩展运算并不改变样本的个数,只是改变其中部分样本的标签。
[0144] 需要注意的是,失稳样本集的扩展可以按照单日或单断面进行,也可以在多日的 数据集合中进行,所得的结果可能不尽相同,需结合实际问题考虑。
[0145] (2)稳定样本的压缩
[0146] 经过扩展计算可以有效增加样本集中的失稳样本,但其总量依然很难超过20%, 大多在10%以内,分类效果仍不理想。因此,需要考虑对稳定样本进行压缩。由于我国电力 系统大多数时候运行都有一定的裕度,因此可以想见大量的稳定样本实际与分类面都会有 一定距离,而对分类有意义的更多的是与分类面接近的稳定样本。
[0147] 基于上述分析,对扩展后的样本集再次采用SVM进行自分类,即先选取大的c值基 于样本集训练模型,而后再用该模型对样本集进行分类计算。之后,选取与分类面距离最近 的num( Sn3)个稳定样本与失稳样本组合形成新的样本集。
[0148]该处理实质上是在核空间寻找与Sn3在SVM分类意义下最近的num(Sn3)个稳定样 本,是由失稳区域向稳定区域进行扩展,可以认为与4.3.3中所述的方法类似。
[0149] 经过该步处理,新的样本集中失稳与稳定的样本个数相等,总量较之初始样本集 平均可减少约80%,有效解决了稳定样本的过拟合问题,并压缩了样本总数。
[0150] 样本压缩处理后的样本集为Sjs,若设压缩后的稳定样本集为Swd,则Sjs可表示 为:
[0151] Swd = svm_s j(Skz jb, Sn3)
[0152] Sjs = Sn3+Swd
[0153] 其中,svm_sj〇为基于SVM的稳定样本压缩运算。
[0154] 需要注意的是,稳定样本的压缩可以按照单日或单断面进行,也可以在多日的数 据集合中进行,所得的结果可能不尽相同,需结合实际问题考虑。
[0155] 步骤四:基于计算样本,利用SVM算法进行分类模型训练以及参数优化,最终形成 分类模型。
[0156] 采用SVM算法进行样本分类训练,最终的分类函数可以写作:
[0157]
[0158]其中,sgn为符号函数用于最终确定样本的分类(如计算结果的正、负分别对应于 两个分类结果),K为核函数,α和b是由训练得到的参数,XjPyi为支持向量及其分类( yi = l 或-l),x为待判别样本。
[0159] 核函数K采用高斯形式(径向基函数):
[0160]
[0161]其中:〇为核函数的参数。
[0162] 在训练过程中,除了需指定核函数的参数之外,通常还需指定一个松弛系数c,即 允许分类出错的程度,用于增强SVM的泛化能力。
[0163] 采用上述高斯函数所需确定的参数有两个,一是核函数中的参数〇,二是松弛系数 c。这两个参数的取值对模型的性能将有一定程度的影响。在失稳样本扩展和稳定样本压缩 中,对它们的取值已有说明,这里着重讨论在训练判稳模型时对其的优化。
[0164] 本发明采用网格方法进行参数优化。其基本原理是指定参数〇和(:的搜索范围,而 后根据分类错误按一定步进完成寻优。在一些成熟的数据分析工具中都提供了基于网格方 法的寻优函数。
[0165] 需明确的是,在实际训练模型时,如果基于成熟的数据分析工具,如R语言或 Matlab,其所提供的分类模型训练函数通常都有默认参数。对于SVM,通常〇的取值为特征向 量的倒数,c常取为1。在一般情况下,仅靠默认参数就可
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1