一种基于极限迁移学习的电力系统经济调度分散Q方法与流程

文档序号:12469494阅读:375来源:国知局
一种基于极限迁移学习的电力系统经济调度分散Q方法与流程

本发明涉及电力系统经济调度技术领域,具体为一种基于极限迁移学习的电力系统经济调度分散Q方法。



背景技术:

现代社会中,节能减排越来越受到人们的重视,我国政府非常重视节能,供电企业也应当响应国家政策。而经济调度研究的是如何在额定负荷下达到机组发电功率最优组合,其最终目的就是研究如何减少系统发电成本。

但电力系统传统的经济调度方式都是集中式的。集中式调度通常不灵活且收敛速度缓慢,它需要复杂的通信网络收集全局信息和一个强大的中央控制器来处理大量数据,无法满足区域隐私和独立控制的需求,且无法及时在间歇性和不确定性的可再生能源的剧烈变化中做出响应。在未来智能电网的快速发展下,集中式调度必定难以为继,分散式经济调度应运而生。

但是优化算法方面,传统的人工智能算法,如GA算法、ABC算法、PSO算法都是集中式的,经典优化方法,如牛顿法、内点法等却无法解决含汽轮机的非凸函数的优化问题。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于极限迁移学习的电力系统经济调度分散Q方法,解决了传统的人工智能算法,如GA算法、ABC算法、PSO算法都是集中式的,经典优化方法,如牛顿法、内点法等却无法解决含汽轮机的非凸函数的优化问题的问题。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:一种基于极限迁移学习的电力系统经济调度分散Q方法,包括以下步骤:

S1、由发电机的发电成本参数及约束条件确定经济调度模型,确立以最小化系统的发电成本作为适应度函数;

S2、建立由调度中心做协调,各发电机独自做分散式计算的分散式经济调度框架,发电机的输出有功功率作为优化变量,将变量和变量变化动作均进行二进制编码,并把其储存在传统Q学习算法的Q矩阵中,并确定各变量产生种群的大小;

S3、选取典型日的日负荷曲线作为准优化目标;

各发电机分别利用种群进行寻优;

计算每个个体的目标函数;

计算分散Q方法的奖励函数;

更新变量的Q矩阵;

S4、各发电机分别给调度中心上传优化结果,调度中心评估此次优化结果的优劣,若优化结果比上一次差,则驳回此次结果,并保留上次优化策略;否则,完全采用此次优化策略;

S5、判断是否达到最大迭代次数,若达到最大迭代次数,则结束计算并输出调度中心收集的优化策略结果和优化后各变量的Q矩阵;否则,返回利用种群进行寻优的步骤;

S6、迭代结束后,对记录的准优化后的Q矩阵进行极限迁移学习,得到修正后的Q矩阵;

S7、将修正Q矩阵作为新的优化初始矩阵,再次利用分散Q方法进行新目标的分散式经济调度优化计算,并输出寻优结果。

优选的,所述发电机的约束条件包括:发电机有功输出功率的上下限约束,系统的功率平衡约束。

优选的,所述系统优化目标为系统发电成本最低。

优选的,所述极限学习本质上是一种单隐层前向神经网络的训练算法,以最小化训练误差为目标,通过算法确定隐层输出权重。

优选的,所述迁移学习其目标是将某个领域或任务上学习到的知识或模式应用到不同的但相关的领域或问题中,对准优化后的Q矩阵进行极限学习后得到的修正Q矩阵,通过迁移学习,放入新目标寻优的分散Q方法的初始Q矩阵,可以大大加快寻优速度。

(三)有益效果

本发明提供了一种基于极限迁移学习的电力系统经济调度分散Q方法,具备以下有益效果:

(1)本发明提出的基于极限迁移学习的电力系统经济调度分散Q方法,既可以解决含汽轮机阀点效应的非凸经济调度问题,又能够进行分散式优化计算,适应当今分散式经济调度的要求,且该方法通过采用极限迁移学习的机制,能够对分散Q方法的初始矩阵进行修正,使得算法的收敛速度大大提高。

(2)本发明设计的基于极限迁移学习的电力系统经济调度分散Q方法,继承了智能算法的优点,对不同模型的适应性强,可以解决含汽轮机阀点效应的非凸经济调度问题。

(3)本发明设计的基于极限迁移学习的电力系统经济调度分散Q方法,相比其它传统的集中式人工智能算法,如GA算法、ABC算法、GSO算法等,该方法能够进行分散式优化计算,适应当今分散式经济调度的要求。

(4)本发明设计的基于极限迁移学习的电力系统经济调度分散Q方法,利用极限学习机较强的非线性拟合能力,通过采用极限迁移学习的机制,对分散Q算法的初始矩阵进行修正,使得算法的收敛速度大大提高

附图说明

图1为本发明的方法流程图;

图2为典型日的日负荷曲线图;

图3为新目标的负荷曲线图;

图4为六台发电机的发电成本参数表。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3,本发明的一个实施方式提供一种基于极限迁移学习的电力系统经济调度分散Q方法,包括以下步骤:

S1、由发电机的发电成本参数及约束条件确定经济调度模型,确立以最小化系统的发电成本作为适应度函数;

S2、建立由调度中心做协调,各发电机独自做分散式计算的分散式经济调度框架,发电机的输出有功功率作为优化变量,将变量和变量变化动作均进行二进制编码,并把其储存在传统Q学习算法的Q矩阵中,并确定各变量产生种群的大小;

S3、选取典型日的日负荷曲线作为准优化目标;

各发电机分别利用种群进行寻优;

计算每个个体的目标函数;

计算分散Q方法的奖励函数;

更新变量的Q矩阵;

S4、各发电机分别给调度中心上传优化结果,调度中心评估此次优化结果的优劣,若优化结果比上一次差,则驳回此次结果,并保留上次优化策略;否则,完全采用此次优化策略;

S5、判断是否达到最大迭代次数,若达到最大迭代次数,则结束计算并输出调度中心收集的优化策略结果和优化后各变量的Q矩阵;否则,返回利用种群进行寻优的步骤;

S6、迭代结束后,对记录的准优化后的Q矩阵进行极限迁移学习,得到修正后的Q矩阵;

S7、将修正Q矩阵作为新的优化初始矩阵,再次利用分散Q方法进行新目标的分散式经济调度优化计算,并输出寻优结果。

发电机的约束条件包括:发电机有功输出功率的上下限约束,系统的功率平衡约束。

系统优化目标为系统发电成本最低。

极限学习本质上是一种单隐层前向神经网络的训练算法,以最小化训练误差为目标,通过算法确定隐层输出权重。

迁移学习其目标是将某个领域或任务上学习到的知识或模式应用到不同的但相关的领域或问题中,对准优化后的Q矩阵进行极限学习后得到的修正Q矩阵,通过迁移学习,放入新目标寻优的分散Q方法的初始Q矩阵,可以大大加快寻优速度。

使用时:

在步骤S110,由发电机的发电成本参数及约束条件确定经济调度模型,确立以最小化系统的发电成本作为适应度函数。

发电机的燃料成本函数可基于其中包含高度非线性和不连续引起的汽轮机引起的阀点效应,因此,最小化系统发电成本的适应度函数C(P),包含了二次函数和正弦函数成分,表达式可描述为

其中,n是发电机的数量,ai,bi,ci,di,和ei是第i台发电机的发电成本参数,Pmin i为第i台发电机输出的最小有功功率,Pi是第i台发电机输出的有功功率。

发电机容量约束为:

其中,Pmin i,Pmax i为第i台发电机输出的最小和最大有功功率。

电力系统平衡约束为:

PD是系统需求的总负荷。

所述的6台燃煤发电机发电成本参数如表1所示。

步骤S120,建立由调度中心做协调,各发电机独自做分散式计算的分散式经济调度框架。

步骤S130,发电机的输出有功功率作为优化变量,将变量状态和变量变化动作均进行二进制编码,并把其储存在传统Q学习方法的Q矩阵中,并确定各变量产生种群的大小。

Q矩阵中,Q(z,d)的z表示变量状态0或1,d表示变量变化动作0或1。

步骤S140,选取典型日的日负荷曲线作为准优化目标。

其中,典型日的日负荷曲线图如图2所示。

步骤S150,各发电机分别利用种群进行寻优;

利用种群寻优时,是利用对应的Q矩阵来进行的,变量变化动作d的公式如下:

其中v是0与1之间的任意数,α是贪心策略的概率,dr是随机策略的概率,上标t和j分别表示第t次迭代和第j个个体,下标i和m分别表示第i个变量和第m个二进制位,Dim表示动作空间。

步骤S160,计算每个个体的目标函数。

目标函数即

步骤S170,计算分散Q方法的奖励函数;

奖励函数E是Q矩阵对环境的反应,可以反过来激励Q矩阵的更新,具体表达式如下:

其中,代表在第i个变量的第t次迭代中,种群中最优个体的目标函数最优值,代表了第i个变量的第j个个体的第t次迭代中的目标函数,qm是一个正值,表示奖励倍数,cf是为了确保函数为正的系数,表示第i个变量的第t次迭代中最优个体的Q矩阵集合。

步骤S180,更新变量的Q矩阵。

第i个变量的Q矩阵迭代更新如下所示:

其中,β是一个学习因子,η是一个折扣因子,ΔQ是Q矩阵的知识增量,J为种群大小,E(zt,zt+1,dt)是在变量动作dt时,从变量状态dt到变量状态dt+1的奖励函数E。

步骤S190,各发电机分别给调度中心上传优化结果,调度中心评估此次优化结果的优劣,若优化结果比上一次差,则驳回此次结果,并保留上次优化策略,否则,完全采用此次优化策略。

步骤S200,判断是否达到最大迭代次数,若达到最大迭代次数,则结束计算并输出调度中心收集的优化策略结果和优化后各变量的Q矩阵,否则,返回利用种群进行寻优的步骤。

步骤S210,迭代结束后,对记录的准优化后的Q矩阵进行极限迁移学习,得到修正后的Q矩阵。

极限学习机本质上是一种单隐层前向神经网络的训练算法,以最小化训练误差为目标,通过算法确定隐层输出权重。在本实施方式中,输入数据为:T={(x1,y1),…,(xl,yl)},其中i=1,…,l,含有n个隐层节点的极限学习机回归模型如下:

其中,D为激励函数,βi为第i个隐层节点与输出神经元的输出权值,ai为输入神经元与第i个隐层节点的输入权值,bi为第i个隐层节点的偏置,h(x)称为隐层输出矩阵。ai、bi在训练开始时随机选择,且在训练过程中保持不变。输出权值可以通过求解线性方程组的最小二乘解来获得。

方程组的最小二乘解为

β=H+Y

其中,H+称为隐层输出矩阵H的Moore-Penrose广义逆。

在本实施方式中,输入的数据是典型日的负荷,再通过当天新的日负荷曲线预测到当天对应的Q矩阵作为算法的初始值,从而指导新目标的实时优化。

步骤S220,将修正Q矩阵作为新的优化初始矩阵,再次利用分散Q方法进行新目标的分散式经济调度优化计算,并输出寻优结果。

其中,新目标的负荷曲线图如图3所示。

通过以上步骤就可以快速得到最优的机组有功功率组合,从而系统达到最低的发电成本。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1