一种基于知识迁移Q学习算法的多能源系统优化调度方法与流程

文档序号:22501060发布日期:2020-10-13 09:33阅读:219来源:国知局
一种基于知识迁移Q学习算法的多能源系统优化调度方法与流程

本发明属于综合能源系统实时优化调度领域,特别涉及一种基于知识迁移q学习算法的多能源系统优化调度方法。



背景技术:

能源互联网的概念引起了国内外学者的高度重视。能源互联网较之前的智能电网有了更加深远的内涵:首先,各种能源网络的一次侧、二次侧设备紧密相连形成复杂网络。其次,各种能源网络通过能源转换装置形成双向流动和互相转化。此外,各种类型的传输和储能设备,支持可再生能源的广泛接入,实现了多种能源的协调交互与优化。随着世界范围内天然气的大规模开采及各种新能源电厂的不断建设,可以预见,未来将形成多种能源相互连接的网络系统,并实现多种能源联合参与调度的形式。

由于经济调度和需求响应都参与能源市场,并且时刻满足平衡约束条件,所以两者是相互影响的。一方面,用户将调整用电需求以最大化利润来响应市场,需求响应的结果会影响负荷曲线;另一方面,经济调度将导致市场价格等条件发生变化,这将改变需求响应的结果。如果经济调度和需求响应单方面进行,则较难交互收敛。



技术实现要素:

本发明提出了一种基于知识迁移q学习算法的多能源系统联合优化调度方法,该方法基于能源中心建模方法,建立了多能源系统的联合优化调度框架,并构建了计及含阀点效应供能成本和碳排放目标的典型多能源系统联合优化调度模型。并针对所构建的模型,提出了一种以知识迁移q学习算法和内点法构成级联式算法进行求解,即上层q学习以机组有功为动作变量,下层以内点法求解机组有功确定后的多能源系统优化模型,并通过知识迁移提高求解效率。

本发明具体为一种基于知识迁移q学习算法的多能源系统优化调度方法,包括以下步骤:

初始化算法参数;

获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数,加压站气压比上下限约束;

对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于深度学习提炼出新任务初始知识矩阵;

利用种群进行寻优;

二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型;

计算每个个体的目标函数;

计算奖励函数;

更新知识矩阵;

更新概率矩阵;

判断是否达到最大迭代次数,若达到,输出相应任务的最优知识矩阵;否则,返回动作选择步骤,迭代继续进行。

进一步的,多能源系统联合优化调度模型是一个包含有多个能源中心的复杂网络,各个电源、气源、能源供应网络以及能源中心均服从同一个调度机构进行联合调度。

进一步的,所述能源中心指的是一个集各种能源注入、转换、传输以及消费的整体;一组能源在其内部通过各类转化器转换成用户所需要的一组能源。

进一步的,采用知识迁移q学习+内点法的级联式算法,即上层q学习以机组注入有功作为动作变量,下层以内点法求解机组注入有功确定后的多能源系统优化模型,并通过对历史优化信息的迁移学习加快算法收敛速度;由于每次内点法都将上层q学习确定的机组注入作为常量,因此下层内点法可直接求解。

进一步的,基于知识迁移q学习的优化算法采用连续变量转化为二进制数的方法将连续的动作空间离散化,并采用状态-动作链将高维q矩阵拆分成多个低维的q矩阵。

进一步的,q矩阵更新方法是首先根据q值大小选择机组注入对应二进制编码的每一位,动作选择只有0-1变量,动作选择完成后经编码转换成连续的机组有功代入多能源系统优化模型,用内点法获得目标值,并将其转化成相应的动作奖励以更新q矩阵。

进一步的,动作选择策略为用轮盘赌的方式在二进制空间中选择。

与现有技术相比,本发明的技术方案具有以下有益的技术效果:基于多能源系统联合调度模型与基于知识迁移q学习的快速寻优算法,充分挖掘了多能源系统的效益,与多种能源网络单独优化相比,可以减小供能成本和碳排放量,提高整个供能系统的经济利益和环境效益。

附图说明

图1为本发明的基于知识迁移q学习算法的多能源系统优化调度方法的流程图;

图2为实施例中能源中心测试系统示意图;

图3为实施例的任务点负荷曲线。

具体实施方式

下面结合附图对本发明基于知识迁移q学习算法的多能源系统优化调度方法的具体实施方式做详细阐述。

请参考图1、图2和图3,本发明的一个实施方式提供一种基于知识迁移q学习算法的多能源系统联合优化调度方法。该实施方式从多能源系统的联合优化调度模型出发,采用知识迁移q学习算法实现快速求解。该基于知识迁移q学习算法的多能源系统联合优化调度方法包括以下步骤:

步骤s1,初始化算法参数。

基于知识迁移q学习算法的多能源系统联合优化调度方法的算法的寻优效果受到智能体个数、学习因子、折扣因子、样本学习迭代次数、任务优化迭代次数等的影响。知识迁移q学习算法的参数设置如下:智能体个数为14,学习因子初始为1,折扣因子γ设为0.1,样本学习迭代次数为400,任务优化迭代次数为50。

步骤s2,获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数、加压站气压比上下限约束。

该实施例中的包括三个区域,每个区域为一个11能源中心测试系统,包括14个节点电力网络,20个节点天然气网络,11个能源中心。各子区域之间通过联络线相连,各子区域负荷及机组位置存在差异,其余拓扑及参数相同。其中,区域i发电机节点编号为1,2,14;区域ii为1,5,13;区域iii为2,5,9,13。以下文中所涉及的参数如无特殊说明,均为标幺值。

多能源系统中,功率基准值为1mva,机组都为燃煤机组,有功出力上下限为6和1.5mw,无功出力上下限为5和-5mvar,节点功率因数都为0.9,节点电压上下限为1.1p.u.和0.9p.u.,同步调相机吸收和发出无功,其上下限为6和-6mvar。天然气输气管道传输系数都为加压站特性常数都为0.1,各节点气压上下限分别为15p.u.和10p.u.。机组和气源的成本系数及碳排放系数参见附录表1,各子区域中能源中心的电负荷率、天然气负荷率、热负荷率如表2所示。

表1各能源注入成本系数及碳排放系数

表2燃煤发电机的主要参数

步骤s3,对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于神经网络提炼出新任务初始知识矩阵。

步骤s4,利用种群进行寻优。动作选择策略为用轮盘赌的方式在二进制空间中选择:

式中,rand是[0,1]之间的随机数;pij是基于qij的概率矩阵

步骤s5,二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型。采用连续变量转化为二进制数的方法将连续的动作空间离散化,具体如下:

步骤s6,计算每个个体的目标函数。具体如下:

多能源系统单个调度时段的优化目标为供能成本目标we和碳排放目标wc,为精确计算供能成本,本发明考虑机组的阀点效应:

其中,ωelec为机组注入节点集合;ωgas为气源注入节点集合;pin为能源注入功率,包括机组注入和气源注入;a,b和c为能源成本系数;e,f为机组阀点效应特性参数;α,β和γ分别为能源碳排放参数。

对于多目标优化问题,现有算法常以加权的方式转化为单目标求解,或以多目标智能算法进行求解。然而,加权法难以合理地确定各目标的权重值,而多目标智能算法虽然可以求得多目标问题的pareto前沿,但其耗时较慢,难以满足系统的实时计算要求。为此,本发明采用隶属函数对各目标进行处理。对于以最小为最优的目标w(x),其隶属度可用下式描述:

其中,wmin和wmax分别位目标w的最小值和最大值。本文供能成本和碳排放最小值为分别单独优化值,最大值为一目标取最小情况下另一目标的取值。

步骤s7,计算奖励函数。具体如下:

其中,fibest代表在第i个智能体的第k次迭代中,种群中最优个体的目标函数最小值;fikj代表了第i个智能体的第k次迭代中的目标函数;pm是一个为正的倍数;cf表示为了保证奖励函数为正的校正系数;saibest表示第i个智能体的第k次迭代中最优个体的状态-动作对集合。

步骤s8,更新知识矩阵。具体如下:

式中,α是学习因子;γ是折扣因子;上标k和j分别表示第k次迭代和第j个个体;下标i和m分别表示第i个智能体和第m个二进制位;δq是知识增量;j为一次迭代中的种群大小;(s,a)表示状态-动作对;r(sk,sk+1,ak)是在动作ak发生时从状态sk转换到状态sk+1的奖励函数;aim是可选动作。

步骤s9,更新概率矩阵。具体如下:

步骤s10,判断是否达到最大迭代次数,若达到,输出相应任务的最优知识矩阵;否则,返回步骤s4,迭代继续进行。

通过以上步骤就可以得到多能源系统联合优化调度结果。

本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法相对于现有技术具有如下的优点及效果:

(1)本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法,充分挖掘了多能源系统的效益,与多种能源网络单独优化相比,可以减小供能成本和碳排放量,提高整个供能系统的经济利益和环境效益。

(2)本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法,对优化模型的依赖程度较低,不仅可以有效解决含发电机阀点效应的非凸优化问题,还可以满足分布式计算的要求。

(3)本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法,利用深度置信网络对历史优化任务的最优知识进行高精度提炼,明显节省寻优时间,可以满足多能源系统联合优化调度实时优化需求。

(4)本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法,采用了相互联系的状态-动作链,有效避免了“维数灾难”。

(5)本发明的基于知识迁移q学习算法的多能源系统联合优化调度方法,针对不连续可微、非凸的非线性规划问题,知识迁移q学习算法和内点法构成级联式算法对问题求解具有很好的适应性,其优化结果好,且收敛速度快。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1