一种基于混合学习的分布式能源优化调度方法及装置

文档序号:34843113发布日期:2023-07-21 20:08阅读:50来源:国知局
一种基于混合学习的分布式能源优化调度方法及装置

本发明涉及分布式能源调度领域,特别是涉及一种基于混合学习的分布式能源优化调度方法及装置。


背景技术:

1、微电网由于能够容纳高比例的分布式能源,已被认为是智能电网的基础组成部分。多个微电网系统互联形成的微电网群系统通过对分布式能源协同优化调度,可以实现更广泛的能效提升。然而,由于可再生能源的随机性、系统非线性网络约束,以及微电网群运营商、微电网运营商和微电网内部光伏产消者等多层利益主体的参与,微电网群系统的实时优化运行面临着严峻的挑战。

2、针对微电网群系统的协同优化调度,目前的研究一般可以分为集中式和分布式两类。集中式结构通常需要一个集中的控制器来管理全局优化过程,并与所有的代理进行通信,这导致了可扩展性和可靠性受到计算瓶颈、通信负担和单点故障的限制。为了解决集中式方法的挑战,已有研究提出了微电网群能量管理的分层分布式结构。如双边合同、纳什谈判、拍卖模型和多代理联盟博弈等方法被设计用来组织多个微电网之间的协同优化运行问题。但上述工作都是传统的模型驱动方法,存在求解效率低、难以精细建模、难以处理不确定因素等问题,难以满足微电网群实时在线优化调度的需求。

3、为了避免基于模型的优化方法的缺点,数据驱动和基于学习的优化方法受到了极大的关注。深度强化学习融合了深度学习和强化学习的优点,由于其无模型特性、较强的表示能力和决策能力,在智能电网中得到了广泛的应用。但在现有的研究中,关于单个微电网或多个互联微电网的优化调度工作大多使用单主体深度强化学习算法,在具有竞争或合作关系的多主体环境中不能很好地适用。在微电网群系统中,各个微电网智能体本身作为环境的一部分,其行为也会影响其他微电网智能体的学习,导致单主体的训练环境不稳定。

4、多智能体深度强化学习方法通过不同智能体之间的经验共享,更适合于多智能体环境,少数研究将多智能体深度强化学习方法用于微电网群的协同优化调度问题中,然而已有研究在实现多个微电网之间的能量共享时,均忽略了微电网内部光伏产消者之间的能量共享,无法解决含光伏等产消者的微电网群双层分布式能量共享优化调控问题。


技术实现思路

1、本发明的目的是提供一种基于混合学习的分布式能源优化调度方法及装置,以解决含光伏等产消者的微电网群双层分布式能量共享优化调控问题。

2、为实现上述目的,本发明提供了如下方案:

3、一种基于混合学习的分布式能源优化调度方法,所述方法应用于分布式能源系统,所述分布式能源系统包括多个微电网,每个所述微电网内设置有边缘节点、多个终端用户和多个分布式电源,每个所述终端用户对应一个光伏产消者,所述方法包括:

4、根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作;所述联合状态包括每个所述微电网的本地观测状态,所述本地观测状态至少包含微电网内部所有光伏产消者进行能量共享后的总净负荷值,所述决策函数基于嵌入有训练后的xgboost模型的多智能体深度确定性策略梯度算法训练获得;

5、调整每个所述微电网内的每个光伏产消者的最优动作,使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束,获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作;

6、调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作,使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束,获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作;

7、基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作,对分布式能源系统进行优化调度。

8、可选的,所述根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作,之前还包括:

9、获取数据集;所述数据集包括多个数据样本,每个所述数据样本中的输入向量为,每个所述数据样本中的输出向量为;其中,为第d个数据样本中的输入向量,为第d个数据样本中的输出向量,和分别为售电能激励因子和购电能激励因子,和分别为光伏产消者基准负荷和光伏出力,为光伏产消者的负荷调节量;

10、基于所述数据集,采用监督学习的方式对xgboost模型进行训练,获得训练后的xgboost模型;

11、将训练后的xgboost模型嵌入至多智能体深度确定性策略梯度算法中,采用训练后的xgboost模型,确定每个微电网中每个光伏产消者的负荷调节量,进而确定每个微电网内部所有光伏产消者进行能量共享后的总净负荷值,并将每个微电网内部所有光伏产消者进行能量共享后的总净负荷值添加至用于确定决策函数的本地观测向量中;

12、采用嵌入有训练后的xgboost模型的多智能体深度确定性策略梯度算法训练获得决策函数。

13、可选的,所述基于所述数据集,采用监督学习的方式对xgboost模型进行训练,获得训练后的xgboost模型,具体包括:

14、基于所述数据集采用递增的训练方法对xgboost模型进行迭代训练,直到目标损失函数的值小于预设阈值;所述目标损失函数为:

15、;

16、其中,为目标损失函数,表示数据样本上的模型量化误差,表示避免模型过拟合的模型复杂度正则化,表示第轮迭代的预测结果,为第i个微电网的模型量化误差,第轮迭代增加的新树的输出结果,表示避免模型过拟合的第k棵树复杂度正则化,k为前轮迭代获得的树的总棵树,n表示微电网的数量。

17、可选的,所述采用嵌入有训练后的xgboost模型的多智能体深度确定性策略梯度算法训练获得决策函数,具体为:

18、将每个微电网视为一个智能体,包括多个微电网的分布式能源系统的策略集表示为:;

19、其中,表示策略集,、和分别表示第1个、第i个和第n个微电网的策略函数,n表示微电网的数量;

20、对于每个所述微电网,根据t时刻的本地观测状态,基于在线策略网络和目标策略网络,决策出t时刻的动作;其中,为t时刻第i个微电网的本地观测状态向量,为t-1时刻第i个微电网内部柴油发电机的出力,为t时刻第i个微电网内部风机的预测出力,为t时刻第i个微电网内部所有光伏产消者进行能量共享后的总净负荷值,为t时刻第i个微电网内部储能的soc值,和为t时刻外部大电网的购分时电价和售分时电价,为t时刻第i个微电网的动作,为t时刻第i个微电网内部柴油发电机的出力,和分别为t时刻第i个微电网内部储能的充电功率和放电功率,和分别为t时刻第i个微电网内部购电能激励因子和内部售电能激励因子;

21、根据决策出的每个所述微电网t时刻的动作,基于在线评价网络输出每个微电网的在线评价函数值,基于目标评价网络输出目标评价函数值;

22、基于所述每个微电网的线评价函数值和目标评价函数值,更新每个微电网的在线策略网络的参数和在线评价网络的参数,并更新目标策略网络的参数和目标评价网络的参数;

23、返回对于每个所述微电网,根据t时刻的本地观测状态,基于在线策略网络,决策出t时刻的动作的步骤,直到预设迭代次数,输出参数更新后的每个微电网的在线策略网络分别作为每个微电网的决策函数。

24、可选的,更新在线评价网络的参数的公式为:

25、;

26、其中,和分别为更新前在线评价网络的参数和更新后在线评价网络的参数,是预设的价值网络学习率,为数据样本的数量,为在线评价网络的输出,为第个数据样本中t时刻第i个微电网的本地观测状态向量,为第个数据样本中第i个微电网在线策略网络决策出的t时刻的动作,为第个数据样本中除第i个微电网外其余微电网决策出的t时刻的动作,为在线评价函数的梯度,为第个数据样本的经验估计回报;

27、更新在线策略网络的参数的公式为:

28、;

29、其中,和分别为更新后和更新前的在线策略网络的参数,为预设的策略网络学习率,为采样策略梯度函数;

30、更新目标评价网络的参数的公式为:

31、;

32、其中,和分别为更新后和更新前的目标评价网络的参数,为预设的更新参数;

33、更新目标策略网络的参数的公式为:

34、;

35、其中,和分别为更新后和更新前的目标策略网络的参数。

36、可选的,所述设备运行约束包括:

37、;

38、;

39、其中,和分别为第i个微电网内部柴油发电机在t时刻和t-1时刻的出力,和分别为第i个微电网内部柴油发电机的下爬坡限值和上爬坡限值,为第i个微电网内部储能在t时刻的soc值,和分别为第i个微电网内部储能的soc值的下限和上限。

40、可选的,所述网络运行约束包括:

41、;

42、;

43、其中,表示边缘节点m的电压,和分别表示边缘节点m的电压的下限和上限,表示支路mu的潮流,表示支路mu的潮流上限。

44、一种基于混合学习的分布式能源优化调度装置,所述装置应用于上述的方法,所述装置包括:

45、最优动作决策模块,用于根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作;所述联合状态包括每个所述微电网的本地观测状态,所述本地观测状态至少包含微电网内部所有光伏产消者进行能量共享后的总净负荷值,所述决策函数基于嵌入有训练后的xgboost模型的多智能体深度确定性策略梯度算法训练获得;

46、一次调整模块,用于调整每个所述微电网内的每个光伏产消者的最优动作,使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束,获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作;

47、二次调整模块,用于调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作,使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束,获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作;

48、调度模块,用于基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作,对分布式能源系统进行优化调度。

49、一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。

50、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的方法。

51、根据本发明提供的具体实施例,本发明公开了以下技术效果:

52、本发明公开一种基于混合学习的分布式能源优化调度方法,所述方法包括:根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作,所述决策函数基于嵌入有训练后的xgboost模型的多智能体深度确定性策略梯度算法训练获得;调整每个所述微电网内的每个光伏产消者的最优动作,使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束,获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作;调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作,使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束,获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作;基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作,对分布式能源系统进行优化调度。本发明采用xgboost及maddpg算法,同时考虑多个微电网之间的能量共享以及微电网内部光伏产消者之间基于电能需求响应的能量共享,通过云端离线集中式训练以及边端在线分布式决策,实时获取含光伏等产消者的微电网群系统的优化运行策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1