一种基于深度强化学习的虚拟电厂分布式资源调度方法与流程

文档序号:36176226发布日期:2023-11-28 22:50阅读:57来源:国知局
一种基于深度强化学习的虚拟电厂分布式资源调度方法与流程

本发明属于电力,涉及一种基于深度强化学习的虚拟电厂分布式资源调度方法。


背景技术:

1、近年来,国内外学者对虚拟电厂最优调度方法进行了广泛的研究,其方法主要包括经典方法、启发式方法和基于深度学习和强化学习的方法。经典方法主要有线性规划、混合整数线性规划等,是处理虚拟电厂优化运行问题的基本手段;然而,在实际应用中,虚拟电厂的现实机制和关系可能非常复杂,难以通过经典方法准确建模。启发式方法可以降低计算成本,缩短计算时间,并适用于包含大量整数变量和非线性约束的复杂模型,但启发式算法的成功依赖于参数的正确选择,如种群大小和突变率。如果种群规模不足会阻碍算法探索整个解空间,导致收敛到局部最优。基于深度学习和强化学习的方法包括有监督、无监督和深度强化学习方法,这类方法不一定需要大量的先验知识,考虑到虚拟电厂调度问题的复杂性、速度和计算量,基于学习的方法成为经常使用的优化方法。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于深度强化学习的虚拟电厂分布式资源调度方法。先提出了采用综合目标函数的聚合分布式资源、暖通空调系统和其他负载的虚拟电厂调度模型,平衡负荷调节经济成本和空调舒适性成本;其后描述了用于微网能量管理的带约束的马尔可夫决策过程,提出了一种基于深度确定性策略梯度算法(deepdeterministic policy gradient,ddpg)的调度问题求解方法,智能体通过利用历史和当前负荷需求、光伏输出和温度数据来确定空调运行功率、负荷调节量和充放电功率;有效利用分布式光伏资源,实施需求响应策略进行负荷调节;通过智能家居设备实现对空调的智能控制。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于深度强化学习的虚拟电厂分布式资源调度方法,该方法包括以下步骤:

4、步骤1:建立以经济成本和温度惩罚的综合成本最小化为目标函数的优化模型;

5、步骤2:将步骤1中的模型转化为马尔可夫决策模型;

6、步骤3:基于步骤2中的马尔可夫决策模型,使用深度神经网络构建调控智能体,并利用深度确定性策略梯度算法训练和更新神经网络内部参数;部署调度决策模型,根据模型输出结果进行调度决策;

7、所述步骤1具体为:

8、目标函数以经济成本和温度惩罚的综合成本最小化为目标函数,如下式:

9、

10、式中,表示时刻t从电网买电价格,表示时刻t从电网进口的电量,表示用户i削减负荷的价格,表示时刻t用户i的负荷削减量,表示用户i温度惩罚的转换因子,表示时刻t用户i的温度惩罚;

11、约束包括:当用户在家且室内温度高于用户所能承受的温度时会产生温度惩罚,如下式:

12、

13、式中,表示0-1变量,如果用户i在t时刻在家等于1,否则等于0;表示用户i家在时刻t的室内温度,timax表示用户i所能承受的最高温度;

14、vpp的功率平衡方程,如下式:

15、

16、式中,表示时刻聚落光伏的输出,表示0-1变量,如果储能在时刻t充电,则等于1,否则等于0,分别表示t时刻储能的充放电功率,表示用户i在时刻t的不包括空调的负荷需求,表示用户i在t时刻的空调运行功率;

17、变频空调的运行函数包括(4)-(6),室内温度计算如下式:

18、

19、式中,表示用户i家在时刻t+1的室内温度,ttout表示时间t+1的室外温度,qi,t表示用户i的空调在时刻t的制冷量输出,ri表示用户i家中的热阻,ci表示用户i家的热容量,i表示;

20、空调制冷量输入计算及空调运行功率计算如下式:

21、

22、

23、式中,qi,t表示用户i的空调在时刻t的制冷量输出,ai,bi,ci,mi,ni为用户i的空调运行特性参数,fi,t表示用户i的空调在t时刻的运行频率;表示用户i在t时刻的空调运行功率;

24、储能的运行函数如下式:

25、

26、式中,表示时刻t储能状态,ηesc,,ηesc分别表示聚合储能的充放电效率,分别表示时刻t总储能的充放电功率;

27、空调运行功率上下限限制,如下式:

28、

29、式中,表示用户i在t时刻的空调运行功率,表示空调的运行功率上限;

30、储能充放电功率上下限限制如式(9),从电网进口电量的限制如式(10),用户负荷削减量限制如式(11),储能状态限制如式(12):

31、

32、

33、

34、

35、式中分别表示储能充放电的上下限,表示从电网购电的上限,表示储能状态的上限;

36、在没有智能家居设备的情况下,式(8)转化为:

37、可选的,所述步骤2具体为:

38、在马尔可夫决策过程中,智能体由深度神经网络生成,在t时刻,智能体应当决定动作基于状态环境的生成是为了告知智能体的状态和智能体行为的奖励;在智能体与环境的每次交互过程中,环境首先将实时状态st告知智能体,然后智能体将动作at告知环境;如果约束(12)在时间t+1不满足,将被剪短;之后,环境将通过以下单时间步优化问题计算t时刻的剩余可控变量

39、

40、约束包括公式(10)~(11),以及(15):

41、

42、将综合成本的负值设为奖励函数:

43、

44、马尔可夫决策过程制定的目标函数为:

45、

46、可选的,所述步骤3具体为:

47、元组(st,at,st+1,rt)记录在一个缓冲区中,智能体从中学习通过以下基于ddpg的方法来改进其决策:

48、在提出的基于ddpg的优化方法中,生成一个演员深度神经网络来代表智能体,生成一个评论家深度神经网络来指导智能体;演员网络的功能标记为at=π(st),评论家网络的功能标记为qt=q(st,at);通过bellman方程训练评论家网络来表示马尔可夫决策过程的目标函数:

49、

50、其中γ是0~1之间的折现因子;如果设为1,则评论家网络与初始目标函数完全等价,γ越小,评论家的训练收敛速度越快;训练演员网络,使评论家网络的价值最大化,如下式:

51、maxq(st,π(at))       (19)

52、将(18)-(19)转换成损失函数的形式,使随机梯度下降方法更新演员网络和评论家网络θπ,θq中的参数,式(20)代表调整评论家网络中的参数,使评论家网络的预测结果与式(18)的误差最小,式(21)代表调整演员网络中的参数,使演员网络的决策结果在评论家网络的评估下达到最好:

53、

54、

55、本发明的有益效果在于:

56、(1)本公开提出一种基于综合目标函数的虚拟电厂分布式资源调度模型,实现了负荷调节经济成本和空调舒适性成本的平衡。

57、(2)本公开所提方法基于深度确定性策略梯度算法,使得智能体能够利用历史和当前负荷需求、光伏输出和温度数据来确定空调运行功率、储能系统的调节量和充放电功率。

58、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1