本发明涉及电气工程领域,更具体的,涉及一种微电网最优能量管理方法。
背景技术:
1、大力发展可再生能源是我国能源发展的必由之路,截至2022年底,我国的可再生能源装机突破12亿千瓦,达到12.13亿千瓦,占全国发电总装机的47.3%,较2021年提高2.5个百分点。其中,风电3.65亿千瓦、太阳能发电3.93亿千瓦。然而光伏、风机等分布式能源的出力依赖于可再生能源的分布特性,随机性和波动性明显,若大规模、分布式接入配电网后,会给配电网的规划、运行和管理带来一定的挑战。将光伏、风机等分布式电源以微电网的形式接入电网,是有效解决分布式可再生能源的大规模应用难题、进一步提高其装机容量有效途径。
2、微电网是由分布式电源、储能系统、能量转换装置、监控和保护装置、负荷等汇集而成的小型发、配、用电系统。微电网可以看作是小型的电力系统,它具备完整的发电和配电功能,可以有效实现系统内的能量优化。微电网既可应用于偏远地区或海岛独立运行,也可接入配电网中并网运行,在满足自身负荷需求的同时,为配电网提供功率支撑与备用等辅助服务。
3、对微电网系统进行有效的能量管理可以优化运行降低成本,现有的方法如混合整数二次规划方法高度依赖对系统中不确定因素的预测准确性,实际中未来的风机、光伏功率及负荷需求不可能准确预测,因此,这些方法的求解结果难以直接应用。此外,微电网的规模会进一步扩大,系统的不确定性也会发生改变,传统的方法难以提供一个通用的解决框架。
技术实现思路
1、针对现有技术存在的不足,本发明提出一种通过与环境的不断交互学习最优策略,可以有效地降低微电网运行成本的基于智能体的并网型微电网最优能量管理方法。
2、本发明的一种基于智能体的并网型微电网最优能量管理方法,包括如下步骤:
3、(1)将并网型微电网能量管理过程建模为马尔可夫决策过程,智能体的状态变量包含微电网中不同分布式电源的输出功率、居民负荷的有功功率和无功功率需求、节点电价和储能装置的存储能量;智能体的动作由常规分布式电源的有功功率、无功功率和储能装置的充放电功率组成;
4、(2)考虑微电网运行约束的奖励函数,智能体的奖励函数中包含微电网的运行成本,即常规分布式电源的发电成本以及微电网向配电网购售电的成本;同时奖励函数中考虑到微电网的运行约束,包括微电网与配电网的交换功率约束、潮流约束、电压约束、储能约束,根据此奖励函数学习得到的最优策略不会输出违反约束条件的能量管理方案;
5、(3)采用深度q学习方法求解建立的马尔可夫决策过程的最优平稳策略,智能体与微电网环境进行一次交互可以得到一组样本,包含当前状态、智能体的动作、获得的奖励和下一时刻状态,利用这些样本学习最优动作价值网络并得到最优策略,最优策略输出最佳能量管理方案。
6、本发明的步骤(1)中,并网型微电网的能量管理问题中智能体的状态变量满足马尔可夫性;针对包含常规分布式电源、风力发电机、分布式光伏、储能装置和居民负荷的微电网系统;
7、构建的马尔可夫决策过程的状态为其中分别表示过去24小时光伏和风机的输出功率,分别表示过去24小时负荷的功率需求,rt表示过去24小时的节点电价,et表示过去24小时储能装置的存储能量。动作为为由t时段常规分布式发电机输出的有功功率的向量,分别表示第k个常规分布式电机在t时段输出的有功功率,表示储能装置的在t时刻的充放电功率,为正值时表明充电状态,为负值时表明放电状态;此外,常规分布式发电机与储能装置需要分别满足下列约束:
8、
9、
10、与分别表示常规分布式电源的最大和最小输出功率,为储能装置最大充放电功率;因此该马尔可夫决策过程的动作空间为:
11、本发明的步骤(2)中,针对包含常规分布式电源、风力发电机、分布式光伏、储能装置和居民负荷的微电网,奖励函数中包含微电网的运行成本,并且奖励函数中考虑到微电网的运行约束;当智能体输出的动作无法满足约束条件时会得到一个较小的奖励值,从而采用此奖励函数训练的智能体输出最优动作不会违反约束条件;
12、本发明为优化微电网的运营成本,当满足微电网运行约束时,智能体的奖励函数为:
13、
14、其中,rt表示第t次决策的奖励,和分别为为t时段第k个常规分布式电源的成本和微电网的购电成本,计算公式如下:
15、
16、
17、其中,ad,bd,cd为成本系数,为与配电网交换功率,当为正时表示向配电网购电,为负值时表示向配电网售电,rt为实时电价,δt为运行步长。rt为成本的负数,因此最大化rt意味着最小化成本;
18、公式为当满足约束条件时的奖励函数,设计考虑约束的奖励函数时具体考虑以下约束条件:
19、(1)潮流约束
20、
21、其中,和分别表示t时段流经支路ij的有功功率和无功功率,表示支路ij允许的最大视在功率。
22、(2)交换功率约束
23、
24、其中,为微电网与配电网的联络线路允许的最大交换功率。
25、(3)电压约束
26、
27、其中,分别表示t时段节点i的电压以及该节点允许电压的最下值和最大值。
28、(4)储能约束
29、
30、emin≤et≤emax (10)
31、其中,et为t时段储能装置的存储能量,为t时段储能装置的充放电功率,当ut为1时表示储能装置为充电状态,当ut为0时表示储能装置为放电状态,同一时段内充电与放电不能同时进行;ηc和ηd分别表示系统的充电效率和放电效率;emin和emax分别为储能装置存储能量的最小值和最大值;
32、当智能体输出动作后,首先检查约束条件是否被满足,如果满足则按照式计算奖励,如果不满足,则按照下式计算:
33、rt=-ζ (11)
34、其中,ζ为一个很大的正数。
35、步骤3:采用深度q学习方法求解建立的马尔可夫决策过程的最优策略;
36、马尔可夫决策过程的累计回报为:
37、
38、其中,γ∈[0,1]为折扣率,用于降低远期收益的回报;马尔可夫决策过程的状态价值函数为:
39、
40、深度q学习中智能体与微电网环境交互采样得到样本(状态、动作、奖励、下一时刻状态),并利用这些样本更新价值函数的参数,从而得到一个对所有状态s,状态价值函数都最大的最优策略;
41、动作价值函数qπ(s,a)表示在状态s下选择动作a,然后遵循策略π预期能够得到的期望回报;在深度q学习中,动作价值函数被建模为多层神经网络qw(s,a),神经网络的输入为状态s,输出为各个动作的q值;为了解决神经网络训练的不稳定性,目标网络被用于计算td误差,目标网络与训练网络结构相同,参数不同;回放缓冲区用于存放从环境中采样得到的四元组数据,从而更好地利于训练数据;
42、采用深度q学习求解上述构建的马尔可夫决策过程的最优策略时,首先将状态输入给智能体,智能体根据当前策略输出动作作用到微电网环境,然后微电网环境首先判断是否满足约束并计算奖励值,环境将奖励rt和下一个状态st+1反馈给智能体,这样便得到了一组样本(st,at,rt,st+1),并将样本存放到当回放缓冲区中。智能体根据st+1继续与环境交互采样;
43、当回放缓冲区中数据足够时,开始更新q网络,每次从中抽取n组样本{(si,ai,ri,si+1)}}i=1,...,n,对每组样本计算td误差:
44、
45、该组样本的目标损失为:
46、
47、通过最小化目标损失来学习参数;
48、利用采样的数据进行梯度下降最终学习gw(s,a)的参数,最终可以收敛到最优值。将状态st输入到最优状态价值函数的得到的动作即为微电网在t时段的最优能量管理方案。
49、本发明的技术方案与现有技术相比,能够取得下列有益效果:本发明提供了一个数据驱动的无模型方法,从历史数据中,学习不确定性,通过与环境的不断交互学习最优策略,输出的动作与在不确定性因素完全准确预测时混合整数二次规划求得的最优解的运行成本十分接近,且计算时间更短,可以有效地降低微电网运行成本。