用于综合能源系统的供需协同调控系统及方法与流程

文档序号:36787414发布日期:2024-01-23 12:04阅读:18来源:国知局
用于综合能源系统的供需协同调控系统及方法与流程

本公开涉及综合能源系统控制,具体而言,涉及一种用于综合能源系统的供需协同调控系统及方法。


背景技术:

1、目前,在综合能源系统内普遍引入综合能源系统,以提升用能主体的负荷需求满足度。在综合能源系统的运行过程中,存在能源需求量大、分布式能源种类多、能源消纳率低、新能源不确定性高、用户负荷峰谷差大、储能时间耦合性和经济环境效率等问题。针对上述问题,在综合能源系统中开展多维度的实时调控研究十分有必要。

2、相关技术中,针对综合能源系统的调控模型求解方法包括数学规划方法及启发式方法。其中,数学规划方法,用于研究在给定区域中寻找最小化或最大化某一函数的最优解;常用的数学规划方法包括混合整数非线性规划方法(minlp)和混合整数现象规划方法(milp)。具体的,在同时考虑可再生能源、不确定参数、需求响应极化和排放的多能源枢纽系统随机调度模型中,运用milp方法以最小化经济运行成本,或对综合能源系统随机规划框架建立 minlp 模型,并通过一阶泰勒展开、非凸运行域分解、分支定界等方式对问题进行转换与分解,但常用的数学规划方法在面对大规模问题时全局优化速度慢,求解困难大,甚至可能出现不可解的情况。

3、启发式方法依赖经验和规则,通过随机搜索的方式寻找满足收敛条件的解,例如:通过建立考虑电池寿命的多目标实时控制模型,运用遗传算法进行分钟级别的滚动优化求解最优的控制策略,或者采用基于机会约束规划的概率优化框架,改进混合人工蜂群和差分进化算法,以提升其在解决并网能源管理方面的优化能力。而启发式方法往往需要依靠专家经验,不依赖模型性质导致求解质量不稳定。

4、综上,综合能源系统的供需调控过程中,由于传统的调控模型求解方法存在求解难度大,求解质量不稳定,求解速度慢,进而导致综合能源系统的供需调控响应速度慢,无法实现在线调控。

5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的目的在于提供一种用于综合能源系统的供需协同调控系统及方法,在一定程度上解决相关技术中调控模型求解质量不稳定及求解速度慢,导致综合能源系统的供需调控响应速度慢,无法在线调控的问题。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、根据本公开实施例的第一方面,提供了一种用于综合能源系统的供需协同调控系统,包括:

4、目标策略确定模块,用于根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型,并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解,以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练,得到目标马尔可夫模型,将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中,生成对应的目标调控策略;

5、综合能源调控模块,用于根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控;

6、其中,所述综合能源系统包括发电系统、外部电网、储能系统和用电系统;所述发电系统包括风电系统、光伏系统和燃气系统;所述调控决策对象包括外部电网的售电功率、发电系统的输出功率、储能系统的充放电功率及用电系统的可控负荷削减量。

7、在本公开的一种示例性实施例中,所述目标策略确定模块包括:

8、原始模型构建模块,用于根据所述综合能源系统的历史运行数据生成所述原始马尔可夫决策模型的参数元组,通过所述参数元组构建所述原始马尔可夫决策模型,所述参数元组包括所述综合能源系统的观测状态、调控动作、奖励函数;

9、原始模型求解模块,用于通过所述双延迟深度确定性策略梯度算法的异策略训练模型对所述原始马尔可夫决策模型进行求解;

10、目标策略生成模块,用于将所述综合能源系统的当前观测状态输入到所述原始马尔可夫模型中,生成对应的初始调控策略,根据所述初始调控策略生成并发送调控动作至所述综合能源系统,并根据所述综合能源系统的响应对所述初始调控策略进行更新,直到更新次数达到预设更新数值,得到目标调控策略;

11、其中,所述综合能源系统的响应包括下一时刻所述综合能源系统的观测状态及所述奖励函数。

12、在本公开的一种示例性实施例中,所述当前观测状态为:

13、;

14、其中,为连续的状态空间;为当前时刻光伏系统的实际出力;为当前时刻风电系统的实际出力;为当前时刻储能系统的存储荷电状态;为当前时刻用电系统的可控负荷值;为当前时刻用电系统的不可控负荷值。

15、在本公开的一种示例性实施例中,所述调控动作为:

16、;

17、其中,为连续的动作空间;为当前时刻向外部电网的购电功率;为当前时刻光伏系统的实际消纳功率;为当前时刻风电系统的实际消纳功率;为当前时刻燃气系统的输出功率;为当前时刻储能系统的充放电功率;为当前时刻用电系统的可控负荷削减量。

18、在本公开的一种示例性实施例中,所述奖励函数为:

19、;

20、其中,为向外部电网的购电总成本系数;为光伏系统的总成本系数;为风电系统的总成本系数;为燃气系统的总成本系数;为储能系统的总成本系数;为用电系统的补偿系数;为当前时刻t向外部电网的购电功率;为当前时刻光伏系统的实际消纳功率;为当前时刻风电系统的实际消纳功率;当前时刻燃气系统的输出功率;当前时刻储能系统的充放电功率;当前时刻用电系统的可控负荷削减量。

21、在本公开的一种示例性实施例中,所述双延迟深度确定性策略梯度算法包括策略网络和价值网络;所述原始模型求解模块包括:

22、网络配置子模块,用于分别为所述策略网络和所述价值网络配置目标策略网络和目标价值网络,并固定所述策略网络和所述价值网络的时间同步参数,以通过所述策略网络、所述价值网络、所述目标策略网络和所述目标价值网络的交互对所述马尔可夫决策模型进行求解。

23、在本公开的一种示例性实施例中,所述网络配置子模块包括:

24、策略参数计算单元,用于计算得到所述策略网络的策略参数,以根据所述策略参数对所述策略网络的策略函数进行定义。

25、在本公开的一种示例性实施例中,所述策略参数为:

26、;

27、其中,为所述策略参数;为学习率;为所述策略参数的期望回报;为所述策略参数的期望回报上升梯度;

28、其中,所述策略参数的期望回报为:

29、;

30、其中,为轨迹的期望回报;为轨迹的发生概率;

31、其中,轨迹的发生概率为:

32、;

33、其中,为第1观测状态的出现概率;为时间分段周期数;为轨迹在当前时刻的调控动作;为轨迹在当前时刻的观测状态;为在所述策略参数下,轨迹的观测状态触发调控动作的概率;为轨迹在下一时刻的观测状态;为在调控动作下,轨迹的观测状态转移到观测状态的概率;

34、其中,所述轨迹为:

35、;

36、其中,为第时刻所述综合能源系统的观测状态;为第时刻所述综合能源系统的观测状态对应的调控动作;

37、在更新所述策略参数的过程中,策略参数的期望回报上升梯度为:

38、;

39、其中,为策略参数的期望回报上升梯度;为轨迹的期望回报;为轨迹的发生概率上升梯度;为在所述策略参数下,第条轨迹的观测状态触发调控动作的概率;为第条轨迹是轨迹的回报;为轨迹的观测状态触发调控动作的概率特征梯度;为轨迹数量;为时间分段数;为当前所在轨迹的序号;为第条轨迹在当前时刻的调控动作;为第条轨迹在当前时刻的观测状态。

40、在本公开的一种示例性实施例中,所述原始模型求解模块还包括:

41、训练优化子模块,用于通过确定性策略固定所述观测状态对应的所述调控动作,并引入tanh函数,使得所述调控动作的取值根据所述观测状态进行缩放;

42、策略优化子模块,用于引入有演员-评论家结构,将所述策略网络作为演员,用于给出所述调控动作选择,并根据所述价值网络的评估更新策略,将所述价值网络作为评论家对所述调控动作进行价值估计,并根据所述综合能源系统的响应更新所述初始调控策略;

43、算法收敛子模块,用于同时训练所述策略网络、所述价值网络和对应的所述目标策略网络和所述目标价值网络,选择其中较小的目标网络的价值计算得到所述目标策略网络和所述目标价值网络;

44、延迟更新子模块,用于延迟所述策略网络的更新频率,使得所述策略网络的更新频率低于所述价值网络;

45、策略平滑子模块,用于对所述目标策略网络的动作进行正则化处理,并加入噪声平滑策略的期望,降低价值误差对所述目标策略网络的影响。

46、根据本公开实施例的第二方面,提供了一种用于综合能源系统的供需协同调控方法,所述方法包括:

47、根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型,并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解,以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练,得到目标马尔可夫模型,将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中,生成对应的目标调控策略;

48、根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控;

49、其中,所述综合能源系统包括发电系统、外部电网、储能系统和用电系统;所述发电系统包括风电系统、光伏系统和燃气系统;所述调控决策对象包括外部电网的售电功率、发电系统的输出功率、储能系统的充放电功率及用电系统的可控负荷削减量。

50、本公开示例实施例所提供的用于综合能源系统的供需协同调控系统中,通过目标策略确定模块根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型,并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解,以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练,得到目标马尔可夫模型,将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中,生成对应的目标调控策略;通过综合能源调控模块根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控。本公开通过优化调控策略,实现了对综合能源系统中各个调控决策对象的在线调控,解决了综合能源系统中能源供需不平衡的问题,提高了综合能源系统的运行效率、经济效益和环保效益。

51、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1