一种电网在线调度系统、方法和存储介质与流程

文档序号:36831498发布日期:2024-01-26 16:46阅读:20来源:国知局
一种电网在线调度系统、方法和存储介质与流程

本发明涉及人工智能,尤其是涉及一种电网在线调度系统、方法和存储介质。


背景技术:

1、电网是一个将电力从生产商(发电站)输送到消费者(楼房、工厂等)的互连系统。电网系统的稳定运行是一个动态平衡的过程,需要熟练的专家进行不间断的监测,并经常进行干预,以安全可靠地将电力从生产商输送到所有连接的消费者,以及避免电力系统的失衡造成停电事件引发甚至安全事故,对社会经济和公共安全造成严重影响。

2、现有的电网系统调度方法主要有基于专家经验的人工调控方法,基于数学模型的建立和求解方法,以及传统的深度强化学习方法。然而现有的电网系统调度决策方法存在如下缺陷和不足:第一,依赖专家经验和领域知识,无论是人工调节方法还是建立数学模型的方法,都高度依赖领域知识,这增加了新型方法和模型的引入成本;第二,难以适应高度的随机性和不确定性,电力设备尤其是新能源设备的发电功率极大程度地受到天气、气候等外部因素的影响,再加之设备故障,灾祸事故以及需求的剧烈变化,电力系统存在高度的随机性和不确定性,而现有的电网调度方法往往难以为这种高度随机性提供有效的解决方案;第三,复杂的混合决策空间,现代电网系统的调度不仅包括对拓扑结构的调整,还包括对机组发电功率的调整,而现有的调度方法往往仅能单独调节拓扑或者单独调节功率,无法同时针对离散和连续的调节任务做出有效决策。

3、经过检索,申请公布号cn116545025a公开了一种配电网优化调度方法、装置、设备及存储介质,具体公开了:根据用户需求侧响应的数据信息,建立需求响应模型;基于所述需求响应模型,构建配电网日前优化调度模型,并通过预设算法形成得到配电网日前优化的初步调度策略;通过预设预测模型得到所述初步调度策略的预测数据,并根据所述预测数据,对所述初步调度策略进行优化,得到最终调度策略,从而完成配电网的多时间尺度优化调度。

4、授权公告号cn111864743b公开了一种电网调度控制模型的构建方法及电网调度控制方法,具体公开了:该电网调度控制模型的构建方法包括:获取电网的多个历史断面潮流数据;根据预设的安全运行需求和控制目标,构造基于最大熵强化学习算法的电网调度控制模型;从多个历史断面潮流数据中提取训练样本,并将训练样本输入电网调度控制模型进行模型训练,得到各电网控制动作;根据历史断面潮流数据执行各电网控制动作后的电网运行特征,更新电网调度控制模型的模型参数,并返回从多个历史断面潮流数据中提取当前电网运行指标对应的电网运行特征作为训练样本的步骤,直至所有训练样本训练完成;根据训练结果确定最优电网调度控制模型。

5、综上,现有技术主要采用建立数学模型的方法,依赖领域知识;且无法同时针对离散和连续的复杂调节任务做出有效决策。因此,如何提出一种不依赖领域知识且适应复杂任务的系统为需要解决的技术问题。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的依赖领域知识程度高和不适应复杂调节任务等缺陷而提供一种电网在线调度系统、方法和存储介质。

2、本发明的目的可以通过以下技术方案来实现:

3、根据本发明的第一个方面,提供了一种电网在线调度系统,包括混合动作空间统一映射模块、仿真采样模块、数据存储模块和策略优化模块,所述调度系统具有训练阶段和运行阶段,所述训练阶段中,所述混合动作空间统一映射模块将混合决策空间映射到离散动作空间,所述仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据,所述数据存储模块存储采样数据,所述策略优化模块读取数据进行学习;所述运行阶段中,使用经过训练阶段的调度系统进行电网在线调度。

4、作为优选的技术方案,所述的电网在线调度包括拓扑结构的调整和发电站功率的调整,所述拓扑结构的调整包括调整各变电站中不同支线和母线的连接方式;所述发电站功率的调整包括对电网系统中发电机组功率调节。

5、作为优选的技术方案,所述的混合动作空间统一映射模块对发电机组功率调节的连续动作空间进行映射,映射后电网调度的决策动作统一表述。

6、作为优选的技术方案,所述的仿真采样模块通过多线程并行的方式实现电网系统仿真模拟和训练数据收集采样;所述多线程中的每个子线程pi独立维护自身的决策树ti、策略网络πi、价值网络vi以及电网仿真环境ei,独立执行树搜索过程和与电网仿真环境的交互过程,实时收集交互过程中的电网状态观测oi和决策动作ai数据,并存入数据存储模块,其中i为节点。

7、作为优选的技术方案,所述的数据存储模块将实时接收的采样数据存入全局共享空间,在全局共享空间中维护一个有限长度队列q=((o1,a1,r1,p1),(o2,a2,r2,p2),…,(ol,al,rl,pl)),其中ri为当前路径下节点i的折扣奖励,l为队列长度上限。

8、作为优选的技术方案,所述的策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略,即维护全局策略网络π和价值网络v,读取的数据用于网络的更新。

9、根据本发明的第二个方面,提供了一种采用电网在线调度系统的调度方法,具体包括以下步骤:

10、步骤s1,混合动作空间统一映射模块将混合决策空间映射到离散动作空间;

11、步骤s2,仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据;

12、步骤s3,数据存储模块存储仿真采样模块收集的数据;

13、步骤s4,策略优化模块从数据存储模块中读取数据进行学习;

14、步骤s5,调度系统根据结果进行电网在线调度。

15、作为优选的技术方案,所述的步骤s2具体包括以下步骤:

16、步骤s201,子结点选择,子线程从根节点出发,计算当前结点的每个子结点的分数,不断选择分数最高的结点,直到叶结点;

17、步骤s202,子结点扩展,若当前叶结点为非终态,则根据当前结点所代表的电网观测状态o遍历当前所有可能的调度动作,并为当前结点建立新的子结点;

18、步骤s203,回溯,对步骤s201和步骤s202所选路径上的每个结点i的访问次数、累积价值进行更新;

19、步骤s204,决策执行,子线程基于步骤s201~步骤s203所形成的搜索树选择下一步动作并执行,仿真环境ei经过潮流仿真进入下一步状态,并以新的电网状态为根节点,返回步骤s201,直到仿真结束。

20、作为优选的技术方案,所述的步骤s204中状态电网观测状态o、决策动作a、折扣奖励r以及各动作的选择概率p被记录并存入全局共享内存。

21、根据本发明的第三个方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现一种电网在线调度方法。

22、与现有技术相比,本发明具有以下优点:

23、1)本发明通过深度神经网络的自适应学习和大规模的仿真模拟探索电网系统的调度策略,避免了对领域知识的依赖;

24、2)本发明通过模拟和抽样统计的方式通过大量积累的统计信息进行决策,弱化了随机事件对电网系统造成的影响,可以为高度随机性事件提供有效的解决方案;

25、3)本发明通过对连续决策空间的离散化,将“离散—连续”混合的决策空间统一映射到离散决策空间,进而借助统一的框架对拓扑结构调整问题和发电功率调整问题进行决策,实现了同时针对离散和连续的调节任务做出有效决策。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1