1.一种电网在线调度系统,其特征在于,包括混合动作空间统一映射模块、仿真采样模块、数据存储模块和策略优化模块,所述调度系统具有训练阶段和运行阶段,所述训练阶段中,所述混合动作空间统一映射模块将混合决策空间映射到离散动作空间,所述仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据,所述数据存储模块存储采样数据,所述策略优化模块读取数据进行学习;所述运行阶段中,使用经过训练阶段的调度系统进行电网在线调度。
2.根据权利要求1所述的一种电网在线调度系统,其特征在于,所述的电网在线调度包括拓扑结构的调整和发电站功率的调整,所述拓扑结构的调整包括调整各变电站中不同支线和母线的连接方式;所述发电站功率的调整包括对电网系统中发电机组功率调节。
3.根据权利要求2所述的一种电网在线调度系统,其特征在于,所述的混合动作空间统一映射模块对发电机组功率调节的连续动作空间进行映射,映射后电网调度的决策动作统一表述。
4.根据权利要求2所述的一种电网在线调度系统,其特征在于,所述的仿真采样模块通过多线程并行的方式实现电网系统仿真模拟和训练数据收集采样;所述多线程中的每个子线程pi独立维护自身的决策树ti、策略网络πi、价值网络vi以及电网仿真环境ei,独立执行树搜索过程和与电网仿真环境的交互过程,实时收集交互过程中的电网状态观测oi和决策动作ai数据,并存入数据存储模块,其中i为节点。
5.根据权利要求4所述的一种电网在线调度系统,其特征在于,所述的数据存储模块将实时接收的采样数据存入全局共享空间,在全局共享空间中维护一个有限长度队列q=((o1,a1,r1,p1),(o2,a2,r2,p2),…,(ol,al,rl,pl)),其中ri为当前路径下节点i的折扣奖励,l为队列长度上限。
6.根据权利要求5所述的一种电网在线调度系统,其特征在于,所述的策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略,即维护全局策略网络π和价值网络v,读取的数据用于网络的更新。
7.一种采用权利要求1所述电网在线调度系统的调度方法,其特征在于,具体包括以下步骤:
8.根据权利要求7所述的一种调度方法,其特征在于,所述的步骤s2具体包括以下步骤:
9.根据权利要求8所述的一种调度方法,其特征在于,所述的步骤s204中状态电网观测状态o、决策动作a、折扣奖励r以及各动作的选择概率p被记录并存入全局共享内存。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求7中所述的调度方法。