1.一种电网无功电压分布式控制方法,其特征在于,包括:
步骤1:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
步骤3:初始化各神经网络及相关控制过程变量并下发到各控制区域;
步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤;
步骤5:各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器;
步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器;
步骤7:重复执行步骤4、5、6。
2.根据权利要求1所述的电网无功电压分布式控制方法,其特征在于,所述步骤1包括:
步骤1-1:建立被控电网整体无功电压控制目标与优化模型:
其中,
步骤1-2:拆分上述无功电压控制目标与优化模型,形成各被控区域无功电压控制目标与优化模型:
其中,
3.根据权利要求2所述的电网无功电压分布式控制方法,其特征在于,所述步骤2包括:
步骤2-1:对应各区域系统量测,构建各区域观测变量oi,t:
其中pi,qi为第i个区域各节点有功、无功功率注入组成的向量;vi为第i个区域各节点电压组成的向量;pie,
步骤2-2:对应各区域无功电压优化目标,构建各区域统一回馈变量rt:
pj为节点j的有功功率输出,
步骤2-3:对应各区域无功电压优化约束,构建各区域约束回馈变量
其中[x]+=max(0,x);βi为第i个区域的协作系数,vj(t)为t时刻节点j的电压,
步骤2-4:对应可控灵活性资源无功功率,构建各区域动作变量ai,t:
ai,t=(qgi,qci)t(0.6)
其中,qgi,qci分别为第i个区域的dg及svc无功功率输出向量。
4.根据权利要求3所述的电网无功电压分布式控制方法,其特征在于,所述步骤3包括:
步骤3-1:初始化各神经网络及相关控制过程变量并下发到各控制区域;
步骤3-2:初始化各区域拉格朗日乘子λi,为一标量;
步骤3-3:通过通讯网络,下发初始策略神经网络
步骤3-4:初始化离散时间变量t=0,两步之间的实际时间间隔为δt;
步骤3-5:初始化策略更新周期tu,用于每隔tuδt时间执行一次策略更新;
步骤3-6:初始化样本上传周期ts与样本上传比例m∈[1,ts],用于每隔tsδt各控制器进行一次样本上传,上传前一个上传周期中的m个样本;
步骤3-7:初始化云服务器经验库
5.根据权利要求4所述的电网无功电压分布式控制方法,其特征在于,所述步骤3-1包括:
步骤3-1-1:定义神经网络
步骤3-1-2:定义神经网络
步骤3-1-3:定义
6.根据权利要求5所述的电网无功电压分布式控制方法,其特征在于,所述步骤4包括:
步骤4-1:从区域电网的量测装置获得量测信号,形成对应的观测变量oi,t;
步骤4-2:根据本地的策略神经网络
步骤4-3:控制器将ai,t下发至本地被控灵活性资源,如dg节点和svc节点;
步骤4-4:将(oi,t,ai,t)储存到
7.根据权利要求6所述的电网无功电压分布式控制方法,其特征在于,所述步骤5包括:
步骤5-1:将
步骤5-2:清空
步骤5-3:在云服务器上对本轮上传数据的前m组计算rt与
步骤5-4:如发生通讯故障,导致某区域样本未能上传,可直接忽略本次采样上传。
8.根据权利要求7所述的电网无功电压分布式控制方法,其特征在于,所述步骤6包括:
步骤6-1:从经验库di中抽取一组经验
步骤6-2:计算参数φi的损失函数:
其中x=(o1,...,on)为全部区域观测值;x'为x对应的下一时刻观测值;a1,...,an分别为区域1到区域n的动作向量;
其中γ为折合系数;αi为区域i的熵最大化因子;
⊙表示按位相乘,o′i为区域i下一时刻的观测值;
步骤6-3:更新参数φi:
其中ρi为学习步长,
步骤6-4:计算参数
其中
步骤6-5:更新参数
步骤6-6:计算拉格朗日函数:
其中
步骤6-7:更新参数θi:
步骤6-8:更新参数λi:
步骤6-9:更新冻结参数
其中η为冻结系数;
步骤6-10:下发更新后的策略神经网络
9.根据权利要求1-8中任一项所述的电网无功电压分布式控制方法,其特征在于,
所述步骤4、步骤5、步骤6并行执行。
10.一种电网无功电压分布式控制系统,其特征在于,包括:
模型构建模块,用于根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
训练框架构建模块,用于结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
初始化模块,用于初始化各神经网络及相关控制过程变量并下发到各控制区域;
控制器模块,用于设置在各区域本地,根据接收的策略神经网络并行执行控制步骤;
样本上传模块,用于设置在各区域本地,并行执行上传样本步骤,上传量测样本到云服务器;
策略学习模块,用于设置在云服务器上,并行学习各个控制器策略并下发更新后的策略到各区域控制器;
其中,所述控制器模块、样本上传模块、策略学习模块用于被重复调用执行。