基于强化学习的无功电压优化方法、装置、设备及介质与流程

文档序号：33556181发布日期：2023-03-22 11:59阅读：来源：国知局

技术特征：
1.一种基于强化学习的无功电压优化方法，其特征在于，包括：利用深度学习算法，以实际配电网的历史工况数据为输入，以基于名义模型得到的无功电压优化数据为训练标签，训练预设深度学习优化器，得到第一策略模型，所述历史工况数据包括发电有功功率、负载有功功率和负载无功功率；利用马尔可夫决策过程，根据所述第一策略模型，生成无功优化智能体；基于所述无功优化智能体与实际配电网进行实时交互，以对所述实际配电网进行无功电压优化，以及利用强化学习算法，更新所述无功优化智能体。2.如权利要求1所述的基于强化学习的无功电压优化方法，其特征在于，所述利用深度学习算法，以实际配电网的历史工况数据为输入，以基于名义模型得到的无功电压优化数据为训练标签，训练预设深度学习优化器，得到第一策略模型，包括：利用所述名义模型，根据所述历史工况数据，输出所述无功电压优化数据；利用所述预设深度学习优化器，根据所述历史工况数据，输出无功电压控制数据；基于所述无功电压优化数据和所述无功电压控制数据，计算所述预设深度学习优化器的第一损失函数；基于所述第一损失函数更新所述预设深度学习优化器，并确定所述预设深度学习优化器是否达到收敛条件；若所述第一损失函数达到最小值，则判定所述预设深度学习优化器达到收敛条件，得到所述第一策略模型。3.如权利要求2所述的基于强化学习的无功电压优化方法，其特征在于，所述利用所述名义模型，根据所述历史工况数据，输出所述无功电压优化数据，包括：利用所述名义模型，根据所述历史工况数据，对所述实际配电网进行潮流分析，输出所述无功电压优化数据，所述名义模型为：述无功电压优化数据，所述名义模型为：其中，r
p
(x
t
,u
t
)为网损或发电成本，x
t
为因变量，u
t
为控制变量，d
t
为包含所述历史工况数据的扰动变量，b为主动配电网模型的模型参数，a为主动配电网模型的拓扑结构，g表示潮流方程，h
v
表示电压与控制变量的不等式约束方程。4.如权利要求1所述的基于强化学习的无功电压优化方法，其特征在于，所述利用马尔可夫决策过程，根据所述第一策略模型，生成无功优化智能体，包括：在所述马尔可夫决策过程中，以预设强化学习智能体观测实际配电网在当前时刻下的第一状态信息，所述第一状态信息包括节点注入有功功率、节点注入无功功率、节点电压和无功输出功率；利用所述第一策略模型，选择所述第一状态信息对应的第一动作信息，并计算所述预设强化学习智能体的第一奖励信息和观测下一时刻下的状态信息，以生成所述无功优化智能体。5.如权利要求1所述的基于强化学习的无功电压优化方法，其特征在于，所述基于所述无功优化智能体与实际配电网进行实时交互，以对所述实际配电网进行无功电压优化，以
及利用强化学习算法，更新所述无功优化智能体，包括：基于所述第一策略模型的模型参数，生成第二策略模型，并初始化两个预设批评家网络以及数据缓冲区；基于所述第二策略模型生成目标策略模型，基于两个所述批评家网络生成两个目标批评家网络；若所述数据缓冲区的数据量小于预设数据量，则基于所述无功优化智能体观测所述实际配电网在当前时刻下的第二状态信息，并根据所述目标策略模型，选择所述第二状态信息对应的第二动作信息，对所述实际配电网进行无功电压优化，以及基于所述第二状态信息和所述第二动作信息更新所述数据缓冲区；若所述数据缓冲区的数据量不小于预设数据量，则基于所述无功优化智能体观测所述实际配电网在当前时刻下的第三状态信息，并选择所述第三状态信息对应的确定性动作信息，对所述实际配电网进行无功电压优化，以及利用所述目标批评家网络，基于所述数据缓冲区，对所述目标策略模型进行更新。6.如权利要求5所述的基于强化学习的无功电压优化方法，其特征在于，所述选择所述第三状态信息对应的确定性动作信息，包括：基于预设策略函数，选择所述第三状态信息对应的确定性动作信息，所述预设策略函数为：其中，a为确定性动作信息，为训练的神经网络策略，∈为探索噪声，a
low
为无功可调设备的最小可调能力，a
high
为无功可调设备的最大可调能力。7.如权利要求5所述的基于强化学习的无功电压优化方法，其特征在于，所述利用所述目标批评家网络，基于所述数据缓冲区，对所述目标策略模型进行更新，包括：从所述数据缓冲区中，随机抽取若干组样本数据；基于所述样本数据，计算所述目标批评家网络的函数目标值；基于所述函数目标值，计算所述目标批评家网络的第二损失函数和所述目标策略模型的损失函数的第三损失函数；基于所述第二损失函数和第三损失函数，更新正则化系数、所述目标批评家网络和所述目标策略模型。8.一种基于强化学习的无功电压优化装置，其特征在于，包括：训练模块，用于利用深度学习算法，以实际配电网的历史工况数据为输入，以基于名义模型得到的无功电压优化数据为训练标签，训练预设深度学习优化器，得到第一策略模型，所述历史工况数据包括发电有功功率、负载有功功率和负载无功功率；生成模块，用于利用马尔可夫决策过程，根据所述第一策略模型，生成无功优化智能体；优化模块，用于基于所述无功优化智能体与实际配电网进行实时交互，以对所述实际配电网进行无功电压优化，以及利用强化学习算法，更新所述无功优化智能体。9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的基于强化学习
的无功电压优化方法。10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于强化学习的无功电压优化方法。

技术总结
本申请公开了一种基于强化学习的无功电压优化方法、装置、设备及介质，通过利用深度学习算法，以实际配电网的历史工况数据为输入，以基于名义模型得到的无功电压优化数据为训练标签，训练预设深度学习优化器，得到第一策略模型，从而利用名义模型的优化结果为深度强化学习提供参考；利用马尔可夫决策过程，根据第一策略模型，生成无功优化智能体；基于无功优化智能体与实际配电网进行实时交互，以对实际配电网进行无功电压优化，以及利用强化学习算法，更新无功优化智能体。从而随着强化学习智能体的无功优化能力的提高，逐渐降低名义模型的优化力度，摆脱对配电网模型的依赖，提高无功优化精度。无功优化精度。无功优化精度。

技术研发人员：戴月郭文鑫柳琼郭烨余志文卢建刚曾凯文郑文杰
受保护的技术使用者：广东电网有限责任公司电力调度控制中心
技术研发日：2022.12.12
技术公布日：2023/3/21

完整全部详细技术资料下载

当前第2页1 2