本发明涉及计算机,尤其涉及一种基于强化学习的配电网调压方法、装置、设备和存储介质。
背景技术:
1、随着技术的发展,越来越多的电动汽车被生产和使用。电动汽车需要使用充电桩进行充电。在电动汽车进行充电时,配电网会产生无功功率和有功功率,例如,配电网对外输电会产生有功功率。配电网内部运行会产生无功功率。无功功率虽然不直接消耗有功功率,但无功功率的交换将引起发电和输电设备上的电压降落和电能损失,影响电力系统电能质量,导致电动汽车的充电效率降低和充电费用增加。
2、目前,通常是基于配电网运行效益最大的调压策略进行配电网调压。然而,这种方式虽然保证了配电网运行效益最大,但会导致电动汽车充电费用的增大,无法有效平衡配电网运行效益和电动汽车充电费用。
技术实现思路
1、本发明提供了一种基于强化学习的配电网调压方法、装置、设备和存储介质,以有效平衡配电网运行效益和电动汽车充电费用,提升用户的充电体验。
2、根据本发明的一方面,提供了一种基于强化学习的配电网调压方法,该方法包括:
3、获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息;
4、将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中,所述预设决策网络模型是预先基于目标奖励函数进行强化学习获得的,所述目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的;
5、基于所述预设决策网络模型的输出,获得当前配电网调压策略,并基于所述当前配电网调压策略,对所述配电网进行调压。
6、根据本发明的另一方面,提供了一种基于强化学习的配电网调压装置,该装置包括:
7、信息获取模块,用于获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息;
8、信息输入模块,用于将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中,所述预设决策网络模型是预先基于目标奖励函数进行强化学习获得的,所述目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的;
9、调压策略确定模块,用于基于所述预设决策网络模型的输出,获得当前配电网调压策略,并基于所述当前配电网调压策略,对所述配电网进行调压。
10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于强化学习的配电网调压方法。
14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于强化学习的配电网调压方法。
15、本发明实施例的技术方案,通过预先基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建获得目标奖励函数,并基于目标奖励函数进行强化学习获得预设决策网络模型,该预设决策网络模型可以针对配电网中不同的电网状态信息、由所述配电网供电的充电站中不同的充电站状态信息和所述充电站中每个电动汽车的充电状态信息决策出最优的配电网调压策略,以便有效平衡配电网运行效益和电动汽车充电费用,提升用户的充电体验。在多个电动汽车充电的过程中,获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息,并将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中进行电网调压动作决策,从而基于预设决策网络模型的输出,可以获得决策出最优的当前配电网调压策略,并基于当前配电网调压策略对所述配电网进行调压,从而基于当前配电网调压策略可以有效平衡当前配电网运行效益和当前电动汽车充电费用,提升用户的充电体验。
16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种基于强化学习的配电网调压方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数,包括:
3.根据权利要求2所述的方法,其特征在于,基于配电网的有功功率网损下降率和充电站的偏差电压,构建第一奖励函数,包括:
4.根据权利要求3所述的方法,其特征在于,确定配电网的有功功率网损下降率,包括:
5.根据权利要求3所述的方法,其特征在于,确定充电站的偏差电压,包括:
6.根据权利要求2所述的方法,其特征在于,基于电动汽车离网时的电池电量,构建第二奖励函数,包括:
7.根据权利要求1所述的方法,其特征在于,所述预设决策网络模型的强化学习过程,包括:
8.根据权利要求7所述的方法,其特征在于,基于待训练的预设决策网络模型输出的样本配电网调压策略,确定执行所述样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息,包括:
9.一种基于强化学习的配电网调压装置,其特征在于,包括:
10.一种电子设备,其特征在于,所述电子设备包括:
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的基于强化学习的配电网调压方法。