本发明涉及一种电动汽车充电动态定价方法及相关装置,属于电力系统。
背景技术:
1、目前,根据各快充站(fast charging station,fcst)的日前充电负荷(即日前预测的充电负荷),各快充站与日前电力市场进行交易,确定快充站的购电量和电价,每个快充站的充电价格由其与电力市场的电力交易及其在利润率下的服务价格确定,但是在实时运行过程中,由于快充站的实时充电负荷与日前充电负荷不同,出现功率不平衡,快充站需要以实时电价购买电能,无法及时准确对服务价格(即售电价格)进行调整。
技术实现思路
1、本发明提供了一种电动汽车充电动态定价方法及相关装置,解决了背景技术中披露的问题。
2、根据本公开的一个方面,提供一种电动汽车充电动态定价方法,包括:获取当前时刻快充站布置范围内的交通流数据;根据当前时刻快充站布置范围内的交通流数据以及预先训练的动态定价模型,获取下一时刻快充站的充电价格;其中,动态定价模型中将快充站作为智能体,将充电价格调整作为动作,将快充站的收益作为奖励,将车辆与充电站仿真模型作为环境,将快充站的负荷总值、快充站的车辆数以及快充站布置范围内的路网信息作为状态,状态通过交通流数据以及车辆与充电站仿真模型仿真获得;在训练动态定价模型时,智能体的动态定价策略网络根据 t时刻的状态和深度强化学习算法更新策略生成 t时刻的动作,环境根据 t时刻动作后的充电价格生成 t时刻的奖励、以及根据 t时刻动作后的交通流数据生成 t+1时刻的状态;以奖励最大为目标,通过智能体和环境的交互获得最优的动态定价策略网络。
3、在本公开的一些实施例中,奖励的公式为:
4、;
5、式中, e( t)为 t时刻 k个快充站的总收益, k为快充站总数, λ i( t)为 t时刻第 i个快充站的充电价格,为 t时刻第 i个快充站的实际输出功率, η i( t)为 t时刻第 i个快充站的充电桩使用率, n i为 t时刻第 i个快充站能同时工作的充电桩数量, p0为充电桩额定充电功率,△ t为充电价格更新时间间隔, u i( t)为 t时刻第 i个快充站的电力市场的惩罚, c i( t)为 t时刻第 i个快充站的买电成本,, cwb( t)为 t时刻的日前买电价格,为第 i个快充站 t时刻的日前预测功率, crt( t)为 t时刻的买电价格,△ p i( t)为第 i个快充站 t时刻的日内实际功率与日前预测功率差值的绝对值, u i( t)= δσ i( t)△ t, δ为对超出部分的单位罚款, σ i( t)=max[0, △ p i( t)- ζmax]为t时刻的超出部分, ζmax为阈值。
6、在本公开的一些实施例中,环境根据 t时刻动作后的交通流数据生成 t+1时刻的状态,包括:环境根据 t时刻动作后的交通流数据,生成 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况;环境根据 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况,生成 t+1时刻的状态。
7、在本公开的一些实施例中,环境根据 t时刻动作后的交通流数据,生成 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况,包括:
8、若 t时刻车辆已经到达非快充目的地,或者若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量不满足需快充要求、且△ t后到达非快充目的地,则 t+1时刻车辆的状况为非充电停留;其中,△ t为相邻时刻的时长,第一规划路径为前往非快充目的地的规划路径;
9、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量不满足需快充要求、且△ t后未到达非快充目的地,则 t+1时刻车辆的状况为第一规划路径上行驶;
10、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、且△ t后未到达快充目的地,或者若 t时刻车辆在第二规划路径上行驶、且△ t后未到达快充目的地,则 t+1时刻车辆的状况为第二规划路径上行驶;其中,第二规划路径为前往快充目的地的规划路径,快充目的地根据预设的车辆用户满意度模型选择;
11、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、△ t后到达快充目的地、且快充站未饱和,或者若 t时刻车辆在第二规划路径上行驶、△ t后到达快充目的地、且快充站未饱和,或者若 t时刻车辆充电停留、且△ t后未充满,或者若 t时刻车辆充电排队、△ t后车辆位于第一位且快充站未饱和,则 t+1时刻车辆的状况为充电停留;
12、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、△ t后到达快充目的地、且快充站饱和,或者若 t时刻车辆在第二规划路径上行驶、△ t后到达快充目的地、且快充站饱和,或者若 t时刻车辆充电排队、且△ t后车辆不位于第一位或快充站饱和,则 t+1时刻车辆的状况为充电排队;
13、若 t时刻车辆充电停留、且△ t后充满,则快充站的对应充电桩空置, t+1时刻车辆的状况为第一规划路径上行驶。
14、根据本公开的另一个方面,提供一种电动汽车充电动态定价装置,包括:
15、获取模块,获取当前时刻快充站布置范围内的交通流数据;
16、定价模块,根据当前时刻快充站布置范围内的交通流数据以及预先训练的动态定价模型,获取下一时刻快充站的充电价格;
17、其中,动态定价模型中将快充站作为智能体,将充电价格调整作为动作,将快充站的收益作为奖励,将车辆与充电站仿真模型作为环境,将快充站的负荷总值、快充站的车辆数以及快充站布置范围内的路网信息作为状态,状态通过交通流数据以及车辆与充电站仿真模型仿真获得;
18、在训练动态定价模型时,智能体的动态定价策略网络根据 t时刻的状态和深度强化学习算法更新策略生成 t时刻的动作,环境根据 t时刻动作后的充电价格生成 t时刻的奖励、以及根据 t时刻动作后的交通流数据生成 t+1时刻的状态;以奖励最大为目标,通过智能体和环境的交互获得最优的动态定价策略网络。
19、在本公开的一些实施例中,定价模块中,动态定价模型奖励的公式为:
20、;
21、式中, e( t)为 t时刻 k个快充站的总收益, k为快充站总数, λ i( t)为 t时刻第 i个快充站的充电价格,为 t时刻第 i个快充站的实际输出功率, η i( t)为 t时刻第 i个快充站的充电桩使用率, n i为 t时刻第 i个快充站能同时工作的充电桩数量, p0为充电桩额定充电功率,△ t为充电价格更新时间间隔, u i( t)为 t时刻第 i个快充站的电力市场的惩罚, c i( t)为 t时刻第 i个快充站的买电成本,, cwb( t)为 t时刻的日前买电价格,为第 i个快充站 t时刻的日前预测功率, crt( t)为 t时刻的买电价格,△ p i( t)为第 i个快充站 t时刻的日内实际功率与日前预测功率差值的绝对值, u i( t)= δσ i( t)△ t, δ为对超出部分的单位罚款, σ i( t)=max[0, △ p i( t)- ζmax]为t时刻的超出部分, ζmax为阈值。
22、在本公开的一些实施例中,定价模块中,环境根据 t时刻动作后的交通流数据生成 t+1时刻的状态,包括:
23、环境根据 t时刻动作后的交通流数据,生成 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况;
24、环境根据 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况,生成 t+1时刻的状态。
25、在本公开的一些实施例中,定价模块中,环境根据 t时刻动作后的交通流数据,生成 t+1时刻快充站的状况和快充站布置范围内的各车辆的状况,包括:
26、若 t时刻车辆已经到达非快充目的地,或者若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量不满足需快充要求、且△ t后到达非快充目的地,则 t+1时刻车辆的状况为非充电停留;其中,△ t为相邻时刻的时长,第一规划路径为前往非快充目的地的规划路径;
27、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量不满足需快充要求、且△ t后未到达非快充目的地,则 t+1时刻车辆的状况为第一规划路径上行驶;
28、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、且△ t后未到达快充目的地,或者若 t时刻车辆在第二规划路径上行驶、且△ t后未到达快充目的地,则 t+1时刻车辆的状况为第二规划路径上行驶;其中,第二规划路径为前往快充目的地的规划路径,快充目的地根据预设的车辆用户满意度模型选择;
29、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、△ t后到达快充目的地、且快充站未饱和,或者若 t时刻车辆在第二规划路径上行驶、△ t后到达快充目的地、且快充站未饱和,或者若 t时刻车辆充电停留、且△ t后未充满,或者若 t时刻车辆充电排队、△ t后车辆位于第一位且快充站未饱和,则 t+1时刻车辆的状况为充电停留;
30、若 t时刻车辆在第一规划路径上行驶、△ t后车辆剩余电量满足需快充要求、△ t后到达快充目的地、且快充站饱和,或者若 t时刻车辆在第二规划路径上行驶、△ t后到达快充目的地、且快充站饱和,或者若 t时刻车辆充电排队、且△ t后车辆不位于第一位或快充站饱和,则 t+1时刻车辆的状况为充电排队;
31、若 t时刻车辆充电停留、且△ t后充满,则快充站的对应充电桩空置, t+1时刻车辆的状况为第一规划路径上行驶。
32、根据本公开的另一个方面,提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行电动汽车充电动态定价方法。
33、根据本公开的另一个方面,提供一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行电动汽车充电动态定价方法的指令。
34、本发明所达到的有益效果:本发明将快充站作为智能体,将充电价格调整作为动作,将快充站的收益作为奖励,将车辆与充电站仿真模型作为环境,将快充站的负荷总值、快充站的车辆数以及快充站布置范围内的路网信息作为状态,构建基于深度强化学习的动态定价模型,可根据当前交通流数据调整下一时刻快充站的充电价格,通过充电价格的调整对车辆进行引导,提高快充站的总体利润。