1.一种基于Q学习的户用微电网能量优化方法,其特征在于:包括步骤:
步骤(1):在所述户用微电网系统中配备光伏发电系统以及储能设备;将所述户用微电网中负荷分为可平移负荷、可削减负荷和不可控负荷三类;
步骤(2):对所述户用微电网当前场景空调工作时的室内外温度及功率历史数据进行实时采样,通过遗传算法对历史数据拟合得到适合当前建筑物的热力学模型,同时对历史数据进行离线训练通过预学习获得初始Q矩阵;
步骤(3):根据步骤(2)得到的空调热力学模型、步骤(1)中储能设备的储能模型以及负荷的可平移负荷模型在日前阶段由用户选择需要的能量管理模式,以用电成本与舒适度为目标,以功率平衡约束与交互点功率限制作为约束条件,计算得出室内温度、储能的工作指令以及可平移负荷优化结果;
步骤(4):Q矩阵根据室外温度及房屋内部人员、环境的变化,不停地在线学习并实时更新;根据步骤(3)下发可平移负荷及储能的工作指令,空调根据步骤(3)得到的室内温度优化结果在日内阶段根据在线更新的Q矩阵修正后下发设置温度,从而实现户用微电网的能量优化。
2.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述步骤(2)得到的热力学模型具体如下:
目前空调所属建筑物热力学模型等效热参数模型以制冷时:
其中,Tin,t表示t时刻室内温度,Tout,t表示t时刻室外温度,Δt为时间间隔,C表示房间的热容量,R表示房间热阻,Qair,t表示t时刻空调的制热量,可表示为:
Qair,t=COPair,t·Pair,t
其中,COPair,t为空调能效比,即空调制热量与功率之间的定量关系,对定频空调,COPair,t为固定常数;对变频空调,COPair,t随空调压缩机频率变化而变化;
对于定频空调,得到目标函数为:
其中,Tin,t表示t时刻室内温度,Tout,t表示t时刻室外温度,Δt为时间间隔,C表示房间的热容量,R表示房间热阻,Pair,t表示空调功率,历史数据个数为n;
对于变频空调,得到目标函数为:
3.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述储能模型包含运行成本模型与充放电约束两个部分;
运行成本模型:计算储能在t时段的运行费用为:
其中:Pcmax和Pdmax分别为储能充电、放电最大功率,均为正值;PB(t)为t时间段储能的充放电功率,正值表示放电,负值表示充电;对能量优化而言,在一个调度周期内认为设备的功率为常数,功率值取其在该周期内的平均功率;
充放电约束:
其中,SOCmax和SOCmin分别为储能单元荷电状态上、下限值;ΔSOCmax(t)和ΔSOCmin(t)分别为t时间段储能单元荷电状态变化量上下限值;Pcmax和Pdmax分别为储能充电、放电最大功率,均为正值;PB(t)为t时间段储能的充放电功率,正值表示放电,负值表示充电。
4.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述可平移负荷模型为:
可平移负荷i的实际工作功率Psli(t)为:
Psli(t)=xsli(t)PNsli
其中,PNsli表示可平移负荷i的额定功率,xsli(t)表示可平移负荷i的工作状态,其值为1表示可平移负荷运行,为0表示可平移负荷停运;
可平移负荷需要满足约束条件:
其中,Tistart、Tifinish、Tsli分别表示可平移负荷i的最早启动时间、最迟停止时间和连续运行时长,该约束表示可平移负荷工作时长满足要求并且工作不可中断。
5.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述优化目标具体为:
其中,F表示系统全天用电成本;N为一天划分时间段数;Fss(t)为t时间段的购售电费用;α、β分别为用电成本与用户舒适度的权重系数;
所述购售电费用为微电网与上级电网进行功率交互时产生的费用或收益:
FSS(t)=c(t)Pcc(t)Δt
其中,PCC(t)为t时间段联络线功率,正值表示从电网购电,负值表示向电网售电;Δt为一个调度周期的时长;c(t)、sell_price(t)、buy_price(t)分别为t时间段购售电价、售电价格、购电价格。
6.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述用户选择需要的能量管理模式包括用电成本优化模式、用户舒适度优化模式和综合优化模式;由用户根据自身需求选择对应的能量管理模式,确定优化目标中用电成本与用户舒适度的比重,得出适应不同用户需求的户用微电网日前计划。
7.根据权利要求1所述的户用微电网能量优化方法,其特征在于:所述Q学习算法具体为:
假设状态集和动作集分别划分为M和N个离散区间,则将每个状态—动作对的评价值Q(s,a)建立为一个M*N阶的Q矩阵,其公式如下:
式中,α为学习率,a'为在状态s下可执行的所有动作;Q(s,a)的值是从状态s执行动作a后获得的累计回报值;
在每个时刻t,根据环境状态s选择对应Q值最大的动作a,并观察瞬时奖赏r和新状态s’,并更新Q值,其基本形式:
式中,s为当前状态,s'为下一时刻环境状态,Q*(s,a)表示在状态s下执行动作a获得的回报总和,P(s,a,s')为执行动作a后状态从s转换到s’的概率,R(s,s',a)为从s状态选择动作a后转换到s’后获得的奖励,γ为折扣因子,S为环境状态集,A为控制器动作集;
采用室内温度与目标温度Tgoal的偏差ΔT作为Q学习输入的环境状态变量,其中Tgoal根据日前能量管理优化得出;将室内温度偏差ΔT划分为一系列离散区间{ΔT1,ΔT2,…ΔTm},对应环境状态集;将室内温度的控制目标设置为Tgoal±0.5℃,将状态集ΔT设定为:{(-∞,-3],(-3,-2],(-2,-1],(-1,0.5],(-0.5,0],(0,0.5],(0.5,1],(1,2],(2,3],(3,+∞)};
奖励函数定义为:
当室内温度偏差|ΔT|>0.5℃时,根据不同偏差大小,学习将获得不同程度的惩罚,偏差越大,受到的惩罚越大,则经过迭代后获得的Q值越小,此后选择此动作的概率越小。