基于启发式动态规划的储能系统的调度方法及调度系统与流程

文档序号:16645824发布日期:2019-01-16 08:16阅读:357来源:国知局
基于启发式动态规划的储能系统的调度方法及调度系统与流程

本发明涉及智能楼宇电力调度技术,尤其涉及一种基于启发式动态规划的储能系统的调度方法及调度系统。



背景技术:

智能楼宇电力调度是智能微电网的一个重要研究领域。在需求侧,家庭负荷、蓄电池、大电网和可再生能源等因素组合在一起构成一个非线性、时变、不确定和复杂的系统,同时风电、光伏出力均有不确定性,使得整个系统难以管理或优化。



技术实现要素:

本发明主要目的在于,提供了一种基于启发式动态规划的储能系统的调度方法及调度系统,以解决智能楼宇微网系统存在的非线性、时变、分布式发电不确定性等导致的建模困难的问题。

本发明是通过如下技术方案实现的:

一种基于启发式动态规划的储能系统的调度方法,包括:

步骤1:数据初始化;

步骤2:随机生成两个hdp网络:hdp-1网络和hdp-2网络;并对所述两个hdp网络赋予初始参数;

步骤3:开始循环,并判断天气类型,如为晴天,则转到步骤4,如为阴天则转到步骤5;

步骤4:随机选择电池控制动作,然后由hdp-1网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到步骤6;

步骤5:随机选择电池控制动作,然后由hdp-2网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到步骤6;

步骤6:判断今日是否是月底,如不是,则将日期加1,并转到步骤3,否则转到步骤7;

步骤7:判断是否达到最大循环次数,如还未达到,则转到步骤2,否则转到步骤8;

步骤8:输出最佳结果并显示成本。

进一步地,所述hdp-1网络和hdp-2网络进行训练的方法均包括:

步骤s1:基础数据初始化;

步骤s2:计算评价误差ec,并更新权值,重新计算j;

步骤s3:判断是否ec<ec(max)或权值更新次数达到上限,如果是则转到步骤s4,否则返回步骤s2;

步骤s4:计算评价误差ea,并更新控制权值;

步骤s5:判断是否ea<ea(max)或权值更新次数达到上限,如果是则转到步骤s6,否则返回步骤s4;

步骤s6:根据控制网络重新生成u(t)。

一种基于启发式动态规划的储能系统的调度系统,包括:

系统初始化模块,用于数据初始化;

hdp网络生成模块,用于随机生成两个hdp网络:hdp-1网络和hdp-2网络;并对所述两个hdp网络赋予初始参数;

循环模块,用于开始循环,并判断天气类型,如为晴天,则转到第一训练模块,如为阴天则转到第二训练模块;

第一训练模块,用于随机选择电池控制动作,然后由hdp-1网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到第一判断模块;

第二训练模块,用于随机选择电池控制动作,然后由hdp-2网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到第一判断模块;

第一判断模块,用于判断今日是否是月底,如不是,则将日期加1,并转到循环模块,否则转到第二判断模块;

第二判断模块,用于判断是否达到最大循环次数,如还未达到,则转到hdp网络生成模块,否则转到输出模块;

输出模块,用于输出最佳结果并显示成本。

进一步地,所述hdp-1网络和hdp-2网络均包括:

基础数据初始化模块:基础数据初始化;

第一计算模块,用于计算评价误差ec,并更新权值,重新计算j;

第一判断子模块,用于判断是否ec<ec(max)或权值更新次数达到上限,如果是则转到第二计算模块,否则返回第一计算模块;

第二计算模块,用于计算评价误差ea,并更新控制权值;

第二判断子模块,用于判断是否ea<ea(max)或权值更新次数达到上限,如果是则转到重生成模块,否则返回第二计算模块;

重生成模块,用于根据控制网络重新生成u(t)。

与现有技术相比,本发明提供的基于启发式动态规划的储能系统的调度方法及调度系统,在考虑储能系统寿命、用户实时电价的基础上根据天气分类使用两种神经网络来训练hdp模型,在调度算法中应用了天气预报系统,根据两种天气类型(晴天、阴天)设计不同的hdp网络,令其分别管理晴天和阴天的调度计算,使得系统能够适应自身所在环境而进行自我更新,解决了智能楼宇微网系统存在的非线性、时变、分布式发电不确定性等导致的建模困难的问题,提升了楼宇储能调度的智能化程度。

附图说明

图1是hdp网络结构示意图;

图2是本发明实施例提供的基于启发式动态规划的储能系统的调度方法的流程示意图;

图3是hdp网络训练流程示意图;

图4是本发明实施例提供的基于启发式动态规划的储能系统的调度系统的组成示意图;

图5是hdp网络组成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步详细说明。

如图1所示,hdp网络利用逐步逼近的方式求解调度问题:首先给定一个控制动作,系统在该动作下发生状态转移,评价网络将根据动作效果对该控制动作进行评价,然后控制网络根据评价结果反馈并进行策略提升。最优控制动作可通过不断重复这一过程找出。图中,系统状态包括用户负荷、rrtp、天气情况、储能系统状态等;h(t)为评价网络的输出,虚线为策略评价和策略升级的权值调整路径;评价网络负责完成规划策略评价,行动网络u(t)负责完成规划策略升级,两者均由神经网络构成;wc、wa分别为评价可调权值和控制可调权值;ec、ea分别为评价误差和控制误差。

如图2所示,本发明实施例提供的基于启发式动态规划的储能系统的调度方法,包括:

步骤1:数据初始化;

步骤2:随机生成两个hdp网络:hdp-1网络和hdp-2网络;并对两个hdp网络赋予初始参数;

步骤3:开始循环,并判断天气类型,如为晴天,则转到步骤4,如为阴天则转到步骤5;

步骤4:随机选择电池控制动作,然后由hdp-1网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到步骤6;

步骤5:随机选择电池控制动作,然后由hdp-2网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到步骤6;

步骤6:判断今日是否是月底,如不是,则将日期加1,并转到步骤3,否则转到步骤7;

步骤7:判断是否达到最大循环次数,如还未达到,则转到步骤2,否则转到步骤8;

步骤8:输出最佳结果并显示成本。

在步骤4和步骤5中,优先处理光伏出力。

如图3所示,hdp-1网络和hdp-2网络进行训练的方法均包括:

步骤s1:基础数据初始化;

步骤s2:计算评价误差ec,并更新权值,重新计算j;

步骤s3:判断是否ec<ec(max)或权值更新次数达到上限,如果是则转到步骤s4,否则返回步骤s2;

步骤s4:计算评价误差ea,并更新控制权值;

步骤s5:判断是否ea<ea(max)或权值更新次数达到上限,如果是则转到步骤s6,否则返回步骤s4;

步骤s6:根据控制网络重新生成u(t)。

hdp网络训练学习过程如图3所示,当评价网络的训练达到稳态后,评价网络可直接作为“系统状态”到“成本开销”的映射。

如图4所示,基于上述调度方法,本发明实施例还提供了一种基于启发式动态规划的储能系统的调度系统,该系统包括:

系统初始化模块1,用于数据初始化;

hdp网络生成模块2,用于随机生成两个hdp网络:hdp-1网络和hdp-2网络;并对两个hdp网络赋予初始参数;

循环模块3,用于开始循环,并判断天气类型,如为晴天,则转到第一训练模块4,如为阴天则转到第二训练模块5;

第一训练模块4,用于随机选择电池控制动作,然后由hdp-1网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到第一判断模块6;

第二训练模块5,用于随机选择电池控制动作,然后由hdp-2网络进行训练,并尝试在指定时间内找到最佳控制策略,计算完成后,保留权重,转到第一判断模块6;

第一判断模块6,用于判断今日是否是月底,如不是,则将日期加1,并转到循环模块3,否则转到第二判断模块7;

第二判断模块7,用于判断是否达到最大循环次数,如还未达到,则转到hdp网络生成模块2,否则转到输出模块8;

输出模块8,用于输出最佳结果并显示成本。

进一步地,hdp-1网络和hdp-2网络均包括:

基础数据初始化模块9:基础数据初始化;

第一计算模块10,用于计算评价误差ec,并更新权值,重新计算j;

第一判断子模块11,用于判断是否ec<ec(max)或权值更新次数达到上限,如果是则转到第二计算模块12,否则返回第一计算模块10;

第二计算模块12,用于计算评价误差ea,并更新控制权值;

第二判断子模块13,用于判断是否ea<ea(max)或权值更新次数达到上限,如果是则转到重生成模块14,否则返回第二计算模块12;

重生成模块14,用于根据控制网络重新生成u(t)。

该调度系统与上述调度方法对应,该调度系统中的各模块与上述调度方法中的各步骤一一对应,用于执行上述调度方法中的对应步骤,在此不再赘述。

上述实施例仅为优选实施例,并不用以限制本发明的保护范围,在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1