基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法

文档序号:35541043发布日期:2023-09-23 18:01阅读:118来源:国知局
基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法与流程

本发明属于城市电网风险预防及拓扑重构,特别是涉及到一种基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法。


背景技术:

1、城市电网中的拓扑设计与备自投装置的配合减少或抵消了大部分n-1的不良影响,但n-1事件将破坏配合,存在可能导致n-1-1风险引起大面积停电事故或连锁故障的潜在风险。因城市电网存在较多备用线路,负荷转供可通过调整开关组合状态,改变负荷的供电路径,所以负荷转供常被调度部门作为控制风险问题的手段之一。然而负荷转供预案由调度人员经验决策得出,其优劣依赖于人员经验水平,缺少实际交互环节,难以全面分析防控潜在风险。

2、现有常用风险指标难以兼顾具体严重度表征能力、n-1场景适用性和全局风险防控效果保证,亟需从n-1场景进行风险分析与防控的探讨,需建立新评价指标。目前应用于城市电网重构问题较成熟、广泛的方法有三种。一种是数学优化算法,其中有多阶段优化法、非线性规划法、动态规划法,将负荷转供转化为对数学问题的求解。一种是启发式算法,分层树搜索法、支路交换法等如可以利用启发式规则减小搜索空间和降低问题复杂度,但搜索范围较大,全局搜索困难,难以适应具有混合变量与大量非线性约束的配电网重构决策。一种是元启发式算法如粒子群优化算法、遗传算法、蚁群算法等。该类算法鲁棒性较强,但无法保证解的最优性,且求解时间较长。

3、因此如何快速得到考虑交互的负荷转供策略,为电网部门提供信息支持,降低n-1新增潜在风险、电网可能n-1-1后的停电损失程度与连锁故障可能,成为城市电网关注和亟待解决的问题。


技术实现思路

1、本发明所要解决的技术问题是:提供基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法,针对城市电网n-1新增风险,新建针对表征的风险优化指标,以三阶段优化,针对负荷转供问题特性改进深度强化学习得到改进双智能体d3qn方法,求解风险防控转供策略。

2、基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法,包括以下步骤,且以下步骤顺次进行,

3、步骤一、分析电网n-1新增风险,引入备自投装置建立针对新增风险防控的负荷转供优化指标;

4、步骤二、根据所述步骤一建立优化指标的优先度将负荷转供优化分为三阶段,将三阶段模型转为深度强化学习的数学模型;

5、步骤三、采用深度强化学习d3qn算法模型为基础,设置双智能体及双经验池,分别分析负荷转供的闭合和断开,降低动作空间维度,提高优秀样本利用率;

6、步骤四、在d3qn算法基础设置预动作-变化探索值选择策略,替代原d3qn算法中的贪婪策略,启用即时奖励知识添加新选择策略并为各策略安排两个随训练过程变化的探索值,积累优质样本,提高训练速率,输出风险防控转供策略。

7、所述步骤一负荷转供优化指标为:

8、f1=min(nr)

9、其中,nr为电网中仅有一条含备用供电路径的单供变电站数;

10、f2=min(pr)

11、其中,pr为电网中仅有一条含备用供电路径的风险负荷母线所带负荷量;

12、f3=min(plmax)

13、其中,plmax为电网中最高支路负载率,最高负载率低于70时,此值为0。

14、所述步骤二三阶段模型的划分依据为:

15、第一阶段,保证变电站有含备用供电路径的两条供电路径,使变电站单供风险最小化;单供风险状态的变电站通过分列运行方式将部分负荷转供至上级、同级变电站的供电路径中,或利用备自投配合使变电站形成两条供电路径,脱离变电站单供风险;

16、第二阶段,维持单供变电站数目,将负荷最大量转至处于预动作的备自投保障区域,保证两条供电路径,使负荷损失风险最小化;

17、第三阶段,维持第一阶段和第二阶段前两阶段的优化成果,将高负载率支路下游的负荷转移至低负载率的支路,均衡各支路的负载率保证电网稳定供电。

18、所述步骤三建立的双智能体分别学习负荷转供中闭合操作与断开操作,且每次动作仅一个智能体输出实际动作,双智能体的回报函数为:

19、

20、式中,r1、r2、r3、r4为智能体奖励部分,p1、p2、p3、p4为智能体惩罚部分;

21、奖励部分为:

22、以减少风险负荷量和单供变电站数为目标,建立智能体第一、二阶段所能获得的奖励:

23、

24、r2=ptrans

25、式中,ndel,和ploadi表示累计减少的单供变电站数和第i个变电站全站带的有功负荷量;ptrans表示风险负荷转变为安全负荷的累计量;

26、第一阶段和第二阶段目标完成后,进入第三阶段优化,降低线路负载率:

27、

28、式中,r表示当前状态r1和r2的奖励,p3表示当前状态与辐射状运行相关的惩罚函数,pm0和pm1表示当前动作前后的负载率最高支路的负载率;

29、负荷转供过程中导致配电网出现环网,通过设置奖励r4使每次负荷转供后恢复配电辐射状结构,

30、

31、式中,g表示当前动作后的配电网拓扑状态,g表示电网中所有配电网辐射状结构组合;

32、惩罚部分为:

33、针对智能体动作过程不满足电压幅值约束情况建立惩罚:

34、

35、式中,ui表示第i个节点的电压标幺值,而uimin和uimax表示此节点的电压标幺值下限和上限;

36、根据各支路电压等级、设备型号相应的传输功率极限值,设定惩罚:

37、

38、式中,pi表示第i个支路上传输的功率值,而pimax表示此支路上传输的功率上限;

39、根据开关操作时间,设置开关动作惩罚:

40、

41、式中,no表示当前的开关动作数,当no=8时,此项惩罚抵消降低风险的奖励;

42、根据变压器及负荷风险,设置以下惩罚:

43、

44、式中,ndel0,ndel1为动作前后累计减少的单供变电站数;ptrans0,ptrans1为动作前后累计风险负荷量。

45、所述步骤三双经验池中,样本数据根据q值,及奖励值自高至低分别存储在两个经验池,q函数与q值为深度强化学习中一种价值函数与某情况下的价值,在d3qn中可由两个神经网络表达为:

46、

47、式中,si表示第i个状态,ai表示第i次动作,θ表示神经网络的参数,aa为所有动作集合,为动作向量做中心化处理。

48、所述步骤四预动作-变化探索值选择策略为:

49、采用即时奖励值作为下一动作选择的参考,每次选择动作前,q值未合适时,进行预动作运算潮流,得到下一时刻状态和即时奖励集合,添加选择即时奖励最大动作的选择机制,使智能体前期探索过程中积累优质样本;

50、采用贪婪策略保证算法收敛性,设置两个探索值ε,以三种策略配合的方式进行探索;设定的探索值ε1和ε2,并取[0,1]的随机数,其落在不同区域即采取不同动作选择策略:①为即时奖励最大动作;②为贪婪策略动作;③为随机动作;ε1和ε2的变化公式:

51、

52、

53、式中,m为当前episode数目,m为episode最大训练数目,其中ε1max=0.95,ε1min=0.55,ε2max=0.45,ε2min=0.05。

54、通过上述设计方案,本发明可以带来如下有益效果:

55、本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法,新建了针对n-1风险更有表征能力的优化指标,利用三阶段模型避免多目标引起的局部最优和权重平衡难题,而且针对负荷转供特性设置的双智能体降低动作空间维度并解决多环网难题,预动作-变化探索值选择策略替代传统贪婪策略,从动作选择和样本质量提高训练速率。本发明方法无需先验知识并实现与电网环境的逐步交互,比经验决策更能保证风险防控能力,从而能够得到更符合工程实际的城市电网n-1风险防控策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1