基于知识融合与深度强化学习的紧急切机决策方法

文档序号:32785791发布日期:2023-01-03 18:44阅读:34来源:国知局
基于知识融合与深度强化学习的紧急切机决策方法

1.本发明属于电力系统稳定性控制领域,更具体地,涉及一种基于知识融合与深度强化学习的紧急切机决策方法。


背景技术:

2.紧急控制是在发生严重故障后,为保证电力系统安全稳定采取的重要控制措施。一般有离线决策-实时匹配、在线整定-实时匹配、实时匹配-实时控制这三种控制模式。后两种控制模式所需的超实时仿真和高效计算的仿真模型要求较高。离线决策-实时匹配控制模式下决策投入速度快,且经过仿真校核安全可靠,目前实际电网中紧急控制主要采用该模式。
3.传统决策制定方式下,专家根据经验反复试凑出有效决策。随着电网规模扩大、网架结构更复杂,这种人工决策方式存在一定局限性。为实现决策自动化搜索,一些研究将问题转化为一个带暂稳约束的最优控制问题,并用优化算法求解最优决策量,但应用中可能存在收敛性问题,在控制对象多时搜索空间较大,计算量也不小。
4.深度强化学习(deep reinforcement learning,drl)算法的快速发展为紧急控制决策制定提供了新思路。应用drl求解紧急控制决策问题有望减少人工成本,提升决策制定效率。目前drl已在频率控制、发电机自动控制、振荡阻尼控制、切机控制等领域进行了研究探索。在紧急控制中,切机控制是最为常见和有效的控制措施,但现有基于drl的决策制定算法直接应用于切机决策制定时,存在马尔可夫决策过程不同、决策空间高维和领域知识利用不足的问题。如何快速有效制定紧急切机控制措施,是目前亟待解决的技术问题。


技术实现要素:

5.针对现有技术的缺陷和改进需求,本发明提供了一种基于知识融合与深度强化学习的紧急切机决策方法,其目的在于解决现有紧急切机方法严重依赖专家经验所导致的可靠性不高且耗时长的问题。
6.为实现上述目的,按照本发明的一个方面,提供了一种基于知识融合与深度强化学习的紧急切机决策方法,包括:s1,根据任一故障工况相应的故障条件以及当前紧急切机控制策略,仿真得到故障后的第一母线电压和第一发电机功角数据;s2,将所述第一母线电压和所述第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略;s3,根据所述故障条件以及新的紧急切机控制策略,仿真得到故障后的第二母线电压和第二发电机功角数据,并计算相应的奖励;s4,多次重复执行所述s1-s3,得到不同故障工况下的第一母线电压、第一发电机功角数据、新的紧急切机控制策略、第二母线电压、第二发电机功角数据和奖励并作为第一样本;s5,利用所述第一样本训练所述bdq网络智能体;s6,重复执行所述s1-s5直至训练后bdq网络智能体决策得到的紧急切机控制策略有效,基于最后一次训练确定故障工况与最优紧急切机控制策略之间的对应关系。
7.更进一步地,还包括:电网运行过程中,当检测到故障时,利用所述对应关系中与
故障对应的最优紧急切机控制策略进行紧急切机控制。
8.更进一步地,所述bdq网络智能体采用增量式决策模式,其决策得到的紧急切机控制策略中的动作为决策增量,当前的紧急切机控制策略为所述决策增量与上一次紧急切机控制策略之和。
9.更进一步地,方法还包括:设定探索概率的初始值,所述探索概率随训练次数呈指数衰减;所述s2包括:若当前的探索概率大于概率阈值,从功角摆飞的发电机节点中随机选择发电机节点切机,并作为新的紧急切机控制策略;否则,将所述第一母线电压和所述第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略。
10.更进一步地,所述s5中按照预设比例选取所述第一样本和优质决策样本,利用选取的样本训练所述bdq网络智能体;其中,所述优质决策样本为优化算法求得的决策样本,和/或,为基于历史数据确定的决策样本。
11.更进一步地,所述bdq网络智能体包括双重q子网络和竞争q子网络,所述竞争q子网络包括价值分支,所述双重q子网络包括n个优势分支,n为所述bdq网络智能体可同时决策的发电机的最大台数。
12.更进一步地,所述s2包括:将所述第一母线电压和所述第一发电机功角数据输入预置的bdq网络智能体,得到共享表征;所述价值分支将所述共享表征映射为价值,各所述优势分支分别将所述共享表征映射为相应发电机子动作的优势;根据所述价值和相应发电机子动作的优势,决策得到相应发电机新的紧急切机控制策略。
13.按照本发明的另一个方面,提供了一种基于知识融合与深度强化学习的紧急切机决策系统,包括:第一仿真模块,用于根据任一故障工况相应的故障条件以及当前紧急切机控制策略,仿真得到故障后的第一母线电压和第一发电机功角数据;决策模块,用于将所述第一母线电压和所述第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略;第二仿真模块,用于根据所述故障条件以及新的紧急切机控制策略,仿真得到故障后的第二母线电压和第二发电机功角数据,并计算相应的奖励;样本生成模块,用于多次重复执行所述第一仿真模块、决策模块和第二仿真模块,得到不同故障工况下的第一母线电压、第一发电机功角数据、新的紧急切机控制策略、第二母线电压、第二发电机功角数据和奖励并作为第一样本;训练模块,用于利用所述第一样本训练所述bdq网络智能体;确定模块,用于重复执行所述第一仿真模块、决策模块、第二仿真模块、样本生成模块和训练模块,直至训练后bdq网络智能体决策得到的紧急切机控制策略有效,基于最后一次训练确定故障工况与最优紧急切机控制策略之间的对应关系。
14.按照本发明的另一个方面,提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如上所述的基于知识融合与深度强化学习的紧急切机决策方法。
15.按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的基于知识融合与深度强化学习的紧急切机决策方法。
16.总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
17.(1)提出一种基于知识融合与深度强化学习的紧急切机决策方法,针对紧急切机问题设计马尔可夫决策过程以及智能体的动作-决策空间,智能体通过交互产生样本并不
断训练更新网络,训练完成后可对给定工况直接输出有效的切机决策,无需依赖专家经验,可靠性高且耗时短,可快速可靠地完成紧急切机;
18.(2)采用应用分支竞争q网络(branching dueling q network,bdq)作为智能体,可产生高维决策空间,以同时生成多个可控发电机的紧急切机控制策略;
19.(3)设计增量式动作-决策转换关系,算例结果表明,相比其他网络结构,使用增量式bdq网络结构在决策总迭代次数、总成功次数、总回报三个指标上具有更优性能;
20.(4)提出了指数衰减的探索-贪婪策略来训练bdq网络智能体,在训练初期探索出有效的控制措施来训练网络本身,提高bdq网络智能体训练的准确度和效率。
附图说明
21.图1为本发明实施例提供的基于知识融合与深度强化学习的紧急切机决策方法的流程图;
22.图2为本发明实施例提供的基于知识融合与深度强化学习的紧急切机决策方法的框架图;
23.图3为本发明实施例提供的bdq网络智能体的结构图;
24.图4a为本发明实施例提供的覆盖式决策模式的示意图;
25.图4b为本发明实施例提供的增量式决策模式的示意图;
26.图5a为本发明实施例提供的随机无限制决策的示意图;
27.图5b为本发明实施例提供的知识经验约束决策的示意图;
28.图6a为本发明实施例提供的纯第一样本采样的示意图;
29.图6b为本发明实施例提供的多样本源混合采样的示意图;
30.图7为本发明实施例提供的新英格兰10机39节点系统拓扑图;
31.图8为本发明实施例提供的智能体的四种神经网络结构图;
32.图9a、图9b分别为本发明实施例提供的执行bdq网络智能体策略时,切机前、切机后的功角状态;
33.图10a、图10b、图10c分别为本发明实施例提供的四种双重q网络算法的总迭代次数、总决策成功次数、总回报的对比示意图;
34.图11a、图11b、图11c分别为本发明实施例提供的采用知识经验引导前后决策的总迭代次数、总决策成功次数、总回报的对比示意图;
35.图12a、图12b、图12c分别为本发明实施例提供的采用多样本源混合训练前后决策的总迭代次数、总决策成功次数、总回报的对比示意图;
36.图13为本发明实施例提供的基于知识融合与深度强化学习的紧急切机决策系统的框图;
37.图14为本发明实施例提供的电子设备的框图。
具体实施方式
38.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。
39.在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
40.图1为本发明实施例提供的基于知识融合与深度强化学习的紧急切机决策方法的流程图。参阅图1,结合图2-图12c,对本实施例中基于知识融合与深度强化学习的紧急切机决策方法进行详细说明,方法包括离线预决策阶段,离线预决策阶段整体框架图如图2所示,包括操作s1-操作s6。
41.操作s1,根据任一故障工况相应的故障条件以及当前紧急切机控制策略,仿真得到故障后的第一母线电压和第一发电机功角数据。
42.具体地,随机选取一个故障工况,根据该故障工况相应的故障条件以及相应的当前紧急切机控制策略,基于电力系统分析综合程序(power system analysis software package,psasp),仿真得到该故障工况下故障后的当前母线电压和当前发电机功角数据,即第一母线电压和第一发电机功角数据。
43.操作s2,将第一母线电压和第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略。
44.根据本发明的实施例,方法还包括:设定探索概率的初始值,探索概率随训练次数呈指数衰减。此时,操作s2包括以下两种情况:若当前的探索概率大于概率阈值,从功角摆飞的发电机节点中随机选择发电机节点切机,并作为新的紧急切机控制策略;否则,将第一母线电压和第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略。概率阈值例如为0.9;随机选择发电机节点切机,优选地,选择切除先跑飞的发电机。
45.本实施例中,bdq网络智能体采用指数衰减的探索-贪婪策略选择动作。探索是为了更好地获取环境信息,在和环境的交互过程中理解环境。在训练初期(即探索概率大于概率阈值时),由于智能体不理解环境,直接根据功角和电压数据输出的控制策略基本无效,更多需要随机探索有效的控制措施来训练网络本身,此为探索策略;在训练后期(即探索概率不大于概率阈值时),智能体已经充分理解环境,直接根据功角和电压数据大概率可得到有效的控制措施,贪婪概率更大,此为贪婪策略。需要说明的是,探索策略只在训练bdq网络智能体过程中需要,在测试bdq网络智能体的性能时,只有贪婪策略。
46.bdq网络智能体进行随机决策探索时,若如图5a所示,没有切机节点和切除机组数量的限制,很容易导致决策无效或决策量偏大。一般认为,从功角摆飞的发电机节点中切机更有可能找到有效决策,因此,本实施例对切机节点的选取进行限制,如图5b所示,每次只从功角摆飞切机节点集合中随机选择一个节点来切机,切除机组的数量也随机给定。屏蔽子集x
k+1(i)
可改写为:
[0047][0048][0049]
在添加上述知识经验的限制后,bdq网络智能体可以在与环境的交互过程中产生更多有效探索的样本。在计算资源和时间有限的情况下,用这些样本训练bdq网络智能体能
获得更好的决策性能。
[0050]
根据本发明的实施例,bdq网络智能体包括双重q子网络和竞争q子网络,竞争q子网络包括价值分支,双重q子网络包括n个优势分支,n为bdq网络智能体可同时决策的发电机的最大台数。由此,使得bdq网络智能体一次可以同时决策多台发电机。
[0051]
bdq网络智能体的结构如图3所示。根据本发明的实施例,操作s2中利用bdq网络决策出新的紧急切机控制策略包括:首先,将第一母线电压和第一发电机功角数据输入预置的bdq网络智能体,得到共享表征f;其次,价值分支将共享表征f映射为价值v(s),各优势分支分别将共享表征f映射为相应发电机子动作的优势ad(s,ad),d=1,2,

,n;最后,根据价值和相应发电机子动作的优势,决策得到相应发电机新的紧急切机控制策略。
[0052]
bdq网络智能体中,分支d的动作动作空间的维数为n,按照竞争q网络方式计算q值qd(s,a):
[0053][0054]
更新bdq网络时,可以按照双重q网络(double deep q network,ddqn)的方式计算分支d的目标q值yd:
[0055][0056]
bdq的损失函数l定义为所有分支的q值和目标q值之间的均方误差:
[0057][0058]
根据本发明的实施例,bdq网络智能体采用增量式决策模式,如图4b所示。bdq网络智能体决策得到的紧急切机控制策略中的动作为决策增量,当前的紧急切机控制策略u
k+1
为决策增量a
k+1
与上一次紧急切机控制策略uk之和。
[0059]
bdq网络智能体也可以采用覆盖式决策模式,如图4a所示。bdq网络智能体决策得到的紧急切机控制策略中的动作ak直接对应决策uk,决策u
k+1
部分覆盖决策uk。
[0060]
操作s3,根据故障条件以及新的紧急切机控制策略,仿真得到故障后的第二母线电压和第二发电机功角数据,并计算相应的奖励。
[0061]
具体地,根据上述选取的故障工况相应的故障条件以及相应的新的紧急切机控制策略,基于电力系统分析综合程序psasp,仿真得到该故障工况下故障后的当前母线电压和当前发电机功角数据,即第二母线电压和第二发电机功角数据。需要说明的是,该新的紧急切机控制策略为下一轮训练bdq网络智能体时相应故障工况的当前紧急切机控制策略。
[0062]
操作s4,多次重复执行操作s1-操作s3,得到不同故障工况下的第一母线电压、第一发电机功角数据、新的紧急切机控制策略、第二母线电压、第二发电机功角数据和奖励并作为第一样本。
[0063]
上述操作s1-操作s3为获得一个故障工况下第一样本的过程,改变操作s1中选取的故障工况,再次执行操作s1-操作s3,可以得到其它故障工况下的第一样本,多次重复,便可得到大量故障工况下的第一样本。
[0064]
操作s5,利用第一样本训练bdq网络智能体。
[0065]
本发明一实施例中,利用纯探索的样本源组成的经验池de训练bdq网络智能体,如图6a所示,经验池de是bdq网络智能体和环境交互所产生的第一样本。
[0066]
优选地,本发明另一实施例中,利用多样本源混合采样训练bdq网络智能体,如图6b所示,既包含图6a所示的经验池de,又包含优质经验池dc,优质经验池dc由失稳预想故障工况训练集上的一些优质决策样本组成。优质决策样本为优化算法求得的决策样本,和/或,为基于历史数据确定的决策样本。此实施例中,操作s5中按照预设比例选取第一样本和优质决策样本,利用选取的第一样本和优质决策样本训练bdq网络智能体。
[0067]
如下式所示,多样本源混合训练时,每次从经验池de和优质经验池dc中按比例各自抽取部分样本组成大小为b的一批样本d(b):
[0068][0069]
其中,b
c,k
、ck分别表示第k步从dc中抽取优质经验样本的数量、比例,表示向上取整运算,b
e,k
表示第k步从de中抽取的样本数量。
[0070]
操作s6,重复执行操作s1-操作s5直至训练后bdq网络智能体决策得到的紧急切机控制策略有效,基于最后一次训练确定故障工况与最优紧急切机控制策略之间的对应关系。
[0071]
根据本发明的实施例,方法还包括在线实时匹配阶段,在线实时匹配阶段包括:电网运行过程中,当检测到故障时,利用对应关系中与故障对应的最优紧急切机控制策略进行紧急切机控制。
[0072]
以新英格兰10机39节点测试系统为例,对本实施例中的方法进行具体说明,系统拓扑图如图7所示。采用如表1所示设置生成预想故障工况集合,其中包括1782个故障工况。潮流水平值表示额定状态下的倍数。
[0073]
表1
[0074]
类型具体设置数量故障类型三相金属性短路故障1故障线路除线路16-19外的所有交流线路33故障持续时间0.2s,0.25s2故障位置10%,20%,

,90%9潮流水平(发电机,负荷)(1.0,1.05),(1.1,1.15),(1.2,1.25)3
[0075]
基于仿真经验,切机决策通常具有区域性,可以按两阶段决策方式进行切机决策。首先,划分切机决策区域,确定可控切机决策节点;然后,训练智能体,确定每个工况的切机决策量。在所有工况中,由g4~g7这4个发电机节点构成的区域中暂态功角失稳工况共有170个,随机选择130个用于智能体的模型训练,剩余40个用于智能体的性能测试。
[0076]
仿真参数设置:系统的仿真步长设置为0.05s,智能体输入观测窗口为[0,t
obs
],这里t
obs
设为6s,一共有121个时间采样点,但是实际执行仿真的时长te=20s。输入特征:智能
体的输入包括两个张量,分别为所有发电机的功角δ以及所有母线的电压幅值v,维度分别为(n,9,121)和(n,39,121),这里n表示批样本数。
[0077]
神经网络的结构设计:智能体的神经网络采用一维卷积神经网络,结构如图8所示。输入特征提取的网络层包括卷积层、池化层和relu层。卷积层参数100@5(4)表示输出通道数100、卷积核大小为5、步长为4。池化层参数max@7表示采用最大池化方法、池化核大小为7。两个输入张量分别经过两个卷积网络分支后展平并拼接,然后通过线性层即全连接层转化为动作-状态值q(s,a)。
[0078]
考虑覆盖式ddqn、增量式ddqn、覆盖式bdq、增量式bdq四种结构。不同结构的神经网络输出的q(s,a)维度不同。采取覆盖式决策方式时,4个发电机节点的动作各有0~10共11种选择,而采用增量式决策时,每个节点的动作有-10~10共21种选择。如果是采用ddqn算法,则对于线性决策空间,覆盖式ddqn的输出维度是(n,44),增量式ddqn的输出维度是(n,84)。而采用bdq算法,神经网络有4个优势分支对应于4个发电机节点。最终输出的q(s,a)也要多一个维度,所以覆盖式bdq的输出维度是(n,4,11),增量式bdq的输出维度是(n,4,21)。
[0079]
智能体训练参数设置:智能体的神经网络训练总轮次n
t
=30000,经验池的容量d=10000,从经验池抽取批样本的容量b=128,目标q网络的参数同步更新周期k=20,折扣系数γ=0.1,学习速率α=10-4
,贪婪系数的初始值εs=0.9,最低值εe=0.05,衰减系数nd=4000,每个回合最大迭代次数n
l
=20,切机量的惩罚系数λ1=-0.1,切机决策有效的奖励λ2=10。智能体的神经网络使用pytorch框架编写并启用cuda加速训练,智能体通过python调用psasp仿真软件执行切机决策。
[0080]
智能体切机决策实例:以一个实际测试工况来验证智能体的切机决策效果。参阅图9a,在预想故障工况的测试集合中选择一个工况,其潮流水平为[1.1,1.1,1.15,1.15],线路23-24靠近节点23的10%处发生三相短路接地故障,故障持续0.25s。在没有施加切机决策之前,系统功角失稳,智能体根据功角和电压信息输入给出决策:节点g5切4台、节点g6切4台、节点g7切4台。参阅图9b,施加切机决策后最终系统恢复功角稳定,由于bdq网络具有多节点同时决策的能力,所以可以一次给出有效决策,减少了切机的尝试次数和耗时。
[0081]
智能体的决策性能指标:为了评估训练完成后的智能体决策性能,用总迭代次数、总决策成功次数和总回报三个性能指标进行评估,指标含义和与决策性能之间的关系参考表2。
[0082]
表2
[0083]
指标含义说明与决策性能的关系总迭代次数智能体在所有工况下决策尝试次数越小越好总决策成功次数智能体给出有效决策的工况数量越大越好总回报智能体在所有工况下获得的回报之和越大越好
[0084]
总迭代次数对应于总仿真次数,因此该指标反映了智能体决策的快速性。总决策成功次数反映了智能体给出有效决策的能力。总回报的大小与切机决策量的大小相关,在决策有效的前提下决策量越小,获得的回报越大,因此该指标反映了智能体决策质量的高低。
[0085]
前面介绍了四种dqn结构,为了比较这几种结构的优劣,对智能体在测试故障工况
集合上进行性能评估,每2000个训练轮次就进行一次评估,每种结构都在随机重复执行5次,结果如图12a、图12b和图12c所示。实线表示多次结果的平均值,浅色块表现性能指标的方差,黑色虚线表示了在完全理想状态下各最优性能的指标极限值,此时对于任意工况只需要1次尝试即可得到最优有效决策,总迭代次数最低40次,总成功次数最高40次,总回报的上界是400。
[0086]
参阅图10a、图10b和图10c,对比bdq算法和ddqn算法,不论是覆盖式还是增量式,使用bdq结构能够显著提升智能体的训练收敛速度和训练收敛后的决策性能。从原理上理解,使用bdq的多分支特性使得智能体在同时决策的探索中更容易先找到有效决策,然后在训练的过程中渐渐提升决策智能体的性能,因此,在决策智能体的构建中使用bdq结构比ddqn结构更好。然后,对比使用覆盖式和增量式两种动作-决策转换关系的性能差距,可以发现,对于ddqn结构来说差别不大,而对于bdq结构来说,使用增量式结构比覆盖式结构能够进一步提升智能体的性能。从原理上理解,使用增量式结构只需要在已有决策上进行一定的修正,通常更容易找到有效决策,所以相对降低了算法估计决策量的难度。综合来看,本发明实施例在紧急切机决策方法中,智能体使用增量式bdq结构,能够以更快的收敛速度、更好的决策有效性和决策质量实现切机决策制定。
[0087]
知识经验引导在智能体训练过程中起作用,而且无需参数设置,算例设置与前面一致。参阅图11a,智能体决策总迭代次数在使用知识经验引导探索后可以从72左右下降至52左右,比较接近于理想最低决策迭代次数40,大部分测试集上决策成功的失稳工况都是一次给出有效的切机决策。从图11b中可以发现,总决策成功次数也基本稳定在39~40次,相比于没有使用知识经验引导训练的智能体决策性能更好。从图11c中可以发现,使用知识经验引导策略前后的总回报差距不大。因此,使用知识经验引导有利于提升增量式bdq智能体训练收敛的总迭代次数和决策成功次数。
[0088]
为了验证使用多样本源混合采样训练策略后提升智能体决策性能的有效性,设置起始优质样本占比为0.9,优质样本指数衰减参数为4000,最终优质样本占比为0.3。如图12a-图12c所示,在采用多样本源混合采样训练策略后,在总迭代次数和决策成功次数上略有优势,总回报从原来的338左右提升至369左右。从原理上理解,引入优质样本后,智能体在训练过程中充分学习优质样本中决策的特点,可以提升决策质量,即以较小的切机成本使系统恢复功角稳定。但就迭代次数和决策成功次数来说,智能体的性能已接近于极限值,可提升空间较小。
[0089]
图13为本发明实施例提供的基于知识融合与深度强化学习的紧急切机决策系统的框图。参阅图13,该基于知识融合与深度强化学习的紧急切机决策系统1300包括采样第一仿真模块1310、决策模块1320、第二仿真模块1330、样本生成模块1340、训练模块1350以及确定模块1360。
[0090]
第一仿真模块1310例如执行操作s1,用于根据任一故障工况相应的故障条件以及当前紧急切机控制策略,仿真得到故障后的第一母线电压和第一发电机功角数据。
[0091]
决策模块1320例如执行操作s2,用于将第一母线电压和第一发电机功角数据输入预置的bdq网络智能体,决策得到新的紧急切机控制策略。
[0092]
第二仿真模块1330例如执行操作s3,用于根据故障条件以及新的紧急切机控制策略,仿真得到故障后的第二母线电压和第二发电机功角数据,并计算相应的奖励。
[0093]
样本生成模块1340例如执行操作s4,用于多次重复执行第一仿真模块、决策模块和第二仿真模块,得到不同故障工况下的第一母线电压、第一发电机功角数据、新的紧急切机控制策略、第二母线电压、第二发电机功角数据和奖励并作为第一样本。
[0094]
训练模块1350例如执行操作s5,用于利用第一样本训练bdq网络智能体。
[0095]
确定模块1360例如执行操作s6,用于重复执行第一仿真模块、决策模块、第二仿真模块、样本生成模块和训练模块,直至训练后bdq网络智能体决策得到的紧急切机控制策略有效,基于最后一次训练确定故障工况与最优紧急切机控制策略之间的对应关系。
[0096]
基于知识融合与深度强化学习的紧急切机决策系统1300用于执行上述图1-图12c所示实施例中的基于知识融合与深度强化学习的紧急切机决策方法。本实施例未尽之细节,请参阅前述图1-图12c所示实施例中的基于知识融合与深度强化学习的紧急切机决策方法,此处不再赘述。
[0097]
本公开的实施例还示出了一种电子设备,如图14所示,电子设备1400包括处理器1410、可读存储介质1420。该电子设备1400可以执行上面图1-图12c中描述的基于知识融合与深度强化学习的紧急切机决策方法。
[0098]
具体地,处理器1410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器1410还可以包括用于缓存用途的板载存储器。处理器1410可以是用于执行参考图1-图12c描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0099]
可读存储介质1420,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。
[0100]
可读存储介质1420可以包括计算机程序1421,该计算机程序1421可以包括代码/计算机可执行指令,其在由处理器1410执行时使得处理器1410执行例如上面结合图1-图12c所描述的方法流程及其任何变形。
[0101]
计算机程序1421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序1421中的代码可以包括一个或多个程序模块,例如包括1421a、模块1421b、
……
。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器1410执行时,使得处理器1410可以执行例如上面结合图1-图12c所描述的方法流程及其任何变形。
[0102]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1