一种基于深度强化学习的多能流优化智能仿真方法及系统与流程

文档序号:31065181发布日期:2022-08-09 20:19阅读:343来源:国知局
一种基于深度强化学习的多能流优化智能仿真方法及系统与流程

1.本发明属于能源互联网仿真技术领域,特别涉及一种基于深度强化学习的多能流优化智能仿真方法及系统。


背景技术:

2.能源互联网建模仿真目前仍主要以物理机理模型为主,利用数学公式和物理机理构建发电机、热电联产机组、冷热电三联供、p2g、能量路由器、电网、热网等关键设备及功能网络模型;也可以数据驱动,基于海量历史数据利用深度学习、聚类分析等技术构建发电、负荷、能源耦合及储能等模型的数据驱动建模方法。建模仿真的目标是尽最大可能地数字化复现真实现场的设备、环境等关键环节,并在此基础上开展规划设计、监测分析、运行优化等内容。
3.优化运行相关研究目前主要是基于数学模型预测的方法和启发式算法实现优化。但是数学模型预测方法例如混合整数线性规划方法,依赖于预测的准确度,同时求解过程较为复杂,启发式算法如遗传算法、粒子群算法计算成本较大,实时性方面有待于提升。
4.清华大学cloudpss:基于云计算的电力系统仿真平台(cloud computing-based power system simulator,cloudpss)是一款面向能源互联网的建模仿真平台,其采用完全自主研发的电磁暂态仿真内核,利用云端的异构并行计算资源,为用户提供面向交直流混联电网、可再生能源发电、微电网、配电网、供热网等多种能源网络的建模及仿真分析功能。cloudpss云仿真为开放式云服务平台。其云服务框架,如图1所示,包含高度解耦的表现层、应用层和计算层,从而实现建模仿真过程中算例和结果、模型和算法、以及计算资源的分离。表现层与应用层之间具备数据安全隔离,可保证用户数据的隐私和安全性。应用层与计算层之间进一步通过虚拟化技术保证了模型及算法的安全性以及应用之间的独立性,从而形成高度安全、灵活、可扩展的云服务平台。
5.但是该现有技术仍存在以下技术问题:1.实现了图形化拖拽式建模,但未实现和python程序的联合调试,不能在cloudpss中直接调用深度强化学习模型;2.不能在python程序中调用cloudpss的潮流计算功能。


技术实现要素:

6.本发明的目的在于提供一种基于深度强化学习的多能流优化智能仿真方法及系统,以解决现有仿真系统软件与深度强化学习算法难以联合运算的技术问题;本发明能够实现在图形化建模仿真界面直接开展深度强化学习模型调用,以进一步实现基于仿真工具开展基于深度强化学习的运行优化智能仿真研究,大幅提高研究效率。
7.为了实现上述目的,本发明采用如下技术方案:
8.第一方面,本发明提供一种基于深度强化学习的多能流优化智能仿真方法,包括:
9.根据所述能源互联网模型设置仿真参数;
10.将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各
设备的控制策略及能源互联网模型状态信息;
11.输出所控制策略及能源互联网模型状态信息。
12.本发明进一步的改进在于:所述载入能源互联网模型的步骤中,所述能源互联网模型为预先建立的电/气/热能源系统模型。
13.本发明进一步的改进在于:所述根据能源互联网模型设置仿真参数的步骤中,所述仿真参数包括:感知环境状态、动作和奖励;
14.所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压和功率因数;热网络参数包括温度和流量;气网络参数包括压力和流量;
15.所述动作包括负荷调减、发电机出力调整和储能储热储气调整;
16.所述奖励包括发电成本、运行成本及功率越限惩罚。
17.本发明进一步的改进在于:所述将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息的步骤中,预先训练好的深度强化学习模型的训练步骤包括:
18.基于能源互联网模型设置训练用仿真参数;所述训练用仿真参数包括:感知环境状态、动作和奖励;所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压、功率因数;热网络参数包括温度、流量;气网络参数包括压力、流量;所述动作包括负荷调减、发电机出力调整、储能储热储气调整;所述奖励包括发电成本、运行成本及功率越限惩罚;
19.基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型。
20.本发明进一步的改进在于:所述基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型的步骤中,对智能体进行训练的步骤包括:
21.步骤1:设置训练python脚本,确定main()函数及迭代次数;
22.步骤2:构建行动者网络和评论家网络,根据感知环境状态,定义状态空间s为n个参数,对应输入层神经元个数为n,动作空间为负荷调减、发电机出力调整、储能储热储气调整,动作数量为m,对应输出层神经元个数为m;
23.步骤3:训练循环开始,根据能源互联网模型中各设备初始参数条件,计算电/气/热能源系统潮流参数,生成t时刻环境状态s
t

24.步骤4:行动者网络根据环境状态s
t
生成t时刻动作a
t

25.步骤5:根据t时刻动作a
t
观察能源互联网模型环境状态,并将动作更新至图形化建模模块进行潮流计算,生成t+1时刻环境状态s
t+1

26.步骤6:根据t时刻动作a
t
和t+1时刻环境状态s
t+1
计算t时刻动作a
t
的奖励值r;
27.步骤7:将由t时刻环境状态s
t
、动作a
t
、t+1时刻环境状态s
t+1
、t时刻动作a
t
的奖励值r构成的四元组{s
t
,a
t
,s
t+1
,r}作为一条样本输送至经验回放单元;
28.经验回放单元设置为更新机制:由步骤2-步骤6不断产生新的样本输送至经验回放单元,超出经验回放单元预设存储数量的老样本自动删除;经验回放单元未满时循环进行步骤2-步骤6,待经验回放单元储的样本存满后执行步骤7;
29.步骤8:利用固定batch对经验回放单元中存储的样本进行采样,计算梯度后进行
行动者网络和评论家网络的参数更新;
30.行动者网络和评论家网络根据如下损失函数进行网络学习和参数更新:
[0031][0032]
其中,y是目标行动网络q值;是目标评论网络的q值;r是奖励函数;s是状态;a是目标行动网络传给目标评论网络的关系向量;γ是折扣因子;l(θ)为目标行动网络的q值和目标评论网络的q值的平方损失;θ为目标行动网络的参数集合;e表示平均值;
[0033][0034]
其中,j是目标行动网络的目标函数;θ是目标行动网络的参数集合;s是状态;d是状态空间全集;μ表示目标行动网络输出的确定性动作;q
μ
(s,a)为采用确定性动作μ的q值;a是目标行动网络传给目标评论网络的关系;为梯度表示;
[0035]
奖励函数r基于经济性及功率平衡约束,包括发电成本、运行成本及功率越限惩罚:
[0036]
r=r1+r2+r3+r4[0037]
式中,r1表示电网运行成本;r2表示热网运行成本;r3表示气网运行成本;r4表示能量平衡约束越限惩罚;
[0038]
步骤9:输出本轮训练结果,判断循环是否达到预设结束条件,达到结束提交件则保存行动者网络和评论家网络,否则重复步骤3-步骤8。
[0039]
本发明进一步的改进在于:还包括:采用折线图、曲线图、表格中的一种或多种对输出控制策略及能源互联网模型状态信息进行展示的步骤。
[0040]
第二方面,本发明提供一种基于深度强化学习的多能流优化智能仿真系统,包括:
[0041]
智能仿真设置模块,用于根据能源互联网模型设置仿真参数;
[0042]
深度强化学习模块,用于将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息;
[0043]
结果展示模块,用于输出所述控制策略及能源互联网模型状态信息。
[0044]
本发明进一步的改进在于:所述图形化建模模块中,能源互联网模型为预先建立的电/气/热能源系统模型。
[0045]
本发明进一步的改进在于:所述智能仿真设置模块设置的仿真参数包括:感知环境状态、动作和奖励;
[0046]
所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压和功率因数;热网络参数包括温度和流量;气网络参数包括压力和流量;
[0047]
所述动作包括负荷调减、发电机出力调整和储能储热储气调整;
[0048]
所述奖励包括发电成本、运行成本及功率越限惩罚。
[0049]
本发明进一步的改进在于:所述预先训练好的深度强化学习模型的训练步骤包括:
[0050]
基于能源互联网模型设置训练用仿真参数;所述训练用仿真参数包括:感知环境
[0069]
式中,r1表示电网运行成本;r2表示热网运行成本;r3表示气网运行成本;r4表示能量平衡约束越限惩罚;
[0070]
步骤9:输出本轮训练结果,判断循环是否达到预设结束条件,达到结束提交件则保存行动者网络和评论家网络,否则重复步骤3-步骤8。
[0071]
本发明进一步的改进在于:所述结果展示模块还用于采用折线图、曲线图、表格中的一种或多种对输出控制策略及能源互联网模型状态信息进行展示。
[0072]
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现所述的基于深度强化学习的多能流优化智能仿真方法。
[0073]
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述的基于深度强化学习的多能流优化智能仿真方法。
[0074]
相对于现有技术,本发明具有以下有益效果:
[0075]
本发明提供一种基于深度强化学习的多能流优化智能仿真方法及系统,包括根据能源互联网模型设置仿真参数;将所述仿真参数输入预先训练好的深度强化学习模块,获得能源互联网模型中各设备的动作;输出所述动作并进行图形化展示。现有仿真方法基本仅实现能源互联网模型构建,仅提供潮流计算等功能,未提供和深度强化学习等智能算法的接口;本发明预先训练好的深度强化学习模型,为图形化建模与深度强化学习联合训练获得;在能源互联网建模仿真的基础上,融合应用深度强化学习模型;能够实现深度强化学习和潮流计算的联合运算。
[0076]
本发明在深度强化学习模型的训练过程中,将深度强化学习与图形化建模联合调用,深度强化学习模型计算t时刻动作a
t
观察能源互联网模型环境状态,并将动作更新至图形化建模模块进行潮流计算,生成t+1时刻环境状态s
t+1
;实现了深度强化学习和潮流计算的联合运算。
[0077]
本发明采用深度确定性策略梯度算法进行能源互联网优化运行研究,能够实时在线生成优化策略。本发明可实现在图形化建模仿真界面直接开展深度强化学习模型调用,以进一步实现基于仿真工具开展基于深度强化学习的运行优化智能仿真研究,实现研究效率的提高。
附图说明
[0078]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0079]
图1为cloudpss开放式云服务应用集成框架示意图;
[0080]
图2为本发明一种基于深度强化学习的多能流优化智能仿真方法示意图;
[0081]
图3为深度强化学习模块的示意图;
[0082]
图4为智能仿真交互示意图;
[0083]
图5为本发明一种基于深度强化学习的多能流优化智能仿真系统的结构框图;
[0084]
图6为本发明一种基于深度强化学习的多能流优化智能仿真方法流程示意图;
[0085]
图7为本发明一种电子设备的结果框图。
具体实施方式
[0086]
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0087]
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
[0088]
实施例1
[0089]
请参阅图2-5所示,本发明提出一种基于深度强化学习的多能流优化智能仿真系统,主要包括4个模块:图形化建模模块、深度强化学习模块、智能仿真设置模块和结果展示模块。其中,
[0090]
(1)图形化建模模块:用于实现电/气/热能源系统模型的图形化建模,实现数据参数、网络拓扑的拖拽式建模,并以python程序中的字典(dict)格式进行参数文件写入;本实施例图形化建模模块的算例包含33节点配网模型,热网、气网模型以巴厘岛公开数据为基础构建34节点热网模型、35节点气网模型以及能源转化设备;
[0091]
1)33节点配网模型:含2个发电机节点、32个负荷节点;
[0092]
2)34节点热网模型:含1个电锅炉节点、3个循环泵节点、1个储热装置节点、1个热电联产机组节点、30个热力负荷节点。
[0093]
3)35节点气网模型:含1个气源站节点、1个电驱动压缩机v、1个燃气锅炉节点、1个储气罐节点、34个燃气负荷节点。
[0094]
4)能源转化设备:含电驱动压缩机、燃气锅炉、电锅炉、热电联产机组、循环泵5种能源转化设备。
[0095]
(2)深度强化学习模块
[0096]
本发明中深度强化学习算法采用深度确定性策略梯度算法(ddpg),ddpg算法是强化学习算法中的一种,在强化学习中,通过智能体(agent)不断与周围环境(environment)进行交互,感知环境状态(state),依据一定的策略做出相应的动作(action),环境在接受到动作后会反馈给智能体一个动作奖励(reward)并且进入到下一个状态,然后开始循环重复上述过程,最终学习到一个最优的策略,可以最大化获得的累计奖励。
[0097]
本发明深度强化学习模块的参数设计如下:
[0098]
1)感知环境状态(state):包括电、热、气三种能源形式的多能流潮流数据,电网络的参数包括有功、无功、电压、功率因数;热网络参数包括温度、流量;气网络参数包括压力、流量。
[0099]
2)动作(action):包括负荷调减、发电机出力调整、储能储热储气调整;
[0100]
3)奖励(reward):包括发电成本、运行成本及功率越限惩罚;
[0101]
4)智能体(agent)训练:训练整体框架见图6,具体包括以下步骤:
[0102]
步骤1:设置python脚本入库,确定main()函数及迭代次数;
[0103]
步骤2:构建行动者网络和评论家网络,根据感知环境状态,定义状态空间s为n个参数,对应输入层神经元个数为n,动作空间为负荷调减、发电机出力调整、储能储热储气调整,如动作数量为m,则对应输出层神经元个数为m。根据规模大小,选择隐层数量及神经元
参数个数。
[0104]
步骤3:训练循环开始,根据能源互联网模型中各设备参数(第1轮采用初始参数)条件,计算电/气/热能源系统潮流参数,生成t时刻环境状态s
t

[0105]
步骤4:行动者网络根据环境状态s
t
生成t时刻动作a
t

[0106]
步骤5:根据t时刻动作a
t
观察能源系统环境状态,计算潮流生成t+1时刻环境状态s
t+1

[0107]
步骤6:根据t时刻动作a
t
和t+1时刻环境状态s
t+1
计算t时刻动作a
t
的奖励值(reward);
[0108]
步骤7:将由t时刻环境状态、动作、t+1时刻环境状态、t时刻动作a
t
的奖励值构成的四元组{s
t
,a
t
,s
t+1
,r}作为一条样本输送至经验回放单元;经验回放单元设置为更新机制,由步骤2-步骤7不断产生新的样本输送至经验回放单元,超出的老样本自动删除;经验回放单元未满时循环进行步骤2-步骤7,待经验回放单元储存满后执行步骤8。
[0109]
步骤8:利用固定batch进行采样,计算梯度后进行步骤2构建的行动者网络和评论家网络的深度神经网络参数更新;
[0110]
评论网络根据如下损失函数进行网络学习;
[0111][0112]
其中,y是目标行动网络q值;是目标评论网络的q值;r是奖励函数;s是状态;a是目标行动网络传给目标评论网络的关系向量;γ是折扣因子;l(θ)为目标行动网络的q值和目标评论网络的q值的平方损失;θ为目标行动网络的参数集合;e表示平均值。
[0113][0114]
其中,j是目标行动网络的目标函数;θ是目标行动网络的参数集合;s是状态;d是状态空间全集;μ表示目标行动网络输出的确定性动作;q
μ
(s,a)为采用确定性动作μ的q值;a是目标行动网络传给目标评论网络的关系;为梯度表示。
[0115]
奖励函数r设计方面主要基于经济性及功率平衡约束,包括发电成本、运行成本及功率越限惩罚。
[0116]
r=r1+r2+r3+r4[0117]
式中,r1表示电网运行成本;r2表示热网运行成本;r3表示气网运行成本;r4表示能量平衡约束越限惩罚;其中r1、r2、r3根据公开的相关文献公式计算,r4根据具体算例情况设计,本实施例设定为-100。
[0118]
步骤9:输出本轮训练结果,判断循环是否结束,结束则保存神经网络模型,未结束则重复步骤3-步骤8。
[0119]
(3)智能仿真设置模块:利用程序入口选择python程序脚本,实现深度强化学习与潮流计算的相互调用,流程见图7;具体包括以下步骤:
[0120]
步骤1:设置python脚本入库,确定main()函数及迭代次数;
[0121]
步骤2:从图形化建模模块以初始参数进行潮流计算以获取能源系统环境状态s
t

[0122]
步骤3:深度强化学习模块生成动作a
t
,并将动作更新至图形化建模模块进行潮流
计算,得到s
t+1

[0123]
步骤4:计算奖励值r;
[0124]
步骤5:更新网络参数;
[0125]
步骤6:判断循环是否结束,否则执行步骤2-5,反之,结束。
[0126]
智能仿真设置模块具有两种模式,深度强化学习模块训练阶段生成设置训练用仿真参数用于深度强化学习模块学习;实际应用中,设置真实的仿真参数供深度强化学习模块处理获得最终输出的控制策略(动作)及能源互联网模型状态信息。
[0127]
(4)结果展示模块:将图形化建模模块生成的结果进行图形化展示,包括折线图、曲线图、表格等形式。
[0128]
实施例2
[0129]
请参阅图6所示,本发明提供一种基于深度强化学习的多能流优化智能仿真方法,包括:
[0130]
s1、载入能源互联网模型;
[0131]
s2、根据所述能源互联网模型设置仿真参数;
[0132]
s3、将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息;
[0133]
s4、输出所述控制策略及能源互联网模型状态信息,并进行图形化展示。
[0134]
具体实施中,所述载入能源互联网模型的步骤中,所述能源互联网模型为预先建立的电/气/热能源系统模型。
[0135]
具体实施中,所述根据所述能源互联网模型设置仿真参数的步骤中,所述仿真参数包括:感知环境状态、动作和奖励;
[0136]
所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压和功率因数;热网络参数包括温度和流量;气网络参数包括压力和流量;
[0137]
所述动作包括负荷调减、发电机出力调整和储能储热储气调整;
[0138]
所述奖励包括发电成本、运行成本及功率越限惩罚。
[0139]
具体实施中,所述将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的动作的步骤中,预先训练好的深度强化学习模型的训练步骤包括:
[0140]
基于能源互联网模型设置训练用仿真参数;所述训练用仿真参数包括:感知环境状态、动作和奖励;所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压、功率因数;热网络参数包括温度、流量;气网络参数包括压力、流量;所述动作包括负荷调减、发电机出力调整、储能储热储气调整;所述奖励包括发电成本、运行成本及功率越限惩罚;
[0141]
基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型。
[0142]
具体实施中,所述将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的动作的步骤中,对智能体进行训练的步骤包括:
[0143]
步骤1:设置训练python脚本,确定main()函数及迭代次数;
[0144]
步骤2:构建行动者网络和评论家网络,根据感知环境状态,定义状态空间s为n个参数,对应输入层神经元个数为n,动作空间为负荷调减、发电机出力调整、储能储热储气调整,动作数量为m,对应输出层神经元个数为m;
[0145]
步骤3:训练循环开始,根据能源互联网模型中各设备初始参数条件,计算电/气/热能源系统潮流参数,生成t时刻环境状态s
t

[0146]
步骤4:行动者网络根据环境状态s
t
生成t时刻动作a
t

[0147]
步骤5:根据t时刻动作a
t
观察能源互联网模型环境状态,并将动作更新至图形化建模模块进行潮流计算,生成t+1时刻环境状态s
t+1

[0148]
步骤6:根据t时刻动作a
t
和t+1时刻环境状态s
t+1
计算t时刻动作a
t
的奖励值r;
[0149]
步骤7:将由t时刻环境状态s
t
、动作a
t
、t+1时刻环境状态s
t+1
、t时刻动作a
t
的奖励值r构成的四元组{s
t
,a
t
,s
t+1
,r}作为一条样本输送至经验回放单元;
[0150]
经验回放单元设置为更新机制:由步骤3-步骤7不断产生新的样本输送至经验回放单元,超出经验回放单元预设存储数量的老样本自动删除;经验回放单元未满时循环进行步骤3-步骤7,待经验回放单元储的样本存满后执行步骤8;
[0151]
步骤8:利用固定batch对经验回放单元中存储的样本进行采样,计算梯度后进行行动者网络和评论家网络的参数更新;
[0152]
行动者网络和评论家网络根据如下损失函数进行网络学习和参数更新:
[0153][0154]
其中,y是目标行动网络q值;是目标评论网络的q值;r是奖励函数;s是状态;a是目标行动网络传给目标评论网络的关系向量;γ是折扣因子;l(θ)为目标行动网络的q值和目标评论网络的q值的平方损失;θ为目标行动网络的参数集合;e表示平均值;
[0155][0156]
其中,j是目标行动网络的目标函数;θ是目标行动网络的参数集合;s是状态;d是状态空间全集;μ表示目标行动网络输出的确定性动作;q
μ
(s,a)为采用确定性动作μ的q值;a是目标行动网络传给目标评论网络的关系;为梯度表示;
[0157]
奖励函数r基于经济性及功率平衡约束,包括发电成本、运行成本及功率越限惩罚:
[0158]
r=r1+r2+r3+r4[0159]
式中,r1表示电网运行成本;r2表示热网运行成本;r3表示气网运行成本;r4表示能量平衡约束越限惩罚;
[0160]
步骤9:输出本轮训练结果,判断循环是否达到预设结束条件,达到结束提交件则保存行动者网络和评论家网络,否则重复步骤3-步骤8。
[0161]
具体实施中,所述输出所述动作并进行图形化展示的步骤中,所述进行图形化展示,具体为采用折线图、曲线图、表格中的一种或多种对输出动作进行展示。
[0162]
实施例3
[0163]
请参阅图7所示,本发明还提供一种基于深度强化学习的多能流优化智能仿真方
法的电子设备100;所述电子设备100包括存储器101、至少一个处理器102、存储在所述存储器101中并可在所述至少一个处理器102上运行的计算机程序103及至少一条通讯总线104。
[0164]
存储器101可用于存储所述计算机程序103,所述处理器102通过运行或执行存储在所述存储器101内的计算机程序,以及调用存储在存储器101内的数据,实现实施例2所述的基于深度强化学习的多能流优化智能仿真方法步骤。所述存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外,存储器101可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
[0165]
所述至少一个处理器102可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以是微处理器或者该处理器102也可以是任何常规的处理器等,所述处理器102是所述电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分。
[0166]
所述电子设备100中的所述存储器101存储多个指令以实现一种基于深度强化学习的多能流优化智能仿真方法,所述处理器102可执行所述多个指令从而实现:
[0167]
载入能源互联网模型;
[0168]
根据所述能源互联网模型设置仿真参数;
[0169]
将所述仿真参数输入预先训练好的深度强化学习模块,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息;
[0170]
输出所述控制策略及能源互联网模型状态信息,并进行图形化展示。
[0171]
具体地,所述处理器102对上述指令的具体实现方法可参考实施例2中相关步骤的描述,在此不赘述。
[0172]
实施例4
[0173]
所述电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器及只读存储器(rom,read-only memory)。
[0174]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0175]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0176]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0177]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0178]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1