一种基于多智能体的分布式能源枢纽的调度方法与流程

文档序号：17727708发布日期：2019-05-22 02:37阅读：189来源：国知局

本发明涉及分布式能源调度技术领域，尤其涉及一种基于多智能体的分布式能源枢纽的调度方法。

背景技术：

能源系统应当对各类用户提供安全可靠、合乎标准的电能，时刻满足电力用户即负荷的电量需求。在满足用户需求的同时，应提高能源利用率，降低碳排放和提高能源使用的灵活性。在此背景下，提出了能源枢纽的概念，能源枢纽可用于不同能源载体之间的转化，存储和调度。在此基础上，本专利提出了一种基于多智能体讨价还价博弈学习算法的分布式能源枢纽经济调度方法。现有的调度优化方法大都属于集中式优化算法，容易给处理器带来较大的计算压力。同时随着规模和复杂度的上涨，难以找到最优解。

技术实现要素：

本发明所要解决的技术问题在于，提供一种多智能体的分布式能源枢纽的调度方法，该方法能够在分布式能源枢纽中有效求得平衡点，并能有效提高最优解的精确性。

为了解决上述技术问题，本发明提供一种基于多智能体的分布式能源枢纽的调度方法，包括如下步骤：

s1、将输出最多种类能源载体的枢纽设置为售电方智能体，其余枢纽设置为购电方智能体，并确定调度的目标函数；

s2、购电方智能体确定是否接受售电方智能体确定的当前最优联合动作策略，若不接受，则执行步骤s3；

s3、购电方智能体确定其能源产量，

s4、购电方智能体计算其对应的能源产量对应的动作值，形成每一个购电方智能体的产量-动作对；

s5、购电方智能体计算产量-动作对的奖励函数，并根据奖励函数更新可控变量的知识矩阵；

s6、购电方智能体根据更新的知识矩阵更新动作策略，与售电方智能体进行博弈。

其中，所述s1中确定的目标函数为：

其中，fi(x)为发电成本，fc(x)为电能损耗，x为整个能源系统的可控变量，包括每个能源载体的产量和每个分配因子；xm表示第m个能源集线器的可控变量向量；小标m和p分别表示第m个能源集线器和第p个能源载体，m表示能源集线器的总数量，p是能源载体的集合；表示能源系统的第p个能源载体的需求，nm^p为与第m个能源集线器的第p个输入能源载体相关联的能源数量，nm^e是第m个能源集线器具有阀点效应的发电机数量，和是第j个能源的第一、第二、第三成本系数；and为考虑发电机取值点效应的附加整流正弦分量的第一、第二成本系数；为第j个能源的输入，为第j个能源的发电机的出力下限，和分别为第p个能源对第m个能源集线器的能源输入和输出。

其中，所述步骤s2中售电方智能体确定的最优联合动作策略为：

其中，k表示迭代次数；xk^*表示第k次迭代的最优联合动作策略；表示第i个购电方智能体的讨价还价行动策略；表示在第(k-1)次迭代中，除了第i个智能体，其他购电方智能体的联合行动策略；为第k-1次迭代中购电方智能体的联合博弈策略，ui表示第i个购电方智能体的效用函数；n表示购电方智能体的数目；us表示售电方智能体的效用函数。

其中，所述步骤s3具体包括：

其中，表示第i个购电方智能体的能源产量，和分别是第i个购电方智能体在第v个状态的下界和上界；和分别为第j个购电方智能体的输入上下界，表示第p个输入能源载体对第m个能源集线器的当前能源输出量。

其中，所述步骤s4具体包括：

其中，是第k次迭代中，第i个购电方智能体的第h个可控变量的知识矩阵，q0是[0,1]内的随机值；ε是开发率；arand表示随机动作；表示对第i个智能体来说，第h个变量在第d个区间的最优值；和分别表示第d个区间的上界和下界；和分别表示第h个变量的上界和下界；aih是xih的动作空间；δ(k,y)表示随着迭代次数增长的衰减函数，y为所述衰减函数的输入变量，r是[0,1]内的随机值；b是表征了非一致性程度的系统参数；kmax表示最大迭代次数，是第i个购电方智能体的第h个可控变量的动作范围，是第i个购电方智能体的第h个可控变量的动作值。

其中，所述步骤s5中计算获得的奖励函数为：

其中，fi^kj表示在第k次迭代中，第j个智能体的适应度函数；pm是正系数；sai^best表示在第k次迭代，第i个智能体的最优动作集；f为前述惩罚函数；nci表示对第i个购电方智能体的约束数目；pfi^u表示对第i个购电方智能体第u个约束的惩罚函数；χ是惩罚因数；zi^u表示对第i个购电方智能体的第u个约束；zi^u,lim表示与zi^u相对应的约束限制。

其中，所述步骤s5中根据奖励函数更新可控变量的知识矩阵具体包括：

其中，qih表示第i个购电方智能体的第h个变量的知识矩阵；δq表示知识量的增长；α表示知识学习率；γ表示折扣系数；表示第j个智能体对可控变量xih所执行的状态-动作；r(s^k,s^k+1,a^k)表示当选择动作a^k从状态s^k转移到状态s^k+1时的立即奖励；aih表示任意一个可选择的动作策略；aih表示xih的动作集；ni表示第i个购电方智能体的可控变量数目；j表示合作群的种群规模。

其中，所述步骤s6具体包括：

其中，i＝1,2,...,n。

本发明实施例的有益效果在于：采用一个售电方和n个购电方的博弈模型，首先售电方智能体确定当前最优联合动作策略，在各购电方智能体不接受售电方智能体的动作策略的情况下，各购电方智能体确定每一个可控变量的状态-动作对，并计算每一个状态-动作对的奖励函数，根据奖励函数更新知识矩阵，从而更新每一个购电方智能体的动作策略进行博弈。该方法采用一个售电方和n个购电方的博弈模型，能够在分布式能源枢纽中有效求得平衡点，本发明采用联想记忆和群体智能，能够加速知识矩阵的收敛，同时探索机制的存在能有效提高最优解的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于多智能体的分布式能源枢纽的调度方法的流程示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

以下参照图1进行说明，本发明实施例一提供一种基于多智能体的分布式能源枢纽调度方法，其包括如下步骤：

s1、将输出最多种类能源载体的枢纽设置为售电方智能体，其余枢纽设置为购电方智能体，并确定目标函数。

具体地，选择输出最多种类能源载体的集线器为售电方智能体，其余集线器为购电方智能体。

目标函数为考虑发电方的成本以及电能损耗的综合函数其中fi(x)为发电成本，fc(x)为电能损耗，x为整个能源系统的可控变量，包括每个能源载体的产量和每个分配因子；xm表示第m个能源集线器的可控变量向量；小标m和p分别表示第m和能源集线器和第p个能源载体，m表示能源集线器的总数量，p是能源载体的集合；表示能源系统的第p个能源载体的需求，fc^m和fl^m分别表示第m个能源集线器的发电成本和能源损耗，分别计算如下：

其中nm^p为与第m个能源集线器的第p个输入能源载体相关联的能源数量，nm^e是第m个能源集线器具有阀点效应的发电机数量，和是第j个能源的成本系数；and为考虑发电机取值点效应的附加整流正弦分量的成本系数；为第j个能源的输入，为第j个发电机的出力下限，和分别为第p个能源对第m个能源集线器的能源出入和输出。

s2、购电方智能体确定是否接受售电方智能体确定的当前最优联合动作策略，若不接受，则执行步骤s3。

具体地，售电方智能体根据下式确定当前最优联合策略：

其中，k表示迭代次数；xk^*表示第k次迭代的最优联合动作策略；表示第i个购电方智能体的讨价还价行动策略；表示在第(k-1)次迭代中，除了第i个智能体，其他购电方智能体的联合行动策略；为第k-1次迭代中所有购电方联合博弈策略，ui表示第i个购电方智能体的效用函数；n表示购电方智能体的数目；us表示售电方智能体的效用函数。

s3、购电方智能体确定其能源产量。

具体地，购电方各智能体若接受售电方智能体的策略，则迭代结束；若不接受，则购电方各智能体根据下式确定第一个可控变量状态，即购电方智能体的能源产量。

此处，表示第i个购电方的第k个变量的状态，即各购电方智能体的能源产量，和分别是第i个能源在第v个状态的下界和上界；和分别为第j个能源的输入上下界，表示第p个输入能源载体对第m个能源集线器的当前能源输出量。

s4、购电方智能体计算其对应的能源产量对应的动作值，形成每一个购电方智能体的产量-动作对。

具体地，每一个购电方智能体根据相应的知识矩阵对可控变量选择一个动作策略，其次根据相应区间的局部最优解，利用非均匀突变算子计算出精确值。

更具体地，每一个购电方智能体根据下式对可控变量选择一个动作策略的范围

更具体地，根据相应区间的局部最优解，利用非均匀突变算子计算出动作的精确值具体包括：

是第k次迭代中，第i个购电方智能体的第h个可控变量的知识矩阵，q0是[0,1]内的随机值；ε是开发率；arand表示随机动作；表示对第i个智能体来说，第h个变量在第d个区间的最优值；和分别表示第d个区间的上界和下界；和分别表示第h个变量的上界和下界；aih是xih的动作空间；δ(k,y)表示随着迭代次数增长的衰减函数，y为衰减函数的输入变量；r是[0,1]内的随机值；b表征了非一致性程度的系统参数；kmax表示最大迭代次数。

s5、购电方智能体计算产量-动作对的奖励函数，并根据奖励函数更新可控变量的知识矩阵。

具体地，各购电方智能体根据下式计算每一可控变量的状态-动作对的奖励函数：

其中，表示在第k次迭代中，第j个智能体的适应度函数；pm是正系数；sai^best表示在第k次迭代，第i个智能体的最优动作集；f为前述惩罚函数；nci表示对第i个购电方智能体的约束数目；pfi^u表示对第i个购电方智能体第u个约束的惩罚函数；χ是惩罚因数；zi^u表示对第i个购电方智能体的第u个约束；zi^u,lim表示与zi^u相对应的约束限制。

具体地，采用q学习进行知识矩阵更新，同时为了避免“维数灾”应采用联想记忆来存储知识。

根据奖励最大化原则，购电方智能体根据下式对每个可控变量更新知识矩阵，具体包括：

其中，qih表示第i个购电方智能体的第h个变量的知识矩阵；δq表示知识量的增长；α表示知识学习率；γ表示折扣系数；表示第j个个体对可控变量xih所执行的状态-动作对；r(s^k,s^k+1,a^k)表示当选择动作a^k从状态s^k转移到状态s^k+1时的立即奖励；aih表示任意一个可选择的动作策略；aih表示xih的动作集；ni表示第i个购电方智能体的可控变量数目；j表示合作群的种群规模。

s6、购电方智能体根据更新的知识矩阵更新策略，与售电方智能体进行博弈。

具体地，购电方智能体根据下式更新策略：

其中，i＝1,2,...,n。

本发明实施例的一种基于多智能体的分布式能源枢纽调度方法，采用一个售电方和n个购电方的博弈模型，首先售电方智能体确定当前最优联合动作策略，在各购电方智能体不接受售电方智能体的动作策略的情况下，各购电方智能体确定每一个可控变量的状态-动作对，并计算每一个状态-动作对的奖励函数，根据奖励函数更新知识矩阵，从而更新每一个购电方智能体的动作策略进行博弈。该方法采用一个售电方和n个购电方的博弈模型，能够在分布式能源枢纽中有效求得平衡点，本发明采用联想记忆和群体智能，能够加速知识矩阵的收敛，同时探索机制的存在能有效提高最优解的精确性。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴新;史军;林子钊;程韧俐;马伟哲;郑晓辉;黄双;余涛;陈俊斌;张孝顺
技术所有人：深圳供电局有限公司;华南理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。