发售集团合谋竞价实现方法、装置、设备及存储介质

文档序号：30735746发布日期：2022-07-13 04:21阅读：133来源：国知局

1.本发明涉及电力技术领域，具体的是发售集团合谋竞价实现方法、装置、设备及存储介质。

背景技术：

2.随着我国电力市场改革的进行，市场中逐渐出现越来越多的发售电一体化集团。这些集团的成员包含发电商和售电商，其资产构成具有关联重叠性，在实际电力市场运行过程中，成员之间既存在竞争也存在合作关系，这必然会对电力市场的利益分配格局产生深远影响。
3.现阶段对于单一发电商参与市场的竞价方式建模和竞价模拟技术已经较为成熟，但是随着新电改的实施，售电商也参与到电力市场中来，市场主体更加多元化，发电商和售电商之间的关系较单纯发电商之间的关系明显要复杂的多，对于售电侧，目前的研究主要分为面向用户的零售电能套餐设计的研究和参与市场的购电策略的研究；前一类对售电商的售电行为进行细致建模，将零售套餐的制定和用户对零售套餐的选择建模为主从博弈模型，对购、售电行为综合考虑，分析售电商作为市场中介，扩大市场份额，提高用户满意度的最佳购售电策略，后一类研究则更加关注售电商的购电行为，重点研究其在市场竞价中与不同市场成员间的关系，总体而言，现阶段对于售电商的研究大多集中在对售电商购售电策略的研究上，对于售电商与其他市场主体，尤其是发售电一体化集团成员间的策略报价行为研究较少，并且现有研究中对发售电一体化集团成员合谋行为建模困难；为此，现在提出发售集团合谋竞价实现方法、装置、设备及存储介质，在此基础上，构建多智能体深度双q网络算法来模拟不完全信息情况下的发售电一体化集团成员的报价行为，通过构建合谋竞价智能体进行模拟仿真，研究了在重复投标竞争过程中，发售电一体化集团成员的报价行为与轻微利他模型中发电侧和售电侧利他因子间的关系，考察了不同成员利他属性对合谋策略的影响，对于市场监管者分析现有市场运营中发/售电商的合谋动机具有指导意义。

技术实现要素：

4.为解决上述背景技术中提到的不足，本发明的目的在于提供发售集团合谋竞价实现方法、装置、设备及存储介质，用于解决现有研究中对发售电一体化集团成员合谋行为建模困难的问题。
5.本发明的目的可以通过以下技术方案实现：发售集团合谋竞价实现方法，方法包括以下步骤：
6.步骤一：基于轻微利他理论对发售电一体化集团成员合谋的行为进行建模，构建其合谋行为的轻微利他效用函数；
7.步骤二：考虑发电商和售电商的成本以及其参与市场的方式，建立对应的成本模型及收益模型，构建适合深度强化学习算法的简化三段式报价方法，以最大化轻微利他效用函数建立起发电商竞价模型和售电商竞价模型。
8.进一步地，通过轻微利他理论对不同主体进行合谋后得到的效用进行量化，计算得到轻微利他效用，为后续发电商合谋竞价模型和售电商竞价模型中的目标函数提供计算依据。
9.进一步地，所述简化三段式报价方法包括：
10.发电商简化分段报价模型，基于边际成本的三段式阶梯报价，将机组的出力上限与出力下限的差值分为三等分，每段的边际成本为每段终止容量对应的边际成本，每段的报价是在边际成本的基础上乘以一个报价系数，对于新能源发电商，在进行全生命周期的成本分摊后可以得到机组的度电成本，所述度电成本为定值，新能源机组可以以该值为基准点上下浮动进行竞价；
11.售电商简化分段报价模型，将用户按照重要程度进行分类，将不同类型用户的用电量累加，形成多个报价段。
12.进一步地，所述发电商竞价模型建立以最大化轻微利他效用函数为目标，以发电商分段报价参与市场、发电出力限制以及市场出清结果限制为约束的发电商合谋竞价模型；所述售电商竞价模型为建立以最大化轻微利他效用函数为目标，以售电商分段报价参与市场、发电出力限制以及市场出清结果限制为约束的售电商合谋竞价模型。
13.进一步地，发售集团合谋竞价实现装置，包括：ma-ddqn算法网络构建模块、竞价动作转换模块和ma-ddqn算法训练模块；
14.所述ma-ddqn算法网络构建模块用于构建ma-ddqn算法中由current q network和target q network所构成的深度q网络，以及构建经验回放库；
15.所述竞价动作转换模块用于在训练过程中按照e-greedy策略选择竞价动作，并将离散的竞价动作转换为向市场出清模型提交的竞价曲线；
16.所述ma-ddqn算法训练模块用于根据ma-ddqn算法与市场出清模型互动获得的历史数据训练深度q网络，通过多次训练迭代提升ma-ddqn算法的性能。
17.进一步地，一种设备，包括：
18.一个或多个处理器；
19.存储器，用于存储一个或多个程序；
20.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种容量市场增量拍卖的方法。
21.进一步地，一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于上述的一种容量市场增量拍卖的方法。
22.本发明的有益效果：
23.本发明在使用的过程中，基于轻微利他理论对发售电一体化集团成员合谋的行为进行建模，构建其合谋行为的轻微利他效用函数，然后根据考虑发电商和售电商的成本以及其参与市场的方式，建立对应的成本模型及收益模型，构建适合深度强化学习算法的简化三段式报价方法，以最大化轻微利他效用函数建立起发电商竞价模型和售电商竞价模型，并且在使用轻微利他理论对发售电一体化集团成员间的合谋行为进行量化建模，以此将发电商和售电商建模为以最大化轻微利他效用为目标的竞价智能体，通过模拟仿真来研究售电侧开放后不同发展程度下可能存在的市场力运用问题，为市场策略的制定提供参考。
附图说明
24.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；
25.图1是本发明的流程图。
具体实施方式
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
27.如图1所示，发售集团合谋竞价实现方法，方法包括以下步骤：
28.轻微利他效用计算方法，通过轻微利他理论对不同主体进行合谋后得到的效用进行量化，计算得到轻微利他效用，为后续发电商合谋竞价模型和售电商竞价模型中的目标函数提供计算依据。轻微利他效用计算方法具体如下：假设γ＝{i；x1,...,xn；f1,...,fn}是一个由n个参与者的博弈，其中i＝{1,...,n}为成员集合，xi为成员i的策略集，fi:x
→
r为成员i的效用函数，那么成员i的轻微利他效用函数可以用如下公式表述：
[0029][0030]
式中：hi(x)为轻微利他效用函数；0≤ε＜1，ε为轻微利他因子，是一个较小值，表示利他是较为轻微的、适度的；fj(x)为成员j的效益。
[0031]
所述的发电商合谋竞价模型，主要包括传统机组的成本收益模型、发电商分段报价模型和考虑轻微利他效用的发电商合谋竞价模型。
[0032]
传统机组的成本、收益模型，用来计算传统机组在参与市场后的成本、收益与出清电量之间的关系。传统机组的成本、收益建模如下：
[0033][0034][0035][0036]
式中：ci(pi)为发电商i的燃料成本函数；pi为发电商i的出力；ai、bi、ci分别为燃料成本的一项次系数、二次项系数和常数项系数，g表示发电商集合；为发电商i的边际成本函数；f
gi
为发电商i的收益；λ为市场出清电价。
[0037]
发电商分段报价模型，用于对实际发电商的分段报价曲线进行简化，使基于深度强化学习的发电商报价智能体可以给出类似真实发电商所提交的分段报价曲线。发电商报价方式建模为基于边际成本的三段式阶梯报价，将机组的出力上限减去出力下限并三等分，每段的边际成本为每段终止容量对应的边际成本，每段的报价是在边际成本的基础上乘以一个报价系数。对于新能源发电商，在进行全生命周期的成本分摊后可以得到机组的度电成本，该度电成本近似为一个定值，新能源机组可以以该值为基准点上下浮动进行竞价，因此，在一定程度上，新能源机组也可以基于本文所建立的模型进行报价，只是其系数a
是一个接近于0的值，表明其边际成本接近固定值。发电商的报价函数记为：
[0038][0039]
式中：b
gi
(pi)为发电商i的分段报价函数；pi为发电商i的报量；k
gi
为发电商i的电能投标系数；p
gimin
为机组的最小出力；p
gi1
、p
gi2
、p
gimax
分别为三段式报价的终止容量。
[0040]
考虑轻微利他效用的发电商合谋竞价模型，用来对发售电一体化集团成员合谋的效益进行量化处理，以最大化轻微利他效用作为目标函数，以参与市场的方式作为约束建立合谋竞价模型。在引入轻微利他理论后，发电商竞价目标由最大化自身收益变为最大化轻微利他效用函数，即在综合考虑其他市场成员收益的基础上，尽可能地最大化自身收益，具体模型如下：
[0041][0042][0043]
式中：hi(k
gi
)为发电商i的轻微利他效用函数；λ为市场批发价格；ci(pi)为发电商i的燃料成本函数；ε为轻微利他因子，是一个较小值，表示利他是较为轻微的；fn(kn)为成员n的利益；n为合谋集团中的市场成员；goal为社会福利，即市场出清的目标函数；ki为发电商i的报价系数；k
gimin
、k
gimax
分别为报价系数的最小值和最大值。本发明使用深度强化学习算法ddqn模拟单一市场主体的竞价行为，通过智能算法的探索尝试，寻找其最优竞价策略以及对应的最优报价系数ki。
[0044]
所述售电商合谋竞价模型，主要包括售电商的售电收益模型、售电商分段报价模型和考虑轻微利他效用的售电商合谋竞价模型。
[0045]
售电商的售电收益模型，用来计算售电商在参与市场后的成本、收益与出清电量之间的关系，售电商的售电收益建模如下：
[0046][0047]
式中：f
gi
为售电商j的收益；π为电能零售价格；λ为市场出清电价；qj为售电商j的出清电量；d为售电商的集合。
[0048]
售电商分段报价模型，用于对实际售电商的分段报价曲线进行简化，使基于深度强化学习的售电商报价智能体可以给出类似真实售电商所提交的分段报价曲线。售电商在参与市场交易时，将用户按照重要程度分类，并将不同类型用户的用电量累加，形成多个报价段。本文假设售电商采用三段阶梯式报价，每段报价为报价系数乘以基准报价曲线，其报价函数如下：
[0049][0050]
式中：b
dj
(qj)为售电商j的分段报价函数；qj为售电商j的报量；k
dj
为售电商j的电能投标系数；aj、bj分别为报价曲线的一次项系数和常数项；q
djmin
为售电商的最小报量；qdj1
、q
dj2
、q
djmax
分别为三段式报价的终止容量。
[0051]
考虑轻微利他效用的售电商合谋竞价模型，用来对发售电一体化集团中售电商的合谋竞价行为进行建模。对于参与现货市场报价的售电商，同样基于轻微利他理论建立最大化轻微利他效用函数的竞价模型：
[0052][0053][0054]
式中：hj(x)为售电商j的轻微利他效用函数；π为电能零售价格；λ为市场批发电价；ε为轻微利他因子；k
djmin
、k
djmax
分别为售电商j报价系数的最小值和最大值。
[0055]
发售集团合谋竞价实现装置，包括：ma-ddqn算法网络构建模块，竞价动作转换模块和ma-ddqn算法训练模块，ma-ddqn算法网络构建模块用来构建ma-ddqn算法中由current q network和target q network所构成的深度q网络，以及构建经验回放库；竞价动作转换模块用来在训练过程中按照e-greedy策略选择竞价动作，并将离散的竞价动作转换为可以向市场出清模块提交的竞价曲线；ma-ddqn算法训练模块，用来根据算法与市场出清模型互动获得的历史数据训练深度q网络，通过多次训练迭代提升算法的性能。
[0056]
需要进一步进行说明的是，在具体实施过程中，ma-ddqn算法网络构建模块具体包括：深度q网络构建单元，用于建立ma-ddqn算法中的current q network和target q network两个神经网络，两个网络结构相同，输入是市场状态，输出是不同竞价动作的动作价值，网络的参数分别记为θ和θ’；经验回放库构建模块用于存储智能体与市场出清模块交互的历史数据，每条历史数据包括当前市场状态，报价系数，奖励和下一个状态4个信息。
[0057]
竞价动作转换模块包括：策略竞价动作选择单元和竞价动作转换单元。策略竞价动作选择单元，用于按照ε-greedy策略选择离散的竞价动作，具体选择方法为：将当前市场状态输入current q network得到所有动作的动作价值，根据网络给出的结果选择动作价值最高的动作，记为a
greedy
；随机在所有的竞价动作中选择一个竞价动作，记为a
random
。对于这两个动作按照如下规则进行选择：
[0058][0059]
式中，为最终选择的动作，c为0～1之间的随机数，ε为ε-greedy策略中的贪婪因子。
[0060]
竞价动作转换单元，用于将策略竞价动作选择单元给出的离散的竞价动作转换为竞价曲线。
[0061]
ma-ddqn算法训练模块包括：current q network更新单元和target q network更新单元。current q network更新单元用于根据从经验回放库中抽取的历史数据，对current q network的网络参数进行训练；target q network更新单元用于根据current q network的训练程度对target q network的网络参数进行训练。
[0062]
current q network更新单元中，神经网络的损失函数定义如下：
[0063]
[0064]
yi＝ri+γq'(s
i+1
,a'|θ')
[0065]
式中：l(θ)为损失函数，n为算法每批次从优先经验回放库中抽取的样本数量；yi为网络输出结果训练的目标值；ri为负荷报价所获得的收益；γ为后续收益折扣值；current q network输出公式中的q(si,ai|θ)，即负荷侧智能体在状态si下采取报价动作ai所对应的q值；target q network输出公式中的q’(si+1,a’|θ’),即负荷侧智能体在下一个状态si+1下采取动作a’所对应的q值。
[0066]
对于current q network，它的训练目标是最小化损失函数l(θ)，以此为目标对网络参数θ进行梯度下降训练。
[0067]
target q network更新单元，用于提供对下一个状态下算法所选择的报价动作的收益进行估计。target q network不通过迭代训练来更新网络参数θ’，而是通过软更新(soft update)的方式来更新网络参数。具体更新方式如下：
[0068]
θ'
new
＝πθ+(1-π)θ'
[0069]
式中：θ'
new
为更新后的target q network网络参数；π为软更新率，是一个较小值；为current q network的网络参数，其作为更新的目标；θ'为target q network的网络参数。
[0070]
一种设备，包括：
[0071]
一个或多个处理器；
[0072]
存储器，用于存储一个或多个程序；
[0073]
当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种容量市场增量拍卖的方法。
[0074]
一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述的一种容量市场增量拍卖的方法。
[0075]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王蓓蓓刘飞宇
技术所有人：东南大学
我是此专利的发明人

上一篇：一种灰铸铁管边端全自动打磨设备的制作方法
上一篇：漂浮舱舱内环境检测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。