一种考虑用户隐私保护的新能源消纳电价决策方法与流程

文档序号:35702523发布日期:2023-10-12 01:57阅读:36来源:国知局
一种考虑用户隐私保护的新能源消纳电价决策方法

本发明涉及电价决策领域,具体是一种考虑用户隐私保护的新能源消纳电价决策方法。


背景技术:

1、针对面向新能源消纳的需求响应定价策略,国内外已开展丰富的研究,主流方法可分为基于优化理论的定价、基于博弈论的定价和基于强化学习的动态定价方法。在优化理论方面,拉格朗日乘子与交替方向乘子的交叉迭代被用来来提高实时定价算法的收敛速度和精度。通过kkt(karush-kuhn-tucker)条件可以先将优化模型转换为带拉格朗日乘子的方程组,再利用光滑牛顿法求解,达到实时优化电价的快速可求。针对特性不同的用户效用函数,研究用线性分段函数不断逼近的方法,来实现实时电价的光滑求解[2]。以上述文献为代表的优化理论类求解方法,虽然可以通过传统优化方法求得可行的实时电价,但在面对虚拟电厂内数量众多、种类各异的用户时,求解的计算过程繁琐、负担较重,且无法准确模拟用户的优化决策行为,难以满足精准快速的需求响应定价要求[3]。

2、博弈论定价方法主要是基于能源供应商和负荷用户之间的互动关系来求解激励电价的。常见的博弈定价法可分为合作博弈和非合作博弈。虚拟电厂内用户侧负荷参与的虽然是涉及供需双方的博弈,但整个博弈过程是作为一个聚合整体来完成的。由于各个用户运行独立、策略不同,且虚拟电厂作为服务聚合商参与其中,因此,该过程可以被认为是多个用户主体参与的全局合作博弈,它的目的是取得联盟整体的最优效果[4]。全局合作博弈在进行最优解求解时效率较高,其难点主要在于后续利益分配机制的构建。衡量各个用户的实际响应贡献,从而进行公平的利益分配便成为虚拟电厂需要面临的挑战。此外,在实际应用中,真实的电力用户通常很难保持完美的理想博弈状态,其响应行为具有随机偏差和非完全理性的特点。这也成为制约博弈定价方法的关键问题[5]。

3、实际上,电价的动态决策过程可以被归纳为马尔科夫决策问题,即用户根据响应环境和影响因素如电价等,做出合适的负荷调整行为反馈,以获得更优的收益。强化学习是一种基于马尔科夫决策思想的神经算法,更适合求解用户与虚拟电厂环境交互的问题,近年来被广泛采用。在强化学习方面,早期研究多数集中于动态规划算法(dynamicprogramming,dp)和蒙特卡洛方法。动态规划算法的运行离不开环境模型,需要准确的状态转移概率。而在实际的电价决策时,虚拟电厂很难获取用户不同行为的概率。蒙特卡洛方法不完全依赖环境模型,可以自主从过往经验中学习并进行优化决策。但是,它更适合策略任务,并且选择动作的随机性强,决策效率相对较低。强化学习中的时间差分学习(temporal-difference learning,tdl)则结合了上述二者的优点,既不依赖环境模型,也不局限于策略任务,可以连续执行决策。但是,强化学习模型在进行训练时需要大量的用户实际数据,往往面临不同单位之间的“数据孤岛”以及用户隐私泄露等问题,亟需进行解决。

4、综上所述,当前vpp内部的需求响应电价决策方法主要面临以下问题:(1)传统的优化理论定价方法计算繁琐,当虚拟电厂内的用户数量增多时,算法效率和精准度均有限。(2)基于博弈理论的定价方法难以模拟真实用户响应行为具有的随机性,且在公平性保障机制方面有待进一步研究。(3)深度强化学习算法可以有效模拟价格激励与用户之间响应互动的真实场景,但算法运行需要庞大的真实用户数据进行支撑,威胁用户信息隐私安全,其决策效率也会受到计算离散化的限制。


技术实现思路

1、本发明所提的一种考虑用户隐私保护的新能源消纳电价决策方法,首先针对新能源消纳需求,进行灵活用户的需求响应潜力评估;随后,构建面向新能源消纳的优化模型,以减少新能源弃电量、增加新能源发电出力,平抑电网功率波动,并提升用户侧需求响应收益;进一步,本地强化学习定价算法结合用户响应潜力评估结果,以优化目标为基础,利用本地用户数据进行响应电价决策;最后,基于改进的加密横向联邦学习思想,进行响应电价决策全局模型的联合训练,在用户数据不离开本地的前提下,既保护用户隐私与用电数据的安全,实现全局电价决策的优化提升。

2、一种考虑用户隐私保护的新能源消纳电价决策方法,包括以下步骤:

3、步骤1:建立用户需求响应潜力评估模型,根据用户需求响应潜力评估模型评估用户需求响应潜力得到潜力评估结果,所述潜力评估结果包括需求响应负荷调整量和用于评估用户参与需求响应的贡献因子;

4、步骤2:构建面向新能源消纳的多目标优化模型;

5、步骤3:基于潜力评估结果与多目标优化模型,进行基于强化学习算法的本地定价模型训练;

6、步骤4:基于训练后的本地定价模型,进行本地定价算法的联合训练,实现考虑用户隐私保护的全局日前电价决策。

7、进一步的,所述步骤1包括如下步骤:

8、步骤1.1:考虑用户需求响应预测负荷调整量的数据需求,整理潜力评估模型训练所需数据集;

9、步骤1.2:基于步骤1.1整理的数据集,建立基于lstm的用户需求响应潜力评估模型,预测用户在给定电价下的需求响应负荷调整量di,t;

10、步骤1.3:根据步骤1.2的需求响应负荷调整量di,t,及后续用户的实际需求响应数据,求解用于评估用户参与需求响应的贡献因子dm。

11、进一步的,步骤1.1具体包括:

12、在模拟用户响应行为时,将一天分为t个时段,对应建立t个lstm网络,分别用lj(j=1,2,…,t)来表示,第n天的t时段记为t=nt+j,对时段t的网络,利用历史日期内对应时段的数据进行训练;输入数据包含当前时段的价格λdr,t和前m个时段的响应价格和响应负荷调整量:

13、it={(λdr,t-m,dt-m),(λdr,t+m+1,dt-m+1),…,(λdr,t+1,dt+1),λdr,t}  (1)

14、在进行训练时,对每个lstm模型,网络的输入数据集为{i1,i2,…,it+1},输出为用户响应数据集{d1,d2,…,dt+1},训练完成后,输入目标t时段的it,可得到该时段用户模拟响应的负荷调整量dt。

15、进一步的,步骤1.2具体包括:

16、lstm模型的具体训练过程由输入门、遗忘门和输出门完成,输入门结合当前输入内容it和上一时段的输出dt-1进行信息更新,并将更新部分有选择性地存储到细胞状态ct中,遗忘门决定细胞状态遗忘或更新的程度,确定被遗忘的信息,输出门基于更新后的细胞状态,计算该时刻的输出内容,即用户的响应负荷调整量,上述过程用公式表示为:

17、ft=σ(wf[ht-1,it]+bf)                         (2)

18、zt=tanh(wz[ht-1,it]+bz)                        (3)

19、it=σ(wi[ht-1,it]+bi)                          (4)

20、ct=ft·ct-1+it·zt                            (5)

21、ot=σ(wo[ht-1,it]+bo)                         (6)

22、di=ot·tanh ct                             (7)

23、其中,wi、wz、wf、wo分别表示沟通x与lstm记忆单元的输入门、遗忘门、输出门和lstm记忆单元输入的权重矩阵,bi、bz、bf、bo分别表示输入门、遗忘门、输出门和lstm记忆单元输入的偏置向量;

24、在实际训练过程中,为lstm神经元层后添加一个全连接层,用于处理最终输出的结果;历史数据集被分为测试集和验证集两部分,选择均方根误差rmse作为lstm模型反馈的损失函数,平均绝对百分误差mape作为lstm预测的误差评价,二者的计算公式分别如下:

25、

26、

27、式中,d和分别代表用户响应的实际值和预测值。

28、进一步的,步骤1.3具体包括:

29、贡献因子的主要考虑因素有响应量、响应参与率与守约情况,响应量表示用户在需要响应的高峰时段实际削减调整的负荷量;响应参与率指用户实际参与响应的次数占一个季度内所有需要进行响应的比重;守约情况用来衡量用户的实际负荷削减量与承诺负荷削减量的偏差程:

30、

31、

32、式中,γi表示第i个用户在一季度内的响应参与率,ft表示第i个用户参与需求响应的次数;δdi为用户i的守约情况衡量指标,di,t为用户i在t时段的预测需求响应量,dac,i,t为其实际响应负荷量,davg,t为t时刻虚拟电厂内所有用户的响应平均值,k为违约惩罚力度参数;

33、贡献因子的计算过程如下:

34、

35、xi=(di,γi,δdi)  (13)

36、式中,dmi为用户i在该季度内根据马氏距离计算的贡献因子,xi为用户i的计算矢量,由响应量、响应参与率与守约情况三个方面构成;μ为所有用户的样本均值矢量,∑-1表示多维随机变量的协方差矩阵。

37、进一步的,步骤2包括如下步骤:

38、步骤2.1:计算园区内总能源出力的功率波动,用δt表示t时段的园区内总能源出力功率波动率:

39、

40、式中,pg,t为本地园区内所有能源实际出力,包含新能源、微燃煤汽轮机和储能设备;δt为两个时段之间的时间间隔;

41、步骤2.2:由新能源出力量和步骤2.1得到的功率波动率δi共同决定用户的目标响应量dtarget,t:

42、步骤2.3:结合步骤1.3得到的用户贡献因子及用户的响应负荷调整量di,t,以需求响应电价λdr,t为变量,基于用户的目标响应量dtarget,t,建立面向新能源平滑消纳的多目标优化模型。

43、进一步的,步骤2.2具体包括:

44、首先,用户响应后的总负荷不能超出所有电源的最大出力;随后,根据波动率的限制计算具体需要用户进行响应的负荷量dtarget,t,过程如下:

45、(1)如果δt<δdrop,其中δdrop为功率降低率的下限,为负值,则

46、dtarget,t=pg,t-1-δdropδt  (15)

47、(2)如果δt>δrise,其中δrise为功率升高率的上限,为正值,则

48、dtarget,t=pg,t-1-δriseδt  (16)

49、(3)如果δdrop≤δt≤δrise,则

50、dtarget,t=0  (17)。

51、进一步的,步骤2.3中,多目标优化模型的多目标优化目标b包含新能源消纳收益br、功率波动bf和用户需求响应收益bu,新能源消纳收益br优化主要通过减少弃电量,增加新能源发电出力来进行,功率波动bf考虑加入微燃煤汽轮机后,园区内所有能源出力导致的馈线功率波动成本,用户的需求响应收益bu主要包含用户减少的用能成本与响应偏差惩罚两部分,响应偏差为目标响应值与实际响应值之间的差额;

52、多目标优化模型的目标函数及约束条件如下所示:

53、max b(λ)=br+bf+bu  (18)

54、

55、

56、

57、式中,η代表两部分的优先比重,范围为[0,1],当η=0时优化目标只考虑平滑消纳,分别用tnew、tdr表示进行计算功率波动和需求响应的时段数目;t时段,λo,t为需求响应前的电能购买价格;λflu为功率波动损失成本系数;λdr,t为需求响应的电价价格,λp,t为响应偏差惩罚系数;λdr,min、λdr,max对实时电价进行限制;pr,t为t时段新能源实际出力,pro,t为t时段新能源调整前的预测出力量,prmax,t、prmin,t代表t时段新能源出力的限制;di,t代表用户的预测需求响应量,需要在用户响应能力范围dmax内进行;dmi为用户i在该季度内根据马氏距离计算的贡献因子,参数γ被用来控制用户贡献因子的影响程度。

58、进一步的,步骤3包括如下步骤:

59、步骤3.1:基于步骤2.2得到的用户目标响应量,建立本地新能源园区的强化学习定价环境,具体的,设定多目标优化模型中的虚拟电厂对外竞价价格λvpp,t数值已由配网运营商确定,优化目标中的变量主要考虑新能源本地园区内部的响应电价λdr,t和随之产生的用户响应负荷调整量di,t;强化学习采用a3c分布式算法进行,用x(x=1,2,...,x)表示交互迭代次数,a3c的定价过程主要涉及四个主要因素,状态s={sx}、行动a={ax}、回报r={rx}和状态转移概率p(sx+1|sx,ax),状态sx表示第x次迭代时的需求响应目标、竞价结果、内部响应电价等信息,行动ax表示虚拟电厂对内制定的响应电价,回报rx表示虚拟电厂经过需求响应获得的收益,状态转移概率p(sx+1|sx,ax)表示vpp采取动作ax时使状态由sx转移到sx+1的概率;

60、步骤3.2:基于步骤3.1建立的本地强化学习定价环境,actor网络进行需求响应电价决策,输入状态sx,actor网络输出范围内各个电价被选为响应电价的概率分布p,并据此给出虚拟电厂内的需求响应价格λdr,t;

61、步骤3.3:基于步骤1.2的响应潜力评估结果和步骤2.3的多目标优化模型,critic网络对步骤3.2的电价决策动作进行评价,根据优化目标对决策行为进行引导,以便提高actor网络决策的收益和速度;

62、critic网络输出使用当前actor网络进行决策以获得收益的期望v(sx),用优化目标函数来衡量本次定价决策的收益情况:

63、v(sx)=e[rx|s=sx]  (22)

64、

65、式中,e[]表示数学期望,γ为折扣因子,取值范围为[0,1];

66、用时间差分误差td-error来评估critic网络输出的v(sx)与真值的差值,具体的,通过actor网络获取vpp内的需求响应价格λdr,t后,利用用户响应潜力评估模型来预测用户的负荷调整量dt,通过目标函数计算收益rx,并获得下一个状态sx+1,随后,critic网络利用sx和sx+1,计算输出v(sx)与v(sx+1),继而得到本次决策的td-error数值δ:

67、δ=rx+γv(sx+1)-v(sx)  (24)

68、步骤3.4:根据步骤3.3的评价结果,判断该次定价动作性质并调整未来定价方向;

69、对每一个日前决策电价ax所获得的响应收益rx,若rx的数值高于critic网络对收益的期望值(v(sx)-γv(sx+1)),对应δ为正值,则说明本次电价决策动作对actor网络的训练是一次有效的积极经验;反之,本次动作将被认为是actor网络训练的消极经验,在后续定价过程中进行策略性规避;

70、步骤3.5:根据步骤3.3计算的td-error数值δ,进行本地强化学习定价模型的梯度参数更新;

71、critic网络的损失函数用losscritic表示,梯度参数用ε表示,计算和迭代公式表示为:

72、losscritic=δ2  (25)

73、

74、式中,losscritic是critic网络的损失函数;ε是critic网络的梯度参数;β是学习率,critic网络训练目标是最小化td-error;

75、actor网络损失函数用lossactor表示,梯度参数用θ表示,计算和迭代公式表示为:

76、lossactor=δ·logp(ax∣sx,θ)+c·h(p(sx,θ))  (27)

77、

78、式中,lossactor是actor网络的损失函数;θ是actor网络的梯度参数;α是学习率;h是概率分布p的熵,c是其系数;

79、步骤3.6:重复步骤3.2-3.5,直到完成本地新能源园区的强化学习定价模型训练。

80、进一步的,步骤4包括如下步骤:

81、步骤4.1:虚拟电厂管理中心从上层运营商获得负荷削减信息,包括削减时段、需要削减负荷量、参考响应电价;

82、步骤4.2:中心服务器执行参数下达:在参数下达阶段,中心服务器对模型参数进行初始化,并将原始参数下传给各个本地服务器,在进行全局模型更新时,中心服务器广播下传的则变成更新后定价模型的全局参数,参数在下达前,由中心服务器进行phe半同态加密;

83、phe半同态加密算法的关键特性是支持加法同态和标量乘法同态,假设对u和v进行同态加密的结果分别是[[u]]和[[v]],对于phe,有如下规则成立:

84、加法同态:

85、标量乘法同态:decsk([[u]]⊙m)=decsk([[u·m]])   (30)

86、式中,dec表示解密函数;sk表示用来解密的密钥;表示可以在密文上进行的乘法,⊙表示密文内容的m次方;

87、步骤4.3:利用步骤4.2的模型参数,本地服务器根据步骤3.6进行本地定价模型训练,并将迭代后的梯度参数加密上传给全局中心服务器,各个本地模型解密获得的全局参数后,利用本地单位内包含电力用户的需求响应数据,根据步骤3,直接进行虚拟电厂日前需求响应定价优化模型的本地训练,在这一步,各个本地服务器之间并不共享各自的数据集,而是利用自己的数据直接训练本地模型,避免用户用能隐私数据的外泄;

88、在本地模型的训练过程中,伴随着参数的更新和计算,训练完成后的模型参数如公式所示:

89、

90、式中,ω(n)s为在全局模型第(s+1)轮迭代时第n个本地模型的参数;η为算法迭代的学习率;表示梯度下降的计算函数;

91、步骤4.4:中心服务器聚合步骤4.3上传的本地模型参数,计算并更新全局模型梯度参数:当本地训练达到次数上限后,各本地服务器将本地模型训练完成后获得的梯度等参数信息执行phe半同态加密,再上传给中心服务器,在不直接对外传输本地数据的前提下实现对全局模型的关键训练提升,中心服务器按照改进加权平均算法,聚合各个本地模型参数,生成全局参数,经过加密后将其发送给各个本地服务器;

92、假设虚拟电厂内管理着n个单位,每个单位内分别有kn个用户参与需求响应,其中n=1,2,…,n,所有单位的用户总数为k,根据梯度平均算法,在中心服务器进行第(s+1)次迭代时,fedavg框架中第n个本地服务器的模型梯度权重为:

93、

94、式中,kn为第n个单位内参与需求响应负荷调整的用户数;k为全部的用户总数,n为单位的总个数;s为模型迭代次数;ωs为中心服务器第s次迭代后的全局模型权重更新结果;ω(n)s为第n个用户单位利用本地数据进行梯度下降得到的新本地模型权重;

95、采用改进的加权平均联邦算法进行模型梯度的聚合,改进的加权平均联邦算法在原有基础上添加了衡量数据准确和计算质量的权重,将训练样本数据分为测试训练样本和原始训练样本,原始训练样本按照传统的加权平均算法,在初始全局模型上进行定价训练;测试样本则用于上一步模型训练的正确率,用以衡量数据质量和模型训练成效;训练正确率qn的计算公式如所示:

96、

97、式中,qn表示第n个用户单位的训练正确率;cn表示第n个本地服务器上的模型训练结果在与测试样本对比后的正确样本数量;xn表示测试样本总数量;

98、获得各个本地服务器的模型训练正确率后,用考虑训练正确率的比重因子替换仅考虑单位内用户数的比重因子,重新定义改进的加权平均联邦算法,计算过程如下所示:

99、

100、

101、式中,为第s轮迭代后更新的全局模型参数,也是第(s+1)轮迭代开始时广播给各个本地模型的参数;ω(n)s为第s轮迭代时第n个本地模型的参数;α(n)s+1为在全局模型第(s+1)轮迭代时第n个单位的训练质量因子;q(n)s+1为该单位进行测试后得到的训练正确率;l是可调的超参数,用于对训练质量因子的影响进行调整,在整个迭代过程中,由于所有α(n)s+1的加和为1,所以只要算法中公式(32)是收敛的,就可以保证改进算法中公式(34)的收敛性;

102、步骤4.5:判断是否完成全局定价模型训练,若是则结束,否则将最新的全局模型参数加密后发送给各个本地服务器,重复步骤4.2-步骤4.4,直到完成全局定价模型训练,可以得到考虑新能源消纳优化的日前电价方案;

103、步骤4.6:应用步骤4.5训练完成的定价模型,进行虚拟电厂日前响应全局定价决策;将决策电价及预期响应情况上报上层配电网电力交易中心;电力交易中心组织进行各个虚拟电厂集中竞价,并公开结果信息;虚拟电厂根据竞价结果,调整自己的日前响应定价策略,再次上报;进行反复决策、竞价、优化,直到确定虚拟电厂内部最终考虑新能源消纳的日前响应电价决策方案;

104、步骤4.7:确定最终响应电价方案后,虚拟电厂管理中心将步骤4.6得到的电价方案对内部的各单位广播,激励用户进行日前响应,调整负荷用能;根据第二日用户的实际响应表现,本地服务器更新数据库,并计算模型误差;中心服务器聚合各单位误差情况,更新全局模型参数,并参与上层电力交易中心的实际响应结算。

105、本方法提供的技术方案的有益效果是:

106、(1)在能源公司层面,该考虑用户隐私保护的新能源消纳电价决策方法,充分针对新能源消纳过程中存在的波动性强、弃风弃电量多等等问题,通过合适的电价决策,激励灵活的电力用户主动调整负荷用电量,配合新能源出力,从而实现提高新能源消纳量、降低功率波动的目的,有效改善新能源消纳现状,促进清洁能源消纳。

107、(2)在居民用户层面,该考虑用户隐私保护的新能源消纳电价决策方法,可以在保证用户用电数据不离开本地的情况下,进行全局定价模型的联合训练,获得同等的电价优化效果。该方法一方面可以有效避免用户实际用电数据的外泄,保护用户数据的安全性和用户信息隐私;另一方面该方法考虑用户历史贡献情况,保证了用户的响应公平,可以充分挖掘用户的需求响应潜力,并使用户获得更多的响应收益。

108、(3)在社会层面,该考虑用户隐私保护的新能源消纳电价决策方法,能够为政府提供用户数据隐私保护的新策略,推动高比例新能源接入后电力系统的建设发展,保护社会大众的数据隐私与安全,为高校研究人员开创新的研究思路,对社会其他行业企业的大数据发展具有良好的参考价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1