基于Q-Learning算法同容量三相逆变器并联环流抑制方法

文档序号：25435493发布日期：2021-06-11 21:52阅读：152来源：国知局

本发明涉及逆变器并联控制技术领域，具体涉及一种基于q-learning算法同容量三相逆变器并联环流抑制方法。

背景技术：

随着新能源技术的快速发展，以太阳能和风能为主导的可再生能源发电技术正在得到越来越广泛的应用。由于太阳能风能等新能源在地理位置上的分布不均，并且单个太阳能阵列或者风轮机输出的功率有限，而逆变器作为新能源发电技术中的核心器件，构建逆变器并联系统变得非常重要。但是由于各个逆变器和公共交流母线之间的线路阻抗不同，使得逆变器并联之后会出现线路之间的大环流破坏整个逆变器并联系统稳定性的问题。

在逆变器并联控制领域，现有的下垂控制策略是最常使用的方法，但是该方法不能应对多台逆变器输出线路阻抗差异而导致环流的问题。

技术实现要素：

为了克服现有技术存在的缺陷与不足，本发明提供一种基于q-learning算法同容量三相逆变器并联环流抑制方法，将强化学习q-learning算法和下垂控制策略以及增加虚拟阻抗方法结合起来，实现在各个逆变器线路阻抗参数未知的情况下动态调节线路虚拟阻抗，减少逆变器输出线路阻抗的差异，从而达到抑制并联逆变器之间环流的效果。

本发明的第二目的在提供一种基于q-learning算法同容量三相逆变器并联环流抑制系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于q-learning算法同容量三相逆变器并联环流抑制方法，包括下述步骤：

建立输出线路阻抗参数未知的同容量三相逆变器并联系统动态模型，完成线路阻抗和负载阻抗对逆变器并联运行环流的解耦；

基于输出线路阻抗参数未知的三相逆变器并联系统动态模型，采用下垂控制策略引入虚拟阻抗控制环，实现增益参数可调节的虚拟阻抗下垂控制方法；

采用强化学习q-learning算法对多台逆变器输出无功功率之间的偏差进行学习，通过调节虚拟阻抗增益系数的方法降低各条线路阻抗之间的差异，抑制环流。

作为优选的技术方案，所述建立输出线路阻抗参数未知的同容量三相逆变器并联系统动态模型，具体步骤包括：

建立逆变器并联系统的数学模型，表示为：

其中，vo,k(s)、io,k(s)分别表示各台逆变器输出电压和电流，zline,k表示各台逆变器与交流母线之间的连线阻抗，ubus(s)为交流母线电压，iload(s)为负载端总的负载电流，并且母线电压和负载端电压相等，zload为公共负载，iload,k(s)为流入各负载的电流，k表示并联系统中任意一台逆变器；

每台逆变器输出环流的表达式为：

设计每台逆变器的输出线路阻抗满足：

mkzline,k＝mjzline,jk,j＝1,2,...,n

优化后的每台逆变器输出环流的表达式为：

每台逆变器输出的环流与逆变器输出电压、各逆变器加权平均值电压以及输出线路阻抗有关，完成了逆变器并联运行时环流和负载的解耦。

作为优选的技术方案，所述采用下垂控制策略引入虚拟阻抗控制环，具体步骤包括：

在下垂控制电路的基础之上搭建反馈回路，所述反馈回路中包括基础的阻抗常数和可调节的增益系数，所述反馈回路的输入为逆变器输出电流值，回路中的虚拟阻抗值为控制器中电感电流、初始阻抗常数以及虚拟阻抗增益系数的乘积，在下垂控制环中减掉虚拟阻抗值，最后将二者比较后的电压差值输入电压比例积分控制单元和电流比例单元，再经过坐标变换以及spwm调制生成开关管的控制信号对三相逆变桥进行控制。

作为优选的技术方案，所述采用下垂控制策略引入虚拟阻抗控制环，加入虚拟阻抗的数学模型表示为：

u'dqref(s)＝udqref(s)-z(s)i(s)w

其中，u′dqref(s)为加入虚拟阻抗之后给到电压电流内环的参考电压，udqref(s)为传统下垂控制下给到电压电流内环的参考电压，z(s)为需加入的基础阻抗常数，i(s)为逆变器输出电流，w为虚拟阻抗增益系数。

作为优选的技术方案，所述采用强化学习q-learning算法对多台逆变器输出无功功率之间的偏差进行学习，具体步骤包括：

将各逆变器输出的无功功率和平均无功功率的偏差作为环境状态，对并联系统中每台逆变器都引入强化学习控制器，并由此建立环境状态集合s，表示为：

s＝{δq1δq2...δqi...δqt}

δq＝q-qload/n

其中，δqi表示单台逆变器输出无功功率和平均无功功率的偏差等级，q表示单台逆变器输出的无功功率，qload表示总负载无功功率，n表示并联系统中逆变器总数，δq表示任意一台逆变器输出无功功率和平均无功功率的偏差；

对每台逆变器定义动作集合a：

a＝{δw1δw2...δwi...δwk}

其中，δwi表示虚拟阻抗增益系数的不同增益值，并且将所加增益系数值分为k个等级；

在环境状态集合s和动作集合a的前提下，定义奖励函数r，表示为：

其中，(si,ai)表示逆变器并联系统中任意第j台逆变器所处状态si时执行动作ai后可以获得的奖励，δq表示任意一台逆变器输出无功功率和平均无功功率的偏差，δq1、δq2、δq3、δq4表示对五无功功率偏差设置的偏差范围边界值，α1、α2、α3、α3表示针对不同无功功率偏差区间设计的控制参数；

根据环境状态集合s和动作集合a建立状态动作价值表，所述动作价值表每一行代表状态集合s中的一个状态，每一列代表动作集合a中的一个动作，所述动作价值表中的任意一项表示在该状态下执行该动作得到的奖励，记录学习的结果，获得最佳决策，建立强化学习q-learning算法模型；

根据强化学习q-learning算法模型对逆变器的控制器进行迭代训练；

控制器根据状态动作价值表自动找寻最佳虚拟阻抗增益系数，增益系数乘上虚拟阻抗常数以及输出电流构建逆变器输出线路阻抗的补偿，对线路阻抗进行补偿调整。

作为优选的技术方案，所述强化学习q-learning算法模型表示为：

qk+1(si,ai)＝qk(si,ai)+α[r(si,ai)+γ·maxqk(si+1,a)-qk+1(si,ai)]

其中，qk+1(si,ai)表示算法迭代至第k+1回合时状态动作价值表中si行和ai列对应的价值，qk(si,ai)表示算法迭代至第k回合时状态动作价值表中si行和ai列对应的价值；α表示学习率，且0＜α＜1；γ表示折扣因子，当γ＝0时只考虑立即奖励，当γ＝1时，长期奖励和立即奖励地位一样；r(si,ai)表示在状态si时执行动作ai所能得到的奖励；maxqk(si+1,a)表示状态动作价值表中第si+1行的最大价值。

作为优选的技术方案，所述根据强化学习q-learning算法模型对逆变器的控制器进行迭代训练，具体步骤包括：

初始化状态动作价值表，表中的价值赋初始值都为0；

强化学习控制器不断地给出虚拟阻抗的可调增益值，并同时采集逆变器输出的无功功率和平均无功功率的偏差；

迭代训练后学习算法收敛，强化学习控制器找到最佳的虚拟阻抗增益值使得无功功率偏差降到预设水平，训练设定迭代次数后输出训练好的状态动作价值表。

为了达到上述第二目的，本发明采用以下技术方案：

一种基于q-learning算法同容量三相逆变器并联环流抑制系统，包括：动态模型构建模块、虚拟阻抗下垂控制模块和偏差学习模块；

所述动态模型构建模块用于建立输出线路阻抗参数未知的同容量三相逆变器并联系统动态模型，完成线路阻抗和负载阻抗对逆变器并联运行环流的解耦；

所述虚拟阻抗下垂控制模块用于基于输出线路阻抗参数未知的三相逆变器并联系统动态模型，采用下垂控制策略引入虚拟阻抗控制环，实现增益参数可调节的虚拟阻抗下垂控制方法；

所述偏差学习模块用于采用强化学习q-learning算法对多台逆变器输出无功功率之间的偏差进行学习，通过调节虚拟阻抗增益系数的方法降低各条线路阻抗之间的差异，抑制环流。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于q-learning算法同容量三相逆变器并联环流抑制方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于q-learning算法同容量三相逆变器并联环流抑制方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用强化学习q-learning算法对逆变器输出无功功率偏差进行学习的方案，解决了相同容量并联逆变器间无功功率不均分的技术问题，达到了均分逆变器输出无功功率的效果。

(2)本发明采用了结合q-learning算法、虚拟阻抗以及无功功率偏差进行学习的方案，解决了线路阻抗参数未知情形下并联逆变器间环流过大的技术问题，达到了降低线路阻抗差异，抑制环流的效果。

附图说明

图1为本发明电压型三相逆变器并联系统等效电路图；

图2为本发明逆变器并联系统环流示意图；

图3为本发明下垂控制结构图；

图4为本发明基于虚拟阻抗的下垂控制结构图；

图5为本发明强化学习q-learning算法训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于q-learning算法的同容量三相逆变器并联环流抑制方法，包括下述步骤：

s1：建立输出线路阻抗参数未知的同容量三相逆变器并联系统动态模型，实现线路阻抗和负载阻抗对逆变器并联运行环流的解耦；

如图1所示，图中所有符号均为频域表达式，根据电压型逆变器并联系统等效电路图，由基尔霍夫电压电流定律，可以得到并联系统电压电流方程：

io,1(s)+io,2(s)+io,3(s)+...+io,n＝iload(s)(1-3)

其中，vo,k(s)、io,k(s)分别表示各台逆变器输出电压和电流，zline,k表示各台逆变器与交流母线之间的连线阻抗，ubus(s)为交流母线电压，iload(s)为负载端总的负载电流，并且母线电压和负载端电压相等；zload为公共负载，iload,k(s)为流入各负载的电流；k表示并联系统中任意一台逆变器，k＝1,2…n。

联立式(1-1)、(1-2)和(1-3)进行化简，可以得到每台逆变器的输出电流，也即逆变器并联系统的数学模型：

根据式(1-4)并联系统的数学模型进一步推导出系统环流模型。当整个逆变器并联系统稳定运行时，交流母线电压和负载电流也是稳定不变的，因而此时各台逆变器按照各自自身的容量对负载功率进行均分，其本质就是按照各自容量的权重系数对负载电流进行均分。因此，可假设第k台逆变器的理想输出电流为it,k(s)，则有：

it,k(s)＝mkiload(s)(1-5)

其中，mk表示第k台逆变器的容量在所有并联逆变器中的权重值；因此，根据基尔霍夫电流定律，在n台逆变器并联系统中，则有：

m1+m2+...+mk+...+mn＝1(1-6)

进而，可以推出每一台逆变器输出环流的定义式：

ih,k(s)＝io,k(s)-mkiload(s)(1-7)

其中，io,k(s)和iload(s)分别表示第k台逆变器的输出电流和总的负载电流，ih,k(s)表示第k台逆变器输出的环流，mk表示第k台逆变器的自身容量占所有逆变器总容量的比例(或者说权重)。

根据式(1-7)可以知道，逆变器并联系统中的环流会从一台逆变器流入另一台逆变器，进而对系统造成影响，如图2所示，图为两台三相电压型逆变器并联环流示意。

根据环流定义式，即联立式(1-4)和(1-7)，可进一步推出每台逆变器输出环流的表达式：

由式(1-8)可知，每台逆变器输出的环流还与负载阻抗zload有关，因此可以对该环流模型进行改进，设计每台逆变器的输出线路阻抗都满足下式：

mkzline,k＝mjzline,jk,j＝1,2,...,n(1-9)

联立式(1-8)和(1-9)，可以得到优化后的每台逆变器输出环流的表达式：

由式(1-10)分析可知，每台逆变器输出的环流与逆变器输出电压、各逆变器加权平均值电压以及输出线路阻抗有关，而与负载阻抗无关，即通过式(1-9)的设计方法消除负载对并联逆变器间环流的影响，同时该方式也完成了逆变器并联运行时环流和负载的解耦。而式(1-9)则为后续学习算法的工作提供了前提，在逆变器输出线路阻抗未知的情形下，学习的目标即为式(1-9)的情况。

s2：基于输出线路阻抗参数未知的三相逆变器并联系统动态模型，采用下垂控制策略，引入虚拟阻抗控制环，实现增益参数可调节的虚拟阻抗下垂控制方法；

具体步骤为：

针对式(1-10)中给出的环流模型，采用下垂控制可以很好的抑制环流并且实现功率均分，如图3所示，按照下述下垂控制公式设计三相逆变器的控制器：

其中，f，fn分别为下垂控制逆变器当前输出电压频率和逆变器额定输出电压频率，m为有功功率下垂系数，p,pn分别为逆变器当前输出有功功率和逆变器额定输出有功功率；u,un分别为逆变器当前输出电压幅值和逆变器额定输出电压幅值，n为无功功率下垂系数，q，qn分别为逆变器当前输出无功功率和逆变器额定输出无功功率。

如图4所示，在下垂控制电路的基础之上搭建新的反馈回路，反馈回路中包括基础的阻抗常数和可调节的增益系数，并且该反馈回路的输入为逆变器输出电流值，回路中的虚拟阻抗值即为控制器中电感电流、初始阻抗常数以及虚拟阻抗增益系数的乘积；而后在下垂控制环中减掉虚拟阻抗值，最后将二者比较后的电压差值输入电压比例积分控制单元和电流比例单元，再经过坐标变换以及spwm调制生成开关管的控制信号对三相逆变桥进行控制。

加入虚拟阻抗的数学模型为：

u'dqref(s)＝udqref(s)-z(s)i(s)w(2-2)

其中，u′dqref(s)为加入虚拟阻抗之后给到电压电流内环的参考电压，udqref(s)为传统下垂控制下给到电压电流内环的参考电压，z(s)为需加入的基础阻抗常数，i(s)为逆变器输出电流，w为虚拟阻抗增益系数，可自动调节。

在原有下垂控制的基础之上加入虚拟阻抗反馈环，并且环中包含基础阻抗常数和可调增益系数的控制手段，可以实现只调节控制器中的增益系数w的大小以改变逆变器输出线路阻抗的效果。

s3：采用强化学习q-learning算法对多台逆变器输出无功功率之间的偏差进行学习，通过调节虚拟阻抗增益系数的方法降低各条线路阻抗之间的差异，抑制环流。

具体步骤为：

结合式(1-10)和式(1-11)分析可知，抑制多台逆变器并联系统中环流有两个办法，一是减小并联逆变器间输出电压的差异，二是增大并联逆变器的输出线路阻抗；又根据下垂控制可知，逆变器输出的无功功率和逆变器输出电压幅值具有一定的关系，并且，逆变器输出电压幅值又与逆变器输出线路阻抗相关，因而可将逆变器输出无功功率和其输出线路阻抗进行联系。

在以上思路的基础上，引入强化学习方法；首先，将各逆变器输出的无功功率和平均无功功率的偏差作为环境状态，对并联系统中每台逆变器都引入强化学习控制器，并由此建立环境状态集合s：

s＝{δq1δq2...δqi...δqt}(3-1)

δq＝q-qload/n(3-2)

其中，式(3-1)中δqi表示单台逆变器输出无功功率和平均无功功率的偏差等级，在状态集合s中可根据实际情况可总共设置t个偏差等级；式(3-2)中q表示单台逆变器输出的无功功率，qload表示总负载无功功率，n表示并联系统中逆变器总数，δq表示任意一台逆变器输出无功功率和平均无功功率的偏差。

对每台逆变器定义动作集合a：

a＝{δw1δw2...δwi...δwk}(3-3)

其中，式(3-3)中δwi表示虚拟阻抗增益系数的不同增益值，并且将所加增益系数值分为k个等级，即动作集合a中共有k个动作。

在上述定义的环境状态集合和动作集合的前提下，定义算法中的奖励函数r：

其中，式(3-4)中rj(si,ai)表示逆变器并联系统中任意第j台逆变器所处状态si时执行动作ai后可以获得的奖励，δq表示任意一台逆变器输出无功功率和平均无功功率的偏差；δq1、δq2、δq3、δq4表示对五无功功率偏差设置的偏差范围边界值，实际应用中可以设置更多的边界值对范围区间进一步细化；α1、α2、α3、α3表示针对不同无功功率偏差区间设计的控制参数。

根据以上定义的环境状态集合s和动作集合a建立状态动作价值表，即q表，该表中的每一行代表状态集合s中的一个状态，每一列代表动作集合a中的一个动作，表中的任意一项表示在该状态下执行该动作可以得到的奖励，以记录学习的结果，从而获得最佳决策，而后建立强化学习q-learning算法模型：

其中，qk+1(si,ai)表示算法迭代至第k+1回合时q表中si行和ai列对应的价值，同理，qk(si,ai)表示算法迭代至第k回合时q表中si行和ai列对应的价值；α表示学习率，且0＜α＜1；γ表示折扣因子，当γ＝0时只考虑立即奖励，当γ＝1时，长期奖励和立即奖励地位一样；r(si,ai)表示在状态si时执行动作ai所能得到的奖励；maxqk(si+1,a)表示q表中第si+1行的最大价值。

最后，根据式(3-5)表示的算法对逆变器的控制器进行迭代训练，如图5所示，首先初始化一张q表，表中的价值赋初始值都为0；而后强化学习控制器不断地给出虚拟阻抗的可调增益值，并同时采集逆变器输出的无功功率和平均无功功率的偏差；最后通过多次的试错学习之后，该学习算法会收敛，即强化学习控制器可以找到最佳的虚拟阻抗增益值使得无功功率偏差降到较低水平。根据实际要求训练一定的次数之后可以得到一张训练好的q表；

最后控制器根据q表自动找寻最佳虚拟阻抗增益系数，q表记录下来逆变器处在任意一个状态时可以选取的最佳调优策略，而控制可以根据此时逆变器所处状态去查询q表，以获得调整增益系数的值来达到最佳状态；

而后增益系数乘上虚拟阻抗常数以及输出电流可构建逆变器输出线路阻抗的补偿，即补偿是指各逆变器线路阻抗之间存在差异，为消除这一差异可以对一台逆变器的线路阻抗进行补偿调整，以达到和另一台逆变器的线路阻抗相同，则线路阻抗差异就通过虚拟阻抗的方式得到补偿，从而实现环流抑制的效果，并且也能提高系统的动态响应速度。

实施例2

本实施例提供一种基于q-learning算法同容量三相逆变器并联环流抑制系统，包括：动态模型构建模块、虚拟阻抗下垂控制模块和偏差学习模块；

在本实施例中，动态模型构建模块用于建立输出线路阻抗参数未知的同容量三相逆变器并联系统动态模型，完成线路阻抗和负载阻抗对逆变器并联运行环流的解耦；

在本实施例中，虚拟阻抗下垂控制模块用于基于输出线路阻抗参数未知的三相逆变器并联系统动态模型，采用下垂控制策略引入虚拟阻抗控制环，实现增益参数可调节的虚拟阻抗下垂控制方法；

在本实施例中，偏差学习模块用于采用强化学习q-learning算法对多台逆变器输出无功功率之间的偏差进行学习，通过调节虚拟阻抗增益系数的方法降低各条线路阻抗之间的差异，抑制环流。

实施例3

本实施例提供一种存储介质，存储介质可以是rom、ram、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于q-learning算法同容量三相逆变器并联环流抑制方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、pda手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于q-learning算法同容量三相逆变器并联环流抑制方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭云建;王腾飞;孙伟杰;康睿
技术所有人：华南理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、朱老师：1.聚合物绝缘材料老化 2.电力系统可靠性分析
2、赵老师：1.智能控制理论及应用 2.机器人控制技术 3.新能源控制技术与应用
3、杨老师：工程电磁场与磁技术，无线电能传输技术
4、李老师：新型电力电子技术在微网中的应用
5、王老师：薄膜光电子材料与器件、太阳能电池、光伏能源器件及材料测试
如您是高校老师，可以点此联系我们加入专家库。