基于强化学习自适应比例积分微分配电静止同步补偿器控制方法

文档序号：6292921阅读：215来源：国知局

专利名称：基于强化学习自适应比例积分微分配电静止同步补偿器控制方法
技术领域：
本发明涉及一种配电静止同步补偿器的控制方法，特别涉及一种
基于强化学习自适应PID的配电静止同步补偿器(DSTATC0M)的控制方法。
背景技术：
随着科学技术的发展，我国电力系统发展非常迅速，在工业和生活用电负载中，感性负载占有很大的比例，而感性负载必须吸收无功功率才能正常工作，同时这些负载产生的大量谐波电流也要消耗无功功率。大量无功功率的消耗引起了配电网的电压波动、闪变和三相不平衡等一系列电能质量问题。同时在配电系统中存在大量的快速冲击负荷，如电弧炉负荷，会引起电压闪变，引起系统电流与电压的不平衡性。另一方面，随着我国国民经济及科技水平的快速发展，各行各业对电能质量的要求越来越高，特别是随着各种电子装置和精密设备的广泛应用，使得用户希望供电企业能够提供高效优质的电能。一旦出现电能质量问题，轻则造成设备故障，重则造成整个系统的损坏，由此带来的损失难以估量。所以电能质量问题已经关系到整个电力系统及设备的安全、稳定、经济、可靠运行，并关系到整个国民经济的总体效益和发展战略。在电力系统迫切需要先进的输配电技术来提高电能质量和系统稳定性的时候，随着电力电子技术和现代控制技术的
迅猛发展，一种改变输配电能力的新技术-一系统(FACTS)悄然兴起。这样配电静止同步补偿器(DSTATC0M)代表了未来电力系统无功补偿装置的发展趋势，利用电力电子技术和现代控制技术相结合能综合的解决配电网中的多种电能质量问题。配电网静止同步补偿器的常规控制器设计是基于其局部线性化模型，由于DSTATC0M模型的非线性和等效参数的不确定性特征，使其控制非常困难复杂。目前应用较多的是传统的PID控制，而采用PID控制时，当等效参数测量不准确或发生变动时，控制器的性能会降低甚至不稳定，更严重会出现控制的误操作，烧坏DSTATC0M装置。所以实现DSTATC0M控制器的自适应能力，具有重要的意义。

发明内容
本发明所要解决的技术问题是提供一种具有良好动态和静态性能的基于强化学习自适应PID的配电静止同步补偿器控制方法，以实现DSTATC0M控制器的自适应能力。
为解决上述技术问题，本发明提供一种基于强化学习自适应比例积分微分配电静止同步补偿器控制方法，根据瞬时功率平衡原理，列出配电静止同步补偿器数学模型，并将其从静止坐标系通过转化矩阵转换到dq0坐标系中，得出配电静止同步补偿器系统是一个典型的两输入两输出的耦合非线性系统，其特征在于将电压指令值与实际测量值的误差经强化学习自适应比例积分微分调节后形成无功指令电流信号；直流侧电容电压指令值与实际测量值的误差经强化学习自适应比例积分微分调节后形成有功指令电流信号，无功指令电流信号和有功指令电流信号经数学模型中电压与电流的关系变换后，形成无功指令电压信号和有功指令电压信号，无功指令电压信号和有功指令电压信号经兩/"&坐标变换后作为调制信号，经三角载波调制后产生脉宽调制PWM驱动信号去控制智能功率模块的动作，产生需要补偿的电压，从而维持了直流侧电容电压和公共连接点PCC电压的恒定。
本发明在DSTATC0M的控制方法中引入强化学习自适应PID控制算法。其中在控制过程中通过强化学习算法对^、《,和^^进行训练和学习，并在学习的同时加入解耦要求，使得控制系统能够根据模型参数的变化来自动调节^、 ^和《D的值，使系统达到满意的控制结果。
本发明所述的基于强化学习自适应PID的DSTATC0M控制方法，维持了直流侧电容电压和系统节点电压的恒定，实现了有效的无功功率补偿。该控制算法根据瞬时功率平衡原理推导出dq0坐标下的电流一电压模型，并提出了适合于此控制系统的强化学习自适应PID控制算法，该控制方法避免了传统PID控制中等效参数发生变动时，控制器性能不稳定的情况，很好的实现了控制器的自适应能力，提高了控制的精确度。

图1是本发明的DSTATC0M主电路结构图2是本发明控制系统原理图3是强化学习自适应PID的控制算法流程图
具体实施例方式
参照图1， w表示电网的三相电压；e禾卩/则分别表示DSTATCOM 的三相输出电压和电流；电阻i 和电感Z分别表示装置损耗和线路电抗及连接变压器漏抗。假设系统三相电压为
w0sin W
w =sin— — 2;r / 3)
sin(6^ + 2;r/3)
假设DSTATCOM输出电压为
sin(W —。
= shi一 — 2;r/3 -5)
sin—/ + 2;r — ^
式(2)中，《为变比系数，5为DSTATCOM输出电压^与系统电压w,夹角，为可控量。
根据瞬时功率平衡式得到dq0坐标系中电流一电压转换公式如
下所示
根据功率平衡原理，DSTATCOM输出功率应等于注入系统的功率和等效电阻、电抗消耗的功率之和，艮口尸,尸。+尸, (3) 2ra+e/ (4)
选择同步旋转坐标系的"轴与PCC接入点电压向量重合，可得 = w =0 (5)
将(5)式代入功率平衡式得出
(6)
上式实现了在d-《坐标系中电流^,/,到电压^, 的转换。由上两式可以看出，DSTATCOM的电压控制指令^，e。的形成与等效参数凡丄密切相关。如果采用常规PID控制形成的/:和/:，在等效参数测量准确并保持不变时，控制器性能优越，但是等效参数可能因难以精确测量、运行工况的变化、由于长期运行引起的器件老化等原因而造成了等效参数的不确定性。为了提高控制器对系统主要参数扰动的鲁棒性，实现系统的自适应能力，本发明提出了基于强化学习自适应PID的DSTATCOM控制方法。
参照图2，将电压指令值"V,与实际测量值^^的误差经强化学习PID调节后形成无功指令电流信号《；直流侧电容电压指令值t/;与
实际测量值f^的误差经强化学习PID调节后形成有功指令电流信号
/:。 c,/;;经数学模型中电压与电流的关系变换后，形成无功指令电压
信号《和有功指令电压信号^。 <和^经^/"^坐标变换后作为调制信号，经三角载波调制后产生脉宽调制PWM驱动信号去控制智能功率模块的动作，产生需要补偿的电压，从而维持了直流侧电容电压和公共连接点PCC电压的恒定。
强化学习自适应PID控制算法的介绍
强化学习又称为增强学习，是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法，试凑搜寻和延时报酬是强化学习的两个重要特征。其中Q学习算法是强化学习算法中效果比较好的一种，在Q学习中，主要学习动作评估函数2^")，定义为它的值是从状态s开始并使用作为第一个动作"时的最大折算累计回报。g的值为从状态执行动作的立即回报加上以后遵循最优策略的值(用y折算)。强化学习过程完成后，系统对相应的状态，通过对Q矩阵映射，得到相对最优的动作。
在传统的PID参数的调整中，都是使用固定的公式，调整效果不
是非常理想，难以适应多变的电网环境，将强化学习算法应用于PID参数的调整中，可以使PID参数具有更好的适应性。用Q学习算法
对PID的参数^、 ^和i^分别进行调整，步骤如下，
1. 初始化参数的Q值矩阵，Q值矩阵记录状态s及在该状态下选择动作a所预期获得的累积奖赏。其中状态即该时刻的《p、 ^和a:。的值，动作a即调整该参数值，输出相应的i^、 ^和^的值。同时初始化学习因子a和折扣因子y ;
2. 根据当前状态s和动作选择策略e选择并执行动作a;
3. 根据输入的^、《,和^的值计算报酬r，并进入新的状态^
4. 使用公式0^,")=(1-a)x0C^)+ax(r+"腿g^',"))更新Q值；其中a
为学习因子，该学习因子随着学习迭代次数的增加而逐渐减少，最后为零，意味着学习过程的结束，因为Q值将不再被更新；
从公式中可以看出，Q学习算法的迭代是策略无关的，它总是选择最大的Q值作为迭代输入。同样经过反复迭代后，2b,。,)将逐步逼近理想的e&";)。调整学习因子，返回步骤2，直到学习因子为0。
5. 输出合理的^、《,和尺。的值；
6. PID控制器采用增量式PID控制算法控制偏差
)=";a.nw，其中=<formula>formula see original document page 10</formula>
在强化学习自适应PID控制算法的训练和学习的过程中，加入解耦控制的要求，使其训练和学习的结果同时也满足解耦控制的功能。提高了系统的控制精度。
权利要求
1、一种基于强化学习自适应比例积分微分配电静止同步补偿器控制方法，首先根据瞬时功率平衡原理，列出配电静止同步补偿器数学模型，并将其从静止坐标系通过转化矩阵转换到dq0坐标系中，其特征在于将电压指令值与实际测量值的误差经强化学习自适应比例积分微分控制算法调节后形成无功指令电流信号；直流侧电容电压指令值与实际测量值的误差经强化学习自适应比例积分微分调节后形成有功指令电流信号；当获得无功指令电流信号和有功电流信号后，无功指令电流信号和有功指令电流信号经数学模型中电压与电流的关系变换后，形成无功指令电压信号和有功指令电压信号，无功指令电压信号和有功指令电压信号经dq/abc坐标变换后作为调制信号，经三角载波调制后产生脉宽调制PWM驱动信号去控制智能功率模块的动作，产生需要补偿的电压。
2、根据权利要求1所述的基于强化学习自适应比例积分微分配电静止同步补偿器控制方法，其特征在于强化学习自适应比例积分微分控制算法的实现过程如下(1) 初始化参数的Q值矩阵，Q值矩阵记录状态S及在该状态下选择动作a所预期获得的累积奖赏；(2) 根据当前状态s和动作选择策略^选择并执行动作a;(3) 根据输入的A, 、 &和&的值计算报酬r，并进入新的状态A ;(4) 使用公式0[^) = (1-a)xQ^,")+ax(""maxW,力)更新Q值；经过反复迭代后，2(&",;)将逐步逼近2(s,";);调整学习因子，返回步骤2，直到学习因子为0;(5) 输出合理的^、 K,和i^的值；(6) 将输出的^、 A:,和^的值送入自适应比例积分微分控制器，采用增量式自适应比例积分微分控制算法进行控制。
全文摘要
一种基于强化学习自适应比例积分微分配电静止同步补偿器控制方法，首先根据瞬时功率平衡式推导出在d-q坐标系中电流—电压的转换公式，在控制实现的过程中，将电压给定值与实际测量值的误差和直流侧电容电压指令值与实际测量值的误差分别通过强化学习自适应PID控制算法调节后得到有功指令信号和无功指令信号，在经数学模型中的电压与电流的关系变换后，得到电压信号，在经坐标变换后得到所需的电压调制信号。其中系统采用强化学习自适应PID控制算法避免了传统PID控制中等效参数发生变动时，控制器性能不稳定的情况，很好的实现了控制器的自适应能力，提高了控制的精确度。
文档编号G05B11/42GK101667012SQ20081005113
公开日2010年3月10日申请日期2008年9月3日优先权日2008年9月3日
发明者孙贵新, 孟祥萍, 秀纪, 谭万禹申请人:长春工程学院;吉林省电力有限公司电力科学研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟祥萍;谭万禹;孙贵新;纪秀
技术所有人：长春工程学院;吉林省电力有限公司电力科学研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。