基于强化学习算法的配电网继电保护人工智能整定方法与流程

文档序号:27080146发布日期:2021-10-24 12:01阅读:148来源:国知局
1.本发明属于配电网
技术领域
:,涉及配电网中的继电保护方法,尤其是一种基于强化学习算法的配电网继电保护人工智能整定方法。
背景技术
::2.电力系统与工业生产、人们的生活密切相关,如何保障电网的安全稳定运行就显得尤为重要。当电网发生短路、断线等故障时,就要采取相关措施,使系统以尽量小的代价恢复到稳定运行状态。作用于电力系统单个元件的继电保护装置就是这些措施中最为重要的一种。当电网发生短路故障时,安装于系统各个元件上的有着相互配合关系的保护装置判别出发生故障的元件,并迅速将故障元件从系统中隔离出来,使得系统剩余部分能正常运行。要使得电网中的保护装置能够正确地动作,就必须使各个保护装置间在定值和动作时间上根据相关规则保持正确的配合关系,也就是要做好电网继电保护装置的整定计算工作。3.目前,配电网继电保护定值整定通常采用了人工计算的方法,这种人工计算方法不但计算量大,而且在遇到电网结构复杂、断路器数量较多时,定值难以准确及时地计算出来,经常会出现定值失配的问题,整定结果往往无法满足对继电保护速动性、选择性、灵敏性的要求,进而导致的配电网越级跳闸、故障无法切除、切除时间过长等问题。技术实现要素:4.本发明的目的在于克服现有技术的不足,提供一种设计合理、准确性高且提高效率的基于强化学习算法的配电网继电保护人工智能整定方法,本发明解决现有的技术问题是采取以下技术方案实现的:一种基于强化学习算法的配电网继电保护人工智能整定方法,包括以下步骤:步骤1、根据配电网继电保护的基本性质,建立奖励函数;步骤2、根据奖励函数,计算配电网中各个断路器的奖励值并填入q‑table表中,从而建立强化学习算法中的q‑table表格;步骤3、采用贝尔曼方程对q‑table表格中的q值进行迭代,所述q值为断路器的奖励值;步骤4、对q‑table表格中的q值全部迭代结束后,将最后一次迭代的状态量设为配电网断路器的最终定值。5.而且,所述步骤1建立的奖励函数px为:式中,psel为选择性的奖励函数,psen为灵敏性的奖励函数,pspe为速动性的奖励函数。6.而且,所述选择性的奖励函数psel为:式中,xsel=0/1/2表示主低开关跳闸/正确跳闸/越级跳闸,表示选择性惩罚值,表示主低开关跳闸惩戒系数,表示选择性奖励值,、分别表示当前损失负荷、最小损失负荷;wmax表示线路总负荷;所述灵敏性的奖励函数psen为:式中,xsen=0/1表示故障未切除/切除;表示灵敏性惩罚值;所述速动性的奖励函数pspe为:式中,表示故障切除时间/最大时间;表示速动性奖励值。7.而且,所述选择性惩罚值取值为‑1,所述主低开关跳闸惩戒系数取值为100,所述选择性奖励值取值为5,所述灵敏性惩罚值取值为‑100,所述速动性奖励值取值为2。8.而且,所述步骤2的具体实现方法包括以下步骤:⑴进行状态划分,将断路器进行分级;⑵进行行为划分,给当前断路器进行赋值;⑶计算环境对赋值的反馈;⑷根据环境对赋值的反馈,计算当前级数所有断路器的总奖励值∑px;⑸将总奖励值∑px填入q‑table表中对应的位置中。9.而且,所述状态划分的方法为:从变电站出线断路器开始,按照潮流方向逐级遍历全网,将各级断路器的定值为s1、s2、s3……sn。10.而且,所述行为划分的公式为:in表示当前断路器的定值赋值,赋值应满足imin≤in≤imax,其中imin、imax分别表示本线路出现的最小短路电流和最大短路电流,k表示步长,n为行为编号;所述行为划分的具体过程为:⑴计算本线路出现的最大短路电流imax和最小短路电流imin;⑵根据计算精度要求设置k值,k=100;⑶根据如下公式计算:,,……,。11.而且,所述贝尔曼方程为:式中,表示当前q‑table表中第s行a列的值,表示未来q‑table表中第s行a列所有的值中的最大值;表示未来奖励的衰减值;表示学习率。12.本发明的优点和积极效果是:1、本发明采用基于强化学习算法的人工智能整定方法,能够快速准确地计算出配电网断路器的最终定值,从而实现配电网继电保护定值的自动整定功能,提高了配电网定值整定效率,降低了从业人员的工作量,有效地解决了传统整定处理过程中难以计算定值导致因定值失配导致的整定结果劣化的问题,提高了整定定值对速动性、选择性、灵敏性的适应程度,进而解决因定值劣化导致的配电网越级跳闸、故障无法切除、切除时间过长等问题。13.2、本发明以断路器的分级级数为基础进行状态划分,以定值的赋值作为行为的划分,并限定了行为的上下限,从断路器跳闸定值对继电保护灵敏性、速动性、选择性满足情况的角度建立了强化学习算法中的奖励函数,其整定结果更加准确可靠,满足了实际应用的需要。附图说明14.图1为本发明给出的断路器分级示意图;图2为本发明的q‑table表建立的流程图;图3为本发明建立的q‑table表;图4为本发明的断路器分级表;图5为本发明的计算各q值后的q‑table表;图6为本发明的断路器定值表。具体实施方式15.以下结合附图对本发明实施例做进一步详述。16.一种基于强化学习算法的配电网继电保护人工智能整定方法,包括以下步骤:步骤1、根据配电网继电保护的基本性质,建立奖励函数。17.本发明根据配电网继电保护的基本性质来设置奖惩,奖励值的大小应能反应在当前定值设置的合理性。配电网继电保护的基本性质包括:(1)选择性:环境数据应有拓扑关系,故障点的上游,距离故障点最近断路器定义为“应动作”的断路器,此断路器正确跳开时得到的奖励为最高奖励,而后根据负荷损失情况给出越级跳闸时的不同奖励值。当出现越级引起主变低压侧开关变电站出现开关(可选)跳闸时,应加大惩戒。选择性的奖励函数为:式中,xsel=0/1/2表示主低开关跳闸/正确跳闸/越级跳闸,表示选择性惩罚值,该值可根据线路总负荷调节大小,可取‑1;表示主低开关跳闸惩戒系数,该惩戒系数可取100;表示选择性奖励值,该选择性奖励值可取5;、分别表示当前损失负荷、最小损失负荷;wmax表示线路总负荷。18.(2)灵敏性:故障能够切除时得0分,未切除时最大惩戒。灵敏性的奖励函数为:式中,xsen=0/1表示故障未切除/切除;表示灵敏性惩罚值,该灵敏性惩罚值可取‑100。19.(3)速动性:以主变低后备时间定值为上限,约接近0秒加分越高。速动性的奖励函数为:式中,表示故障切除时间/最大时间;表示速动性奖励值,该速动性奖励值可取2。20.综上所述,通过上述三个继电保护的基本性质,可建立如下奖励函数:式中,px表示总奖励值。21.步骤2、根据奖励函数,计算配电网中各个断路器的奖励值并填入q‑table表中,从而建立强化学习算法中的q‑table表格。22.q‑table表格是强化学习中算法q‑learning需要使用的表格,根据本发明的特点,建立q‑table表格,如图2所示,包括以下步骤:(1)状态划分在本步骤中,需要建立环境模型,该模型包括各节点短路电流、负荷信息、断路器拓扑关系(分级),从而完成状态的划分。23.状态划分的方法为:从变电站出线断路器(零级断路器)开始,按照潮流方向逐级遍历全网,零级断路器的定值设为s1,所有一级断路器(零级开关的下级断路器)的定值为s2,所有二级断路器(一级断路器的下级断路器)的定值为s3,以此类推,如图1断路器分级示意图。24.(2)行为划分行为指的是给当前断路器的定值赋值,赋值应满足imin≤in≤imax,其中imin、imax分别表示本线路可能出现的最小短路电流和最大短路电流。同时,赋值时应将可靠系数、灵敏系数考虑在内。为了进一步缩小范围,可将“本线路”缩小为“本支路”。in表示当前断路器的定值赋值,in可以表示为:;其中k表示步长,n为行为编号,可以看出行为的数量与步长有关。25.上述行为划分的具体过程为:1)采用常规短路计算方法计算本线路出现的最大短路电流imax和最小短路电流imin;2)根据计算精度要求设置k值,k=100;3)根据如下公式计算:,,……,。26.(3)计算环境对赋值的反馈,即:各断路器的跳闸情况,具体方法为:在计算环境对赋值的反馈时,用in比较断路器的保护定值,当in大于保护定值时,认为断路器跳闸。如果主变低压侧断路器跳闸,则反馈值xsel=0,如果跳闸断路器是故障点上游第一个断路器,则xsel=0,其他断路器跳闸取xsel=2;任意断路器跳闸,反馈值xsen=1,无断路器跳闸时取xsen=0。27.(4)根据环境对赋值的反馈,计算当前级数所有断路器的总奖励值∑px;具体方法为:根据环境对赋值的反馈,分别按照步骤1给出的选择性的奖励函数psel、灵敏性的奖励函数psen及速动性的奖励函数pspe分别计算当前级数每个断路器的选择性奖励值、灵敏性奖励值及速动性奖励值,并按照步骤1给出的奖励函数px计算得到当前级数每个断路器的奖励值,最后求和得到当前级数所有断路器的总奖励值∑px。28.(5)将总奖励值∑px填入q‑table表中对应的位置中。29.最后建立的q‑table表如图3所示,图中:……,分别表示所有一级断路器采用行为i1、i2、i3……时的总奖励值;……,分别表示所有二级断路器采用行为i1、i2、i3……时的总奖励值;……,分别表示所有三级断路器采用行为i1、i2、i3……时的总奖励值;以此类推。30.步骤3、采用贝尔曼方程迭代q值。31.本步骤采用贝尔曼方程进行迭代,其计算方程如下:式中,表示当前q‑table表中第s行a列的值,表示未来q‑table表中第s行a列所有的值中的最大值;表示未来奖励的衰减值;表示学习率。32.当两次连续迭代的结果小于给定的误差时,本次迭代结束。33.步骤4、计算整定结果:对q‑table表格中的q值全部迭代结束后,得到配电网断路器的最终定值。34.全部迭代结束,且全线路断路器均已遍历完成,则认为最后一次迭代的函数状态量为断路器的最终定值,即此时s1、s2、s3……sn中的值为当前线路所有断路器的整定定值。35.通过以上步骤,即可快速准确地计算出配电网断路器的最终定值,从而实现基于强化学习算法的配电网继电保护人工智能整定功能。36.下面以图1给出的线路为例,采用本发明的基于强化学习算法的配电网继电保护人工智能整定方法。37.在图1中,全线路共有主干断路器4台,分支断路器4台,一级分支线6条,各变压器(含等效变压器组)7台。各变压器容量表如表1所示:表1各变压器容量表变压器编号1234578容量(kva)8006504004004008001000具体过程如下:(1)计算奖励函数以s3断路器赋值为例,故障设置在8#断路器电源侧,赋值为1400a,1s的奖励函数值计算方法如下:选择性奖励函数为:此时环境给出的反馈值xsel=1,因此psel=5灵敏性奖励函数为:此时环境给出的反馈值xsen=1,因此psen=0速动性奖励函数为:(2)建立q‑table表格1)断路器分级表如图4所示。38.2)断路器的定值赋值如下:3)q‑table计算q‑table根据状态及行为不断迭代计算与更新,以其中一次计算为例,分级对各断路器进行赋值,计算各q值后的q‑table表如图5所示:(3)迭代q值利用贝尔曼方程:,以一次计算q‑table为例,取,迭代更新后的,由于,不满足精度要求,于是继续进行下一次迭代。39.(4)多次迭代后,得到的已能满足精度要求,此时的与该q值对应的各断路器定值即是目标值。经求解,最终的断路器定值如图6所示。40.通过以上步骤实现了配电网继电保护人工智能自动整定功能。41.需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1