高可靠低时延低能耗的电力巡检系统及巡检方法与流程

文档序号:21797048发布日期:2020-08-11 20:48阅读:303来源:国知局
高可靠低时延低能耗的电力巡检系统及巡检方法与流程
本发明涉及电力物联网的
技术领域

背景技术
:在电力物联网中,需要大量的机器设备来实现数据的自动采集和处理。电力巡检是电网中的一项重要工作,可以保障电力系统的安全运行,在一些现有技术中,这种工作大部分可以由电力巡检机器人完成。相对于人工,电力巡检机器人可明显提升巡检效率和巡检质量。但繁重而复杂的巡检工作会使巡检机器人产生大量的数据任务,同时这些任务必须得到实时的处理才能保证电网的稳定运行,而巡检机器人的处理能力是有限的,因此仅依靠本地执行是不能保证可靠的服务供应的,并且会缩短机器人的工作时长。部分现有技术希望通过边缘计算的方式改进上述问题。在该方式中,巡检机器人将密集的计算任务卸载到附近具有强大计算能力的边缘服务器上,使边缘服务器为附近的巡检机器人提供计算服务,由此有效地降低了网络延迟,增强了电网服务的可靠性并延长了机器人的工作时长,成为了解决上述问题的一个有前途的方案。但该方式在实际应用中面临诸多挑战,如:(1)由于缺乏信道增益、边缘服务器最大处理能力等信息,电力巡检机器人需要在信息不完全的状态下完成任务卸载;(2)考虑到电网的安全稳定运行,电力巡检机器人采集到的数据信息往往需要实时处理,对时延要求很高;(3)在实际的电网场景中,通常需要多个电力巡检机器人同时完成设备的巡检工作,因此会出现多个巡检机器人进行资源竞争的情况,即多个巡检机器人将任务卸载到同一边缘服务器的情况,其会导致计算资源分配不优。技术实现要素:本发明的目的在于提供一种高可靠低时延低能耗的电力巡检系统,其可显著提升电力巡检的效率和巡检质量,同时其可降低时延、提高网络服务的可靠性,最小化网络中全部巡检机器人的长期总能耗,提高网络的能量利用效率。本发明首先提供了如下的技术方案:高可靠低时延低能耗的电力巡检系统,其包括基站、每个基站至少配置一个边缘服务器、可移动的智能巡检机器人,所述智能巡检机器人具有可实现任务卸载决策及本地任务处理的计算能力。在一些具体实施方式中,所述智能巡检机器人的数量不少于基站数量。其数量上限可根据实际情况进行选择,以可在巡检机器人的工作时间内(电池耗尽前)对变电站至少完成一次全面巡检至所述巡检机器人不能占据变电站全部可用空间为基准。本发明进一步提供了通过上述系统进行电力巡检的方法,其包括:由所述智能巡检机器人产生巡检计算任务;由所述智能巡检机器人通过任务卸载决策模型对所述任务进行分配;由所述智能巡检机器人和/或被分配到任务的基站对任务进行处理;由所述智能巡检机器人产生处理结果和/或接收被分配到任务的基站的关于处理结果的反馈。上述方案中所述巡检计算任务,可以是巡检机器人基于已设定的巡检任务,需要对其在巡检过程中采集到的数据和/或画面等进行进一步分析处理而产生的。在一些具体实施方式中,所述任务卸载决策模型为优化后的任务卸载决策模型。在一些具体实施方式中,被分配到任务的基站对任务进行的处理通过其配置的边缘服务器完成。即,在本发明的上述方案或下述方案中,凡是需要通过基站进行计算的部分都可以视为其通过基站配置的边缘服务器进行。在一些具体实施方式中,所述任务卸载决策模型基于所述智能巡检机器人的本地侧模型、基站侧模型、本地侧对基站侧的模拟模型、超可靠低延迟通信约束及最小化长期总能耗中的一项或多项做出。如,所述任务卸载决策模型可基于超可靠低延迟通信约束做出,在该约束下,再选择与其适配的其它常规或非常规模型。或,所述任务卸载决策模型可基于超可靠低延迟通信约束及最小化长期总能耗做出,在该约束及优化限定下,再选择适配的其它常规或非常规模型。或,所述任务卸载决策模型可同时基于所述本地侧模型、基站侧模型、本地侧对基站侧的模拟模型、超可靠低延迟通信约束及最小化长期总能耗共同做出。诸如此类。其中,所述超可靠低延迟可沿用5g通信中关于超可靠低延迟(urllc)的定义。所述长期可采用本领域技术人员公知的超过一般时间长度的周期,或至数学表达式中为了统计使用的+∞。所述总能耗包括系统中全部智能巡检机器人的数据处理能耗及传输能耗。在一些具体实施方式中,所述本地侧模型包括本地侧数据队列模型、本地侧处理时延模型、本地侧处理能耗模型、本地侧传输能耗模型。在一些具体实施方式中,所述基站侧模型包括基站侧数据处理模型。在一些具体实施方式中,所述本地侧对基站侧的模拟模型包括本地侧对基站侧的数据队列模拟模型。在一些具体实施方式中,所述本地侧流量模型如式(1)所示:其中,ak(t)表示所述智能巡检机器人将第t个时隙产生的巡检计算任务以大小均为的ak(t)个子任务的形式存储于其本地任务缓冲区;qk(t)表示第t个时隙,所述智能巡检机器人的本地任务缓冲区内的数据队列,uk(t)表示将离开本地任务队列的任务数据量,其包括将被本地处理或卸载到基站上的数据量χk,j,t。在一些具体实施方式中,将被本地处理的数据的量通过式(2)获得:其中,fk,t表示所述智能巡检机器人在第t个时隙分配的用于处理该任务的本地cpu周期频率,λk表示处理每比特数据需要的cpu周期,τ表示每个时隙的长度,j=j+1表示所述智能巡检机器人选择本地处理(即由其本身完成任务处理而不进行对基站的任务卸载)。在一些具体实施方式中,将被卸载到基站上的数据的量通过式(6)获得:其中,表示所述智能巡检机器人在可选基站集合中选择了一个基站mj进行任务卸载,rk,j,t表示uk在第t个时隙的数据传输速率。在一些具体实施方式中,rk,j,t通过式(5)获得:其中,bk表示所述智能巡检机器人被分配到的专用子信道的带宽;γk,j,t表示其在第t个时隙的信噪比。在一些具体实施方式中,γk,j,t通过下式获得:其中,ptx表示传输功率,gk,j,t表示所述智能巡检机器人和被分配到任务的基站间的信道增益,δ2表示噪声功率。在一些具体实施方式中,所述本地侧处理时延模型如式(3)所示:在一些具体实施方式中,所述本地侧处理能耗模型如式(4)所示:其中,αk表示本地cpu的有效切换电容。在一些具体实施方式中,本地侧传输能耗模型如式(7)所示:式(7)中的zk,j,t表示将被卸载到基站上的数据量。在一些具体实施方式中,所述基站侧数据处理模型如式(10)所示:其中,yk,j(t)表示第t个时隙基站处理的数据量,hk,j,t表示第t个时隙基站上存储的、被所述智能巡检机器人分配的但还未处理的任务的数据量;fk,j,t表示基站根据任务的重要性分配的cpu周期频率。在一些具体实施方式中,fk,j,t通过式(9)得到:其中,βk为权重参数,为指示函数,当x为真时,反之,在一些具体实施方式中,所述本地侧对基站侧的数据队列模拟模型如式(11)所示:hk,j(t+1)=min{hk,j(t)-yk,j(t)+xk,j,tzk,j,t,0},(11)其中,hk,j(t)表示第t个时隙基站上存储的来自所述智能巡检机器人的数据队列;xk,j,t表示任务卸载指示符,当xk,j,t=1时,表示第t个时隙所述智能巡检机器人选择了一个基站进行任务卸载,其中j=j+1时,表示所述智能巡检机器人选择本地处理。在一些具体实施方式中,所述超可靠低延迟通信约束如式(12)及(13)所示:其中,和分别表示本地侧及基站侧的排队时延界限;和为可容忍的界限违反概率;一般情况下,和其中,和分别表示前t-1个时隙(即自开始至第t-1个时隙为止)所述智能巡检机器人本地侧任务缓冲区及基站侧的任务缓冲区的平均数据达到速率。在一些具体实施方式中,和分别通过下式得到:在一些具体实施方式中,所述约束还包括式(14)-(15):其中表示的长期时间条件均值,表示所述智能巡检机器人在本地任务缓冲区的溢出值;表示的长期时间条件二阶矩,为的二次方;和分别表示溢出值的条件互补累积分布函数的广义帕累托分布近似中尺度参数和形状参数和的阈值。在一些具体实施方式中,所述约束还包括式(16)-(17):其中,表示的长期时间条件均值,表示所述智能巡检机器人对应在基站侧的任务缓冲区的溢出值;表示的长期时间条件二阶矩,为的二次方;和分别表示溢出值的条件互补累积分布函数的广义帕累托分布近似中尺度参数和形状参数的阈值。在一些具体实施方式中,最小化长期总能耗采用如式(18)所示的优化模型:且满足如下约束:c2:关于本地队列qk(t)的约束(12),(14)及(15),c3:关于基站侧队列hk,j(t)的约束(13),(16)及(17),其中,c1表示在一个时隙内,每个智能巡检机器人只能选择一个基站进行任务卸载,或进行本地处理。其中,表示系统内智能巡检机器人的集合;表示整个优化时间,即时隙的集合;表示可用选项集合,通过下式获得:在一些具体实施方式中,所述优化模型采用如式(25)所示的模型:且满足:其中,θk,j,t表示总能量消耗和所述超可靠低延迟通信约束赤字的加权和的倒数。在一些具体实施方式中,θk,j,t通过式(26)获得:其中,和分别表示对应于能量消耗、本地侧数据队列和基站侧数据队列的约束赤字的权重,和用于统一数量级。其中,和来自引入的本地侧虚拟队列,分别表示本地侧数据队列qk(t)的长度界值违反可容忍概率的偏差、其溢出值的长期时间平均条件均值的偏差、和其溢出值的长期时间平均条件二阶矩的偏差。其中,和来自引入的基站侧虚拟队列,分别表示基站侧数据队列hk,j(t)的长度界值违反可容忍概率的偏差、其溢出值的长期时间平均条件均值的偏差、和其溢出值的长期时间平均条件二阶矩的偏差。在一些具体实施方式中,阳分别通过模型(19)-(21)获得:在一些具体实施方式中,和分别通过模型(22)-(24)获得:在一些具体实施方式中,通过如下的过程一获得最优决策:s30:输入s31:初始化:包括设置qk(0)及hk,j(0)为队列积压的初始值,设置s32:决策:包括:获得可用基站的集合根据gsi计算θk,j,t的准确值,其中通过解决所述问题p2获得最优选项根据最优选项,更新式(1)、(11)和(19)-(24)中的参数qk(t+1),hk,j(t+1),及s33:迭代步骤s32至t>t,获得最优决策。其中,t表示整个优化时间内时隙的数量。在一些具体实施方式中,通过如下的过程二获得最优决策:s40:输入ρ[0,1];s41:初始化:包括设置qk(0)及hk,j(0)为队列积压的初始值,设置s42:决策:包括:获得可用基站的集合若则重置ωk,j,t=1根据选择概率模型,对每个可选项的被选中概率进行估算,得到概率分布;根据所述概率分布,做出基础决策s43:决策学习:包括:观察yk,j(t)表现,并更新式(1)和(11)中qk(t+1)和hk,j(t+1)的值,通过式(26)计算回报值;根据回报值,更新估值回报和ωk,j,t+1;更新式(19)-(24)中的参数和s44:迭代步骤s42-s43至t>t,获得最优决策。其中,ρ和ωk,j,t分别表示通过吉布斯分布中均匀分布部分得到的概率值,以及通过与经验性能相关的分布部分得到的经验值;表示所述智能巡检机器人做出的选择。在一些具体实施方式中,所述选择概率模型如式(27)所示:在一些具体实施方式中,所述估值回报的值通过式(28)获得:在一些具体实施方式中,所述ωk,j,t+1通过式(29)获得:本发明具有以下有益效果:(1)本发明的电力巡检系统及方法,可显著提升电力巡检的效率和巡检质量,降低时延、提高网络服务的可靠性,最小化网络中全部巡检机器人的长期总能耗,提高网络的能量利用效率。(2)在一些具体实施方式中,本发明的方法可在不需要全局信息、只需要局部信息的情况下,通过学习实现最优的任务卸载方案。(3)在一些具体实施方式中,本发明的方法通过动态调整队列积压界值违反概率、溢出值的长期时间平均条件均值和二阶矩的权重,实现超可靠低延迟通信(urllc)约束感知,可显著减少队列积压,提高针对排队时延的满意度。(4)在一些具体实施方式中,本发明的方法通过对队列长度的阈值偏差施加概率要求和对溢出值施加高阶统计要求,更准确的定义了urllc约束,在显著减少队列积压的同时,提升了队列稳定性,提升了系统可靠性。(5)在现有技术中,当多个电力巡检机器人选择同一个基站进行任务卸载时,基站分配给每个设备的可用计算资源就会减少,即不同的机器人之间的选择策略是对抗的,而本发明的方法可通过不断地探索可选基站中的非最优选项,进而达到缓解不同机器人任务卸载策略之间的对抗问题。附图说明图1为本发明具体实施方式中所述变电站系统结构图;图2为本发明具体实施方式中所述在非理想情况下进行的决策制定过程。图3为本发明具体实施方式中所述总队列积压随时间的变化情况图;图4为本发明具体实施方式中不同方法能耗随时间变化的图;图5为本发明具体实施方式中所述的urllc满足概率图。具体实施方式以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。如附图1所示的变电站巡检系统,其包括个j个基站,基站集合表示为每个基站配置有一个边缘服务器,使其可在没有远程云或其他基站帮助的情况下同时提供无线接入和计算服务;系统中有k(k>>j)个智能巡检机器人(以下简称“机器人”),其集合表示为机器人在系统中可按既定轨迹配置并进行移动,也可随机分布并持续移动,如在以下实施方式中,设其随机分布并持续移动;每个机器人都配备一定的计算能力,可以本地处理巡检过程中其产生的任务,也可将任务卸载到附近的基站进行远程处理。在任务产生后,系统可通过如下的步骤完成巡检:s1:机器人uk将产生的任务数据通过卸载决策模型判断其卸载方式;s21:在任务全部不被卸载的情况下,由机器人uk对任务进行本地处理,获得处理结果;s22:在任务被卸载至基站后,由基站对获得的卸载任务进行处理,再向机器人uk反馈处理结果。其中,在卸载决策模型中,时间尺度上可采用时隙进行衡量,即将时间分为t个长度为τ的时隙,其集合表示为由于基站覆盖范围的有限性以及机器人的移动性,机器人可用的基站集合是时变的,将机器人uk在第t个时隙可用的基站集合表示为在卸载决策模型中,决策及处理假设信道状态信息(channelstateinformation,csi)可认为在一个时隙内保持不变,但不同时隙内不同,而每个机器人的可用基站在几个连续时隙内保持不变,即其变化速度比csi慢。在卸载决策模型中,在第t个时隙,uk可自主决定是将其任务卸载到中的一个基站还是进行本地处理,即uk面临着个选项,其中为集合中的基站数量。将uk的任务卸载指示符表示为xk,j,t∈{0,1},其中xk,j,t=1即表示在第t个时隙uk在基站mj的通信范围内且选择了mj进行任务卸载,xk,j+1,t=1则表示uk选择本地处理。为统一表达,将uk在第t个时隙可用的选项表示为即由可用基站的索引值和本地任务处理的索引值组成。所述卸载决策模型可通过包括机器人uk的本地侧模型、基站侧模型、本地侧对基站侧的模拟模型、超可靠低延迟通信约束及最小化长期总能耗中的一个或多个因素获得,其中所述本地侧模型包括本地侧数据队列模型、本地侧处理时延模型、本地侧处理能耗模型、本地侧传输能耗模型;所述基站侧模型包括基站侧数据处理模型;所述本地侧模拟模型包括本地侧对基站侧的数据队列模拟模型。其中,一、本地侧模型可具体包括:本地侧数据队列模型:采用任务分割模型,即将uk在第t个时隙产生的任务可以进一步分割为具有相同大小的ak(t)个子任务。到达但还未处理的任务将会储存在uk的本地任务缓冲区中,将其建模为一个队列,队列长度表示为式(1):其中,uk(t)表示将离开本地任务队列的任务数据量,其包括将被(a)本地处理或者(b)卸载到基站上的数据量zk,j,t,其可表示为式(8):其中,(a)将被本地处理(即xk,j+1,t=1)的数据的量可通过如式(2)获得:其中,fk,t表示机器人uk在第t个时隙分配的用于处理该任务的本地cpu周期频率。λk表示处理每比特数据需要的cpu周期。同时,本地侧处理时延模型可表示如式(3):本地侧处理能耗模型可表示如式(4):其中,αk为本地cpu的有效切换电容。(b)将被卸载到基站mj上(即xk,j,t=1,)的数据的量可通过如式(6)获得:其中,rk,j,t表示uk在第t个时隙的数据传输速率。rk,j,t可通过如式(5)获得:其中,bk表示分配给机器人uk的专用子信道的带宽,γk,j,t表示uk在第t个时隙的信噪比,其可通过下式获得:其中,ptx表示传输功率,gk,j,t表示uk和mj间的信道增益,δ2表示噪声功率。并可得到本地侧传输能耗(即第t个时隙传输任务数据到mj上消耗的能量)模型如式(7):其中zk,j,t表示将被卸载到基站mj上的数据量,即式(6)中的数据量。二、基站侧模型可具体包括:假设每个基站为uk建立一个任务缓冲区,用来存储其卸载但还未处理的任务,将第t个时隙基站mj上存储的对应uk的数据量表示为hk,j,t。基站根据每个机器人任务的重要性来分配cpu周期频率,例如,mj在第t个时隙分配给uk的cpu周期频率可表示为:其中βk为反映uk任务重要性的权重参数。为指示函数,当x为真时,反之,fj,max为mj可分配的总cpu周期频率。则mj在第t个时隙处理的uk的任务数据量可表示为式(10):随后,基站mj会进一步将yk,j(t)对应的处理结果反馈给机器人uk。三、本地侧对基站侧的模拟模型可具体包括:基站分配给uk的任务缓冲区可以建模为一个队列,由于基站侧的信息对于uk来说是不可知的,因此uk可以根据xk,j,t,zk,j,t和yk,j(t)来模拟其在mj的远程任务队列,表示为式(11):hk,j(t+1)=min{hk,j(t)-yk,j(t)+xk,j,tzk,j,t,0},(11)其中,xk,j,tzk,j,t和yk,j(t)分别表示队列输入和输出。基于利特尔法则(little法则),机器人侧本地任务缓冲区以及基站侧的远程任务缓冲区的平均排队时延与平均队列长度和平均数据到达率的比值成正比。为了保证可靠性和时延需求,需要考虑队列长度的尾分布。对于对本地和远程任务缓冲区的排队时延施加概率约束如式(12)及(13)所示:其中,和分别表示前t-1个时隙机器人本地侧任务缓冲区及基站侧的远程任务缓冲区的时间平均数据达到速率,其可分别计算如下式:和是对应的本地侧及基站侧排队时延界限。和是可容忍的界限违反概率。除了界限违反概率外,发明人还考虑到本地极端事件的发生,借助于极值理论,利用pickands-balkema-dehaan定理来描述极端事件的统计和尾分布。其中,表示uk本地任务缓冲区在第t个时隙中的溢出值为:根据pickands-balkema-dehaan定理,溢出值的条件互补累积分布函数(ccdf),即其可以近似为广义帕累托分布(gpd)其中和是相应的尺度参数和形状参数。考虑到溢出值的均值和二阶矩都随着两个参数的增大而增加,发明人对两个参数分别设置了阈值,即和阈值的取值可通过gpd性质和urllc需求进行选择。基于两个参数阈值和gpd的统计特性之间的关系,溢出值相应的长期时间平均条件均值和长期时间平均条件二阶矩可表示为:其中表示的长期时间平均条件均值,表示的长期时间平均条件二阶矩,为的二次方,即类似地,考虑到远程队列极端事件的发生,所述urllc约束可进一步包括:其中,和为远程队列溢出值的ccdf近似的的两个特征参数的阈值,其ccdf可表示为:基于上述本地侧模型、基站侧模型、本地侧对基站侧的模拟模型和urllc约束条件,对网络中所有机器人的长期总能耗进行最小化。任务卸载决策的优化模型可表示如式(18):且满足如下约束:c2:关于本地队列qk(t)的约束(12),(14)及(15),c3:关于基站侧队列hk,j(t)的约束(13),(16)及(17),其中,c1表示在一个时隙内,每个机器人uk只能选择一个基站mj进行任务卸载,或进行本地处理。c2和c3分别为本地和远程队列的长期界限违反概率的约束,以及溢出值的长期条件均值和二阶矩约束。进一步地可根据上述优化模型得到基于学习的urllc感知任务卸载方案。具体的,基于虚拟队列的概念,可以将长期的urllc约束c2和c3转化成队列稳定性约束。根据约束(12),(13)和(15)引入三个本地侧虚拟队列:其中,和分别表示本地侧实际数据队列qk(t)的长度界值违反可容忍概率的偏差,本地侧实际数据队列的溢出值的长期时间平均条件均值的偏差,和本地侧实际数据队列的溢出值的长期时间平均条件二阶矩的偏差。相似的,根据约束(13),(16)和(17),引入三个基站侧虚拟任务队列:其中,和分别表示基站侧实际数据队列hk,j(t)的长度界值违反可容忍概率的偏差、基站侧实际数据队列的溢出值的长期时间平均条件均值的偏差、基站侧实际数据队列的溢出值的长期时间平均条件二阶矩的偏差。通过利用lyapunov优化,问题p1可以转化为一系列短期确定性的子问题,每个机器人在每个时隙内都可以单独解决这些子问题,在保证urllc约束条件的同时可以使能耗最小化。转化后的问题p2可表示为:且满足:其中,θk,j,t表示总能量消耗和urllc约束赤字的加权和的倒数,表达式如下:其中,和分别表示对应于能量消耗、本地侧数据队列和基站侧数据队列的约束赤字的权重,和用于统一数量级。在通过上述模型及约束条件、优化条件做出任务卸载决策的过程中,解决p2问题所需要的信息包括两类,即本地信息和非本地信息。其中,本地信息即uk不需要信息交换就可以获得的信息,例如:本地队列积压qk(t),传输功率ptx,分配的本地cpu周期频率fk,t,处理每比特数据需要的cpu周期λk,队列延迟界限和可容忍的界限违反概率和gpd的尺度和形状参数的阈值和非本地信息即没有额外的信息交换,uk不能得到的信息,例如:信道增益gk,j,t,基站的缓冲区大小,基站侧队列的积压,mj分配的cpu周期频率fk,j,t以及其他机器人的任务卸载策略。在具有完美gsi的理想情况下,本地和非本地信息都是可用的,而在非理想情况下,只有本地信息可用。根据这两种情况,机器人可通过不同的过程获得最优的任务卸载决策。如,在可获得本地信息和非本地信息的情况下(理想情况下),选择如下的过程一:s30:输入s31:初始化:包括设置qk(0)及hk,j(0)为队列积压(queuebacklogs)的初始值,设置s32:决策:包括:获得可用基站的集合根据gsi计算θk,j,t的准确值,其中通过解决问题p2获得最优选项根据最优选项,更新式(1)、(11)和(19)-(24)中的参数qk(t+1),hk,j(t+1),及s33:迭代步骤s32至t>t,获得最优决策。上述过程即,在初始化阶段,uk将所有虚拟队列的初始长度置为0,将所有指示符的初始值置为0。在决策阶段,uk在每个时隙开始时根据当前的gsi计算每个可用选项对应的θk,j,t,并通过解决问题p2找到最优的选项,随后uk更新所有的队列,包括任务积压队列和虚拟队列,再迭代决策阶段一直持续到t>t。在只能获得本地信息的情况下(非理想情况下),选择过程二。过程二中在每一个时隙,根据一个特定的分布,gibbs分布进行决策,gibbs分布是均匀分布ρ和与经验性能相关的分布ωk,j,t的混合,其中均匀分布可确保决策模型不时地进行探索,发现非当前最优但可能是潜在的更好的选项,ρ是[0,1]之间的值,反映了模型对探索的偏好。具体地,过程二可如:s40:输入ρ∈[0,1];s41:初始化:包括设置qk(0)及hk,j(0)为队列积压的初始值,设置s42:决策:包括:获得可用基站的集合若则重置可选项的经验性能相关的分布ωk,j,t=1根据式(27)所示选择概率,对每个可选项的被选中概率pk,j,t进行估算,得到概率分布;根据pk,j,t,的分布,做出基础决策φk,j;s43:决策学习包括:观察yk,j(t)表现,并更新式(1)和(11)中qk(t+1)和hk,j(t+1)的值,根据式(26)计算回报根据回报值,通过式(28)和(29)更新估值回报和ωk,j,t+1;更新式(19)-(24)中的参数和s44:迭代步骤s42-s43至t>t,获得最优决策。其中:上述过程即,如附图2所示,在初始化阶段,将所有的虚拟队列、指示符和实际回报设为0,并把ωk,j,t置为1。在决策阶段(t≤t),uk首先获取可用的基站集合当可用集合发生变化时,所有可用选项的ωk,j,t重置为1。对于任何一个可用选项,获得其相应的选择概率pk,j,t,根据概率分布来进行任务卸载决策,并用表示uk的基础选择。在学习阶段,uk观察yk,j(t),然后更新队列qk(t+1)和hk,j(t+1),并获得计算回报为保证所选选项的期望回报与实际回报相等,定义估值回报为实际回报与对应选项的概率之比,根据回报值对及ωk,j,t+1进行更新,最后,uk更新所有虚拟队列,并进行决策和学习阶段的迭代,持续至t>t,获得最优决策。基于上述方法,进行如下的仿真对比实验:其中,算法1为传统的exp3算法,其目标是最小化所有机器人能耗,但不考虑其他约束;算法2为随机选择算法,即每个机器人在每个时隙随机选择一个可选选项;算法3为uto-ucb算法,即在传统ucb算法的基础上考虑高可靠低时延约束。实验设计30个巡检机器人,3个基站,1000个时隙,每个时隙机器人产生的任务在区间内服从均匀分布,其中其他参数设置如下:可得到如附图3所示的总队列积压随时间的变化情况对比图、图4所示的不同方法的时间平均能耗随时间变化对比图、及图5所示的满足urllc约束的概率对比图。从图3中可以看出,使用本发明的方法产生的队列趋于平稳,队列积压要远远小于使用其余三种算法的队列积压。其中exp3算法由于本地侧队列积压很大导致总队列积压很大,uto-ucb算法由于基站侧队列积压导致性能很差,而随机选择算法基于随机选择,有很大概率选到性能不理想的基站所以队列积压也会上升。从图4中可以看出,本发明的方法在能耗方面的表现仅次于exp3算法,而明显优于其他两种算法。exp3算法因仅考虑了能耗优化而未考虑高可靠低时延约束,所以其能量消耗最小,但通过图4、图5的对比可知,其相应的代价就是队列积压大,不能满足urllc约束,综合表现差于本发明。在图5的对比中,纵轴表示队列长度满足urllc约束的概率,横轴为时隙。整个优化时间分为三个时间段:0-300、301-700和701-1000,在这三个时间段中可用基站的集合是变化的(即具有波动性),如下表所示,其中╳表示基站不可用,√表示基站可用:基站m1m2m3fj,max3×1011cycle/s4×1011cycle/s5×1011cycle/s时段1~300√√×时段301~700×√√时段701~1000√×√当可用基站的集合发生变化时,电力巡检机器人需要对新的可用基站进行探索。通过对比可以看出,本发明的方法相比于使用其他三种算法的方案有更好的性能,可以很好的满足urllc约束并快速收敛。综合图3-图5可以看出,本发明的方法既能很好的满足urllc约束,使队列积压维持在较低的水平,还可以降低电力巡检机器人的能耗。以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1