一种无人机孪生网络映射误差情况下计算任务智能卸载方法

文档序号:33115372发布日期:2023-02-01 02:47阅读:22来源:国知局
一种无人机孪生网络映射误差情况下计算任务智能卸载方法

1.本发明涉及无人机技术领域,更具体地,涉及一种无人机孪生网络映射误差情况下计算任务智能卸载方法、系统及计算机可读存储介质。


背景技术:

2.物联网设备及其应用日益普及,越来越多的需要资源的应用和新颖的大数据服务正在发展,并在我们的日常生活中发挥作用。然而,由于物理尺寸、电池容量和计算资源有限等原因,终端设备在服务延迟敏感和计算密集型应用方面存在困难。移动边缘计算(mobile edge computing,mec)最近被认为是一种很有前景的技术,可以在无线网络边缘为资源有限的终端提供服务。终端通过计算卸载服务,将其计算密集型任务卸载到mec服务器执行。因此,任务执行的大部分能耗从资源有限的终端转移到资源丰富的mec服务器上。从而减少任务的计算延迟和能耗,延长整个网络的寿命并且提高网络的服务质量。但是,当大量的任务同时被卸载给mec服务器时,mec服务器上可能会发生激烈的资源竞争,导致网络拥塞和性能下降。而端到端(device-to-device,d2d)协作被认为是一种潜在的资源短缺问题的解决方案,由空闲的移动用户、终端设备提供空闲的计算资源,进行卸载任务的计算,可以有效降低延迟。但是,上述mec技术不支持灵活部署,在一些通信基础设施分布稀疏,通信条件较差的环境中,如高原、森林等地区,终端还是难以获得可靠的计算服务。
3.随着无人机技术的不断发展和成熟,以及无人机的灵活部署、工作效率高等优点,工业级的无人机被广泛应用,比如应用在救灾、电力、航测等。同时无人机已被提出作为5g及5g之后的飞行mec服务器,以扩展无线覆盖范围,并服务于不确定和极端环境下的终端,以较低的网络开销和执行延迟提供计算卸载服务。要进行有效、可靠的计算卸载服务,提供无处不在的通信和计算支持,无人机网络边缘计算需要对计算任务卸载、本地计算、无人机部署以及无人机飞行轨迹的联合优化。传统的优化方法依靠人类经验进行优化决策,人力成本较高。随着近年来人工智能技术在各行业的大量应用,在移动网络优化领域应用的机器学习和人工智能算法也在激增,如利用多目标优化模型优化网络容量和覆盖率,利用神经网络在移动性管理中预测用户的目标位置,用深度神经网络(deep neural network,dnn)实现的近实时资源分配。然而,这些方法不能适应高维网络状态的动态变化,结果往往是次优的。因此,一些研究采用强化学习(reinforcement learning,rl)来解决这一问题。强化学习基于系统状态转移和动作后的反馈奖励,学习在未知环境下的最优决策。它可以与复杂和动态的环境交互,以优化难以建模的学习目标。然而,训练样本的获取难度和时间成本是一个很大的挑战。为了做到这一点,这些算法在探索过程中直接与物理网络交互,这意味着它们将当前未经训练的策略产生的动作直接施加到网络中,以获得训练样本。这是特别危险的,因为当前的次优行动甚至是较差行动可能会恶化网络性能,在无人机网络中可能造成难以挽回的巨大损失。
4.现有技术中公开了一种基于数字孪生的无人机集群轨迹优化和任务卸载方法,包括:构建无人机集群辅助边缘计算模型;构建物理实体网络;构建物理实体网络的数字孪生
网络,拟合用户设备和无人机的地理位置、资源状态信息;构建无人机轨迹、用户设备卸载决策和计算资源分配的优化模型;求解无人机轨迹和用户设备、无人机的计算资源分配策略;获取用户设备的卸载决策;获得无人机的轨迹,用户设备和无人机的计算资源最优分配策略,以及获得用户设备的计算任务最优卸载决策。该方案中采用两个算法进行优化,复杂度较高,稳定性不佳。
5.为了解决上述问题,本发明提出了一种无人机孪生网络映射误差情况下计算任务智能卸载方法、系统及计算机可读存储介质。


技术实现要素:

6.本发明提供一种无人机孪生网络映射误差情况下计算任务智能卸载方法、系统及计算机可读存储介质,能够减轻终端用户和边缘服务器之间不可靠的远程通信,降低系统延迟,增强数据的实用性。
7.本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
8.本发明第一方面提供了一种无人机孪生网络映射误差情况下计算任务智能卸载方法,包括以下步骤:一种无人机孪生网络映射误差情况下计算任务智能卸载方法,包括以下步骤:
9.s1:构建智能终端和无人机的数字孪生模型,利用所述孪生模型对基站服务区域内的智能终端、无人机的运行状态进行模拟和仿真并生成孪生数据;
10.s2:构建计算卸载和资源分配策略,将最大化无人机效用函数作为优化目标;
11.s3:将优化目标构造成马尔可夫决策过程,并利用孪生数据优化竞争近端策略,利用优化后的竞争近端策略求解马尔可夫决策过程;
12.s4:利用步骤s3输出的决策动作进行飞行轨迹制定、计算卸载及其资源的分配。
13.进一步的,智能终端的数字孪生模型表达式为:
14.dti={mi,di,si(t),si(t+1)}
ꢀꢀ
(1)
15.其中,mi分别表示智能终端的行为模型,si(t)分别表示智能终端实时状态,si(t+1)表示智能终端的更新状态。
16.进一步的,无人机的孪生模型表达式为:
17.dtj={mj,dj,sj(t),sj(t+1)}
ꢀꢀ
(2)
18.其中,mj表示无人机的行为模型,sj(t)表示无人机的实时状态,sj(t+1)表示无人机的更新状态。
19.进一步的,构建计算卸载和资源分配策略,将最大化无人机效用函数作为优化目标包括:定义场景、定义通信通信模型、定义计算卸载模型;
20.定义场景:
21.设定有随机分布的i个智能终端,记作u={1,2,

,i},每个智能终端既能在本地执行计算任务,也能将计算任务卸载到携带边缘服务器的无人机执行,设定无人机从当前位置飞行到指定的悬停点执行计算任务,并且在同一时间无人机只服务一个智能终端,设无人机的最大服务时长为t,在提供计算服务过程中,无人机处在高度为h的水平面上,在第t时刻,t∈{0,1,2,...,t},无人机选择第k个悬停点的决策变量为ak,其中,k∈{0,1,2,...,k},当ak=1时,表示无人机选择第k个悬停点,此时,无人机的位置表示为
反之,ak=0表示无人机停留在当前位置,地面智能终端i的位置用wi=(xi,yi)表示;
22.定义通信模型:
23.在第t时刻,无人机悬停在第k个悬停点,定义信道带宽为b,地面智能设备轮流卸载计算任务到无人机,第i个智能设备与在第k个悬停点的无人机的通信速率表示为:
[0024][0025]
其中pi为第i个智能设备的传输功率,σ表示噪声功率,表示第i个智能终端与无人机之间的信道增益,其中β是固定传输损耗,m表示路径损耗因子,d
i,k
表示无人机的第k个悬停点到用户i的通信距离;
[0026]
定义计算卸载模型:
[0027]
定义第i个智能设备的本地计算时延为如果第i个智能设备将计算任务卸载到无人机,定义计算卸载时延为:
[0028][0029]
其中表示数据传输时延,表示计算时延,f
i,k
为无人机分配给智能设备i的计算资源,定义a
i,k
为卸载决策,当a
i.k
=1时,表示第i个智能设备将计算任务卸载到悬停在第k个悬停点的无人机,反之a
i.k
=0时,表示第i个智能设备将在本地进行任务计算,由于无人机采用悬停方式执行卸载任务计算,因此无人机的悬停时间和计算卸载时延相等,即无人机在悬停点k的悬停时间表示为:
[0030][0031]
无人机在水平方向上需要从悬停点k'推进到当前悬停点k的位置,因此无人机的飞行能耗表示为:
[0032][0033]
其中p1为推进功率,v为无人机的飞行速度,据公式(5),无人机在第k个悬停点的悬停能耗表示为:
[0034]eh
(t)=p2tkꢀꢀ
(7)
[0035]
式中p2为无人机悬停功率,tk为悬停时间,无人机执行卸载任务计算的能耗表示为:
[0036][0037]
综上所述,根据公式(6),(7)和(8),无人机在计算卸载过程中的总能耗表示为:
[0038][0039]
将无人机计算处理任务ri的效用函数定义为:
[0040][0041]
其中ai表示无人机计算处理大小为hi(t)任务的单位价格,bi表示无人机单位计算资源价格,u表示无人机单位成本价格,则,以最大化无人机效用函数作为优化目标表示如下:
[0042][0043][0044]
c2:ef(t)+eh(t)+ec(t)《re(t-1),
[0045]
c3:ak∈(0,1),a
i,k
∈(0,1),
[0046][0047]
c5:0≤f
i,k
≤f
max
,
[0048][0049]
其中c1表示无人机在计算卸载过程中的总能耗不能超过自身电池最大能量ed;c2表示无人机当前时刻计算卸载总能耗小于上一时刻的无人机电池剩余能量re(t-1);c3表示无人机的悬停决策以及地面智能终端i的卸载决策;c4表示地面智能终端i只能将任务卸载给一个无人机;同一时刻每个无人机只能为一个地面智能终端提供计算卸载服务;c5表示无人机分配给地面智能终端i的计算资源不能超过自身最大计算资源f
max
;c6表示智能终端i计算任务时延不超过最大容忍时延。
[0050]
进一步的,利用竞争近端策略优化方法将优化目标构造成马尔可夫决策过程包括:定义状态空间、动作空间和奖励函数,
[0051]
状态空间:在决策时刻t,t∈{0,1,

,t},本地基站的孪生体状态空间定义为:
[0052]
其中表示无人机位置,re(t)表示无人机剩余能量,wi(t)表示地面智能终端i的位置,ri(t)表示地面智能终端i的计算任务,h
i,k
(t)表示地面智能终端i和悬停在第k个悬停点无人机之间的信道增益,其中,i∈{1,2,

,i},k∈{0,1,...,k}
[0053]
动作空间:在决策时刻t,优化无人机效用的动作空间表示为:
[0054]
t={ak,a
i,k
,f
i,k
}
ꢀꢀ
(13)
[0055]
其中ak表示无人机在第t时刻选择第k个悬停点的决策,a
i,k
表示地面智能终端i的卸载决策,f
i,k
无人机分配给地面智能终端i的计算资源;
[0056]
奖励函数:在近端策略优化算法执行过程中,需要检验约束c1-c6是否成立,因此,设计如下即时奖励函数r
t

[0057][0058]
如果限制条件c1-c6不能被满足,则表明当前优化决策的性能较差,在这种情况
下,将即时奖励置为0,以避免无效的决策;在算法训练过程中,本地基站bs从维护的孪生模型中获取初始状态,生成随机策略,通过与孪生模型交互,获取新的状态和动作转移序列,同时,调节各自的actor-critic网络参数得到最优策略。actor网络参数更新过程的损失函数表示为:
[0059][0060]
其中概率比表示网络参数更新幅度,表示优势函数反应了动作的价值,∈为裁剪率,clip函数的目的是将概率比r
t
(θ)限制在区间[1-∈,1+∈],在式(1-3)中,当优势函数时,r
t
(θ)超过1+∈则停止更新,当时,r
t
(θ)小于1-∈停止更新,目的是防止更新的网络和旧的网络差异过大,从而做到小步幅更新。
[0061]
进一步的,优势函数的定义如下所示:
[0062][0063]
δ
t
=r
t
+v(s
t+1
)-v(s
t
)
ꢀꢀꢀ
(16)
[0064]
其中,表示优势函数,δ
t
表示单步时间误差,γ∈(0,1)表示折扣系数,v(s
t+1
)表示状态s
t+1
的估计价值,v(s
t
)表示状态s
t
的估计价值。
[0065]
进一步的,critic网络采用子网络输出的动作价值计算状态价值,具体表达式如下:
[0066]
v(s
t
)=q(s
t
,a)
t
p(s
t
,a)
ꢀꢀ
(17)
[0067]
其中,p(s
t
,a)=[p1,p1,

pk],分别为采取动作p1,p1,

pk的概率,p(s
t
,a)由actor网络输出得到,同时,critic网络将δ
t
的均方差作为损失函数,使用梯度下降法最小化损失函数,更新网络参数。
[0068]
本发明第二方面提供了一种无人机孪生网络映射误差情况下计算任务智能卸载系统,该系统包括:存储器、处理器,所述存储器中包括一种无人机孪生网络映射误差情况下计算任务智能卸载方法程序,所述一种无人机孪生网络映射误差情况下计算任务智能卸载方法程序被所述处理器执行时实现如下步骤:
[0069]
s1:构建智能终端和无人机的数字孪生模型,利用所述孪生模型对基站服务区域内的智能终端、无人机的运行状态进行模拟和仿真并生成孪生数据;
[0070]
s2:构建计算卸载和资源分配策略,将最大化无人机效用函数作为优化目标;
[0071]
s3:将优化目标构造成马尔可夫决策过程,并利用孪生数据优化竞争近端策略,利用优化后的竞争近端策略求解马尔可夫决策过程;
[0072]
s4:利用步骤s3输出的决策动作进行飞行轨迹制定、计算卸载及其资源的分配。
[0073]
进一步的,智能终端的数字孪生模型表达式为:
[0074]
dti={mi,di,si(t),si(t+1)}
[0075]
其中,mi分别表示智能终端的行为模型,si(t)分别表示智能终端实时状态,si(t+1)表示智能终端的更新状态。
[0076]
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括无人机孪生网络映射误差情况下计算任务智能卸载方法程序,所述无人机孪生网络映射误差情况下计算任务智能卸载方法程序被处理器执行时,实现所述的一种无人机孪生网络
映射误差情况下计算任务智能卸载方法的步骤。
[0077]
与现有技术相比,本发明技术方案的有益效果是:
[0078]
本发明通过构建智能终端和无人机的数字孪生模型,将无人机网络在本地bs中以数字孪生的形式展现出来,将模拟和仿真并生成孪生数据与竞争近端策略结合得到竞争网络,得到更少的能耗和计算资源得到最优的任务卸载和资源分配策略,提升网络整体的效用,同时本发明将竞争网络与近端策略优化算法结合,可以更好的适应数字孪生模型的错误与信息传输过程的偏差,减轻终端用户和边缘服务器之间不可靠的远程通信,降低系统延迟,增强数据的实用性。
附图说明
[0079]
图1为本发明实施例提供的基于数字孪生的无人机边缘卸载场景图。
[0080]
图2为本发明提供的一种无人机孪生网络映射误差情况下计算任务智能卸载方法流程图。
[0081]
图3为本发明提供的一种无人机孪生网络映射误差情况下计算任务智能卸载系统框图。
具体实施方式
[0082]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0083]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0084]
实施例1
[0085]
如图1所示为本发明实施例的一个场景,基站(bs)覆盖一定的范围,在覆盖范围内存在一定数量的用户,用户可以是移动设备、物联网设备等等。由于个人用户和物联网设备计算资源不足、能量不足等问题的存在,用户可以选择将自己的计算任务在本地计算或者请求无人机进行计算卸载。因为直接传输数据给基站可能会导致基站过载,交由无人机进行辅助任务卸载,本发明使用竞争-近端策略优化算法训练得到最优决策。由于卸载决策需要不断测试,在物理环境中测试存在风险,于是本发明结合数字孪生技术,每个用户、无人机都将生成自身的数字孪生体,基站负责维护这些数字孪生体并构成数字孪生网络,近端策略优化算法在数字孪生网络中训练并测试,直至收敛后作用于真实的无人机网络。根据上述过程,本发明可以在孪生网络中做出最优决策,从而降低无人机网络的计算任务的时延,减少系统能耗,提升网络的整体效用。
[0086]
如图2所示,本发明第一方面提供了一种无人机孪生网络映射误差情况下计算任务智能卸载方法,包括以下步骤:
[0087]
s1:构建智能终端和无人机的数字孪生模型,利用所述孪生模型对基站服务区域内的智能终端、无人机的运行状态进行模拟和仿真并生成孪生数据;
[0088]
需要说明的是,本发明中无线数字孪生网络系统分为无线接入层(即终端层)和数
字孪生层(即边缘层)。无线接入层由计算和存储资源有限的终端设备和无人机等实体组成。通过无线通信,这些实体连接到附近的基站构建数字孪生体。在数字孪生层中,基站配备mec服务器连续地采集服务区域内智能终端和无人机的数据,并且计算和分析智能终端和无人机的行为特征,以构建服务区域内智能终端、无人机、网络拓扑关系及环境的孪生模型。物联网设备的数字孪生体是物理设备的完整副本,包括硬件配置信息、历史运行数据和实时状态。
[0089]
智能终端的数字孪生模型表达式为:
[0090]
dti={mi,di,si(t),si(t+1)}
ꢀꢀ
(1)
[0091]
其中,mi分别表示智能终端的行为模型,si(t)分别表示智能终端实时状态,si(t+1)表示智能终端的更新状态。
[0092]
无人机的孪生模型表达式为:
[0093]
dtj={mj,dj,sj(t),sj(t+1)}
ꢀꢀ
(2)
[0094]
其中,mj表示无人机的行为模型,sj(t)表示无人机的实时状态,sj(t+1)表示无人机的更新状态。
[0095]
通过上述孪生模型对服务区域内的智能终端、无人机等的运行状态进行模拟和仿真并生成孪生数据。
[0096]
s2:构建计算卸载和资源分配策略,将最大化无人机效用函数作为优化目标;
[0097]
具体包括:定义场景、定义通信通信模型、定义计算卸载模型;
[0098]
定义场景:
[0099]
设定有随机分布的i个智能终端,记作u={1,2,

,i},每个智能终端既能在本地执行计算任务,也能将计算任务卸载到携带边缘服务器的无人机执行,设定无人机从当前位置飞行到指定的悬停点执行计算任务,并且在同一时间无人机只服务一个智能终端,设无人机的最大服务时长为t,在提供计算服务过程中,无人机处在高度为h的水平面上,在第t时刻,t∈{0,1,2,...,t},无人机选择第k个悬停点的决策变量为ak,其中,k∈{0,1,2,...,k},当ak=1时,表示无人机选择第k个悬停点,此时,无人机的位置表示为反之,ak=0表示无人机停留在当前位置,地面智能终端i的位置用wi=(xi,yi)表示;
[0100]
定义通信模型:
[0101]
在第t时刻,无人机悬停在第k个悬停点,定义信道带宽为b,地面智能设备轮流卸载计算任务到无人机,第i个智能设备与在第k个悬停点的无人机的通信速率表示为:
[0102][0103]
其中pi为第i个智能设备的传输功率,σ表示噪声功率,表示第i个智能终端与无人机之间的信道增益,其中β是固定传输损耗,m表示路径损耗因子,d
i,k
表示无人机的第k个悬停点到用户i的通信距离;
[0104]
定义计算卸载模型:
[0105]
定义第i个智能设备的本地计算时延为如果第i个智能设备将计算任务卸载到无人机,定义计算卸载时延为:
[0106][0107]
其中表示数据传输时延,表示计算时延,f
i,k
为无人机分配给智能设备i的计算资源,定义a
i,k
为卸载决策,当a
i.k
=1时,表示第i个智能设备将计算任务卸载到悬停在第k个悬停点的无人机,反之a
i.k
=0时,表示第i个智能设备将在本地进行任务计算,由于无人机采用悬停方式执行卸载任务计算,因此无人机的悬停时间和计算卸载时延相等,即无人机在悬停点k的悬停时间表示为:
[0108][0109]
无人机在水平方向上需要从悬停点k'推进到当前悬停点k的位置,因此无人机的飞行能耗表示为:
[0110][0111]
其中p1为推进功率,v为无人机的飞行速度,据公式(5),无人机在第k个悬停点的悬停能耗表示为:
[0112]eh
(t)=p2tkꢀꢀ
(7)
[0113]
式中p2为无人机悬停功率,tk为悬停时间,无人机执行卸载任务计算的能耗表示为:
[0114][0115]
综上所述,根据公式(6),(7)和(8),无人机在计算卸载过程中的总能耗表示为:
[0116][0117]
将无人机计算处理任务ri的效用函数定义为:
[0118][0119]
其中ai表示无人机计算处理大小为hi(t)任务的单位价格,bi表示无人机单位计算资源价格,u表示无人机单位成本价格,则以最大化无人机效用函数作为优化目标表示如下:
[0120][0121][0122]
c2:ef(t)+eh(t)+ec(t)《re(t-1),
[0123]
c3:ak∈(0,1),a
i,k
∈(0,1),
[0124][0125]
c5:0≤f
i,k
≤f
max
,
[0126][0127]
其中c1表示无人机在计算卸载过程中的总能耗不能超过自身电池最大能量ed;c2表示无人机当前时刻计算卸载总能耗小于上一时刻的无人机电池剩余能量re(t-1);c3表示无人机的悬停决策以及地面智能终端i的卸载决策;c4表示地面智能终端i只能将任务卸载给一个无人机;同一时刻每个无人机只能为一个地面智能终端提供计算卸载服务;c5表示无人机分配给地面智能终端i的计算资源不能超过自身最大计算资源f
max
;c6表示智能终端i计算任务时延不超过最大容忍时延。
[0128]
s3:将优化目标构造成马尔可夫决策过程,并利用孪生数据优化竞争近端策略,利用优化后的竞争近端策略求解马尔可夫决策过程;
[0129]
为了得到优化问题的最优解,本发明将竞争网络和近端策略优化算法结合,提出基于孪生模型的竞争-近端策略优化算法。将优化问题(11)构造成马尔可夫决策过程,其中状态空间、动作空间和奖励函数的定义分别如下:
[0130]
状态空间:在决策时刻t,t∈{0,1,

,t},本地基站的孪生体状态空间定义为:
[0131]
其中表示无人机位置,re(t)表示无人机剩余能量,wi(t)表示地面智能终端i的位置,ri(t)表示地面智能终端i的计算任务,h
i,k
(t)表示地面智能终端i和悬停在第k个悬停点无人机之间的信道增益,其中,i∈{1,2,

,i},k∈{0,1,...,k}
[0132]
动作空间:在决策时刻t,优化无人机效用的动作空间表示为:
[0133]
t={ak,a
i,k
,f
i,k
}
ꢀꢀ
(13)
[0134]
其中ak表示无人机在第t时刻选择第k个悬停点的决策,a
i,k
表示地面智能终端i的卸载决策,f
i,k
无人机分配给地面智能终端i的计算资源;
[0135]
奖励函数:在近端策略优化算法执行过程中,需要检验约束c1-c6是否成立,因此,设计如下即时奖励函数r
t

[0136][0137]
如果限制条件c1-c6不能被满足,则表明当前优化决策的性能较差,在这种情况下,将即时奖励置为0,以避免无效的决策;在算法训练过程中,本地基站bs从维护的孪生模型中获取初始状态,生成随机策略,通过与孪生模型交互,获取新的状态和动作转移序列,同时,调节各自的actor-critic网络参数得到最优策略。actor网络参数更新过程的损失函数表示为:
[0138][0139]
其中概率比表示网络参数更新幅度,表示优势函数反应了动作的价值,∈为裁剪率,clip函数的目的是将概率比r
t
(θ)限制在区间[1-∈,1+∈],在式(1-3)中,当优势函数时,r
t
(θ)超过1+∈则停止更新,当时,r
t
(θ)小于1-∈停止更新,目的是防止更新的网络和旧的网络差异过大,从而做到小步幅更新。
[0140]
进一步的,优势函数的定义如下所示:
[0141][0142]
δ
t
=r
t
+v(s
t+1
)-v(s
t
)
ꢀꢀ
(16)
[0143]
其中,其中,表示优势函数,δ
t
表示单步时间误差,γ∈(0,1)表示折扣系数,v(s
t+1
)表示状态s
t+1
的估计价值,v(s
t
)表示状态s
t
的估计价值。
[0144]
竞争网络通过在dqn网络后面添加两个子网络来更准确地估计动作价值函数,以状态作为竞争网络的输入,神经网络n1提取特征信息,然后将该输出分别作为网络n2和n3的输入,并分别输出状态价值v(s)以及各动作的优势值a(s,a),两者相加可得到各个动作的动作价值q(s,a),通过将对动作价值的观测拆分为对状态价值和对动作优势值的观测,q网络获得了更有效率的更新,为防止动作优势值a(s,a)在更新过程中补偿动作价值q(s,a)的变化,应使动作优势值减去其平均值。
[0145]
s4:利用步骤s3输出的决策动作进行飞行轨迹制定、计算卸载及其资源的分配。
[0146]
需要说明的是,本发明利用竞争近端策略优化方法基于actor-critic框架,actor网络的更新目标与近端策略优化算法相同,根据式(15)最小化损失函数以优化网络参数。而critic网络采用上图1所示的竞争网络结构,由于子网络输出的优势函数值和状态价值的准确度都相对较低,故需要用输出的动作价值计算状态价值,如下式所示:
[0147]
v(s
t
)=q(s
t
,a)
t
p(s
t
,a)
ꢀꢀ
(17)
[0148]
其中p(s
t
,a)=[p1,p1,

pk],分别为采取动作p1,p1,

pk的概率。p(s
t
,a)可由actor网络输出得到。同时,critic网络将δ
t
的均方差作为损失函数,使用梯度下降法最小化损失函数,更新网络参数。不断重复迭代训练过程,直至学习到最优策略,根据最后的决策动作进行飞行轨迹制定、计算卸载及其资源的分配在孪生网络中检验,通过后将决策作用于物理实体。
[0149]
本发明第二方面提供了一种无人机孪生网络映射误差情况下计算任务智能卸载系统,该系统包括:存储器、处理器,所述存储器中包括一种无人机孪生网络映射误差情况下计算任务智能卸载方法程序,所述一种无人机孪生网络映射误差情况下计算任务智能卸载方法程序被所述处理器执行时实现如下步骤:
[0150]
s1:构建智能终端和无人机的数字孪生模型,利用所述孪生模型对基站服务区域内的智能终端、无人机的运行状态进行模拟和仿真并生成孪生数据;
[0151]
s2:构建计算卸载和资源分配策略,将最大化无人机效用函数作为优化目标;
[0152]
s3:将优化目标构造成马尔可夫决策过程,并利用孪生数据优化竞争近端策略,利用优化后的竞争近端策略求解马尔可夫决策过程;
[0153]
s4:利用步骤s3输出的决策动作进行飞行轨迹制定、计算卸载及其资源的分配。
[0154]
进一步的,智能终端的数字孪生模型表达式为:
[0155]
dti={mi,di,si(t),si(t+1)}
[0156]
其中,mi分别表示智能终端的行为模型,si(t)分别表示智能终端实时状态,si(t+1)表示智能终端的更新状态。
[0157]
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括无人机孪生网络映射误差情况下计算任务智能卸载方法程序,所述无人机孪生网络映射误差情况下计算任务智能卸载方法程序被处理器执行时,实现所述的一种无人机孪生网络
映射误差情况下计算任务智能卸载方法的步骤。
[0158]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1