一种基于机器学习的空地协同通信服务方法及系统

文档序号:28804145发布日期:2022-02-09 01:17阅读:81来源:国知局
一种基于机器学习的空地协同通信服务方法及系统

1.本发明涉及空地协同通信服务技术领域,具体涉及一种基于机器学习的空地协同通信服务方法及系统。


背景技术:

2.无人机为地面用户提供通信服务主要有两种途径,第一种途径是将无人机作为通信的中继点使用;在这种使用模式下,无人机负责转发用户与基站之间的通信消息,以此为用户提供通信服务。在这种通信服务模式中如何优化无人机的位置布局以及如何分配通信通道给不同的用户需要得到解决。通常的做法是将以上问题建模为一个多目标优化问题,使用凸优化的方法或者智能算法进行求解,得到无人机的位置分布以及通信信道的分配策略。第二种途径是利用无人机直接给用户提供通信服务;在这种模式下,无人机直接作为一个空中通信基站,给用户提供直接的通信服务。在这种通信服务模式中如何优化无人机的动态轨迹,为用户提供高质量的通信服务需要得到解决。通常的做法是将以上问题建模为一个优化问题求解,考虑的约束条件包括能量约束,最大数据吞吐量约束等,优化目标使得无人机为用户提供尽可能好的通信服务。一般方法为凸优化方法和一些机器学习方法。
3.虽然上述方法使无人机能够在一些简单的环境中为用户提供高质量的通信服务,但仍有一些问题没有被解决。首先,在实践中可用的无人机数量有限,提供的服务也有限,因此很难向分布在各种环境中的用户提供高质量的服务;其次,由于分布在环境中的障碍物会阻挡通信链路,被障碍物阻挡的用户很难获得无人机的服务,因此,仅靠无人机无法为广域和复杂环境中所有用户提供高质量的通信服务。


技术实现要素:

4.鉴于以上问题,本发明提出一种基于机器学习的空地协同通信服务方法及系统,用以解决现有技术中仅靠无人机提供通信服务导致服务质量不高且效率低的问题。
5.根据本发明一方面,提出一种基于机器学习的空地协同通信服务方法,该方法包括以下步骤:
6.步骤一、获取每个无人机以及无人车在通信服务中的环境信息;
7.步骤二、将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
8.进一步地,步骤一中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
9.进一步地,步骤一中所述用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;所
述排序因子计算公式为:
[0010][0011]
式中,ρk表示用户k相对于无人机或无人车的排序因子;d
ik
表示无人机或无人车相对于用户k的距离;α
ik
表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;表示用户k在t时刻具有的通信服务质量;d
max
,q
max
为归一化系数;λ1,λ2,λ3为比例系数。
[0012]
进一步地,步骤二中深度神经网络模型预训练的过程包括:
[0013]
步骤二一、初始化无人机以及无人车的通信服务策略以及目标策略初始化无人机以及无人车值网络并使得无人机的策略网络与其目标网络相同,即同时使得无人车的策略网络与其目标网络相同,即
[0014]
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{o
t
(ui),a
t
(ui),r
t+1
(ui),o
t+1
(ui)}与{o
t
(vj),a
t
(vj),r
t+1
(vj),o
t+1
(vj)},其中,o
t
(ui)表示无人机i在t时刻观测的环境信息,表示无人机i在t时刻执行的动作指令,r
t+1
(ui)表示无人机i在t+1时刻接收的奖励值,o
t+1
(ui)表示无人机i在t+1时刻观测的环境信息;o
t
(vj)表示无人车j在t时刻观测的环境信息,表示无人车j在t时刻执行的动作指令,r
t+1
(vj)表示无人车j在t+1时刻接收的奖励值,o
t+1
(vj)表示无人车j在t+1时刻观测的环境信息;
[0015]
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
[0016][0017][0018]
式中,以及分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
[0019]
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长t;
[0020]
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
[0021][0022][0023]
式中,l
clip
(θu)以及l
clip
(θv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;r
it
(θu)为无人机实际策略与目标策略的比值,r
it
(θv)为无人车实际策略与目标策略的比值;
[0024]
步骤二六、最小化l
clip
(θu)与l
clip
(θv)更新无人机以及无人车的通信服务策略网络;
[0025]
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
[0026][0027]
式中,lv(φu)为无人机值函数的损失值,lv(φv)为无人车值函数的损失值;
[0028]
步骤二八、最小化lv(φu)与lv(φv)更新无人机以及无人车值网络;
[0029]
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ
′u←
θu,θ
′v←
θv;
[0030]
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
[0031]
进一步地,步骤二中解算获得无人机以及无人车的协同通信服务策略指令的具体过程包括:经过训练好的深度神经网络模型的输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合;选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令。
[0032]
根据本发明另一方面,提出一种基于机器学习的空地协同通信服务系统,该系统包括:
[0033]
数据获取模块,用于获取每个无人机以及无人车在通信服务中的环境信息;
[0034]
指令解算模块,用于将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
[0035]
进一步地,所述数据获取模块中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
[0036]
进一步地,所述数据获取模块中所述用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;所述排序因子计算公式为:
[0037][0038]
式中,ρk表示用户k相对于无人机或无人车的排序因子;d
ik
表示无人机或无人车相对于用户k的距离;α
ik
表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;表示用户k在t时刻具有的通信服务质量;d
max
,q
max
为归一化系数;λ1,λ2,λ3为比例系数。
[0039]
进一步地,所述指令解算模块包括模型训练子模块,所述模型训练子模块用于预训练深度神经网络模型,预训练的过程包括:
[0040]
步骤二一、初始化无人机以及无人车的通信服务策略以及目标策略初始化无人机以及无人车值网络并使得无人机的策略网络与其目标网络相同,即同时使得无人车的策略网络与其目标网络相同,即
[0041]
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{o
t
(ui),a
t
(ui),r
t+1
(ui),o
t+1
(ui)}与{o
t
(vj),a
t
(vj),r
t+1
(vj),o
t+1
(vj)},其中,o
t
(ui)表示无人机i在t时刻观测的环境信息,表示无人机i在t时刻执行的动作指令,r
t+1
(ui)表示无人机i在t+1时刻接收的奖励值,o
t+1
(ui)表示无人机i在t+1时刻观测的环境信息;o
t
(vj)表示无人车j在t时刻观测的环境信息,表示无人车j在t时刻执行的动作指令,r
t+1
(vj)表示无人车j在t+1时刻接收的奖励值,o
t+1
(vj)表示无人车j在t+1时刻观测的环境信息;
[0042]
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
[0043][0044][0045]
式中,以及分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
[0046]
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长t;
[0047]
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
[0048][0049][0050]
式中,l
clip
(θu)以及l
clip
(θv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;r
it
(θu)为无人机实际策略与目标策略的比值,r
it
(θv)为无人车实际策略与目标策略的比值;
[0051]
步骤二六、最小化l
clip
(θu)与l
clip
(θv)更新无人机以及无人车的通信服务策略网络;
[0052]
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
[0053][0054]
式中,lv(φu)为无人机值函数的损失值,lv(φv)为无人车值函数的损失值;
[0055]
步骤二八、最小化lv(φu)与lv(φv)更新无人机以及无人车值网络;
[0056]
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ
′u←
θu,θ
′v←
θv;
[0057]
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
[0058]
进一步地,所述指令解算模块还包括概率选择子模块,所述概率选择子模块用于在训练好的深度神经网络模型输出值中选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令;其中,深度神经网络模型输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合。
[0059]
本发明的有益技术效果是:
[0060]
本发明提出无人机与无人车协同对地面用户进行通信服务,可解决地面通信基站受损之后地面用户与外界或者地面用户之间相互通信的问题,同时可解决移动通信设备可用量不足的问题。相比于传统的通信服务方法,本发明具有以下优势:1)通信服务系统具有多个无人机与无人车,可对地面用户提供高质量且公平的通信服务;2)通过在通信服务系统中加入无人车,可以弥补可用通信服务无人机数量不足的问题;3)通过使用深度强化学习方法训练无人机与无人车的协同通信服务策略,可以适应环境的变化,具有较高的鲁棒性与较强的环境适应能力,可在多种复杂环境中执行通信服务任务;4)可适应无人机个数与无人车个数的变化,同时可以适应地面用户个数的变化。
附图说明
[0061]
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
[0062]
图1是本发明实施例中无人车与无人机通信服务场景示意图。
[0063]
图2是本发明实施例中深度神经网络结构示意图。
[0064]
图3是本发明实施例中无人机与无人车协同策略训练过程中获得的奖励值曲线示意图。
[0065]
图4是本发明实施例中无人机与无人车协同通信服务轨迹曲线图。
具体实施方式
[0066]
为了使本技术领域的人员更好地理解本发明方案,在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然,所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例,而不是全部的。基于本发明中的实施方式或实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例,都应当属于本发明保护的范围。
[0067]
为解决地面用户的通信服务问题,本发明提出一种基于机器学习的空地协同通信服务方法,通过深度强化学习方法训练出无人机与无人车的协同通信服务策略,为地面用户提供有效且公平的通信服务。
[0068]
本发明实施例提供一种基于机器学习的空地协同通信服务方法,具体包括以下步骤:
[0069]
步骤一:无人机以及无人车获取通信服务中环境信息;
[0070]
无人车与无人机通信服务场景如图1所示。根据本发明实施例,无人机获取的环境信息包含三部分内容,其中,表示无人机ui获得的通信服务区域中用户的状态信息,包括在通信服务区域中相对无人机ui具有最小排序因子的5个用户位置信息,位置信息包括在无人机ui的航向坐标系下距离d
ij
、角度α
ij
,j=1,2,...,5,以及全部用户的通信平均服务质量以及通信服务质量标准差用户k相对于无人机ui的排序因子ρk计算如下式
所示:
[0071][0072]
式中,d
ik
表示无人机ui相对于用户k的距离;α
ik
表示无人机ui的速度方向和无人机ui与用户k之间连线的夹角;表示用户k在t时刻具有的通信服务质量;d
max
,q
max
为归一化系数,λ1,λ2,λ3为比例系数。
[0073]
表示距离无人机ui最近的3个无人机的位置信息,包括在无人机ui的航向坐标系下距离d
ij
、角度α
ij
,j=1,2,3,即,j=1,2,3,即表示距离无人机ui最近的3个无人车的位置信息,包括在无人机ui的航向坐标系下距离和角度。
[0074]
无人车感知的环境信息与无人机感知的环境信息相似,表示为:同样包含三部分信息;其中,表示无人车cj感知到的用户状态,包括在通信服务区域中相对无人车cj具有最小排序因子的5个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差以及通信服务质量标准差表示无人车cj感知到的无人机状态即无人机位置信息;表示无人车cj感知到的其他无人车状态即其他无人车位置信息。
[0075]
步骤二:将无人机以及无人车获取到的环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的通信服务策略指令;
[0076]
根据本发明实施例,深度神经网络结构如图2所示,其包括3层全连接网络,其中第一层与第二层具有128个节点,激活函数为非线性整流单元(relu),第三层具有7个输出节点,激活函数为softmax函数,将输出值限制在(0,1)之间。
[0077]
深度神经网络预训练的过程包括:收集无人机以及无人车与环境的交互数据即环境信息,然后利用这些数据估计优势函数以及接着计算策略损失函数l
clip
(θu)、l
clip
(θv)以及值函数的损失函数lv(φu)、lv(φv),最后通过最小化策略损失函数以及值函数的损失函数更新策略网络以及值函数网络,从而获得训练好的深度神经网络模型。具体训练过程如下:
[0078]
(1)初始化无人机以及无人车的通信服务策略以及目标策略初始化无人机以及无人车值网络并使得无人机的策略网络与其目标网络相同,即同时,使得无人车的策略网络与其目标网络相同,即
[0079]
(2)在每个时间步即交互周期内,无人机与无人车分别收集与环境的交互数据{o
t
(ui),a
t
(ui),r
t+1
(ui),o
t+1
(ui)}与{o
t
(vj),a
t
(vj),r
t+1
(vj),o
t+1
(vj)},其中,o
t
(ui)表示无人机i在t时刻观测的环境信息,表示无人机i在t时刻执行的动作指令,r
t+1
(ui)表示无人机i在t+1时刻接收的奖励值,o
t+1
(ui)表示无人机i在t+1时刻观测的环境信息,o
t
(vj)表示无人车j在t时刻观测的环境信息,表示无人车j在t时刻执行的动作指令,r
t+1
(vj)表示无人车j在t+1时刻接收的奖励值,o
t+1
(vj)表示无人车j在t+1时刻观测的环境信息;
[0080]
(3)利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
[0081][0082][0083]
式中,以及分别表示无人机i与无人车j的优势函数,γ为折扣因子,在(0,1)之间;
[0084]
(4)重复步骤(2)、(3)直到达到设定的最大步长t;
[0085]
(5)利用步骤(2)、(3)、(4)收集的交互数据以及计算的优势函数计算无人机策略以及无人车策略的损失值如下:
[0086][0087][0088]
式中,l
clip
(θu)以及l
clip
(θv)分别表示无人机的策略损失值以及无人车的策略损失值,∈为一个常数,取值范围在(0,1)之间;clip是一个函数,clip(r
it
(θu),1-∈,1+∈)表示将r
it
(θu)的值限定在[1-∈,1+∈]之间;r
it
(θu)为无人机实际策略与目标策略的比值,r
it
(θv)为无人车实际策略与目标策略的比值,分别计算如下:
[0089][0090]
(6)最小化l
clip
(θu)与l
clip
(θv)更新无人机以及无人车的通信服务策略网络;
[0091]
(7)利用步骤(2)、(3)、(4)收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
[0092][0093]
式中,lv(φu)为无人机值函数的损失值,lv(φv)为无人车值函数的损失值;
[0094]
(8)最小化lv(φu)与lv(φv)更新无人机以及无人车值网络;
[0095]
(9)更新无人机目标策略网络与无人车目标策略网络,θ
′u←
θu;θ
′v←
θv;
[0096]
(10)重复步骤(2)到(9)直到网络训练收敛,获得训练好的深度神经网络模型。
[0097]
预训练过程中,无人机ui获得的奖励值可以由下式表示:
[0098]rt
(ui)=r
tq
(ui)+r
ts
(ui)+r
tr
(ui)
[0099]
式中,第一项r
tq
(ui)与用户的通信服务质量相关,当用户具有较高的平均通信服务质量以及较低的通信服务质量方差时,r
tq
(ui)较大;反之r
tq
(ui)较小。第二项r
ts
(ui)与无人机ui和其他无人机的距离以及其他无人车的距离相关,当无人机之间以及无人机与无人车之间的距离较小时,r
ts
(ui)为负值;反之r
ts
(ui)为0。第三项r
tr
(ui)与无人机ui相对于通信服务环境的位置相关,当无人机ui在通信服务区域中时,r
tr
(ui)为0;反之r
tr
(ui)为负值。
[0100]
无人车的奖励函数设计过程与无人机的奖励函数设计过程相同。采用深度强化学习的训练方式训练无人机与无人车的通信服务策略,无人机与无人车通过不断的与环境交互,学习到有效协同的通信服务策略,可为地面用户提供高质量且公平的通信服务,具体实现过程的伪代码见下表1。
[0101][0102][0103]
将实时获取的无人机及无人车环境信息经过训练好的深度神经网络模型,其输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率其中,无人机控制指令为无人机的航向偏角指令,即度;无人车控制指令为无人车的线速度控制指令与角速度控制指令的组合,即其中最后,从中选择具有最大概率的航向偏角作为无人机的实际控制指令,从中选择具有最大概率的线速度与角速度组合作为无人车的实际控制指令。
[0104]
进一步通过实验验证本发明的有益效果。
[0105]
采用数字仿真的方式验证本发明的正确性以及合理性。首先在python环境中构建一个大小为500m
×
500m
×
150m的通信服务环境,包括具有10个用户以及由多个无人机与无人车组成的动态通信服务系统。无人机定速定高飞行,飞行速度为10m/s,无人车的最大速度为10m/s,用户的最大移动速度为1m/s,且在通信服务区域内随机移动。仿真测试软件环
境为windows10+python3.7,硬件环境为amd ryzen 53550h cpu+16.0gbram。
[0106]
实验首先验证无人机以及无人车的通信服务控制策略训练是否收敛。实验共进10000轮训练,记录每100轮训练过程中无人机以及无人车获得的平均奖励值,绘制曲线如图3所示。由图3可知,随着训练的进行,无人机和无人车可以获得稳定的奖励值,奖励值在6.5到7之间,表明无人机以及无人车的通信服务策略趋近于收敛,无人机以及无人车可以给用户提供高质量公平的通信服务。
[0107]
然后对无人机与无人车的协同策略进行实验验证,验证结果如图4所示。由图4可以看出,无人机和无人车可分别对不同的用户提供通信服务,且提供的通信服务比较均匀,即无人机和无人车可协同对地面用户提供公平的通信服务。
[0108]
本发明提出无人机与无人车协同对地面用户进行通信服务,可以解决灾后或者地面通信基站受损之后,地面用户与外界或者地面用户之间相互通信的问题。同时,无人机与无人车协同可解决可用移动通信设备不足的问题,发挥无人机与无人车各自具有的通信服务的优势。相比于传统的通信服务策略,本发明提出的基于学习的空地协同通信服务策略具有以下优势:1)通信服务系统具有多个无人机与无人车,可对地面用户提供高质量且公平的通信服务。2)通过在通信服务系统中加入无人车,可以弥补可用通信服务无人机数量不足的问题。3)通过使用深度强化学习方法训练无人机与无人车的协同通信服务策略,可以适应环境的变化,具有较高的鲁棒性与较强的环境适应能力,可在多种复杂环境中执行通信服务任务。本发明所提出的无人机与无人车空地协同通信服务策略,可适应无人机个数与无人车个数的变化,同时可以适应地面用户个数的变化。本发明方法可实现无人机与无人车协同为地面用户提供高质量公平的通信服务,为灾后用户通信服务的提供方式提供了新的技术途径。
[0109]
本发明另一实施例提供一种基于机器学习的空地协同通信服务系统,该系统包括:
[0110]
数据获取模块,用于获取每个无人机以及无人车在通信服务中的环境信息;其中,每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,位置信息包括距离参数和角度参数;用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;排序因子计算公式为:
[0111][0112]
式中,ρk表示用户k相对于无人机或无人车的排序因子;d
ik
表示无人机或无人车相对于用户k的距离;α
ik
表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;表示用户k在t时刻具有的通信服务质量;d
max
,q
max
为归一化系数;λ1,λ2,λ3为比例系数;
[0113]
指令解算模块,用于将环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令;包括模型训练子模块和概率选择子模块;
[0114]
其中,模型训练子模块用于预训练深度神经网络模型,预训练的过程包括:
[0115]
步骤二一、初始化无人机以及无人车的通信服务策略以及目标策略初始化无人机以及无人车值网络并使得无人机的策略网络与其目标网络相同,即同时使得无人车的策略网络与其目标网络相同,即
[0116]
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{o
t
(ui),a
t
(ui),r
t+1
(ui),o
t+1
(ui)}与{o
t
(vj),a
t
(vj),r
t+1
(vj),o
t+1
(vj)},其中,o
t
(ui)表示无人机i在t时刻观测的环境信息,表示无人机i在t时刻执行的动作指令,r
t+1
(ui)表示无人机i在t+1时刻接收的奖励值,o
t+1
(ui)表示无人机i在t+1时刻观测的环境信息;o
t
(vj)表示无人车j在t时刻观测的环境信息,表示无人车j在t时刻执行的动作指令,r
t+1
(vj)表示无人车j在t+1时刻接收的奖励值,o
t+1
(vj)表示无人车j在t+1时刻观测的环境信息;
[0117]
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
[0118][0119][0120]
式中,以及分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
[0121]
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长t;
[0122]
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
[0123][0124][0125]
式中,l
clip
(θu)以及l
clip
(θv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;r
it
(θu)为无人机实际策略与目标策略的比值,r
it
(θv)为无人车实际策略与目标策略的比值;
[0126]
步骤二六、最小化l
clip
(θu)与l
clip
(θv)更新无人机以及无人车的通信服务策略网络;
[0127]
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
[0128][0129]
式中,lv(φu)为无人机值函数的损失值,lv(φv)为无人车值函数的损失值;
[0130]
步骤二八、最小化lv(φu)与lv(φv)更新无人机以及无人车值网络;
[0131]
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ
′u←
θu,θ
′v←
θv;
[0132]
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型;
[0133]
概率选择子模块用于在训练好的深度神经网络模型输出值中选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令;其中,深度神经网络模型输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合。
[0134]
本发明实施例所述一种基于机器学习的空地协同通信服务系统的功能可以由前述一种基于机器学习的空地协同通信服务方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
[0135]
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1