一种无人机网络拓扑及路由联合构建方法与流程

文档序号:17760646发布日期:2019-05-24 21:38阅读:375来源:国知局
一种无人机网络拓扑及路由联合构建方法与流程

本发明涉及无线通讯技术领域,特别是指一种无人机网络拓扑及路由联合构建方法。



背景技术:

无人机因其灵活性、易部署、视距信道衰减小等优点在执行应急、救灾等任务中得到广泛应用,同时,无人机作为辅助节点为现有通信网络提供辅助也受到广泛关注。而无人机网络中涉及的中继/路由选择和功率控制是无人机网络技术中的关键技术所在。

目前关于中继/路由选择方面,专利“201810332264.5”一种车联网中基于蚁群优化的中继选择方法:该方法在优化时需要严格的知道数据包的泊松过程概率模型和车辆的平均退避次数,因此需要在现有通信系统中额外扩展大量信息交互功能,实际难以应用。此外,作为公知,蚁群优化是寻求超大规模优化问题的次优解。一方面,无人机网络的节点数目远不到发挥蚁群算法优势的地步,没有使用蚁群算法的必要;另一方面,却因为使用蚁群算法放弃了全局最优解,得不偿失。在功率控制方面:专利“201810309020.5”一种异构网络中基于强化学习的资源分配和功率控制联合优化方法:该专利dqn(深度q网络)方法进行资源分配、用户关联和功率控制联合策略。其中,由于dqn选择的是离散行动,即m个功率水平,因此不能实现细粒度的功率控制,此外,该专利没有考虑中继需求,也没有考虑无人机网络对链路可靠性的要求,不能直接应用于无人机网络。在两者的结合方面,(1)固定指标方法利用人工构建的固定指标对无人机和中继节点或直连目标之间的链路进行选择。此类方法的缺陷在于人工构建的指标受数学复杂性的影响,往往只能基于简单的通信定义构建简单的信道容量等指标,难以兼顾自身需求和其它节点的通信需求、传输环境。同时,无人机网络的高动态性使其通信环境变化更为明显,简单的指标不能全方位的反映无人机网络通信环境的变化,因此其选择路由中继/路由时难以做到综合考虑、自适应。(2)基于优化方法的中继/路由选择需要实时获取无人机网络的用户需求和通信环境参数,建立优化问题并求解,但是一方面,全方位考虑的优化问题往往需要通信模型的先验知识,即通信状态之间如何变化,这在实际的通信系统中往往不易获得;另一方面,当无人机网络中的节点数、通信资源增多时,优化问题迭代优化的速率大幅下降,收敛性也会受到影响,难以满足通信中快速的资源分配、功率控制需求。此外,此类离散优化问题往往需要对原问题进行松弛,难以达到最优解。

发明人通过研究无人机网络技术,发现目前的无人机网络主要问题如下,一方面,受到视距信道、有限的通信资源以及恶意干扰等影响;且无人机网络的高动态性使其拓扑结构、干扰动态变化。而另一方面,无人机网络对传输可靠性有更为严苛的要求。二者的矛盾制约了无人机网络的传输质量、可靠性,也是大规模无人机网络的组网瓶颈之一。



技术实现要素:

有鉴于此,本发明的目的在于提出一种无人机网络拓扑及路由联合构建方法,以克服现有技术中全部或部分不足。

基于上述目的本发明提供的一种无人机网络拓扑及路由联合构建方法,包括如下步骤:

1)无人机网络和基站进行信息交互获得传输信息,并将传输信息加入每个无人机ui强化学习环境状态si;

2)无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合;

3)对于每个无人机ui,将环境状态si输入dqn网络,输出对不同的发送目标的累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,即dqn采取的行动aidqn

4)对于每个无人机ui,将所述环境状态si输入ddpg网络,输出无人机ui在信道n的发送功率该发送功率向量即ddpg采取的行动aiddpg

5)更新无人机网络的环境状态si+1,获得行动奖励ri;

6)基于dqn的行动记录{si,aidqn,si+1,ri}和ddpg的行动记录{si,aiddpg,si+1,ri},进行dqn和ddpg网络联合训练,为dqn网络与ddpg网络的通用性、共享奖励和模型的精简与收敛性提供保证。

在一些可选实施例中,所述从现有无人机中启发式选择一个无人机子集作为备选中继集合,包括如下步骤:

1)计算无人机i-无人机j的第n个空空信道的信干噪比和无人机i-基站的第n个空地信道的信干噪比

其中,无人机i-无人机j的第n个空空信道,无人机i-基站的第n个空地信道,无人机ui在信道n的发送功率,pn:噪声功率;

2)计算无人机-基站,无人机-无人机信道容量提升空间:

cidle=c(w,sinrmax)-c(w,sinr)

其中,c(w,sinr)=wlog(1+sinr)为香农公式,为假设无人机i以最大功率pmax发送时的信噪比,sinri为无人机i以当前功率发送时的信噪比;

3)根据计算出的cidle,选出最大的中继集合i为第m个中继无人机对应的编号。

在一些可选实施例中,所述将环境状态si输入dqn网络,输出对不同的发送目标累计奖励,包括如下步骤:

1)初始化dqn网络,开始第tepi个训练周期,初始化训练步数为t=1,更新无人机网络环境状态

2)向dqn网络输入状态输出各发送目标的累计奖励的估计q(si,ai),进行ε-贪婪行动选择,输出选择的行动

3)基于行动更新环境状态

4)对各个无人机ui执行上述(2)~(3),将记录i=1,2,...,i记为一组记录,并从记录池中随机采样k组记录,i=1,2,...,i,

k=1,2,...,k;

5)计算获得的累计奖励获得的奖励:

训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求;

6)基于k组误差对dqn网络进行反向传播训练,每l步更新一次dqn网络,步数t=t+1,当t>t时,初始化t=1,返回(2);对于每个无人机ui进行将环境状态si输入dqn网络,最终输出累计奖励最大的发送目标。

在一些可选实施例中,所述将所述环境状态si输入ddpg网络,输出无人机ui在信道n的发送功率包括如下步骤:

1)初始化critic网络,参数为θq和actor网络,参数为θμ,开始第tepi个训练周期,初始化训练步数为t=1,更新无人机网络环境状态

2)向actor网络输入状态输出在各信道上的发送功率向量基于actor网络选择行动,并添加探索噪声

3)基于行动更新环境状态所有无人机采取行动后计算获得的奖励

4)对各个无人机ui执行(2)~(3),将记录i=1,2,...,i记为一组记录,存储至记录池中,并从记录池中随机采样k组记录,i=1,2,...,i,k=1,2,...,k;

5)计算获得的累计奖励

训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求;

6)基于k组误差对critic网络进行反向传播训练,利用梯度下降法更新actor网络,其梯度为:

7)对critic网络和acotr网络进行软更新:

θq′←τθq+(1-τ)θq′

θμ′←τθμ+(1-τ)θμ′

其中τ∈(0,1)是softupdate系数,步数t=t+1,当t>t时,初始化t=1,返回(2),对于每个无人机ui进行将环境状态si输入ddpg网络,最终输出无人机ui在信道n的发送功率

在一些可选实施例中,所述dqn/ddpg网络训练,包括如下步骤:

(1)~(4):同dqn网络和ddpg网络中(1)~(4);

5)保证奖励对于dqn网络与ddpg网络有通用性,公共累计奖励如下:先计算无人机网络的总速率需求和总的信道容量以及总的未满足的最低速率和最低速率需求奖励ri:

其中,总信道容量根据传输方式而定,直连基站时,反映了当前传输方案对无人机需求的满足程度,反映了当前传输方案的无人机的满足程度,λ为惩罚系数;

6)如dqn和ddpg网络流程中的(6),完成基于dqn和ddpg网络拓扑及路由的联合构建。

在一些可选实施例中,所述传输信息包括无人机位置pi、信道衰落系数噪声功率pn、自身速率需求ri、已承载速率需求当前传输功率加入每个无人机ui强化学习环境状态si。

在一些可选实施例中,所述信息交互为现有通信系统中已存在、可用的信息交互,不需要额外扩展现有通信系统功能。

从上面所述可以看出,本发明提供的一种无人机网络拓扑及路由联合构建方法,通过节点中继、路由选择和传输功率控制技术,使无人机网络中的无人机节点兼顾无人机自身传输任务与承载中继,自主选择接收目标(直连基站或寻求中继),制定传输路由,从而构建无人机网络拓扑,提升无人机网络组网能力,有效扩大无人机网络覆盖范围,提升无人机网络的传输质量。另一方面,利用深度学习中的两种异构网络模型—dqn网络(深度q网络)模型和ddpg网络(深度确定策略梯度)模型对以上通信问题进行建模,并进行联合训练,实现自主决策。dqn网络是离散控制模型,基于无人机当前的通信环境和需求自主决策发送目标,建立传输链路,构建网络拓扑;ddpg网络是连续控制模型,基于无人机当前的通信环境和需求实现细粒度的(连续的)功率控制,有效提升网络传输质量。

附图说明

图1为本发明实施例无人机网络拓扑及路由联合构建的模型架构及工作流程示意图;

图2为本发明实施例中继无人机集合的启发式选择规则示意图;

图3为本发明实施例dqn网络训练流程示意图;

图4为本发明实施例ddpg网络训练流程示意图;

图5为本发明实施例dqn网络和ddpg网络联合训练流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的:dqn(deepq-learinng,深度q网络)是深度强化学习的一种,用于基于当前的环境状态s自动选择最优行动a,即自主决策。其中a为离散行动,即可列举的有限的行动。强化学习中,定义当前状态s下采取行动a获得的奖励为r,并估计此时产生的后续行动的累计奖励为q(s,a)。利用输入为状态s,输出为不同行动ai的累计奖励q(s,ai)的深度神经网络估计q(s,ai),并选择对应q(s,ai)最大的行动ai,即基于dqn网络模型决策。

ddpg(deepdeterministicpolicygradient,深度确定策略梯度)网络是深度强化学习的一种(深度强化学习相关概念见深度q网络),其中a为连续行动,即具有连续的取值范围,有利于细粒度的功率控制。ddpg网络与dqn网络不同,是一种策略梯度方法,包含actor和critic两个网络,其中actor网络以状态s为输入,拟合策略π,输出行动a=π(s),即基于当前状态s直接选择行动a;critic网络以状态s和行动a为输入,以累计奖励q(s,a)为输出,用于评估状态s下采取行动a的效果。actor和critic一个采取行动一个进行评价,不断改善决策效果,最终实现自主决策。

为了解决现有技术中无人机网络传输质量和可靠性,本发明实施例提供了一种无人机网络拓扑及路由联合构建方法,包括如下步骤:

1)无人机网络和基站进行信息交互获得传输信息,并将传输信息加入每个无人机ui强化学习环境状态si;

2)无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合;

3)对于每个无人机ui,将环境状态si输入dqn网络,输出对不同的发送目标的累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,即dqn采取的行动aidqn

4)对于每个无人机ui,将所述环境状态si输入ddpg网络,输出无人机ui在信道n的发送功率该发送功率向量即ddpg采取的行动aiddpg

5)更新无人机网络的环境状态si+1,获得行动奖励ri;

6)基于dqn的行动记录{si,aidqn,si+1,ri}和ddpg的行动记录{si,aiddpg,si+1,ri},进行dqn和ddpg网络联合训练,为dqn网络与ddpg网络的通用性、共享奖励和模型的精简与收敛性提供保证。

其中,本发明实施例无人机网络拓扑及路由联合构建的模型架构及工作流程示意图如图1所示,设无人机网络中有i个无人机ui(i=1,2,…,i)共用n个信道(或通信资源块)cn(n=1,2…,n),且存在复用。每次选出的备选无人机数目为m。基于无人机型号信息可知无人机的最大传输功率控制指令所需最低信道容量设dqn网络和ddpg网络已经训练完成。

101:无人机网络和基站进行基本的信息交互获得传输信息包括无人机位置pi、信道衰落系数(为无人机i-无人机j的第n个空空信道,为无人机i-基站的第n个空地信道)、噪声功率pn、自身速率需求ri、已承载速率需求当前传输功率加入每个无人机ui强化学习环境状态si。(此处信息交互均为现有通信系统中已存在、可用的信息交互,不需要额外扩展现有通信系统功能,有良好的可用性、可扩展性)。

102:无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合i为第m个中继无人机对应的编号。并将是否属于中继集合加入对应无人机ui的强化学习环境状态si,启发式规则及对应的信息融合机制见下文。

103:对于每个无人机ui,将环境状态si输入dqn网络,输出对不同的发送目标ai={r,bs}的累计奖励q(si,ai|ai∈ai)。其中,为中继无人机集合,bs为基站。选取累计奖励q(si,ai|ai∈ai)最大的发送目标ai∈ai作为无人机ui的发送目标,

104:对于每个无人机ui,将环境状态输入ddpg网络,输出无人机ui在信道n的发送功率

105:进行dqn/ddpg网络训练,为dqn网络与ddpg网络的通用性、共享奖励和模型的精简与收敛性提供保证。

以上步骤实现了完成了无人机网络中的无人机的中继选择和功率分配任务,从而实现了基于异构深度强化学习的无人机网络拓扑及路由联合构建。

本发明实施例提出了无人机网络传输机制:每个无人机自主执行中继/路由选择和功率分配,每个无人机都兼顾自身传输与承载中继。因此,该方案不需要设立固定的无人机作为中继节点,可以有效提升无人机网络中的无人机使用率,联合中继与功率控制两种机制,保障无人机网络自主、高效、可靠通信,从而扩展无人机网络的覆盖范围。

本发明实施例中的中继无人机集合的启发式选择规则及对应的信息融合方法如图2所示。

本方案考虑无人机间资源复用的干扰和无人机-无人机的空空信道和无人机-基站的空地信道的差异,通过衡量无人机通过提升自身传输功率可获得的信道容量提升空间选择备选中继无人机集合。

201:计算无人机i-无人机j的第n个空空信道的信干噪比和无人机i-基站的第n个空地信道的信干噪比

202:每个无人机-基站,无人机-无人机信道容量提升空间为:

cidle=c(w,sinrmax)-c(w,sinr)

当无人机ui直连基站时,上行容量提升空间为当无人机ui通过中继无人机中继时,上行容量提升空间为即ui到的无人机信道容量和到基站的信道容量的较小者。其中c(w,sinr)=wlog(1+sinr)为香农公式,sinrimax为假设无人机i以最大功率pmax发送时的信噪比,sinri为无人机i以当前功率发送时的信噪比。

203:根据计算出的cidle,中继无人机集合为最大的m个无人机m=1,2,...,m,选出cidle最大的中继集合i为第m个中继无人机对应的编号。

以上步骤实现了无人机网络的启发式中继无人机选择任务。

提出的启发式的中继无人机子集的选择方案。该方案只需基于现有体制中可用的交互信息,不许额外的通信交互设计,有良好的可用性和可扩展性。同时,该方案有效地考虑干扰、传输功率等因素,利用可提升的信道容量空间评价无人机作为中继节点的可行性,并依此选择中继无人机子集,避免了只考虑信道容量,忽略中继无人机当前传输状态的缺点,因此可有效评价无人机是否适合作为中继节点。

本发明实施例中dqn网络模型训练流程如图3所示,具体如下:

301:初始化dqn网络,开始第tepi个训练周期(初始化为tepi=1),初始化训练步数为t=1,更新无人机网络环境状态

302:向dqn网络模型输入状态输出各发送目标的累计奖励的估计q(si,ai),进行ε-贪婪行动选择,即以ε-的概率随机选择行动(发送目标),以1-ε的概率选择累计奖励q(si,ai)最大的行动。最终选择的行动即为

303:基于行动更新环境状态所有无人机采取行动后计算获得的奖励

304:对各个无人机ui执行302~303,将记录i=1,2,...,i记为一组记录,存储至记录池中。并从记录池中随机采样k组记录,i=1,2….i,k=1,2….k。其中每组记录包含同一环境状态下的i个无人机的i条记录,以改善dqn网络的收敛性和多无人机同时决策的性能,共计ki条记录。

305:计算获得的累计奖励若训练周期终止,训练周期tepi=tepi+1,返回步骤301,若tepi>tepi,训练结束,

训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求。

306:基于k组误差对dqn网络进行反向传播训练。每l步更新一次dqn网络,步数t=t+1,当t>t时,初始化t=1,返回302,对于每个无人机ui进行将环境状态si输入dqn网络,最终输出累计奖励最大的发送目标。

以上步骤实现了基于dqn网络的中继/路由选择功能。

提出的利用dqn网络进行中继/路由选择的解决方案。与传统优化方法相比,该方案不需要通信环境中如数据包、退避次数等先验模型参数,有良好的自适应性和可扩展性。与现有的基于dqn网络的中继方法相比,选择中继节点时充分考虑了中继节点自身的传输任务,可以兼顾自身传输与承载中继,因此满足了不专门设立中继无人机的需求,可有效提升无人机的使用率。

本发明实施例中ddpg网络模型训练流程如图4所示,具体如下:

401:初始化critic网络(参数为θq)和actor网络(参数为θμ),开始第tepi个训练周期(初始化为tepi=1),初始化训练步数为t=1,更新无人机网络环境状态

402:向actor网络输入状态输出在各信道上的发送功率向量基于actor网络选择行动,并添加探索噪声

403:基于行动更新环境状态所有无人机采取行动后计算获得的奖励

404:对各个无人机ui执行402~403,将记录i=1,2,...,i记为一组记录,存储至记录池中。并从记录池中随机采样k组记录,i=1,2….i,k=1,2….k。其中每组记录包含同一环境状态下的i个无人机的i条记录,以改善dqn网络的收敛性和多无人机同时决策的性能,共计ki条记录。

405:计算获得的累计奖励若训练周期终止,训练周期tepi=tepi+1,返回401,若tepi>tepi,训练结束,

训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求。

406:基于k组误差对critic网络进行反向传播训练。利用梯度下降法更新actor网络,其梯度为:

407:对critic网络和acotr网络进行软更新(softupdate):

θq′←τθq+(1-τ)θq′

θμ′←τθμ+(1-τ)θμ′

其中τ∈(0,1)是softupdate系数。步数t=t+1,当t>t时,初始化t=1,返回402,对于每个无人机ui进行将环境状态si输入ddpg网络,最终输出无人机ui在信道n的发送功率

以上步骤实现了基于ddpg网络的功率控制功能。

提出的利用ddpg网络进行功率控制的解决方案。与传统优化方法相比该方案不需要通信环境中如数据包、退避次数等先验模型参数,有良好的自适应性和可扩展性。充分考虑了通信干扰、无人机自身状态、中继节点自身状态,可以兼顾自身传输与承载中继,实现连续的、细粒度的功率控制,此外,ddpg网络作为确定的策略梯度方法,不需要采取ε-贪婪的随机策略,有利于实现保证无人机网络传输的可靠性。

本发明实施例中dqn和ddpg网络联合模型训练流程如图5所示,具体步骤如下:

501~504:如训练dqn网络流程中的301~304和ddpg网络流程中的401~404;

505:考虑到dqn网络与ddpg网络的状态特性与公共需求,构建公共的累计奖励保证此奖励对于dqn网络与ddpg网络有通用性,从而使二者共享奖励,保证模型的精简与联合训练的收敛性。公共累计奖励如下:先计算无人机网络的总速率需求和总的信道容量以及总的未满足的最低速率和最低速率需求奖励ri为

其中,总信道容量根据传输方式而定,直连基站时,反映了当前传输方案对无人机需求的满足程度,反映了当前传输方案的无人机的满足程度,λ为惩罚系数。

506:如训练dqn网络流程中的306和ddpg网络流程中的406。

以上不收实现了基于dqn网络与ddpg网络的联合训练。

该方案考虑dqn网络与ddpg网络的状态特性与公共需求,构建公共的累计奖励,保证此奖励对于dqn网络与ddpg网络有通用性,从而使二者共享奖励,保证模型的精简与联合训练的收敛性。本方案是本专利的关键点与保证模型的精简与联合训练的收敛性的必要条件,应予以保护。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1