无人机辅助物联网数据采集场景下一种基于深度强化学习的飞行轨迹设计方法

文档序号：34810949发布日期：2023-07-19 12:39阅读：78来源：国知局

本发明涉及无人机辅助物联网数据采集场景下飞行轨迹设计领域，主要用于在有限的时间内为无人机在完成对物理环境中任意分散的多个相邻地面传感器节点的数据采集任务提供满足最公平吞吐量和最小化能耗约束的飞行轨迹。

背景技术：

1、近年来，随着物联网的蓬勃发展，传感器节点数量快速增加。然而，由于传统通信基站的不可移动性，很难保证传感器节点数据的公平采集。因此，利用无人机作为移动基站进行辅助物联网数据采集任务是不可避免的趋势。由于任务环境的复杂性、传感器节点之间的干扰、无人机飞行能耗约束、传感器数据采集公平性约束，轨迹设计已经成为无人机辅助物联网数据采集场景下的研究热点，而基于深度强化学习的无人机轨迹设计方法是最具潜力的技术之一。

技术实现思路

1、发明目的：以往关于无人机轨迹设计的方法是通过将原非凸问题简化为凸子问题，并且只能在静态环境中设计飞行轨迹。由于缺乏考虑物联网相邻节点之间的严重干扰以及未对数据采集公平性和能耗做出约束，以前的这些方法不能很好的适应任务环境的复杂性。所以如何通过无人机的轨迹设计使无人机能在一定的时间内有效完成数据采集任务并且满足吞吐量和能耗约束成为了主要的技术问题。

2、为解决该技术问题，本发明提出了一种基于深度强化学习的无人机轨迹设计方法，能够在有限的时间内为无人机在完成对物理环境中任意分散的多个相邻地面传感器节点的数据采集任务提供满足最大公平吞吐量和最小化能耗约束的飞行轨迹。

3、技术方案：为实现上述技术效果，本发明提出的技术方案为：

4、无人机辅助物联网数据采集场景下一种基于深度强化学习的飞行轨迹设计方法，其特征在于，包括步骤：

5、(1)旋翼无人机在固定高度飞行，并作为移动基站从离散分布的传感器节点采集数据。

6、(2)将无人机探索未知环境的过程建模为一个马尔可夫决策过程(mdp)，构建通讯模型、能量消耗模型和数据采集公平性模型。

7、(3)采用基于深度强化学习的多重优化轨迹设计和功率分配(motdpa)算法对构建的模型进行求解，该算法采用软参与者批评(soft actor-critic，sac)和优先经验重播(prioritized experience replay，per)来寻找有效的策略，使用最小最大状态归一化(min-max based state normalization，mmsn)来稳定训练过程，最终求出符合最大化总公平吞吐量和最小化能耗的飞行轨迹。

8、进一步的，所述步骤(1)中旋翼无人机作为移动基站从离散分布的传感器节点采集数据具体为：在无人机能量有限的情况下，根据传感器节点的分布情况设置了两个无线充电站，分别作为无人机的初始位置和最终位置。采集任务持续一段时间，持续时间t＞0。将持续时间划分为n个等距时隙，时隙δ足够小，无人机采集每个时隙内的数据。

9、进一步的，所述步骤(2)中构建的模型为n个时隙模型，每个时隙包括通讯模型、能量消耗模型和数据采集公平性模型。

10、进一步的，所述通讯模型表示为：

11、

12、

13、其中，im[t]表示无人机在时隙t时是否位于传感器m的通讯半径内，dm[t]表示无人机与传感器节点的水平距离，rm表示传感器节点通讯半径，thu表示通讯总吞吐量，m表示传感器节点数量，n表示时隙数量，w表示通信带宽，γm[t]表示传感器m在时隙t的信干噪比。

14、进一步的，所述能量消耗模型表示为：

15、

16、

17、其中，pf(v)表示速度为v时的瞬时能耗，utip是浆叶的叶尖速度，v0表示悬停状态下的平均转子速度。此外，χ、ρ、τ、a分别是机身阻力比、空气密度、转子坚固度和转子盘面积。p0和p1分别代表叶片轮廓功率和诱导功率。etotal为无人机总能耗。

18、进一步的，所述数据采集公平性模型表示为：

19、

20、其中，表示数据采集公平性指数，越大说明数据采集越公平，表示传感器节点m在时隙t与无人机通讯的吞吐量占总吞吐量的比例。

21、进一步的，所述步骤(3)中基于深度强化学习的多重优化轨迹设计和功率分配(motdpa)算法具体为：在motdpa的结构中，有两个q网络，用于学习动作值函数；一个v网络，用于学习状态值函数以及一个策略网络，πφ，用于学习策略π。其中θ1，2，φ是dnn中的权重参数，st表示时隙t时的状态集合，at表示时隙t时的动作集合。在motdpa中学习最优策略的训练过程遵循以下步骤：

22、步骤一：通过以下方式计算状态值函数和动作值函数的目标：

23、

24、

25、步骤二：通过均方误差(mse)更新q函数和v函数：

26、

27、

28、步骤三：使用梯度上升更新策略网络：

29、

30、进一步的，所述步骤(3)中使用最小最大状态归一化来稳定训练过程具体为：

31、步骤一：对状态集合st包含的状态x，计算其最大、最小值，记为xmax、xmin。

32、步骤二：对状态集合st进行遍历，对每一个状态x执行以下计算：

33、

34、步骤三：用步骤二中的计算结果替换原状态x。

技术特征：

1.无人机辅助物联网数据采集场景下一种基于深度强化学习的飞行轨迹设计方法，其特征在于，包括步骤：

2.根据权利要求1所述的无人机辅助物联网数据采集场景下一种基于深度强化学习的飞行轨迹设计方法，其特征在于，在有限的时间内为无人机在完成对物理环境中任意分散的多个相邻地面传感器节点的数据采集任务提供满足最大公平吞吐量和最小化能耗约束的飞行轨迹。

技术总结
本发明针对无人机辅助物联网数据采集场景下的飞行轨迹设计问题，提出了一种基于深度强化学习的多重优化轨迹设计和功率分配(MOTDPA)算法。该算法不仅考虑了无人机的运动学和资源约束，还考虑了信干噪比(SINR)和传感器节点间的公平性能。通过优化无人机飞行轨迹和功率分配，最大化所有传感器节点间的公平吞吐量，最小化能耗。考虑到系统的动态性，多重优化问题被建模为一个马尔可夫决策过程，为了处理该问题中的连续状态和动作空间，该算法选择了最新软参与者批评和优先经验重播来寻找有效的策略。同时，我们使用最小最大状态归一化来稳定训练过程。本发明提出的方法可以在有限的时间内为无人机在完成对物理环境中任意分散的多个相邻地面传感器节点的数据采集任务提供满足最大公平吞吐量和最小化能耗约束的飞行轨迹。

技术研发人员：郑洪源,夏华,陈功,翟象平
受保护的技术使用者：南京航空航天大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑洪源夏华陈功翟象平
技术所有人：南京航空航天大学
我是此专利的发明人

上一篇：侧位含氟三联苯液晶单体的制备方法与流程
上一篇：一种基于神经网络模型识别多种深部真菌菌种的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。