一种无人机的多目标点跟踪避障方法和装置

文档序号:37428503发布日期:2024-03-25 19:18阅读:10来源:国知局
一种无人机的多目标点跟踪避障方法和装置

本技术涉及无人机,更具体地说,涉及一种无人机的多目标点跟踪避障方法和装置。


背景技术:

1、随着无人机技术的不断发展,无人机在安全、农业、物流、环保等各个领域的应用日益广泛。无人机一般装备有机载传感器如双目相机及激光雷达等,用以感知无人机周围环境,并通过感知信息进行动作决策,绕开障碍物安全到达目标终点。但低空环境较为复杂,存在各种不同的障碍物如风筝、气球等,且无人机计算资源十分有限,因而,避障技术成为限制无人机发展的重要因素。传统的避障技术包含建图和规划两个部分。建图包括同时定位与映射和运动恢复结构。定位是动作决策的先决条件,而且计算成本较高,这进一步限制了动作决策所需的计算资源。基于此,对于无人机而言,需要探索高效的避障方法。

2、drl(深度强化学习)通过策略网络将状态映射到行动,使无人机能够在复杂环境中做出高频决策,而无需建图步骤或复杂计算,适用于计算资源有限的无人机。现有技术提供基于drl的低计算成本路径规划算法,用于在点对点场景中帮助无人机避开障碍物。但上述方式,过于在乎局部最优化,容易出现为了达到局部最优而无法到达目标终点的情况。


技术实现思路

1、有鉴于此,本技术提供了一种无人机的多目标点跟踪避障方法和装置,用于解决现有技术基于drl的低计算成本路径规划算法中过于在乎局部最优化导致无法到达目标终点的缺点。

2、为了实现上述目的,现提出的方案如下:

3、一种无人机的多目标点跟踪避障方法,包括:

4、根据无人机的全局路径及无人机当前位置,确定一个以上路径跟踪点,所述全局路径为无人机由路径起点飞行至路径终点的路径规划;

5、基于所述路径终点及各个路径跟踪点,获取状态输入数据,其中,所述状态输入数据包括激光雷达数据、无人机当前动作状态、无人机与所述路径终点的相对位置以及无人机与各个路径跟踪点的相对位置;

6、获取训练后的深度强化学习模型;

7、将所述状态输入数据输入至训练后的深度强化学习模型,得到所述训练后的深度强化学习模型输出的动作指令,所述动作指令用于引导无人机避障。

8、可选的,所述根据无人机的全局路径及无人机当前位置,确定一个以上路径跟踪点,包括:

9、根据无人机当前位置,从所述全局路径中选取与所述无人机距离最近的路径最近点;

10、以所述路径最近点为始,以所述全局路径的飞行方向为取点方向,从所述全局路径中选取多个路径跟踪点。

11、可选的,以所述路径最近点为始,从所述全局路径中选取一个以上路径跟踪点,包括:

12、基于预设的引导距离,确定取点间隔;

13、以所述路径最近点为始,以所述全局路径的飞行方向为取点方向,在所述全局路径中每隔取点间隔选取路径点作为路径跟踪点,直至最新选取的路径跟踪点与首次选取的路径跟踪点间的间隔等于所述引导距离为止。

14、可选的,在基于预设的引导距离,确定取点间隔之前,还包括:

15、确定所述路径最近点与所述路径终点间的目标距离;

16、在所述目标距离大于所述引导距离时,进入执行基于预设的引导距离,确定取点间隔的步骤;

17、在所述目标距离不大于所述引导距离时,将所述路径终点确定为路径跟踪点。

18、可选的,所述获取训练后的深度强化学习模型,包括:

19、获取初始深度强化学习模型及对应于不同随机地图的训练路径,每个随机地图中设置有不同尺寸的障碍物,每个训练路径包含有训练无人机由训练起点飞行至训练终点的路径规划;

20、针对每一训练路径,基于训练无人机在对应随机地图中的当前位置,从所述训练路径中选取训练最近点;以所述训练最近点为始,从所述训练路径中选取多个连续的训练目标点;将训练无人机的雷达数据、训练无人机动作状态、训练无人机与所述训练终点的相对位置以及训练无人机与各个训练目标点的相对位置输入至初始深度强化学习模型,得到所述初始深度强化学习模型输出的预测动作;确定所述训练无人机动作状态更新为所述预测动作并与对应随机地图交互后,所述训练无人机的最新位置;计算所述训练无人机的最新位置与对应训练终点间的第一距离,以及,训练无人机的最新位置与各个训练目标点间的第二距离;基于所述第一距离及所述第二距离,计算所述初始深度强化学习模型的奖励值;基于所述奖励值,对所述初始深度强化学习模型的参数进行更新;在所述训练无人机到达最后一个训练目标点时,返回执行基于训练无人机在对应随机地图中的当前位置,从所述训练路径中选取训练最近点的步骤,直至所述训练无人机到达所述训练终点;

21、将经过各个训练路径训练得到的初始深度强化学习模型作为训练后的深度强化学习模型。

22、可选的,所述基于所述第一距离及所述第二距离,计算所述初始深度强化学习模型的奖励值,包括:

23、获取预设的奖励函数,并将所述第一距离及所述第二距离代入至所述奖励函数,计算得到所述初始深度强化学习模型的奖励值;

24、其中,所述奖励函数如下所示:

25、rtotal=rgoal+rtrack+rcrash+rfree+rstep

26、

27、

28、rtrack=-dpclosest

29、rcrash=-exp(-(dro-dmin)/r)

30、

31、rtotal为奖励值;rgoal为距离奖励;rtrack为跟踪奖励;rcrash为碰撞奖励;rfree为自由空间奖励;rstep为步数奖励;dg为当前无人机到路径终点的距离;dgmin为预设距离阈值;rarrival为预设奖励;dpi为ptrack,i到无人机的距离;zpi为分配系数,用于调节δdpi对rgoal的贡献程度;δdpi为ptrack,i与无人机的距离变化;ptrack,i为第i个训练目标点;ntrack为训练目标点数量;dal为分配因子,且dal∈[0,1];为dal的i-1次方;为dal的ntrack次方;zpi为权重因子;为无人机到pclosest的距离;pclosest为从所述全局路径中选取与无人机距离最近的路径最近点;r和为超参量;dro表示无人机与最近障碍物的距离;di为雷达数据中第i个数据;dmin对应雷达数据中的最小值。

32、可选的,所述获取对应于不同随机地图的训练路径,包括:

33、利用随机地图生成器,基于预设的每种尺寸的障碍物数量范围,随机确定每种尺寸的障碍物数量;

34、利用随机地图生成器,基于各种尺寸的障碍物数量,生成随机地图;

35、在所述随机地图中,选择随机距离,并基于随机距离,设置训练起点及训练终点;

36、基于随机扩展树算法rrt,构建适配于所述随机地图且包含有训练起点及训练终点的训练路径。

37、可选的,所述随机地图生成器表示为:

38、

39、为示随机环境生成器的输出;为随机环境生成器函数;dtarget为所述随机距离;nmin,1为第一尺寸障碍物的数量最小值;nmax,1为第一尺寸障碍物的数量最大值;nmin,2为第二尺寸障碍物的数量最小值;nmax,2为第二尺寸障碍物的数量最大值。

40、可选的,所述无人机当前动作状态包括无人机当前线速度及无人机当前偏航角速度;

41、所述动作指令包括预测线速度及预测偏航角速度。

42、一种无人机的多目标点跟踪避障装置,包括:

43、确定模块,用于根据无人机的全局路径及无人机当前位置,确定一个以上路径跟踪点,所述全局路径为无人机由路径起点飞行至路径终点的路径规划;

44、获取模块,用于基于所述路径终点及各个路径跟踪点,获取状态输入数据,其中,所述状态输入数据包括激光雷达数据、无人机当前动作状态、无人机与所述路径终点的相对位置以及无人机与各个路径跟踪点的相对位置;

45、输出模块,用于获取训练后的深度强化学习模型;将所述状态输入数据输入至训练后的深度强化学习模型,得到所述训练后的深度强化学习模型输出的动作指令,所述动作指令用于更新无人机的动作状态,引导无人机避障。

46、一种无人机的多目标点跟踪避障设备,包括存储器和处理器;

47、所述存储器,用于存储程序;

48、所述处理器,用于执行所述程序,实现上述的无人机的多目标点跟踪避障方法的各个步骤。

49、一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述的无人机的多目标点跟踪避障方法的各个步骤。

50、从上述的技术方案可以看出,本技术提供的无人机的多目标点跟踪避障方法,通过该方法无人机的动作决策可以由训练后的深度强化学习模型确定,深度强化学习模型能够充分深度学习和处理输入的状态输入数据,并通过神经网络的拟合能力预测未来动作状态,无需复杂的建图及规划,减少无人机的计算资源要求,从而实现在复杂环境中进行高频决策,引导无人机避开障碍物。

51、另外,本技术的状态输入数据由激光雷达数据、无人机当前动作状态、无人机与所述路径终点的相对位置以及无人机与各个路径跟踪点的相对位置构成,且各个路径跟踪点由无人机的全局路径及无人机当前位置确定,训练后的神经网络模型在深度学习及处理过程中,通过状态输入数据充分获知先验信息,强调路径终点,在预测动作指令时,充分考虑路径终点与无人机间的距离,避免无人机无法到达路径终点的情况。可见,本技术可以在无人机有限的计算资源下,实现引导无人机避开障碍物的同时,达到让无人机准确到达路径终点的目的。经过试验证明,本技术在长距离避障任务中效果拔群。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1