基于DCDDPG算法的多无人机协同侦察方法

文档序号:37467681发布日期:2024-03-28 18:50阅读:20来源:国知局
基于DCDDPG算法的多无人机协同侦察方法

本技术涉及无人机侦察搜索,特别是涉及一种基于dcddpg算法的多无人机协同侦察方法。


背景技术:

1、随着无人机系统(unmanned aircraft systems,uas)的不断发展,越来越多种类的无人机被应用到矿物勘探、农业监测、交通测绘、森林搜救等任务领域。无人机具备快速有效覆盖大面积区域的能力,因此在侦察和目标搜索任务中是一种有效的工具。近年来,采用协调方式利用多架无人机进行侦察搜索已经变得越来越受欢迎。首先,多无人机协同侦察搜索(mcrs)允许更广泛的目标区域覆盖,因为它们可以同时侦察不同的区域。此外,每架无人机都可以配备专门的传感器,用于搜索各种不同种类的目标。然而,协调多架无人机进行侦察搜索是一个有挑战性的问题。首先,每架无人机都需要了解其他无人机的位置、速度和侦察策略,以便能够协调行动并避免碰撞;其次,每架无人机都需要能够自主规划最佳的搜索路径,以便能够最大程度地覆盖搜索区域,避免轨迹重叠;第三,多无人机系统需要具备高度的鲁棒性和灵活性,以便能够快速适应不同的任务和环境,从而保持系统的稳定和可靠性。此外,对于侦察搜索任务而言,由于传感器的精度、目标的外观变化以及环境噪声等误差的影响,目标检测算法可能无法返回对搜索区域的结果绝对可信的结果,从而增加了该区域目标存在的不确定性,进而影响侦察结果的准确性。

2、然而,为解决mcrs问题,传统的方法考虑了两个方面。一方面,为解决多架无人机的协同问题,传统的集中控制方法使用一个集中式地面控制站来管理所有无人机的操作,以确保集中决策过程,并促进无人机之间的有效协调。然而,这种方法在可伸缩性和鲁棒性方面存在一些限制,因为单点故障可能会破坏整个系统。另一方面,为解决侦察搜索问题,传统的任务规划技术将无人机的侦察搜索问题建模为覆盖路径规划或混合整数非线性规划,并使用覆盖率作为目标函数。在任务环境简单且无人机数量较少的情况下,这种优化方法可以取得很好的效果。但是,随着无人机数量的增多和环境规模的扩大,这种多无人机的路径规划问题被证明是np-hard,其计算的时间复杂度和空间复杂度都显著提高。此外,只考虑区域覆盖的侦察搜索忽视了无人机传感器可能存在的目标检测误差。实际上,对侦察区域进行一次覆盖并不能获得目标存在的高置信度结果,因此导致搜索结果不可靠。目前的近年来,强化学习(rl)等机器学习方法的出现为解决mcrs问题提供了新的解决方案。强化学习通常以马尔可夫决策过程(mdp)的框架进行建模。为了增强强化学习在解决复杂问题方面的能力,研究人员将深度学习(dl)与强化学习(rl)相结合,提出了深度强化学习(drl)。这种方法利用神经网络来近似价值函数或策略函数,并通过智能体与环境的交互来优化网络参数,以最大化累积奖励。深度强化学习能够在动态和复杂环境中自主学习和决策,并已经在许多领域取得了显著的成果,如竞技游戏、智能制造和自动驾驶等。mcrs可以被建模为含有多个智能体的马尔可夫决策过程(mmdp),因此可以采用多智能体深度强化学习(madrl)的方法来解决,但是目前深度强化学习(madrl)在集中式训练分布式执行的框架下使用一个集中的评论家克服了环境不稳定的问题,集中式的评论家成为ctde的一个标准的选择,一个集中的评论家会在策略更新中产生比局部评论家更高的方差,出现值函数估计的偏差与策略更新的方差的平衡问题,使得多无人机协同侦察协调能力差。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高多无人侦察搜索协调能力的基于dcddpg算法的多无人机协同侦察方法。

2、一种基于dcddpg算法的多无人机协同侦察方法,所述方法包括:

3、将多无人机侦察搜索问题建模为部分可观测马尔可夫决策过程,在部分可观测马尔可夫决策过程中设计局部评论家网络、集中式评论家网络和动作网络,其中,智能体表示无人机;

4、根据dcddpg算法对部分可观测马尔可夫决策过程进行求解,根据局部评论家网络和集中式评论家网络对智能体的动作价值函数进行估计,利用确定性策略梯度理论和动作价值函数确定智能体的策略梯度,再根据经验回放技术对智能体的策略梯度进行优化,得到优化后的智能体的策略梯度;根据智能体自身的位置和速度以及智能体之间的相对位置和禁飞区信息设计智能体的状态空间,利用无人机的动力学模型设计动作空间,根据认知奖励、目标发现奖励、行为惩罚和防止超出边界设计智能体的奖励函数;根据智能体的动作空间、状态空间和奖励函数计算每个智能体的每个时刻所获得的奖励;每个智能体利用各自的奖励计算时间差误差来分别更新集中式评论家和局部评论家网络,并利用优化后的智能体的策略梯度更新动作网络,根据更新后的集中式评论家网络和局部评论家网络以及更新后的动作网络得到各无人机当前时刻的加速度;根据各无人机当前时刻的加速度进行多无人机协同侦察。

5、在其中一个实施例中,根据局部评论家网络和集中式评论家网络对智能体的动作价值函数进行估计,包括:

6、根据局部评论家网络和集中式评论家网络对动作价值函数进行估计,得到智能体的动作价值函数为

7、

8、其中,表示参数为的局部评论家网络,表示参数为的集中式评论家网络,α表示局部评论家网络所占权重,i表示第i个智能体。

9、在其中一个实施例中,局部评论家网络的损失函数为

10、

11、其中,表示目标动作价值,ri表示智能体i的奖励,γ表示折扣因子,表示目标局部评论家网络,μi表示智能体i的策略,o={o1,…on}表示所有智能体的联合观测,a={a1,…an}表示联合动作;

12、集中式评论家网络的损失函数为

13、

14、其中,表示目标动作价值,表示目标集中评论家网络。

15、在其中一个实施例中,利用确定性策略梯度理论和动作价值函数确定智能体的策略梯度,包括:

16、利用确定性策略梯度理论和动作价值函数确定智能体的策略梯度为

17、

18、其中,j(μi)表示每个智能体的目标,是动作价值函数,表示从经验回放缓存区d采样的期望值,表示参数为θi的梯度,μi表示智能体i的策略网络,ai|oi表示观测为oi智能体的动作ai,表示参数为ai的梯度,表示智能体i的动作价值函数,μi(oi)表示观测为oi智能体的策略。

19、在其中一个实施例中,根据经验回放技术对智能体的策略梯度进行优化,得到优化后的智能体的策略梯度,包括:

20、根据经验回放技术对智能体的策略梯度进行优化,得到优化后的智能体的策略梯度为

21、

22、其中,α表示局部评论家所占总体策略梯度的权重,centralizedcritic表示集中评论家的策略梯度,localcritic表示局部评论家的策略梯度,表示输入为联合观测o和联合动作a的集中动作价值函数,表示输入为局部观测oi和局部动作ai的局部动作价值函数,i表示第i个智能体。

23、在其中一个实施例中,根据智能体自身的位置和速度以及智能体之间的相对位置和禁飞区信息设计智能体的状态空间,包括:

24、根据智能体自身的位置和速度以及智能体之间的相对位置和禁飞区信息设计智能体的状态空间为

25、

26、其中,m是智能体在侦察搜索地图内探测到的禁飞区个数,(ui,t,vi,t)表示智能体i在时刻t的位置和速度,ui,t表示智能体i在时刻t的位置,vi,t表示智能体i在时刻t的速度,zm表示第m个禁飞区的位置,表示尚未检测到nz-m个禁飞区分配固定最大值r。

27、在其中一个实施例中,利用无人机的动力学模型设计动作空间,包括:

28、利用无人机的动力学模型设计动作空间为

29、

30、其中,clip是截断函数,fi,t表示输入的控制力,δt表示无人机更新速度和位置的时间步长,vmin表示无人机的最小速度,vmax表示无人机的最大速度,vi,t表示无人机i在时刻t的速度,i表示第i架无人机,ui,t表示无人机i在时刻t的位置,m是无人机的质量。

31、在其中一个实施例中,根据认知奖励、目标发现奖励、行为惩罚和防止超出边界设计智能体的奖励函数,包括:

32、根据认知奖励、目标发现奖励、行为惩罚和防止超出边界设计智能体的奖励函数为

33、rt=r1,t+r2,t+r3,t+r4,t

34、

35、

36、r3,t=ω3(rentry+rcollision)

37、

38、其中,r1,t表示认知奖励,ω1表示认知奖励权重,lx表示环境地图x轴方向的单元格数量,ly表示环境地图y轴方向的单元格数量,表示时刻t单元格cx,y的不确定性,r2,t表示目标发现奖励,ω2表示目标发现奖励权重,表示时刻t单元格cx,y的目标存在可能性,τ表示认为目标存在的阈值,r3,t表示行为惩罚,ω3表示行为惩罚权重,rentry表示无人机进入禁飞区的惩罚,rcollision表示无人机碰撞的惩罚,r4,t表示防止超出边界,ω4表示防止超出边界奖励权重,ui,t表示无人机i在时刻t的位置,aoi表示侦察搜索地图。

39、上述基于dcddpg算法的多无人机协同侦察方法,本技术将多无人机侦察搜索问题视为部分可观测马尔可夫决策过程,根据改进的深度学习算法-dcddpg算法来对多无人机侦察搜索问题进行求解,在这个基础上,使用了局部评论家和集中式评论家对动作价值函数估计,通过设置参数控制着集中评论家和局部评论家的权重,可以有效地平衡偏差和方差。局部评论家网络仅输入当前智能体的动作和观测,优化自身动作,集中式评论家将所有智能体的动作和观测作为输入,以评估联合动作的优劣,并反馈给动作网络以学习到合作行为,进而提高了多无人机侦察搜索的协调能力,另外根据经验回放技术对智能体的策略梯度进行优化,减少了训练数据的相关性,提高了策略梯度的准确度,在动作空间设计时根据无人机的动力学模型设计动作空间可以真实的模拟无人机侦察并提供更高的控制精度,最后智能体利用所有智能体的奖励之和计算时间差误差来更新集中式评论家网络,利用智能体各自的奖励计算时间差误差以更新局部评论家网络,并利用优化后的智能体的策略梯度更新动作网络,根据更新后的集中式评论家网络和局部评论家网络以及更新后的动作网络进行多无人机协同侦察还可以大大提高协同侦察的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1