一种基于深度强化学习的多无人机协同追踪方法

文档序号：34182968发布日期：2023-05-17 10:07阅读：511来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及一种基于深度强化学习的多无人机协同追踪方法，该方法通过控制方法和强化学习的结合，实现多无人机的协同追踪，属于多智能体控制领域。

背景技术：

1、无人机由于具有重量轻、尺寸小、机动性高、隐蔽性好、适应能力强、可操作性好等特点，在民用和军用领域受到广泛关注。近几年，无人机在情报侦察、目标搜索和跟踪以及目标攻击等各种任务中占据关键位置，取得了相当好的战果。

2、但是，随着无人机所面临的战场环境变得越来越复杂，在复杂多变的信息化战场环境下，单个无人机执行侦察或攻击等任务时面临侦察角度和范围、杀伤半径和摧毁能力等诸多方面的限制，制约了作战效能的发挥，单个无人机完成任务的难度也变得越来越大。

3、而由于多无人机系统既能形成协调有序的集体运动模式，又能快速、一致地应对外界刺激，具有自组织性强、协调性高、稳定性强等优点，且对环境具有较强的适应能力。因此，越来越多的人们开始了对多无人机的协同作战的研究。

4、然而多无人机的协同作战问题较为复杂，仅仅依靠设计者的经验和知识，很难获得多无人机在复杂环境下的良好适应性。因此，强化学习算法作为实现多无人机复杂环境下良好适应性的一条可行技术路线，已经成为当前多无人机协同作战领域的一个研究热点。

5、在多智能体深度强化学习领域中完全合作环境marl中常见的方法有coma算法、vdn算法、qmix算法等等。在qmix算法的基础上，通过设置合适的规则并根据规则设置恰当的奖励，实现多无人机协同追踪的策略，具有一定的应用前景与意义。

技术实现思路

1、技术问题：

2、基于深度强化学习的多无人机协同作战策略主要研究多无人机在复杂环境下通过强化学习的训练不断完善自身与系统的策略，并通过一定的策略进行协同作战的问题。本发明专利实现了多无人机系统在一定条件下的协同作战，主要使用深度强化学习中的qmix算法，通过对动作空间、状态空间和奖励函数的设置，实现了多无人机的协同追踪。

3、技术方案：

4、一种基于深度强化学习的多无人机协同追踪方法，其特征在于，包括以下步骤：

5、步骤1：在无人机对战仿真平台上建立多无人机作战的模型；

6、步骤2：设置多无人机协同作战的固定规则动作；

7、步骤3：设置多无人机的初始位置和追踪条件；

8、步骤4：设置无人机智能体强化学习的状态、动作和奖励函数；

9、步骤5：使用qmix算法对无人机智能体进行训练，并根据训练结果调整超参数；

10、步骤6：在面对不同对手的情况下，重复步骤5，实现多无人机协同追踪的目标。

11、进一步地，步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下：

12、步骤1.1建立二维绝对坐标系

13、以当前选择的作战地图的左下角为坐标系原点，水平方向为坐标系x轴，垂直方向为坐标系y轴，建立二维绝对坐标系。

14、步骤1.2建立多无人机作战系统

15、建立含有n架无人机的多无人机作战系统，设每架无人机智能体(agent)用a表示，则该多无人机作战系统可以用集合d＝{a1,a2,...,an}表示。

16、步骤1.3建立无人机智能体模型

17、对于多无人机系统d中的每架无人机a，其在时间步t时选择的动作(action)由移动、探测、干扰和攻击四个模块组成：

18、对于移动模块，无人机选择二维平面坐标系内0-359°中的一个方向，并按此方向在单位时间里移动单位步长，无人机在时间步t时选择的方向可记为f1t(ai)；

19、对于探测模块，设雷达频点总数为m，无人机选择雷达频点表中的任意一个雷达频点后，固定向以其朝向为轴、左右各60°、距离为d1的扇形范围内探测是否有敌方无人机，并将探测到的敌方无人机记录到探测列表li中，无人机在时间步t时选择的雷达频点可记为f2t(ai)；

20、对于干扰模块，无人机选择雷达频点表中的任意一个频点后，固定向以其朝向为轴、左右各15°、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达，使其失去探测能力；无人机也可以选择开启阻塞干扰，固定向以其朝向为轴、左右各1°、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达，设无人机在时间步t时选择的干扰频点为f3t(ai)，则有：

21、

22、对于攻击模块，无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d2)或长距离导弹(距离为d3)，设该无人机选择攻击的敌方无人机为探测列表中的li(1≤i≤n)，该无人机选择发射的导弹种类为p，(当p＝0时，无人机不发射导弹，当p＝1时，无人机发射短距离导弹；当p＝2时，无人机发射长距离导弹)，该无人机是否还有该种类的导弹为w(p)，(当w(p)＝0时，无人机没有该类型的导弹；当w(p)＝1时，无人机有该类型的导弹；默认w(0)＝0)，设无人机在时间步t时选择的攻击动作为f4t(ai)，则有：

23、f4t(ai)＝w(p)×((p-1)×n+li)

24、由此，无人机智能体在时间步t时的动作空间可由集合{f1(ai)，f2(ai)，f3(ai)，f4(ai)}表示。

25、对于多无人机系统d中的每架无人机a，其在时间步t时的状态(state)表示如下：

26、无人机ai在当前时间步t时的位置信息(xit，yit)；无人机ai在当前时间步t时探测到的敌方无人机探测列表lit，多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表ldt(ldt＝l1t∪l2t∪...∪lnt)；无人机ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2。

27、由此，无人机智能体在时间步t时的状态空间可由集合{xit，yit，lit，wit1，wit2}表示。

28、由此便构建了多无人机作战的模型。

29、进一步地，步骤2所述的设置多无人机协同作战的固定规则动作具体如下：

30、步骤2.1设置探测模块的固定规则动作

31、对于探测模块，由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低，且探测模块的效能更多取决于移动模块中无人机方向的选择，因此在每个时间步时，使用随机数生成雷达频点。

32、设无人机的雷达频点总数为m，则无人机在时间步t时选择的雷达频点可表示为：

33、f2t(ai)＝random(1，m)

34、步骤2.2设置干扰模块的固定规则动作

35、对于干扰模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则对其使用全频道干扰，避免其探测到我方无人机；如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机，则使用随机数生成干扰频点。

36、因此无人机在时间步t时选择的干扰频点可表示为：

37、

38、步骤2.3设置攻击模块的固定规则动作

39、对于攻击模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则发射选择发射导弹，设当前时刻我方无人机和敌方无人机的位置分别为(x1t，y1t)和(x2t，y2t)，则我方无人机与敌方无人机间的距离为

40、

41、若距离d在短距离导弹射程范围内，且短距离导弹有剩余，则发射短距离导弹；若距离d在长距离导弹射程范围内，且长距离导弹有剩余，则发射长距离导弹；否则不发射导弹。

42、设短距离导弹射程范围为d2，长距离导弹射程范围为d3，则无人机在时间步t时选择的攻击动作可表示为：

43、

44、由此便设置了多无人机协同作战的固定规则动作。

45、进一步地，步骤3所述的设置多无人机的初始位置和追踪条件具体如下：

46、步骤3.1开局初始位置调整

47、开局时，设我方无人机均处于地图左侧，敌方无人机均处于地图右侧，且双方无人机均一字排开，且无人机间的距离为常数，即：

48、x10＝x20＝...＝xn0

49、y20-y10＝y30-y20＝...＝yn0-y(n-1)0

50、为了使无人机系统在对局中能在开局占得先机，因此在开局时需要对无人机系统中每架无人机的初始位置进行调整，在t1个时间步长内，将多无人机系统的阵型调整为雁形，从而在与敌方无人机碰面时取得一定优势。

51、若多无人机系统中无人机的数量n为奇数，则处于中间位置的那架无人机成为领队，其初始位置为且开局后始终向右侧(0°方向)移动，即

52、

53、设多无人机系统中的所有无人机的速度相同均为v，则领队向右侧移动的距离为：

54、

55、其在t1时刻的位置为：

56、

57、设将无人机系统调整为雁形时两侧无人机与x轴的夹角为θ，两两相邻无人机间的距离相等为d4，则此时无人机ai的位置为：

58、

59、类似的，若多无人机系统中无人机的数量n为偶数，则处于中间位置的两架无人机和成为领队，其初始位置分别为和开局后向右侧移动t1个步长后的位置为：

60、

61、此时无人机ai的位置为：

62、

63、由此，便将多无人机系统的阵型调整为了雁形。

64、步骤3.2协同追踪条件判断

65、当多无人机系统完成阵型调整后，其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断。即多无人机系统在t1后的每个时间步t进行条件判断，如果存在某架无人机ai探测到敌方无人机，且该无人机ai周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2，则协同追踪条件通过，否则不通过。

66、设协同追踪条件为f(t,i)，则有

67、

68、其中，⊙为以无人机ai当前位置为圆心，r为半径的单位圆，lk为敌方无人机探测列表ldt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表。

69、由此，便完成了对协同追踪条件的设置，无人机可以通过协同追踪条件进行判断并依此选择移动模块的动作。

70、进一步地，步骤4所述的设置无人机智能体强化学习的状态、动作和奖励函数具体如下：

71、对于多无人机系统中的每架无人机智能体ai，其通过强化学习的方法寻找在状态s下的最优动作a，通过与环境的交互以求取得最大化的奖励r。

72、其中，状态s包括无人机智能体ai在当前时间步t时的位置信息(xit,yit)；无人机智能体ai在当前时间步t时探测到的敌方无人机探测列表lit；无人机智能体ai在当前时间步t时剩余的短距离导弹wit1和长距离导弹数量wit2以及当前时刻无人机智能体ai的追踪条件f(t,i)。

73、动作a为无人机智能体ai在时间步t时选择的方向f1t(ai)，由于f1t(ai)的取值为0-359°中的任意一个方向，训练维度过大，收敛难度较高，因此设置f1t(ai)为15°的整数倍共24种取值，这样在不妨碍无人机转向的同时大大减小了训练的维度。

74、奖励r包括了以下几个部分：

75、(1)无人机探测到敌方无人机的奖励r1

76、(2)无人机发射导弹并击中敌方无人机的奖励r2和我方无人机被敌方无人机导弹击中的惩罚r2’

77、(3)无人机正确使用协同追踪条件的奖励r3、r4

78、若无人机智能体ai在f(t，i)＝1时，对探测列表中发现的敌方无人机进行协同追踪，即无人机ai和在该无人机ai周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动，则获得奖励r3；若无人机智能体ai在f(t，i)＝0时，无人机ai随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索，则获得奖励r4。

79、(4)避免无人机原地不动的惩罚r5

80、由于当无人机选择在原地转圈不动时，依然有较大的概率得到奖励r4，从而在训练的过程中陷入原地转圈不动的局部最优情况，因此必须引入惩罚措施，计算无人机在连续τ个时间步内的位移，并根据位移的大小给予无人机智能体相应的惩罚。

81、设无人机系统d中的某架无人机为ai，其在连续的τ个时间步内的位置分别为{(x1，y1)，(x2，y2)，...，(xτ，yτ)}，则其在τ个时间步长上的位移为：

82、

83、若无人机在τ个时间步内原地转圈不动，则其位移δ较小；若无人机正常追踪敌方无人机或搜索地图，则其位移δ必然大于某特定值。因此，该无人机ai在τ个时间步长上的位移δ与惩罚r5可近似用反比例函数描述，并通过适当的修正使其能满足所有情况。

84、设置惩罚函数如下：

85、

86、其中，ct为比例系数，可适用于不同的场景下修改训练；δ为一个和位移相比可以忽略的小量，防止当δ恰好为0时，函数值为无穷大；ε为奖励补偿，使无人机在τ个时间步长上的位移δ大于某特定值时，不会进行距离奖励值的衰减；max函数为激活函数，使得当δ大于某特定值，即时，惩罚函数r5的值为0。

87、由此，便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置。

88、有益效果：

89、1.本发明专利提出了一种基于深度强化学习qmix算法的多无人机协同追踪方法。通过对多无人机作战系统的建模，并在开源的多无人机作战平台maca平台上进行训练和测试，实现了多无人机的协同追踪。

90、2.本发明专利在深度强化学习qmix算法的基础上，通过对奖励函数的设计，使其能更好解决强化学习中由于维数过大而导致的稀疏奖励的问题，同时，通过对追踪条件的设计，并将其作为状态空间的一部分使用强化学习算法进行训练，可以有效的提高胜率。

91、3.本发明专利在开局时对无人机的初始位置进行了调整，采取了雁形阵，该阵型是一种横向展开，左右两翼向后梯次排列的战斗队形，具有很好的稳定性和高效性，有助于提高多无人机作战的协同性和胜率。

92、4.本发明专利所建立的多无人机系统协同作战模型不仅可以用于多无人机的协同作战，也可用于其他场景，如海上作战、地面作战单元等。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜昊武永宝薛磊刘剑
技术所有人：东南大学
我是此专利的发明人

上一篇：一种提高大蒜产量和水分利用率的灌溉方法与流程
上一篇：一种肿瘤活检组织便携式专用取样器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。