一种忠诚僚机目标搜索与锁定任务执行方法

文档序号:37941124发布日期:2024-05-11 00:19阅读:18来源:国知局
一种忠诚僚机目标搜索与锁定任务执行方法

本公开实施例涉及忠诚僚机机动控制与自主任务执行,尤其涉及一种忠诚僚机目标搜索与锁定任务执行方法。


背景技术:

1、在现代空中作战中,长机-僚机之间的协同作战尤为关键,且在实际空战中广泛采用该种编队,有诸多优点。目前具有较好前景的智能化空战算法可划分为基于传统智能算法与基于强化学习算法两种。随着近些年计算机算力的不断提升,基于强化学习的相关研究爆发式增长,前景无限。然而,现有强化学习算法研究面临任务复杂度高、学习困难、执行特定任务时的稳定性和鲁棒性不足,如在目标锁定过程中一旦目标丢失,算法即会停止,必须切换到搜索模式。在接近探测区域边缘时,算法频繁切换,导致性能下降等问题。


技术实现思路

1、为了避免现有技术的不足之处,本技术提供一种忠诚僚机目标搜索与锁定任务执行方法,用以解决现有技术中存在面临任务复杂度高、学习困难、执行特定任务时的稳定性和鲁棒性不足,如在目标锁定过程中一旦目标丢失,算法即会停止,必须切换到搜索模式;在接近探测区域边缘时,算法频繁切换,导致性能下降等问题的问题。

2、根据本公开实施例,提供一种忠诚僚机目标搜索与锁定任务执行方法,该方法包括:

3、根据环境复杂度及作战任务,构建底层控制模型,利用底层控制模型进行飞行控制;

4、基于雷达探测区,引入距离比和角度比,构建先验区域模型;其中,先验区域模型包括先验区子模型、安全区子模型、危险区子模型和终止区子模型;

5、基于底层控制模型,构建顶层目标搜索任务模型,利用顶层目标搜索任务模型进行目标搜索;

6、根据底层控制模型和先验区域模型,构建顶层目标锁定任务模型,利用顶层目标锁定任务模型进行目标锁定。

7、进一步的,构建底层控制模型的步骤中包括:

8、根据环境复杂度以及作战任务,设计若干个状态变量,并根据若干个状态变量构建底层控制模型;其中,底层控制模型的表达式为:

9、[δh,δψ,δv,habs,cosφ,sinφ,sinθ,cosθ,vx,vy,vz,v]

10、式中,δh为期望高度与僚机当前高度之差,δψ为期望航向与僚机当前航向之差,δv为期望速度与僚机当前速度之差,habs为僚机当前高度,φ为僚机滚转角,θ为僚机俯仰角,vx为僚机的x轴速度,vy为僚机的y轴速度,vz为僚机的z轴速度,v为僚机合速度;

11、底层控制模型的动作空间由四个连续控制量组成的四元组构成:

12、[ca,ce,cr,ct]

13、式中,ca为油门杆控制量,用于控制僚机的速度;ce为方向舵控制量,用于控制僚机的偏航角;cr为升降舵控制量,用于控制僚机的俯仰角;ct为副翼控制量,用于控制僚机的滚转角;

14、将连续的动作空间离散化,以平衡计算复杂度与仿真度。

15、进一步的,将连续的动作空间离散化的步骤包括:

16、定义奖励函数:

17、

18、式中,rψ为航向奖励函数,rh为高度奖励函数,rv为速度奖励函数,rφ为滚转奖励函数;

19、根据航向奖励函数、高度奖励函数、速度奖励函数和滚转奖励函数计算总体控制奖励函数,以作为总体度量;其中,总体控制奖励函数表示为:

20、

21、设定高度惩罚常量rph,根据高度惩罚常量rph和总体度量计算僚机底层控制模型的总体奖励:

22、r1=rc+rph

23、式中,r1为僚机底层控制模型的总体奖励。

24、进一步的,根据任务特点,定义底层控制模型的结束条件。

25、进一步的,距离比为区域内目标距离与雷达探测半径之比,距离比范围为[0,1.5];角度比为目标相对僚机速度向量的夹角与雷达探测区域弧度之比,角度比范围在[-1.5,1.5],角度比带符号,为正代表目标处于僚机速度向量左侧,为负代表目标处于僚机速度向量右侧。

26、进一步的,利用顶层目标搜索任务模型进行目标搜索的步骤中,包括:

27、顶层目标搜索任务模型将顶层的目标航路点坐标进行处理,转换为忠诚僚机的期望航向、速度及高度,并与本机当前的航向、速度及高度作差;其中,

28、将经纬度转换到导航坐标系,得到航路点坐标为(xi,yi,zi),忠诚僚机坐标为(x,y,z),则在垂直平面上,得到高度差为:

29、δh=zi-z

30、在水平面上,得到目标航路点相对忠诚僚机的位置向量为:

31、

32、则可得航向角度差的大小为:

33、

34、式中,为水平面速度向量;

35、确定角度差的符号:

36、

37、将航向角度差的差值作为底层控制模型的输入以完成基于航路点的目标搜索任务。

38、进一步的,根据底层控制模型和先验区域模型,构建顶层目标锁定任务模型,利用顶层目标锁定任务模型进行目标锁定的步骤中,包括:

39、根据底层控制模型和先验区域模型,构建顶层目标锁定任务模型:

40、[δh,δψ,δvx,habs,cosφ,sinφ,sinθ,cosθ,vx,vy,vz,v,r,ψr,fa,fd]

41、式中,r为目标敌机与僚机的相对距离,ψr为目标敌机速度向量与敌机视线的夹角,fa为角度比,fd为距离比;

42、顶层目标锁定控制模型的动作空间由三个离散误差量组成的三元组构成,通过五个控制级别分别控制僚机的航向、速度与高度:

43、[δhd,δψd,δvd]

44、式中,δhd为高度误差量,δψd为航向误差量,δvd为速度误差量;

45、对不同区域的子模型的惩罚进行计算,以得到丢失区惩罚、安全区惩罚、危险区惩罚和终止区惩罚;其中,

46、丢失区惩罚为:

47、

48、式中,pdl为距离丢失的引导惩罚,pal为角度丢失的引导惩罚,pdal为距离与角度共同丢失的引导惩罚;

49、安全区惩罚为:

50、psafe=0

51、式中,psafe为安全区惩罚;

52、危险区惩罚为:

53、

54、式中,pdanger为危险区惩罚;

55、终止区惩罚为:

56、pterminate=-5

57、式中,pterminate为终止区惩罚;

58、当目标位于安全区和危险区时,目标始终位于探测区域内而给予的奖励:

59、rdetect=1

60、式中,rdetect为探测区奖励;

61、顶层目标锁定任务模型根据丢失区惩罚、安全区惩罚、危险区惩罚、终止区惩罚和探测区奖励对目标进行目标锁定。

62、本公开的实施例提供的技术方案可以包括以下有益效果:

63、本公开的实施例中,通过上述忠诚僚机目标搜索与锁定任务执行方法,一方面,底层控制模型负责控制飞机的油门杆、方向舵、升降舵和副翼来控制飞机飞行,达到期望航向、速度以及高度;先验区域模型利用先验化训练,去先验化执行的方法进行运算;顶层目标搜索任务模型基于底层控制模型构建,无需从头训练如何控制飞机飞行,且可迁移至不同的顶层任务,大大简化了任务训练复杂度;顶层目标锁定任务模型能够在一定范围内自动寻回丢失目标,降低了模型切换频率,且提升了控制系统稳定性。另一方面,该方法能够将复杂的忠诚僚机训练任务分而治之,缩短训练时间,且提供了高效的自主目标搜索与目标搜索方法,解决了算法模型切换时的不稳定性问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1