基于机器学习的无人机临机导调策略推荐方法

文档序号:37119028发布日期:2024-02-22 21:21阅读:16来源:国知局
基于机器学习的无人机临机导调策略推荐方法

本技术涉及人工智能,特别是涉及一种基于机器学习的无人机临机导调策略推荐方法。


背景技术:

1、随着人工智能技术的不断发展,以及无人设备的不断涌现,对复杂环境下导调干预的要求也越来越高。以无人设备场景排练为例,即时多样化展现效果越来越高,无人设备排练过程中随着天气情况的变化,依据排练目标要进行快速判断并生成干预指令。如何在有限时间内根据不同场景排练目标,对偏离排练重心的不同型号无人机的变动次数与方向进行干预,达到最符合当前排练意图的行动策略,是一个多目标动态优化问题。

2、动态规划求解多目标动态优化问题的先置条件是已知问题模型的奖励函数和转移的参数。然而在实际问题中,这些参数往往是未知的。为了解决该问题,发展出了无模型强化学习和基于模型的强化学习两种流派。无模型的方法相对于基于模型的方法采样效率较低,基于模型的方法额外引入了模型估计的误差,导致即使估计出了基于现有参数模型的环境所构建的问题模型上的最优策略,也不一定能保证其在真实环境所对应的问题模型上的最优性。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于机器学习的无人机临机导调策略推荐方法。

2、一种基于机器学习的无人机临机导调策略推荐方法,所述方法包括:

3、步骤s1:获取调理对象数种类、无人机种类、无人机数量、可执行任务区域数量,并构建马尔可夫决策过程模型中的环境状态集s={s1,s2,...,sn}和动作集a={a1,a2,...,am},n为环境状态的数目,m为动作的数目;

4、步骤s2:以参数θ1构建深度神经网络,记为初始网络;将所述环境状态si和所述动作aj输入所述初始网络,得到初始网络奖励估计值其中,i,j为自然数,且1≤i≤n,1≤j≤m;

5、步骤s3:以参数θ2构建另一个与所述初始网络具有相同结构的深度神经网络,记为目标网络;将所述环境状态sh和所述动作参数ak输入所述初始网络,得到目标网络奖励估计值其中,h,k为自然数,且1≤h≤n,1≤k≤m;

6、步骤s4:重复多次利用所述目标网络分别计算不同环境状态和不同动作下,获得的奖励值以及下一个环境状态,得到训练数据池d;

7、步骤s5:随机的从所述的训练数据池d中采样得到一组训练数据,并使用该组训练数据对初始网络进行学习训练,以更新所述初始网络的参数θ1;将所述目标网络的参数θ2设置与更新后的所述初始网络的参数θ1相同,完成所述目标网络更新;

8、步骤s6:重复步骤s4、s5,直到所述初始网络的参数θ1不再发生变化,得到稳定的目标网络,完成所述马尔可夫决策过程模型构建;

9、步骤s7:获取当前环境状态信息,并利用所述稳定的目标网络得到推荐的临机干预策略。

10、在其中一个实施例中,所述构建马尔可夫决策过程模型中的环境状态集s={s1,s2,...,sn}和动作集a={a1,a2,...,am}包括:

11、所述环境状态定义为一个由浮点数组成的环境状态长向量;所述环境状态长向量前四个浮点数分别表示目标被不同无人机数击中的概率,所述环境状态长向量后部分浮点数分别表示所述无人机种类、所述可执行任务区域以及当前已发射数量;

12、所述动作定义为一个由多个0和1个1组成的动作长向量;所述动作长向量中1所在位置代表所选择的动作;所述动作长向量长度等于所述无人机种类乘以可执行任务区域。

13、在其中一个实施例中,所述初始网络和所述目标网络均由一层全连接层,一层激活层,一层全连接层,一层激活层,一层全连接层依次连接构成。

14、在其中一个实施例中,所述重复多次利用所述目标网络分别计算不同环境状态和不同动作下,获得的奖励值以及下一个环境状态,得到训练数据池包括:

15、步骤s41:获取当前训练环境状态信息,并将所述当前训练环境状态信息转换为当前环境状态依次选择所述动作集a中每一个动作al,与所述当前环境状态共同输入所述目标网络,得到多个估计奖励值其中,now,l为自然数,且1≤now≤n,1≤l≤m;

16、步骤s42:比较所述多个估计奖励值的大小,得到最大估计奖励值及其对应的获得最大估计奖励值动作

17、步骤s43:对训练环境执行所述获得最大估计奖励值动作训练环境转换为下一个训练环境状态并得到实际奖励值

18、步骤s44:将记录为一元组数据;

19、步骤s45:将所述下一个训练环境状态作为新的当前环境状态,重复步骤s41-s44,得到多个一元组数据,得到所述训练数据池d。

20、在其中一个实施例中,所述对训练环境执行所述获得最大估计奖励值动作训练环境转换为下一个训练环境状态并得到实际奖励值包括:通过公式

21、

22、计算实际奖励值其中,weight为权重;p(·)表示环境状态的毁伤概率向量。

23、在其中一个实施例中,所述随机的从所述的训练数据池中采样得到一组训练数据,使用该组训练数据对初始网络进行学习训练,以更新所述初始网络的参数θ1包括:

24、步骤s61:从所述训练数据池d进行抽样et=(st,at,rt,st+1)~d,得到所述一组训练数据et;

25、步骤s62:利用所述训练数据et,计算目标q*(st,at)值;

26、步骤s63:利用梯度下降法更新所述初始网络的参数θ1;

27、步骤s64:重复步骤s51-s53,直到所述初始网络的参数θ1不再发生变化。

28、在其中一个实施例中,所述利用所述训练数据et,计算目标q*(st,at)值包括:通过计算目标q*(st,at)值。

29、在其中一个实施例中,所述利用梯度下降法更新所述初始网络的参数θ1,包括:

30、将所述目标q值与所述初始网络奖励估计值的差作为损失函数

31、对所述损失函数计算梯度;

32、采用得到的梯度来更新当前初始网络的参数。

33、在其中一个实施例中,所述获取当前环境状态信息,并利用所述稳定的目标网络得到推荐的临机干预策略包括:

34、获取当前环境状态信息,并得到执行所述动作集a中每一个动作al的奖励值

35、比较所述多个奖励值的大小,得到最大奖励值qmax;并将所述最大奖励值qmax对应的动作amax作为推荐的临机干预策略。

36、在其中一个实施例中,所述获取当前环境状态信息,并得到执行所述动作集a中每一个动作al的奖励值包括:

37、获取当前环境状态信息,并将所述当前环境状态信息转换为当前环境状态snow;

38、依次选择所述动作集a中每一个动作al,与所述当前环境状态snow共同输入所述稳定的目标网络,得到多个奖励值其中,now,l为自然数,且1≤now≤n,1≤l≤m。

39、本发明采用马尔科夫决策过程对问题进行建模。针对问题特点,采用两级结构对问题进行求解。第一级首先选择无人飞行器的中心执行区域,第二级在目标候选区域内选择合适的区域以及无人飞行器种类。在具体求解算法上,本发明主要采用双深度q学习算法进行求解。实验结果表明,针对不同的无人飞行器约束条件,均能求得合理的导调干预情况,满足了对求解质量、速度以及泛化性方面的需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1