一种基于智能机巢辅助协同的多无人机自适应作业方法与流程

文档序号:37183406发布日期:2024-03-01 12:44阅读:20来源:国知局
一种基于智能机巢辅助协同的多无人机自适应作业方法与流程

本发明涉及一种基于智能机巢辅助协同的多无人机自适应作业方法,属于智能机巢的。


背景技术:

1、目前在无人机的电力巡检中,多无人机的协同工作与搜索任务通常是由集中分配算法或是人工分配等方式进行协同工作。这种方式是通过寻优算法或是人力手动分配无人机搜索来进行的,虽然可以达到初始优化的分配需求或工作效果,但对于现场工作的临时性或应急性而言,该方案却并不利于临时变更增加工作任务,也就难以达到实时的全局最优效果。毕竟就自动执行而言,无人机飞行航点程序已经捎入系统,改变则会打乱原本最优方案。

2、现有的应急性变更的技术方案多为:将工作任务重新按照无人机当前的位置和电量等目标状态作为输入,再通过优化模型得到新的搜索方案。但是该方案缺乏及时性和不确定性,并且一些物理数据如无人机当前坐标位置,姿态等等都不便于获取,还需要通过工作人员收回无人机才可实现对其的获取,产生了大量的不必要时间、降低了巡检的效率和无人机能耗。同时,重新召回无人机的方式还缺乏了任务执行的实时性与便利性,并且在一些正在工作的环境中,如山地、危险地带不利于工作人员进行无人机收回与信息获取再分配。而其他常见的方法,如在线通过一些服务器等方式进行临时分配虽然可行,但也需要无人机当前的数据信息,位置和状态等等,此类数据也需要重新的读取,存在有效率低下的问题。且多无人机之间如果想通过相互以蓝牙或wifi等方式共享数据又会因为可能存在远距离或是输电线场的电磁场等干扰而无法进行造成中断信号。


技术实现思路

1、为了解决现有技术所存在的上述问题,本发明提供了一种基于智能机巢辅助协同的多无人机自适应作业方法。

2、本发明的技术方案如下:

3、一种基于智能机巢辅助协同的多无人机自适应作业方法,包括机巢端和若干架无人机,机巢端与所有无人机进行通讯连接,还包括以下步骤:

4、每架无人机按照预测的初始作业路线和作业目标进行飞行,每架无人机到达对应目标位置后,给机巢端反馈目标的搜索信息与所需花费的代价,并记录已经工作的目标情况和未作业目标;

5、若有无人机发现新的一个或多个目标出现以后,无人机向机巢端发出请求,机巢端默认发现新目标的无人机作为该目标的最优作业对象;

6、机巢端根据预设好的优化算法,将每架无人机当前的代价信息和原本的作业信息作为输入,输出更新以后的每架无人机的新作业目标集合,并发送至对应无人机上;

7、不同的无人机收到机巢端的信息,自适应调整无人机的姿态。

8、进一步的,所述机巢端的优化算法为采用融合概率增强算法与pe—imlp模型,机巢端优化算法包括以下计算步骤:

9、步骤a1:机巢端接收到新数据后,对历史数据进行排除和更新;

10、步骤a2:根据无人机当前的位置情况,保留原本方案作为第一代对照;

11、步骤a3:对数据目标进行高斯消抖,将过远不合理分配目标进行滤波处理。

12、步骤a4:计算当前执行动作下的各无人机下的目标代价情况;

13、步骤a5:将每个无人机的可执行动作目标转为相应概率,并设置置信度阈值,当目标概率低于一定条件时则过滤该目标对象,增强其余动作选择倾向;

14、步骤a6:将每个无人机的当前状态以及各动作的发生概率作为输入,传入隐藏层中进行卷积,训练集为每次机巢存有的数据点坐标,标签为通过进化算法所得出最优路线下的下一个目标点的选择概率;

15、步骤a7:对softmax层输出的结果进行倾向性选择的概率增强,对比新旧方案在各位置上的增减,采用梯度下降的方式进行优化,更新卷积网络的权重;

16、步骤a8:设置赏罚函数,对得到优化的目标进行奖赏增强概率动作,对于劣化目标进行惩罚减少动作倾向;

17、步骤a9:在步骤a8下,重新更新动作倾向,并计算最大动作目标的回报值q,以及对应的方案,并重新进入步骤a4。

18、步骤a10:最终在优化训练n代后,输出执行概率,并选择最大目标概率的倾向动作,即为当前无人机状态下的最佳执行动作,n=t,t为常数。

19、进一步的,所述融合概率增强算法包括以下计算步骤:

20、假设作业目标数为k个,且每个目标仅由一架无人机进行作业,则可执行状态为k-1个,按当前无人机所在位置的状态s下进行决策,决策函数p的公式为:

21、pj=p(a|si_j)

22、p(a|si_j)=p(a,si_j)/p(si_j)

23、

24、

25、式中,pj表示无人机j在第i种状态si_j下采取动作a的概率,p(a,si_j)表示无人机j在第i种状态si_j下采取动作a的集合,p(si_j)表示无人机j在第i种状态si_j下所有动作的集合,xi_j表示作业状态,x取0或1,取1时表示机巢分配该无人机进行目标i的作业,取0时无作业进行,m表示在m中无人机j还可分配作业的目标点,m表示无人机j根据机巢发布分配的目标集合,di_j表示无人机j从起飞处到第i个目标的距离;k表示作业目标数;

26、定义环境的状态空间和动作空间,将当前状态s和动作a作为输入,输出一个q值,表示在当前状态下采取某个动作的预期回报;对于状态动作回报值函数q的公式为:

27、q(s+1)=wq(s)+α*[rs+1+γv(s+1)]

28、式中,q(s+1)表示在下一个状态s+1下选择动作的期望q值,w表示增强权重,取值为w=1-α,q(s)表示在状态s下采取动作a的预期回报,α表示学习率,取0.4~0.6,rs+1表示在状态s+1下选择的即时奖励,γ表示折扣因子,取0~1,st表示时间步t的状态;

29、设置状态值v(s)表示状态s时的值函数,初始状态值v(0)=0,状态值v(s)的公式为:

30、

31、

32、式中,v(s)表示状态s时的值函数,e表示对下一个状态s取向的期望值,通过对可能发生的所有状态转换和即时回报进行平均后算得,也就是在m个可行的动作目标下,得到期望的平均值作为下一状态v(s+1)的状态值,rt+1表示在时间步t+1的即时奖励,pt表示时间步t下采取对应动作的概率,pt表示时间步t+1下采取对应动作的概率,m表示无人机根据机巢发布分配的目标集合。

33、进一步的,所述pe—imlp模型的训练过程包括以下步骤:将各无人机所生成的动作倾向概率预测发生的最大动作的回报值q,作为pe—imlp模型的输出,将当前所有无人机位置和作业目标位置作为pe—imlp模型的输入,计算环境奖励值,环境奖励值的计算公式为:

34、

35、式中,r表示环境奖励值,θ表示基础奖励值,t表示完成完成作业所需要花费的时间,d表示完成作业所飞行的形成距离,n表示完成作业所使用的无人机个数,tg表示使用增强算法估计下完成作业所需要花费的时间,dg表示使用增强算法估计下完成作业所飞行的形成距离,n表示所有无人机个数,a表示时间系数,取0.5,b表示距离系数,取0.5,c表示无人机使用系数,取1;

36、计算环境奖励值,更新动作a在下一次该状态下选择时的动作触发概率,计算公式为:

37、

38、式中,at+1表示时间步t+1的动作,r表示环境奖励值,pt+1表示时间步t+1下采取动作a的概率,pt表示时间步t下采取动作a的概率,at表示时间步t的动作。

39、进一步的,所述pe—imlp模型的训练过程还包括以下步骤:

40、构建多层感知机神经网络,具体步骤为:

41、步骤b1:初始化经验池,用于储存无人机与环境交互的经验;

42、步骤b2:无人机从动作空间中选取一个动作;

43、步骤b3:选择当前状态st下q值最大的动作,无人机执行选择的动作,并观察反馈的环境奖励值和下一状态的q值,将当前状态st下的q值、动作、奖励和下一状态的q值存储到经验池中;

44、步骤b4:使用增强算法更新调整的动作概率下重新更新网络权重;

45、步骤b5:计算目标q值;

46、步骤b6:使用目标q值和当前q值之间的均方误差作为损失函数;

47、步骤b7:使用反向传播算法更新神经网络。

48、进一步的,所述步骤b5中计算目标q值的计算公式为:

49、

50、式中,targetq(s,a)表示目标q值,γ表示折扣因子,取0~1,maxa'q(s+1,a')表示在下一个状态s+1下选择动作a'的最大q值,ps表示当前状态s下采取动作a的概率,ps+1表示当前状态s+1下采取动作a的概率,rs+1表示状态s+1下的环境奖励值。

51、进一步的,所述步骤b6中损失函数的计算公式为:

52、q_loss=(targetq(s,a)-q(s,a))2

53、式中,q_loss表示损失函数,targeq(s,a)表示目标q值,q(s,a)表示状态s下采取动作a的q值。

54、进一步的,所述步骤b7中反向传播算法的计算公式为:

55、更新神经网络的参数以最小化损失函数,具体公式为:

56、

57、式中,θt+1表示第t+1轮迭代时的模型参数,θt表示第t轮迭代时的模型参数,α表示学习率,取0.4~0.6,q_loss表示损失函数,q(s,a)表示状态s下采取动作a的q值。

58、进一步的,所述无人机的自适应调整方法包括以下步骤:

59、步骤c1:多个无人机同时接收到不同的任务目标;

60、步骤c2:每个无人机根据接收到的对应任务目标获取目标信息;

61、步骤c3:每个无人机根据pe—imlp模型做出的对应无人机在当前状态下做出的下一个最优动作,进行更新自身状态;

62、步骤c4:每个无人机根据规划得到的下一个任务目标信息,计算出控制量,并根据控制量调整自身姿态;

63、控制量的计算公式为:

64、

65、

66、

67、式中,u表示无人机到下一个目标状态下的水平角度偏移量,表示无人机在状态s+1下所处位置与初始位置的夹角,表示无人机在状态s下所处位置与初始位置的夹角,表示无人机状态w下所处位置与初始位置的夹角,w=s或w=s+1,yw表示状态w下无人机所处位置的y轴高度,y0表示初始位置无人机的y轴高度,xw表示状态w下无人机所处位置的x轴高度,x0表示初始位置无人机的x轴高度,h表示高程角度偏移量,zs+1为下一目标s+1的高程角度,zs为当前目标s的高程角度,ds,s+1为当前目标s与下一目标s+1之间的水平距离。

68、步骤c5:无人机根据飞行过程中机巢端实时反馈的信息进行自适应调整。

69、本发明具有如下有益效果:

70、1、本发明通过提出一种基于智能机巢辅助协同的多无人机自适应作业方法,其采用机巢与多机相互通讯交互信息的方式,并且在机巢上建立优化算法,实时的根据接收不同无人机发送的新数据信息来更新分配模型,通过机巢终端实时训练的方式,再将最新信息更新给每架无人机,解决了无人机远程协同交互和分配新工作的问题,提高了任务的工作效率。

71、2、本发明提出的一种基于智能机巢辅助协同的多无人机自适应作业方法,其中,无人机能够根据机巢端收到的路径调整信息与飞行顺序,通过以机巢为交互端的方式来不断获取同伴无人机视角中的信息,自适应调整在任务过程中航线上的姿态与高度,极大的减小了路径成本,并可以提高任务的工作效率,解决了无人机远程协同交互和分配新工作的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1