一种基于强化学习和优化DWA算法的多无人机路径规划方法

文档序号:37008383发布日期:2024-02-09 12:55阅读:17来源:国知局
一种基于强化学习和优化DWA算法的多无人机路径规划方法

本发明涉及无人机路径规划的,具体涉及一种基于强化学习和优化dwa算法的多无人机路径规划方法。


背景技术:

1、无人机在物流、巡航、航拍等领域有着极大的应用价值。传统的无人机仍然是由人进行手动控制,但是考虑到人力成本和无人机数量增大等问题,无人机的自主飞行成为了当下研究的热点。在无人机的自主飞行技术中,避障技术又是一项十分关键的技术。无人机避障技术涉及障碍物识别和路线规划,障碍识别通常采用传感器实现,而路径规划则通过决策算法实现。

2、在现有的技术中,主要通过两个方法来进行路径规划,第一个方面是人工势场法,通过假设飞行目标点对无人机产生引力,而障碍物对无人机产生斥力,控制无人机沿势场中“势峰”间的“势谷”前进。其中,引力与无人机到目标点的距离成正比,斥力与无人机到障碍物的距离成反比。第二个方法是动态窗口方法,通过在无人机周围建立一个动态窗口,通过控制无人机的速度和转向,使得无人机在窗口范围内能够安全地到达目标点。这个动态窗口的大小和形状是根据无人机的当前速度和转向能力来动态调整的,这就保证了无人机能够在高速移动和紧急避障的情况下保持安全。

3、在现有的路径规划方法中,例如人工势场法,容易陷入局部最优的问题;距离目标点较远时,引力特别大,斥力相对较小,可能会发生碰撞;当目标点附近有障碍物时,斥力非常大,引力较小,很难到达目标点,而无人机作业通常处于障碍物较多的环境,因此这种方法存在一定的局限性。基于动态窗口方法,也无法避免的会陷入局部最优解的局面,所以本发明提出的一种基于强化学习和优化dwa算法的多无人机路径规划系统可以通过把奖赏函数得分比重加入评价函数当中,可以有效的解决无人机陷入局部最优解的局面。


技术实现思路

1、针对现有技术的不足,本发明提供一种基于强化学习和优化dwa算法的多无人机路径规划方法,为实现上述所述目的,本发明采用如下技术方案:

2、一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,包括以下步骤:

3、s1、建立可视化二维平面地图,并且生成障碍点,加载四台无人机运动模型,生成四个目标点;

4、s2、初始化无人机参数,引入评价函数参数和设定奖惩因子;

5、s3、通过给定四台无人机模型初速度和一定的方向,依次对四台无人机模型赋予初速度以及角速度,根据速度采样生成轨迹空间,通过评价函数确定当前速度状态下考虑五大比重的最佳路径;

6、s4、四台无人机运动模型规划运动轨迹到达目标点。

7、优选的,所述s1中,无人机运动学模型包括最高速度m/s,最高旋转速度rad/s,加速度m/ss和旋转加速度rad/ss。

8、优选的,所述s2中,评价函数参数包括航向得分的比重、距离得分的比重、速度得分的比重、向前模拟轨迹的比重和奖赏函数得分的比重。

9、优选的,所述s2中,所述设定奖惩因子包括设定奖惩函数。

10、优选的,所述s3中,四台无人机模型的初速度以及角速度分别为(x1,y1,w1),(x2,y2,w2),(x3,y3,w3)和(x4,y4,w4)。

11、优选的,所述s3中,通过对四台无人机模型速度采样生成轨迹空间。

12、更优的,对所述生成的轨迹空间进行评价迭代,具体步骤包括:

13、设置评价函数以确定当前速度状态下考虑评价函数参数的比重的最佳路径;并且对评价函数进行正则化,防止轨迹过拟合。

14、优选的,所述s4中,四台无人机运动模型通过强化学习得到的奖惩得分,不断在轨迹空间评测综合得分最高的轨迹,并且每次评测后都将选取最优的速度前进,最终达到目标点。

15、与现有技术相比,本发明提供的一种基于强化学习和优化dwa算法的多无人机路径规划方法,具备以下有益效果:

16、具有强化学习中的自主学习能力,根据环境的反馈和奖励信号自主学习,并逐步改进决策和行为,而无需人工设计规则或特征,又具有dwa算法中高效地调整权重分配,以优化系统的性能的优点。这两者的结合既使得无人机可以适应复杂的环境信息,又可以避免陷入局部最优解,本发明的最后通过加入正则化函数,来避免过拟合现象的发生,增强了的泛化能力。



技术特征:

1.一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s1中,无人机运动学模型包括最高速度m/s,最高旋转速度rad/s,加速度m/ss和旋转加速度rad/ss。

3.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s2中,评价函数参数包括航向得分的比重、距离得分的比重、速度得分的比重、向前模拟轨迹的比重和奖赏函数得分的比重。

4.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s2中,所述设定奖惩因子包括设定奖惩函数。

5.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s3中,四台无人机模型的初速度以及角速度分别为(x1,y1,w1),(x2,y2,w2),(x3,y3,w3)和(x4,y4,w4)。

6.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s3中,通过对四台无人机模型速度采样生成轨迹空间。

7.根据权利要求6所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,对所述生成的轨迹空间进行评价迭代,具体步骤包括:

8.根据权利要求1所述的一种基于强化学习和优化dwa算法的多无人机路径规划方法,其特征在于,所述s4中,四台无人机运动模型通过强化学习得到的奖惩得分,不断在轨迹空间评测综合得分最高的轨迹,并且每次评测后都将选取最优的速度前进,最终达到目标点。


技术总结
本发明涉及深度学习领域,公开了一种基于强化学习和优化DWA算法的多无人机路径规划方法,其包括以下步骤:S1、建立可视化二维平面地图,并且生成障碍点,加载四台无人机运动模型,生成四个目标点;S2、初始化无人机参数,引入评价函数参数和奖惩因子;S3、通过给定四台无人机模型初速度和一定的方向,依次对四台无人机模型赋予初速度以及角速度,根据速度采样生成轨迹空间,通过评价函数确定当前速度状态下考虑五大比重的最佳路径;S4、无人机群规划运动轨迹到达目标点。本发明提出的一种基于强化学习和优化DWA算法的多无人机路径规划方法,与传统的空间环境监测方法相比,具有降低成本,污染物分布预测准确性好,可实时监测等优点。

技术研发人员:尚文利,黄靖智,时昊天,王思博,杨桂莹,刘淑心,王连臣
受保护的技术使用者:广州大学
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1