一种考虑动力学特性约束的无人船改进DDPG智能避碰方法

文档序号:36313834发布日期:2023-12-07 19:43阅读:66来源:国知局
一种考虑动力学特性约束的无人船改进

本发明涉及无人船智能避碰,具体而言,尤其涉及一种考虑动力学特性约束的无人船改进ddpg智能避碰方法。


背景技术:

1、水面无人船是一种隐蔽性强、智能化程度高、移动能力强的小型水面自主航行器,因具有自主感知、自主规划、自主航行等能力被广泛应用于搜救、侦查、科研、军事等方面。无人船的智能避碰问题是无人船舶智能化航行研究的热点和难点问题之一,对实现无人船的智能化航行至关重要。无人船的智能避碰需要考虑到自身的运动特点以及对障碍物进行符合实际情况的避碰,设计合适的避碰算法是实现智能化避碰的核心,关于无人船的智能避碰目前已经有了大量的理论文献研究。

2、传统方法在无人船避碰上应用较多,如迪杰斯特拉算法、人工势场法、蚁群算法,a*算法等,这些方法都需要人类的先验知识,随着人工智能技术的兴起,一些传统算法开始与神经网络相结合,通过提高无人船的学习能力和智能化水平打破传统方法的局限。强化学习算法因其符合人类学习过程的特性,也逐渐应用于避碰研究中,许多研究将强化学习算法与深度神经网络相结合,在提高无人船智能程度的同时,所形成的深度强化学习算法也可以对高维数据进行直接处理。

3、现有的基于深度强化学习的避碰研究中,许多研究没有考虑到无人船的操纵特性,也未对无人船进行建模,更未同时兼顾无人船的操纵特性、算法的避碰效率和算法的实用性。因此,对于避碰环境的设计过于单一,训练出的避碰算法缺少实用价值。而且,在设计奖励函数时,仅考虑成功到达目标点时的奖励,这种过于稀疏的奖励函数无法对智能体的学习过程起到应有的引导作用,会使得训练难以收敛,所使用的强化学习算法也并不注重避碰效率。


技术实现思路

1、根据上述提出的技术问题,本发明设计了一种兼顾无人船运动特性及避碰要求的高效率算法,不同于其他研究将无人船看作一个质点,本发明考虑到无人船的运动学模型和动力学模型,使得本发明更具有工程实用价值。在设计奖励函数时充分考虑到船舶的操纵特性及避碰过程中终点及各个障碍物距离、角度的影响。在进行环境设计时,详细地考虑到静态障碍物随机和固定出现的位置,保证避碰算法的普适性和有效性,并对ddpg算法进行改进,提高避碰效率。

2、本发明采用的技术手段如下:

3、一种考虑动力学特性约束的无人船改进ddpg智能避碰方法,包括:

4、s1、对预规划的避碰环境进行建模,建立随机静态障碍物的地图环境模型;

5、s2、对无人船进行建模,根据无人船的动力学特性和运动学特性设计无人船的状态空间和动作空间,根据避碰要求设计奖励函数。

6、s3、采用与优先经验回放机制结合的ddpg算法,得到改进的算法,对改进的算法进行多轮训练得到避碰模型。

7、进一步地,所述步骤s1中,所述预规划的避碰环境,包括两个随机静态障碍物和一个固定位置静态障碍物,其中:

8、所述随机静态障碍物出现的位置是以一个圆周为基础,每隔60度的半径方向存在1个静态障碍的位置;

9、所述固定位置静态障碍物位于地图中心。

10、进一步地,所述步骤s2具体包括:

11、s21、使用norbbin船舶运动模型对无人船进行建模,如下:

12、

13、以此反应对无人船航向的控制,其中,t、k、α表示可以反应无人船追随性能和旋回性能的参数,体现了船舶的操纵性,δ表示无人船的推进角值,通过变化推进角对船舶的航向进行控制,η表示无人船航向变化率,航向用表示,即:

14、

15、考虑舵机特性对无人船的影响,使用二阶推进角模型对舵机的动态特性进行描述:

16、

17、其中,ωn为固有频率,ζ为阻尼比,k为比例系数,δr为设定的推进角;

18、s22、根据无人船的船舶模型和舵机特性及控制需要,设计状态空间,如下:

19、

20、其中,为无人船的航向,为航向变化率,代表终点相对于本船的绝对方位,δu和δ′u分别代表本船当前舵角值和舵角值变化率,d1、d2和d3分别代表本船与三个静态障碍物之间的距离,θ1、θ2和θ3分别代表三个静态障碍物与本船之间的相对方位,dt为本船与终点之间的距离,vu代表本船的速度信息;

21、s23、将动作空间设计为针对无人船当前舵角的改变值,如下:

22、a=[δδ1,δδ2,δδ3,......,δδn];

23、s24、奖励函数的设计分为两个部分,一部分是训练结束时的最终奖励,无人船到达终点时的奖励rgoal和无人船与任一静态障碍物发生碰撞时的奖励rcollision,另一部分是训练过程中的引导奖励鼓励航向指向终点的奖励和鼓励航向角变化的奖励

24、rgoal=kgoal×rgoal

25、rcollision=kcollision×rcollision

26、

27、

28、最终总奖励

29、进一步地,所述步骤s3中,采用与优先经验回放机制结合的ddpg算法,得到改进的算法,包括两个改进点:对经验池进行优化和对神经网络参数更新时的损失函数进行改进,具体为:

30、对经验池进行优化:根据td误差的绝对值对样本进行重要性排序,使用二叉树进行数据存储;赋予大误差的经验更高的权重,增大采样概率并进行更多次的训练,提高对有效数据的利用率;

31、对神经网络参数更新时的损失函数进行改进:加入重要性采样系数wt进行修正。

32、较现有技术相比,本发明具有以下优点:

33、1、本发明提供的考虑动力学特性约束的无人船改进ddpg智能避碰方法,将优先经验回放机制与深度确定性策略梯度(ddpg)算法融合后,通过设计合适的奖励函数和避碰环境,训练出成功率更高的避碰模型,本发明方法的避碰效率更高且更适合无人船运动模型的智能避碰。

34、2、本发明提供的考虑动力学特性约束的无人船改进ddpg智能避碰方法,针对无人船具有较灵活、成本低、效率高等特性,及无需人工参与、智能化程度高,应用范围广泛的优势,开展一种针对随机障碍物的融合优先经验回放机制和ddpg算法的无人船随机环境高效智能避碰的工程应用。

35、3、本发明提供的考虑动力学特性约束的无人船改进ddpg智能避碰方法,在设计避碰环境时,为了提高避碰难度,使训练出的模型避碰效果更好,设计了一个位于地图中心的静态障碍,考虑到障碍物的随机性,设计了两个随机障碍,保证障碍设置得足够全面,提高算法的普适性。

36、4、本发明提供的考虑动力学特性约束的无人船改进ddpg智能避碰方法,相较现有算法,考虑到无人船的运动学特性和动力学特性的约束,对无人船的舵角进行控制,使得这种控制更具有工程实用价值。根据实际船舶的运动模型和训练需求设计了状态空间和动作空间,根据无人船运动特点和目标的设置对奖励函数进行精细设计。针对原始算法对数据利用率低的问题,将优先经验回放机制与ddpg算法相结合,提高数据利用率,增加避碰效率。

37、基于上述理由本发明可在无人船智能避碰等领域广泛推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1