本发明涉及无人艇路径规划,尤其涉及一种水面无人艇的局部路径规划方法及装置。
背景技术:
1、无人水面航行器作为一种自主水上运载平台,在海洋监测、环境保护以及应急救援中发挥着至关重要的作用,而不同的任务需要部署水面航行器到不同环境,因此需要准确、可靠的导航技术引导水面航行器顺利执行任务。由于任务的多样性,无人水面航行器(usv)常常要面临复杂多变的水上环境,在不同的环境下准确快速地导航定位就显得至关重要,如海上救援任务,搜救路径的规划将直接影响救援落水人员的效率。
2、尽管无人船在执行目标测量任务时具有很高的应用价值,但是由于自身航程的限制以及通讯距离的限制,很难在运行过程中时刻受到人为控制。自主航行技术是usv执行各种任务的基础,主要涉及路径规划、环境感知、导航系统和控制算法。usv通过路径规划算法规划一条合适的路径,在避开障碍物的同时尽可能高效地完成任务,其搭载的多种传感器如雷达、摄像头、声纳等实时感知周围环境信息,如水深、水面障碍物等,以便进行避障和局部路径规划。usv搭载的gps、惯性导航、罗盘等多种导航设备实时获取自身位置、速度航行等信息,为后续控制和决策技术奠定基础,usv还需要通过一系列控制算法如pid控制、模型预测控制等实现对船体的运动控制。
3、路径规划研究的核心内容是在特定的环境中,利用系统与环境的互动,生成一条安全、合理的道路路线。这个研究项目的内容也会根据所给定场景的不同,被细分成两种主要的规划方式:全局路径规划和局部路径规划。全局路径规划基于已知环境规划路径,当已知环境发生变化,事前规划出来的路径就可能难以符合要求,这就需要局部路径规划进行实时规划路径。在全局路径规划方法中,船舶基于其船载传感器收集的实时信息估计到目标点轨迹。局部路径规划算法主要有teb(timeelasticband)算法、向量场直方图(vectorfield histogram,vfh)算法、动态窗口(dynamicwindowapproach,dwa)算法和人工势场算法等。
4、长久以来,人们一直在尝试建立一个能够理解机器人与物理环境交互的系统,其中许多都应用了强化学习算法。事实上,机器人技术中用于解决优化问题的强化学习方法己经研究了几十年,例如控制、导航、调度等,并在深度强化学习出现之前就已经被应用于运动规划等问题。然而,这些方法通常无法直接处理高维输入,如图像等。
5、因此,针对上述问题,业内急需一种水面无人艇的局部路径规划方法及装置。
技术实现思路
1、(一)要解决的技术问题
2、本发明要解决的技术问题是提供一种水面无人艇的局部路径规划方法及装置,解决传统路径规划方法由于水上环境特殊导致的不稳定、耗时长的技术问题。
3、(二)技术方案
4、为解决上述技术问题,本发明提供了一种水面无人艇的局部路径规划方法,包括以下步骤:
5、建立水面无人艇的运动学模型;
6、依据所述运动学模型,建立所述水面无人艇的强化学习模型;
7、确定所述强化学习模型的密集奖励函数;
8、依据所述强化学习模型、所述密集奖励函数对所述水面无人艇的运动进行仿真计算,获得所述水面无人艇的局部规划路径。
9、进一步地,所述运动学模型的要素包括环境观测数据、目标与所述水面无人艇之间的相对位置、所述水面无人艇的航行速度。
10、进一步地,所述水面无人艇的航行速度包括线速度及角速度,所述线速度的取值为0≤v≤0.1m/s,所述角速度的取值为-0.1≤ω≤0.1rad/s。
11、进一步地,所述环境观测数据包括相机采集数据和雷达探测数据,所述雷达探测数据为在相对于所述水面无人艇的正前方-90°到90°之间均匀采样的20维数据。
12、进一步地,所述强化学习模型为actor-critic网络结构;其中,actor网络用于探索所述水面无人艇在环境中的行为,critic网络用于评估当前状态的价值。
13、进一步地,所述强化学习模型的输入值包括所述水面无人艇自身携带的相机输入、激光雷达输入、所述水面无人艇的航行速度、目标点的位置和方向。
14、进一步地,在未输入至所述强化学习模型之前,对所述相机输入、所述激光雷达输入进行下采样预处理。
15、进一步地,对下采样处理后的相机输入进行归一化处理。
16、进一步地,所述密集奖励函数针对所述水面无人艇的每次执行动作均进行即时奖惩。
17、本发明还提供了一种水面无人艇的局部路径规划装置,包括:
18、第一建模单元,用于建立水面无人艇的运动学模型;
19、第二建模单元,用于依据所述运动学模型,建立所述水面无人艇的强化学习模型;
20、确定单元,用于确定所述强化学习模型的密集奖励函数;
21、仿真训练单元,用于依据所述强化学习模型、所述密集奖励函数对所述水面无人艇的运动进行仿真计算,获得所述水面无人艇的局部规划路径。
22、(三)有益效果
23、本发明的上述技术方案具有如下优点:
24、本发明的水面无人艇的局部路径规划方法,仅考虑水面航行器运动学的环境下对强化学习策略进行训练,减少不精确信息的学习,这保证了局部路径规划算法在行动选择上的正确性,同时也避免了水上环境建模工作,并加速了神经网络的拟合。
1.一种水面无人艇的局部路径规划方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的水面无人艇的局部路径规划方法,其特征在于,所述运动学模型的要素包括环境观测数据、目标与所述水面无人艇之间的相对位置、所述水面无人艇的航行速度。
3.根据权利要求2所述的水面无人艇的局部路径规划方法,其特征在于,所述水面无人艇的航行速度包括线速度及角速度,所述线速度的取值为0≤v≤0.1m/s,所述角速度的取值为-0.1≤ω≤0.1rad/s。
4.根据权利要求2所述的水面无人艇的局部路径规划方法,其特征在于,所述环境观测数据包括相机采集数据和雷达探测数据,所述雷达探测数据为在相对于所述水面无人艇的正前方-90°到90°之间均匀采样的20维数据。
5.根据权利要求1所述的水面无人艇的局部路径规划方法,其特征在于,所述强化学习模型为actor-critic网络结构;其中,actor网络用于探索所述水面无人艇在环境中的行为,critic网络用于评估当前状态的价值。
6.根据权利要求5所述的水面无人艇的局部路径规划方法,其特征在于,所述强化学习模型的输入值包括所述水面无人艇自身携带的相机输入、激光雷达输入、所述水面无人艇的航行速度、目标点的位置和方向。
7.根据权利要求6所述的水面无人艇的局部路径规划方法,其特征在于,在未输入至所述强化学习模型之前,对所述相机输入、所述激光雷达输入进行下采样预处理。
8.根据权利要求7所述的水面无人艇的局部路径规划方法,其特征在于,对下采样处理后的相机输入进行归一化处理。
9.根据权利要求1所述的水面无人艇的局部路径规划方法,其特征在于,所述密集奖励函数针对所述水面无人艇的每次执行动作均进行即时奖惩。
10.一种水面无人艇的局部路径规划装置,其特征在于,包括: