水下自主航行器避障方法、装置、计算机设备和存储介质

文档序号:35133235发布日期:2023-08-15 08:37阅读:102来源:国知局
水下自主航行器避障方法、装置、计算机设备和存储介质

本技术涉及海洋工程,特别是涉及一种水下自主航行器避障方法、装置、计算机设备和存储介质。


背景技术:

1、水下自主航行器(autonomous underwater vehicle,auv)是开展海洋勘察与科学考察的重要设备,它凭借着机动性强、无人员伤亡风险、适应能力与生存能力高、制造与维护成本低等诸多优点,被广泛应用于多种水下任务中。由于海洋环境复杂多变,充满各种障碍物,在auv的行进过程中,保证auv不与障碍物发生碰撞十分重要。

2、传统技术中,通常采用路径搜索法、人工势场法或智能仿生学算法进行auv的自主避障,但是,上述方法的避障能力较差。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高水下自主航行器的避障能力的水下自主航行器避障方法、装置、计算机设备和存储介质。

2、第一方面,本技术提供了一种水下自主航行器避障方法。该方法包括:

3、确定该水下自主航行器auv的当前时刻的第一避障状态空间向量;该第一避障状态空间向量包括该auv的第一auv状态空间向量、障碍物的第一障碍物状态空间向量以及该auv期望到达的目标区域的目标区域状态空间向量;

4、利用目标策略根据该第一避障状态空间向量,确定该auv的当前时刻的第一动作向量;该目标策略是根据预设策略和奖励函数确定的;

5、根据该第一动作向量,向该目标区域移动,以执行该auv的避障任务。

6、在其中一个实施例中,该确定该第一障碍物状态空间向量,包括:

7、若该障碍物处于auv探测范围内,则根据当前时刻的该障碍物对应的第一量测信息、上一时刻的该障碍物的初始障碍物状态空间向量,确定该第一障碍物状态空间向量;

8、若该障碍物不处于auv探测范围内,则根据上一时刻的该障碍物的初始障碍物状态空间向量,确定该第一障碍物状态空间向量。

9、在其中一个实施例中,该若该障碍物处于auv探测范围内,则根据当前时刻的该障碍物对应的第一量测信息、上一时刻的该障碍物的初始障碍物状态空间向量,确定该第一障碍物状态空间向量,包括:

10、根据该初始障碍物状态空间向量对应的第一协方差矩阵和该障碍物对应的噪声,确定该障碍物对应的滤波增益;

11、基于该第一量测信息、该滤波增益和该初始障碍物状态空间向量,确定该第一障碍物状态空间向量。

12、在其中一个实施例中,该方法还包括:

13、利用该滤波增益更新该第一协方差矩阵,得到该第一障碍物状态空间向量对应的第二协方差矩阵,并返回执行根据该第二协方差矩阵和该障碍物对应的噪声,确定该障碍物对应的新滤波增益,并基于该当前时刻的该障碍物对应的第二量测信息、该新滤波增益和该第一障碍物状态空间向量,确定下一时刻该障碍物的障碍物状态空间向量的步骤。

14、在其中一个实施例中,该若该障碍物不处于auv探测范围内,则根据上一时刻的该障碍物的初始障碍物状态空间向量,确定该第一障碍物状态空间向量,包括:

15、根据该初始障碍物状态空间向量对应的第一协方差矩阵和该障碍物对应的噪声,确定该障碍物对应的滤波增益;

16、基于该滤波增益和该初始障碍物状态空间向量,确定该第一障碍物状态空间向量。

17、在其中一个实施例中,该奖励函数包括到达奖励函数、碰撞惩罚函数、靠近目标奖励函数、靠近障碍物惩罚函数和脱离集群惩罚函数中至少一项;

18、该到达奖励函数用于表征该auv与该目标区域的第一距离,与第一奖励值之间的关系的函数;

19、该碰撞惩罚函数用于表征该auv与该障碍物或其他auv的第二距离,与第一惩罚值之间的关系的函数;

20、该靠近目标奖励函数用于表征上一时刻的该auv与该目标区域的距离与当前时刻的该auv与该目标区域的距离的第一差值,与第二奖励值之间的关系的函数;

21、该靠近障碍物惩罚函数用于表征auv与障碍物的距离与第一预设距离阈值的第二差值,与第二惩罚值之间的关系的函数;

22、该脱离集群惩罚函数用于表征该auv与该其他auv之间的距离与第二预设距离阈值的第三差值,与第三惩罚值之间的关系的函数。

23、在其中一个实施例中,该方法还包括:

24、根据该auv与该目标区域的第一距离,利用该到达奖励函数确定该第一距离对应的第一奖励值;

25、根据该auv与该障碍物的第二距离,利用该碰撞惩罚函数确定该第二距离对应的第一惩罚值;

26、根据该上一时刻的该auv与该目标区域的距离与该当前时刻的该auv与该目标区域的距离的第一差值,利用该靠近目标奖励函数确定该第一差值对应的第二奖励值;

27、根据该auv与该障碍物的距离与第一预设距离阈值的第二差值,利用该靠近障碍物惩罚函数确定该第二差值对应的第二惩罚值;

28、根据该auv与该其他auv之间的距离与第二预设距离阈值的第三差值,利用该脱离集群惩罚函数确定该第三差值对应的第三惩罚值;

29、根据该第一避障状态空间向量、该第一奖励值、该第一惩罚值、该第二奖励值、该第二惩罚值和该第三惩罚值,确定auv的当前时刻的第一动作向量。

30、第二方面,本技术还提供了一种水下自主航行器避障装置。该装置包括:

31、第一确定模块,用于确定该水下自主航行器auv的当前时刻的第一避障状态空间向量;该第一避障状态空间向量包括该auv的第一auv状态空间向量、障碍物的第一障碍物状态空间向量以及该auv期望到达的目标区域的目标区域状态空间向量;

32、第二确定模块,用于利用目标策略根据该第一避障状态空间向量,确定该auv的下一时刻的第二动作向量;该目标策略是根据预设策略和奖励函数确定的;

33、执行模块,用于根据该第二动作向量,向该目标区域移动,以执行该auv的避障任务。

34、第三方面,本技术还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以上方法的步骤。

35、第四方面,本技术还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上方法的步骤。

36、第五方面,本技术还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以上方法的步骤。

37、上述水下自主航行器避障方法、装置、计算机设备和存储介质,确定水下自主航行器auv的当前时刻的第一避障状态空间向量;第一避障状态空间向量包括auv的第一auv状态空间向量、障碍物的第一障碍物状态空间向量以及auv期望到达的目标区域的目标区域状态空间向量;利用目标策略根据第一避障状态空间向量,确定auv的当前时刻的第一动作向量;目标策略是根据预设策略和奖励函数确定的;根据第一动作向量,向目标区域移动,以执行auv的避障任务。传统技术中,通过在障碍物附近区域产生虚拟的斥力势场,对auv产生斥力作用,以目标点为中心生成虚拟的引力势场,对auv产生引力作用,通过计算合力控制auv运动,避开环境中的障碍物最终抵达目标点,但是容易陷入局部最优,导致避障能力较差。而本技术实施例中,通过确定第一避障状态空间向量,并利用根据预设策略和奖励函数训练得到的目标策略确定第一动作向量,并根据第一动作向量向目标区域移动,以学习训练的方式为auv提供了路径导航,执行auv的避障任务,能够提高auv的避障能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1