一种基于深度强化学习的港口水域的船舶自主导航方法

文档序号：37788458发布日期：2024-04-30 16:58阅读：10来源：国知局

本发明涉及水域自主导航，特别涉及一种基于深度强化学习的港口水域的船舶自主导航方法。

背景技术：

1、近些年如自主水面船、自动驾驶货船等自主船舶在安全性和可持续性方面展现了巨大潜力，然而自主决策系统在面对不同航行场景时仍存在较大局限性，无法紧跟自主船的高速发展，导致自主船的可航行水域受限，可航场景不足等情况。港口场景相对于其他航行水域，存在更多的船只、航标、码头设施和其他障碍物，实时的地图数据、水深数据、天气数据等需要实现高度统一。并且，港口区域的船舶交通一般受到严格的安全规定和法规约束，自适应导航系统需要满足这些法规，同时确保船只的安全操作。另外，一旦系统发生故障，也会威胁港口和自主船的财产安全。此时，提高系统的智能性，在自主导航过程中设置安全性触发器是十分必要的。

2、当前自主导航系统大多都是通过a*和蚁群等启发式算法实现的，而在船舶航行的局部未知环境中，这种启发式算法都需要完全了解环境，在面对港口中的多类型障碍时将导致计算量爆炸或者无法实时搜寻到最优路径的问题。并且，船舶的航行是一种连续状态空间的高维模型，上述算法无法对航行中的控制和跟踪起到很好的约束作用。

3、随着船舶定位设备和视觉融合技术的不断发展，在已知本船位置与港口信息的前提下，通过计算机对进港后安全路径的导航与避碰变得可行，目前的导航算法大都是在全局下的离散规划算法，这些算法在面对港口复杂环境时，无法生成不同种类障碍的避碰策略。所以如何设计出行之有效的导航算法来引导自主船在港口中航行至泊位的过程，成为当前自主系统在港口场景中进行自主导航的重要基础。

4、深度强化学习算法是一种与环境互动来生成最优策略的算法，该算法可以将船舶自身视为智能体，并在包含各种障碍的港口中进行约束性训练，避免了启发式算法只能在全局下进行规划的缺陷，能够将障碍视为互动对象的特点，与船舶自主导航有着极高的适配性；深度强化学习法兼具很高的设计性，可以将航行法规等约束嵌入到训练环境中，对求解包含港口法规环境下的最优航线，有着很高的协调性。

技术实现思路

1、本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于深度强化学习的港口水域的船舶自主导航方法，解决了动/静态船舶、山体、浮标和其他可观测障碍的类型；同时考虑了港口浮标规则下，在遭遇不同浮标时，船舶的可航行水道的实时变化，有效地提高了港内航行的安全性；另外在算法输出与控制输入之间插入了安全性触发器，保证了港口和自主船的生命财产安全。

2、为了解决上述技术问题，本发明提供了如下的技术方案：

3、在本发明的第一方面，提供一种基于深度强化学习的港口水域的船舶自主导航方法，所述方法具体包括以下步骤：

4、步骤1、初始化船舶入港地理节点，按照港口海图生成0.1海里*0.1海里的栅格化网格，并对其进行编码；采用网格法对海洋静态环境进行建模，主要包括三个方面：图表栅格化，临时障碍物光栅化，障碍物膨化；生成矩阵m来存储栅格化的图表环境信息；将船舶位置从纬度坐标系转换为通用横轴墨卡托坐标系，根据雷达和自动识别系统获取附近船舶相对于本船的最近点距离dcpa和最近点时间tcpa；根据电子海图统计该港口区域的浮标数量、类型、和相对位置；

5、步骤2、更新栅格化的图表环境信息m，港内及附近的危险沉船区、对船舶安全构成威胁的浅滩礁石区、军事演习区、临时限制航行区等组成临时障碍区域矩阵r；在环境矩阵m中将临时障碍区域r设置为禁航区域；

6、对于其他的动/静态船舶，进一步通过dcpa和tcpa判断其移动方向，利用速度障碍法判断与本船的碰撞风险；

7、对于港内的浮标，通过红外视觉摄像机和港口海图信息计算与本船的相对距离和相对角度，并进一步判断安全航道的航向；

8、根据禁航区域、他船信息和浮标信息，得到更新后的地图信息矩阵g；

9、步骤3、使用深度强化学习算法进行导航；

10、通过步骤2中更新的地图信息矩阵g和本船的航行信息，计算本船与目标码头的距离和偏离航向，同时以本船为中心更新附近的障碍物信息，计算所有与本船有碰撞风险的动态船舶，通过深度强化学习算法生成最安全的可航路线；

11、步骤4、在步骤3的导航规划和避碰决策结果中，排除危险区域的地图中仍存在其他动态船舶，实时更新在本船四海里内的动态船，面对存在碰撞风险的船舶，对tcpa和dcpa进行碰撞检测并分析本船是否承担让路船责任，本船需要采取避让措施的情况中，对步骤3中的路径进行更新，生成的二次优化路径同样根据后续浮标指示信息进行实时调整；

12、步骤5、随着导航的进行，自主船根据环境信息不断调整避碰策略，根据触发器对舵机发送操纵指令，直至在距离目标码头0.1海里时完成整个导航任务，并记录导航过程中的航路节点。

13、作为本发明的一种优选技术方案，在步骤2中，判断风险的速度障碍法为：

14、当dcpa≤1海里并且tcpa≤20分钟时，目标船被判定为与本船可能存在碰撞风险，但当本船的速度向量侵犯目标船的速度障碍区域时，需要根据海上避碰规则来判定让路责任，当目标船出现在本船正前方或者右方时，本船需要给目标船让路，采取的操纵需要从目标船的船尾驶过；

15、通过浮标判断安全航道的规则为：

16、根据国际灯塔管理协会规定的浮标系统，安全水域标志表示进入港口附近的安全水域；推荐航道位于左侧面标志的右侧，右侧面标志的左侧；危险区域位于北方位标志南侧，南方位标志北侧，东方位标志西侧，西方位标志东侧；另外，危险水域标志和限制区域标志根据港口海图的指示进行限制，根据规则中的危险区域更新地图信息矩阵g。

17、作为本发明的一种优选技术方案，在步骤3中，所述深度强化学习算法具体包括以下步骤：

18、s1、将步骤1中得到的矩阵m作为环境信息，并根据步骤2中的危险区域划定，将可航行区域进行缩减，得到更新后的环境信息矩阵g，开始根据浮标和其他船舶进行导航和避碰决策的生成；

19、深度强化学习算法中评价函数的总计算公式为r＝r(t)+r(g)+r(s)+r(m)；

20、r(t)为从起始点到目标点的导航奖励r(t)＝-exp[d(t)+ψ(t)]；

21、r(g)为与静态障碍物之间的碰撞奖励r(g)＝-exp[d(g)]；

22、r(s)为动态船之间的碰撞奖励r(s)＝-exp[d(s)]；

23、r(m)为浮标指示信息奖励r(m)＝rpl+rsl+rnc+rwc+rsc+rec；

24、d()表示距离函数，ψ()表示角度函数；t表示目标点的地图节点，g表示步骤2中障碍区域和静态船舶的地图节点集合，s表示动态船舶的地图节点，m表示浮标的地图节点；

25、s2、从进港起始点出发，根据s1的导航奖励、静态碰撞奖励和浮标奖励生成初步的可航路径，系统在靠近动态船舶时给出是否采取避碰措施的决策，对于可航路径中所有出现的动态船舶，重复验证在该局部环境中的航行安全性，并实时对可航路径进行更新；

26、s3、循环s2直至到达目标点t。

27、作为本发明的一种优选技术方案，在步骤4中，二次优化导航路径根据后续浮标指示信息进行实时调整，根据浮标的类型，对浮标指示的安全航道进行判定，和本船相距离d(m)的浮标，通过相对方位θ计算奖励值的大小，总奖励越趋近于0则路线越安全；

28、港口海图内的浮标设置规定为不超过0.75海里，因此当d(m)≤0.75海里时，具有指示性的浮标奖励被触发；

29、左侧面标志的计算公式为：

30、

31、右侧面标志的计算公式为：

32、

33、北方位标志的计算公式为：

34、

35、西方位标志的计算公式为：

36、

37、南方位标志的计算公式为：

38、

39、东方位标志的计算公式为：

40、

41、通过上述公式对不同方位计算浮标奖励，并在多条线路下选择最优奖励值线路；出现多条奖励值相近的最优线路时，输出至人机交互界面提示，并且选择计算量最小的最优线路。

42、作为本发明的一种优选技术方案，通过数据触发器进行控制信号的输出；

43、在步骤5中，通过深度强化学习生成了最优导航路径，仍需要利用控制系统对船舶的舵机输出操纵指令，控制系统在收到命令后将数字信号转换为速度或/和舵力的电流；

44、控制系统除通信状态信号外，额外向自主决策系统提供一个执行反馈信号，当设备/通讯故障或导航任务结束时，立即向自动驾驶仪发出“停止”信号并执行，如果设备工作正常且导航任务未完成，则数据触发器根据障碍物信息输出两种情况：

45、(1)存在障碍物，输出操纵指令；

46、(2)存在障碍物且不输出新命令；

47、情况(2)表明根据当前环境得出结论，保持航向/速度是最佳策略，并将“保持”信号发送到自动驾驶仪并执行；

48、如果没有检测到障碍物信息，则存在三种情况：

49、(1)向目标点航行；

50、(2)未驶向目标点，输出操纵指令；

51、(3)未向目标点航行且不输出新命令；

52、在情况(3)中，浮标的指示信息使得保持航向/速度成为最佳策略。

53、在本发明的第二方面，提供一种基于深度强化学习的港口水域的船舶自主导航系统，所述系统包括环境感知器，数据处理器和控制触发器；

54、环境感知器用于收集算法所需的障碍物地图信息，数据处理器用于分类障碍物类型并根据其类型输出不同的决策信号，控制触发器用于接收调用处理器根据深度强化学习生成的决策信号，能够在没有新指令的输出前提下保证航行的精度。

55、在本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面的方法的步骤或者根据本发明的第二方面的系统的功能。

56、在本发明的第四方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本发明的第一方面的方法的步骤或者根据本发明的第二方面的系统的功能。

57、与现有技术相比，本发明的有益效果如下：

58、1：本发明根据不同港口内的规范准则进行地理式更新，并生成新的计算结果，可为自主船舶的港内导航提供高效可靠的策略考量；同时将数据触发器作为控制输出中心的方法，解决了船舶在航行过程中通讯故障或仪器失灵条件下，自主系统的控制中心缺少信号输入的问题，为自主船舶导航提供了新的解决方案，保障了港口和船舶的生命财产安全，同时后续可作为数字孪生、高技术船舶的技术基础。

59、2：本发明通过对港口航线处的优化设计，通过深度学习形成多条不同的优化线路，并基于线路的实际运算量和线路的简易程度，按照指示性的浮标奖励产生抉择以及线路排列，构成了对自动航线以及半自动控制航行状态下的最优控制选择。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩凤磊,赵毅铭,韩端锋,彭潇,赵望源,吴禹良,张嘉伟,杨健峰,林琪
技术所有人：哈尔滨工程大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。