一种基于强化学习的船智能体智能控制方法及装置

文档序号:37924106发布日期:2024-05-11 00:03阅读:9来源:国知局
本发明涉及船舶自动驾驶相关,尤其涉及一种基于强化学习的船智能体智能控制方法及装置。
背景技术
::1、由于无人船具有灵活性、远程监控侦查、海岸巡逻和反潜作战等优势,因此已经有十余个国家研制并部署了智能船舶,并且不断加大对该技术的研发力度。2、目前市场上的无人船主要通过多个传感器信息融合的方式获取更准确的周围环境信息,并利用深度学习算法对获取的数据进行分析处理,以获得更精确的航行信息。然而,尽管基于强化学习的无人船自动驾驶的相关研究已有一定进展,但大部分的研究仅停留在对强化学习应用于路径规划、避碰等方面的研究,鲜有涉及强化学习实际自动驾驶的研究,同时也缺乏关于如何将强化学习与船舶操纵性优化相结合的研究。3、且在复杂虚拟海洋环境中,无人船的打舵都会偏向于打大舵角,但在真实的海洋环境中,船舶如果打大舵就会导致船舶侧翻,这会构成极大的风险。技术实现思路1、本发明的目的是为了至少解决现有技术的不足之一,提供一种基于强化学习的船智能体智能控制方法及装置。2、为了实现上述目的,本发明采用以下的技术方案:3、具体的,提出一种基于强化学习的船智能体智能控制方法,包括以下:4、s1、初始化船智能体的状态空间以及动作空间,并初始化强化学习算法的奖励函数以及策略,建立q-table(s,a),q-table中的每个条目q(s,a)表示在状态s下采取行动a所获得的预期累积奖励;5、s2、获取船智能体当前状态,所述当前状态包括船智能体于当前的航向角速度v以及地理位置;6、s3、结合当前状态以及奖励函数,通过策略于动作空间中选择相应的舵角,并采取行动更新当前状态;7、s4、基于更新的当前状态,通过奖励函数计算奖励值;8、s5、基于更新的当前状态以及计算得到的奖励值更新q—table(s,a)的值;9、s6、判断是否达到预设的终止条件,若是则输出最终的奖励函数以及策略即更新后的q—table,若否则返回s2。10、进一步,具体的,所述动作空间为,11、action={-35°,-15°,0°,15°,35°}12、即舵角的选择范围为action中的任意值。13、进一步,具体的,通过奖励函数计算奖励值的过程包括以下,14、奖励函数为,15、16、a为上次动作与这次动作差值的绝对值与10的差值的绝对值,a(s-1)为上一次舵角,as为本次所选择的舵角,即17、a=|10-|a(s-1)-as||18、△φ为本次动作前的航向角与本次动作后的航向角的差值,具体为:19、△φ=φk-1-φk20、φr=0.01|△φ|21、无人船在选择舵角as的时候,当前后舵角的绝对值之差不小于10度的时候即当|as-1-as|≥10,22、ra=0.36e0.01a+φr23、当前后舵角的绝对值小于10度的时候即当|as-1-as|<1024、ra=025、最终的得到的奖励值r=-ra。26、进一步,具体的,q—table(s,a)的更新方式包括,27、q(s,a)=q(s,a)+α*[r+γ*max(q(s',a'))-q(s,a)]28、q(s,a)为状态动作值函数,表示在状态s采取行动a的动作值,s为当前状态,a为选择的动作,α为学习率,γ为折扣因子,r为船智能体在状态s下执行动作a所获得的奖励,s'为下一状态。29、进一步,具体的,预设的终止条件为船智能体是否到达目标位置。30、本发明还提出一种基于强化学习的船智能体智能控制装置,包括:31、初始化模块,用于初始化船智能体的状态空间以及动作空间,并初始化强化学习算法的奖励函数以及策略,建立q-table(s,a),q-table中的每个条目q(s,a)表示在状态s下采取行动a所获得的预期累积奖励;32、数据获取模块,用于获取船智能体当前状态,所述当前状态包括船智能体于当前的航向角速度v以及地理位置;33、状态更新模块,用于结合当前状态以及奖励函数,通过策略于动作空间中选择相应的舵角,并采取行动更新当前状态;34、奖励值计算模块,用于基于更新的当前状态,通过奖励函数计算奖励值;35、q表更新模块,用于基于更新的当前状态以及计算得到的奖励值更新q—table(s,a)的值;36、终止条件判断模块,用于判断是否达到预设的终止条件,若是则输出最终的奖励函数以及策略即更新后的q—table,若否则返回数据获取模块继续执行。37、本发明的有益效果为:38、本发明提出一种基于强化学习的船智能体智能控制方法及装置,通过修改奖励函数,本发明能够提供比原生函数更多的奖励,这意味着在使用本发明的系统或算法中,用户或者智能体能够得到更高的奖励值,从而增加任务完成的效率和成功率。另外在本发明中舵角的范围可以被有效限制,确保在安全和可控的范围内进行操作。这种改进不仅提高了系统的稳定性和可靠性,还有助于减少操作错误和事故风险。由于奖励函数的改进和舵角的限制,本发明可以显著提升系统的性能。本发明的优化了系统的行为和决策,使得系统更加智能、高效和可靠,能够解决在以往的系统中,由于奖励函数设计不合理或舵角过大,系统可能存在效率低下、任务无法完成或操作不准确的问题。技术特征:1.一种基于强化学习的船智能体智能控制方法,其特征在于,包括以下:2.根据权利要求1所述的一种基于强化学习的船智能体智能控制方法,其特征在于,具体的,所述动作空间为,3.根据权利要求1所述的一种基于强化学习的船智能体智能控制方法,其特征在于,具体的,通过奖励函数计算奖励值的过程包括以下,4.根据权利要求1所述的一种基于强化学习的船智能体智能控制方法,其特征在于,具体的,q—table(s,a)的更新方式包括,5.根据权利要求1所述的一种基于强化学习的船智能体智能控制方法,其特征在于,具体的,预设的终止条件为船智能体是否到达目标位置。6.一种基于强化学习的船智能体智能控制装置,其特征在于,包括:技术总结本发明涉及一种基于强化学习的船智能体智能控制方法及装置,包括以下:S1、初始化船智能体;S2、获取船智能体当前状态,所述当前状态包括船智能体于当前的航向角速度v以及地理位置;S3、结合当前状态以及奖励函数,通过策略于动作空间中选择相应的舵角,并采取行动更新当前状态;S4、基于更新的当前状态,通过奖励函数计算奖励值;S5、基于更新的当前状态以及计算得到的奖励值更新Q—table(s,a)的值;S6、判断是否达到预设的终止条件,若是则输出最终的奖励函数以及策略即更新后的Q—table,若否则返回S2。本发明改进了传统船舶航道强化学习中,在极端的环境下偏向于选择大的舵角的问题,且能够更好地对船智能体进行控制。技术研发人员:李佳文,张浩,姜鑫,黄子铭,詹俊权,冯逸晨,孙嘉华,李鑫,胡波,邓文博,徐明,孙墨林受保护的技术使用者:广东海洋大学技术研发日:技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1