一种水面水下双模态无人航行器海洋自主巡航路径规划方法及控制系统

文档序号:34393835发布日期:2023-06-08 11:23阅读:98来源:国知局
一种水面水下双模态无人航行器海洋自主巡航路径规划方法及控制系统

本发明属于海洋巡航,具体涉及一种水面水下双模态无人航行器海洋自主巡航路径规划方法及控制系统。


背景技术:

1、随着海洋战略重要性的逐年升高,针对大范围海洋检测已经成为世界上各个具有海岸线国家的首要任务。目前市面上已有针对海洋侦察勘测手段主要有:人工定期巡逻、直升机空中侦察、布防潜航器监测等,这些方法往往存在劳动强度大、风险大、作业效率低、搜寻范围小等问题。为了降低海上巡逻风险和降低人为工作强度,无人艇和无人船等一系列无人化海洋设备开始应用于海洋军事领域,很多国家开始采用无人艇、无人船作为海上巡逻侦察的主要载体。利用无人化设备的高度自主性和灵活性,能够充分降低人为干预的劳动强度和风险性,并且其执行成本也较低,更具备经济实用性。

2、但是现有无人化海洋侦察监测在智能性和巡航性能上仍然存在很多缺陷,比如在巡航检测路径上还是采用传统预设路线进行工作;由于蓄电池容量限制而导致巡航时间少,侦察半径小,探索效率低。


技术实现思路

1、本发明的目的在于提供一种能够快速、准确决策的水面水下双模态无人航行器海洋自主巡航控制方法及系统。

2、基于上述目的,本发明采用如下技术方案:

3、一种水面水下双模态无人航行器海洋自主巡航路径规划方法,包括以下步骤:

4、s101,训练基于actor-critc的强化学习网络模型;强化学习网络模型包括actor网络、critic网络;训练过程采用随机蒸馏网络机制降低奖励回报稀疏性;训练时为了防止时间序列数据的强相关性,引入经验回放池机制,每次训练时都会从经验回放池中抽取固定容量的历史数据,然后与已有数据一起加入到训练过程中,打乱前后数据之间的关联性,提高强化学习网络模型稳定性和泛化性。为了保证输入到ac网络的特征是具有相同的长度的序列,训练时将从环境中得到的可变同质特征进行特征编码为固定尺寸特征,将一个二维观测特征利用最大池化原则压缩为一维固定尺寸特征;实现基于池化层的特征嵌入模块用于将状态观测器观测到的不完信进行补全。

5、s102,根据态势信息和目标坐标规划出基于强化学习网络模型的杜宾斯路径,然后控制水面水下双模态无人航行器按照杜宾斯路径航行;态势信息包括海况、礁石、所处海洋深度、卫星定位信息;

6、s103,水面水下双模态无人航行器按照杜宾斯路径航行的同时,获取不完全观测特征并输入到强化学习网络模型中,actor网络根据当前从环境中获取的不完全观测特征输出水面水下双模态无人航行器的最优动作,然后控制水面水下双模态无人航行器航行至新状态;

7、s104,水面水下双模态无人航行器达到新状态后,再次获取当前的不完全观测特征,然后将当前的不完全观测特征补全,得到补全特征;同时获取奖励回报;

8、s105,根据补全特征和奖励回报,使用时序差分误差更新critic网络的参数;

9、s106,更新参数后的critic网络对actor网络的参数进行更新,并重复s101-s104。

10、进一步的,在s104中,得到补全特征的方法为:获取不完全观测特征,然后将历史的不完全观测特征和当前的不完全观测特征的每个信息进行对应,然后对历史和当前的不完全观测特征的对应的信息进行平均池化处理,获取补全特征。

11、进一步的,在s104中,得到奖励回报的方法为:随机蒸馏网络奖励函数降低基础奖励回报稀疏性并提高奖励密度,获得奖励回报;随机蒸馏网络奖励函数的范式为:

12、r(θ,s)=ψ(n)[ri(θ,s)+re(θ,s)]

13、其中,ψ(n)为链式蒸馏奖励增益;ri(θ,s)为基础奖励;re(θ,s)为蒸馏网络奖励;

14、蒸馏网络奖励的范式如下:

15、re(θ,s)=-βarctan(δπk(s,θ))

16、其中,β>0为增益系数;k为任务类型;δπk(s,θ)为差异度;

17、差异度的范式为:

18、

19、其中,πk(s,θ)为水面水下双模态无人航行器在执行k任务下处于s态势信息时应用的目标策略,为水面水下双模态无人航行器在执行k任务下处于s态势信息时应用的预测策略;

20、链式蒸馏奖励增益的范式为:

21、

22、其中,n为连续决策节点的数量,n为固定连续节点窗口;l为固定增益。

23、进一步的,基础奖励的范式为:

24、ri(θ,s)=α(δπk(s,θ))2

25、其中,α>0为增益因子。

26、一种能够实现上述的路径规划方法的处理器,包括路径规划模块,路径规划模块包括强化学习网络模型、杜宾斯路径模块、感知模块、基于池化层的特征嵌入块和奖励回报函数模块;强化网络学习模型包括actor网络模块、critic网络模块和critic更新模块;感知模块用于获取态势信息和不完全观测特征;杜宾斯路径模块用于根据态势信息和目标坐标规划出基于强化学习网络模型的杜宾斯路径;actor网络模块用于根据当前从环境中获取的不完全观测特征输出水面水下双模态无人航行器的最优动作;基于池化层的特征嵌入块用于将历史的不完全观测特征和当前的不完全观测特征的每个信息进行对应,然后对历史和当前的不完全观测特征的对应的信息进行平均池化处理,获取补全特征;奖励回报函数模块用于降低基础奖励回报稀疏性并提高奖励密度,获得奖励回报;critic更新模块用于根据补全特征和奖励回报,使用时序差分误差更新critic网络的参数;critic网络用于更新actor网络的参数。

27、一种水面水下双模态无人航行器海洋自主巡航控制系统,包括上述的路径规划方法的处理器,还包括感知模块,感知模块连接有机载电脑,感知模块用于获取态势信息并将态势信息传输给机载电脑,机载电脑用于根据态势信息判断水面水下双模态无人航行器是否处于安全位置,并在水面水下双模态无人航行器处于安全位置时发出上浮指令,在水面水下双模态无人航行器处于危险位置时发出下潜指令;浮力调节系统用于根据下潜指令控制水面水下双模态无人航行器下潜,还用于根据上浮指令控制水面水下双模态无人航行器上浮;主帆系统用于在水面水下双模态无人航行器上浮后提供动力。

28、进一步的,水面水下双模态无人航行器海洋自主巡航控制系统还包括与机载电脑连接的浮力调节系统;浮力调节系统用于根据下潜指令控制水面水下双模态无人航行器下潜,还用于根据上浮指令控制水面水下双模态无人航行器上浮;主帆系统用于在水面水下双模态无人航行器上浮后提供动力;浮力调节系统包括一套靠近水面水下双模态无人航行器艏部设置的气体压载装置和两套靠近水面水下双模态无人航行器艉部设置的液体压载装置,两套液体压载装置对称设置在水面水下双模态无人航行器长度方向的中线两侧;气体压载装置包括带有气泵的蓄气罐和气囊,蓄气罐和气囊通过软管连接,气泵用于将蓄气罐中的浮升气体充入气囊,也可将气囊中的浮升气体压缩进蓄气罐中;液体压载装置包括蓄水罐和压载泵,蓄水罐和压载泵通过软管连接,压载泵的进出水管穿过水面水下双模态无人航行器的舱体与外部连通,用于通过压载泵向蓄水罐中注水或排水。

29、进一步的,主帆系统包括盖板,盖板上设有可绕其中轴线旋转的桅杆;盖板上转动连接有可折叠的风帆;风帆包括与桅杆固定设置的主帆板,主帆板一侧转动连接有阻力板,主帆板与桅杆方向一致;主帆板和桅杆均与盖板转动连接,主帆板和桅杆绕盖板在竖直面内转动设置;主帆板通过联动装置与盖板在竖直面内转动连接;主帆板与阻力板通过带传动装置连接,阻力板沿带传动装置向主帆板上旋转折叠,折叠后的阻力板和主帆板的板面贴合;带传动装置包括连接板,连接板两端均通过传动轴转动连接有支架,两个支架分别固定在主帆板和阻力板上,两个传动轴分别固定在支架上,两个传动轴通过带传动连接;联动装置包括机壳,机壳为中空的四方体的箱体结构,机壳通过翻转机构与盖板在竖直面内转动连接,机壳内还设有控制桅杆绕其轴线旋转的旋转机构;旋转机构为与桅杆同轴设置的旋转轴,旋转轴伸出机壳与桅杆固定连接,旋转轴连接有旋转电机,旋转电机设置在机壳内;桅杆上套设有过渡带轮,过渡带轮包括圆筒形的套筒,套筒两端均设有带轮,其中一个带轮连接有调节电机,调节电机设置在联动装置的机壳内,另一个带轮与带传动装置连接;盖板上沿水面水下双模态无人航行器长度方向设置有凹槽,凹槽在水面水下双模态无人航行器的艏端为盲端,在水面水下双模态无人航行器艉端为开口端,风帆设置在凹槽内。

30、进一步的,带传动装置用于根据下潜指令转动阻力板使其与主帆板折叠;气泵用于根据下潜指令将气囊中的浮升气体压缩进蓄气罐中,压载泵用于根据下潜指令向蓄水罐中注水;气泵还用于根据上浮指令向气囊里充入浮升气体,压载泵还用于根据上浮指令排孔蓄水罐中的水;联动装置用于在水面水下双模态无人航行器上浮后带动主帆板竖起;带传动装置用于在水面水下双模态无人航行器上浮后带动阻力板展开。

31、进一步的,水面水下双模态无人航行器海洋自主巡航控制系统包括能源模块,能源模块连接有机载电脑,路径规划模块设置在机载电脑内;能源模块和机载电脑连接有运动控制器、通讯模块和感知模块;运动控制器和能源模块连接有主帆系统、浮力调节系统和动力推进装置;通讯模块连接有近地远程操作端和卫星远程操作端;能源模块用于给控制系统提供电能并在水面水下双模态无人航行器上浮后将太阳能转化为电能;机载电脑用于根据杜宾斯路径和最优动作输出航行指令,并将航行指令传输给运动控制器;运动控制器用于控制主帆系统、浮力调节系统和动力推进装置按照航行指令运行;主帆系统用于根据航行指令展开或折叠;浮力调节系统用于根据航行指令控制水面水下双模态无人航行器上浮或下潜;动力推进装置用于根据航行指令提供动力并控制水面水下双模态无人航行器转向;通讯模块用于传输机载电脑和近地远程操作端和卫星远程操作端之间的数据和指令。

32、与先有技术相比,本发明的有益效果在于:

33、本发明的自主巡航控制系统高效实现了水面水下双模态无人航行器的内部功能模块集成,创新的将智能化系统应用于水面水下双模态无人航行器。本发明的方法创新之处在于设计了改进的强化学习方法,提高了无人系统的智能性和自主性。本方法应用强化学习网络、多传感器融合技术,较传统水面水下双模态无人航行器智能自主航行和路径规划方法,可以对周围环境态势进行评估决策,自行决策更快速、更合理并且其适用范围更广,同时适用于海面上水面水下双模态无人航行器自主路径规划和巡航。

34、本发明的自主巡航侦察方法创新的融合了自主设计控制系统,可以灵活切换水面水下双模态无人航行器上浮巡逻侦察功能和潜匿逃逸功能,极大提高了水面水下双模态无人航行器的生存能力和侦察能力。

35、通常观测的特征是一种非完全特征,其中会存在某些信息的缺失,可能是由传感器故障、外部环境影响等导致。如果直接将这种不完全的特征输入到网络中,会导致网络学习不稳定,学习效果低下。所以为了保证网络学习的有效性和准确性,需要对不完全特征进行补全。

36、由于水面水下双模态无人航行器常处于复杂时变海洋环境,所以很难得到积极有效的奖励信号,采用随机蒸馏网络奖励函数机制,根据得到的奖励回报信息,可以增强其中的积极奖励信号,过滤掉其他无用奖励信号。用于将双模态无人水面水下双模态无人航行器获得到的稀疏奖励进行“蒸馏”操作,降低奖励稀疏性,提高奖励密度,可以大幅提高奖励回报信号对网络训练的引导性。采用基于蒸馏网络机制的奖励回报方法,使得强化学习网络在训练阶或使用段更容易学习到正确策略,加速网络训练过程,降低训练时间,其效果也更好。

37、奖励回报中的基础奖励定义了任务完成的基本目标,是水面水下双模态无人航行器最终学习要达到的效果,但是基础奖励在复杂环境中,基础奖励在训练前期只能带来稀疏回报,难于生成有效及时的反馈,因此采用蒸馏网络奖励来引导双模态无人水面水下双模态无人航行器的强化学习网络学习,即在训练或者使用中,提高了奖励回报的密度,并且能够引导网络学习到正确策略。链式蒸馏奖励增益用于奖励当网络连续几个决策点都做了正确的决策后所给予的奖励,保证生成正确策略的连续性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1