基于深度强化学习的自主水下航行器轨迹跟踪控制方法与流程

文档序号:15927588发布日期:2018-11-14 01:18阅读:693来源:国知局

本发明属于深度强化学习和智能控制领域,涉及一种基于深度强化学习的自主水下航行器(auv)轨迹跟踪控制方法。

背景技术

深海海底科学的发展高度依赖于深海探测技术和装备,由于深海环境复杂、条件极端,目前主要采用深海作业型自主水下航行器代替或辅助人对深海进行探测、观察和采样。而针对海洋资源探索、海底调查和海洋测绘等人类无法到达现场操作的任务场景,保证auv水下运动的自主性和可控性是一项最基本且重要的功能要求,是实现各项复杂作业任务的前提。然而,auv的许多离岸应用(例如轨迹跟踪控制、目标跟踪控制等)极具挑战性,这种挑战性主要由auv系统以下三方面的特性导致。第一,auv作为一种多输入多输出系统,其动力学和运动学模型(以下简称模型)复杂,具有高度非线性、强耦合、存在输入或状态约束和时变等特点;第二,模型参数或水动力环境存在不确定性,导致auv系统建模较为困难;第三,当前大部分auv属于欠驱动系统,即自由度大于独立执行器的数量(各独立执行器分别对应一个自由度)。通常,通过数学物理机理推导、数值模拟和实物实验相结合的方法来确定auv的模型及参数,并合理刻画模型中的不确定部分。复杂的模型导致auv的控制问题也非常复杂。而且,随着auv应用场景的不断扩展,人们对其运动控制的精度、稳定性都提出更高的要求,如何提高auv在各种运动场景下的控制效果已成了重要的研究方向。

在过去的几十年中,针对轨迹跟踪、路径点跟踪、路径规划和编队控制等不同应用场景,研究者们设计了各种auv运动控制方法并验证了其有效性。其中具有代表性的是refsnes等人提出的基于模型的输出反馈控制方法,该控制方法采用了两个解耦的系统模型:一个用于刻画海流负载的三自由度海流诱导船体模型和一个用于描述系统动态的五自由度模型。另外,healey等人设计了一种基于状态反馈的跟踪控制方法,该控制方法采用固定的前向运动速度并对系统模型进行线性化处理,同时该控制方法采用了三个解耦的模型:纵荡模型、水平导向模型(横荡和艏摇)和垂向模型(垂荡和纵摇)。然而,这些方法都对系统模型进行了解耦或线性化处理,因此很难满足auv在特定应用场景下的高精度控制要求。

由于上述经典运动控制方法的局限性以及强化学习强大的自学习能力,近几年,研究者们对以强化学习为代表的智能控制方法表现出了极大的研究兴趣。而各种基于强化学习技术(例如q学习、直接策略搜索、策略-评价网络和自适应强化学习)的智能控制方法也是不断地被提出并成功应用到不同的复杂应用场景中,如机器人运动控制、无人机飞行控制、高超音速飞行器跟踪控制以及道路信号灯控制等。基于强化学习的控制方法的核心思想是在无先验知识的前提下实现控制系统的性能优化。对于auv系统,不少研究者已经设计出各种基于强化学习的控制方法并实际验证了其可行性。针对自主水下缆线跟踪控制问题,ei-fakdi等人采用直接策略搜索技术来学习状态/动作映射关系,但是该方法仅适用于状态和动作空间都是离散的情况;而对于连续的动作空间,paula等人采用径向基网络来近似策略函数,然而由于径向基网络的函数近似能力较弱,该控制方法无法保证较高的跟踪控制精度。

近年来,随着批学习、经验回放和批正则化等深度神经网络(dnn)训练技术的发展,深度强化学习在机器人运动控制、自主地面车辆运动控制、四旋翼控制和自动驾驶等复杂任务中表现出了优异性能。尤其是近期提出的深度q网络(dqn)在许多极具挑战性的任务中都表现出人类水平的控制精度。然而dqn不能处理同时具有高维状态空间和连续动作空间的问题。在dqn的基础上,深度确定性策略梯度(ddpg)算法被进一步提出并实现了连续控制。然而ddpg使用目标评价网络来估计评价网络的目标值,使得评价网络不能有效地评价由策略网络学习到的策略,且学习到的动作值函数存在较大的方差,因此当ddpg应用于auv轨迹跟踪控制问题时,无法满足较高的跟踪控制精度和稳定学习的要求。



技术实现要素:

本发明的目的是提出一种基于深度强化学习的auv轨迹跟踪控制方法,该方法采用一种混合策略-评价网络结构,并采用多个准q学习和确定性策略梯度来分别训练评价网络和策略网络,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的auv轨迹跟踪控制和稳定学习。

为了实现上述目的,本发明采用如下技术方案:

一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,该方法包括以下步骤:

1)定义自主水下航行器auv轨迹跟踪控制问题

定义auv轨迹跟踪控制问题包括四个部分:确定auv系统输入、确定auv系统输出、定义轨迹跟踪控制误差和建立auv轨迹跟踪控制目标;具体步骤如下:

1-1)确定auv系统输入

令auv系统输入向量为τk=[ξk,δk]t,其中ξk、δk分别为auv的螺旋桨推力和舵角,下标k表示第k个时间步;ξk、δk的取值范围分别为分别为最大的螺旋桨推力和最大舵角;

1-2)确定auv系统输出

令auv系统输出向量为ηk=[xk,yk,ψk]t,其中xk、yk分别为第k个时间步auv在惯性坐标系i-xyz下沿x、y轴的坐标,ψk为第k个时间步auv前进方向与x轴的夹角;

1-3)定义轨迹跟踪控制误差

根据auv的行驶路径选取参考轨迹定义第k个时间步的auv轨迹跟踪控制误差为:

1-4)建立auv轨迹跟踪控制目标

对于步骤1-3)中的参考轨迹dk,选择如下形式的目标函数:

其中,γ是折扣因子,h为权重矩阵;

建立auv轨迹跟踪控制的目标为找到一个最优系统输入序列τ*使得初始时刻的目标函数p0(τ)最小,计算公式如下:

2)建立auv轨迹跟踪问题的马尔科夫决策过程模型

对步骤1)中的auv轨迹跟踪问题进行马尔科夫决策过程建模,具体步骤如下:

2-1)定义状态向量

定义auv系统的速度向量为φk=[uk,vk,χk]t,其中uk、vk分别为第k个时间步auv沿前进方向、垂直于前进方向的线速度,χk为第k个时间步auv环绕前进方向的角速度;

根据步骤1-2)确定的auv系统输出向量ηk和步骤1-3)定义的参考轨迹,定义第k个时间步的状态向量如下:

2-2)定义动作向量

定义第k个时间步的动作向量为该时间步的auv系统输入向量,即ak=τk;

2-3)定义奖励函数

第k个时间步的奖励函数用于刻画在状态sk采取动作ak的执行效果,根据步骤1-3)定义的轨迹跟踪控制误差ek和步骤2-2)定义的动作向量ak,定义第k个时间步的auv奖励函数如下:

2-4)将步骤1-4)建立的auv轨迹跟踪控制的目标τ*转换为强化学习框架下的auv轨迹跟踪控制目标

定义策略π为在某一状态下选择各个可能动作的概率,则定义动作值函数如下:

其中,表示对奖励函数、状态和动作的期望值;k为最大时间步;

该动作值函数用于描述在当前及之后所有状态下均采取策略π时的期望累计折扣奖励,故在强化学习框架下,auv轨迹跟踪控制目标是通过与auv所处环境的交互来学习一个最优目标策略π*,使得初始时刻的动作值最大,计算公式如下:

其中,p(s0)为初始状态s0的分布;a0为初始动作向量;

将步骤1-4)建立的auv轨迹跟踪控制的目标τ*的求解转换为π*的求解;

2-5)简化强化学习框架下的auv轨迹跟踪控制目标

通过如下迭代贝尔曼方程来求解步骤2-4)中的动作值函数:

设策略π是确定性的,即从auv的状态向量空间到auv的动作向量空间是一一映射的关系,并记为μ,则将上述迭代贝尔曼方程简化为:

对于确定性的策略μ,将步骤2-4)中的最优目标策略π*简化为确定性最优目标策略μ*

3)构建混合策略-评价网络

通过构建混合策略-评价网络来分别估计确定性最优目标策略μ*和对应的最优动作值函数构建混合策略-评价网络包括三部分:构建策略网络、构建评价网络和确定目标策略,具体步骤如下:

3-1)构建策略网络

混合策略-评价网络结构通过构建n个策略网络来估计确定性最优目标策略μ*;其中,θp为第p个策略网络的权重参数,p=1,…,n;各策略网络均分别使用一个全连接的深度神经网络来实现,各策略网络均分别包含一个输入层、两个隐藏层和一个输出层;各策略网络的输入为状态向量sk,各策略网络的输出为动作向量ak;

3-2)构建评价网络

混合策略-评价网络结构通过构建m个评价网络来估计最优动作值函数其中,wq为第q个评价网络的权重参数,q=1,…,m;各评价网络均分别使用一个全连接的深度神经网络来实现,各评价网络均分别包含一个输入层、两个隐藏层和一个输出层;各评价网络的输入为状态向量sk和动作向量ak,其中状态向量sk从输入层输入到各评价网络,动作向量ak从第一个隐藏层输入到各评价网络,各评价网络输出为在状态向量sk下采取动作向量ak的动作值;

3-3)确定目标策略

根据所构建的混合策略-评价网络,将第k个时间步学习到的auv轨迹跟踪控制的目标策略μf(sk)定义为n个策略网络输出的均值,计算公式如下:

4)求解auv轨迹跟踪控制的目标策略μf(sk),具体步骤如下:

4-1)参数设置

分别设置最大迭代次数m、每次迭代的最大时间步k、经验回放抽取的训练集大小n、各评价网络的学习率αω、各策略网络的学习率αθ、折扣因子γ和奖励函数中的权重矩阵h;

4-2)初始化混合策略-评价网络

随机初始化n个策略网络和m个评价网络的权重参数θp和wq;从n个策略网络中随机选择第d个策略网络记为d=1,…,n;

构建经验列队集合r,设该经验列队集合r的最大容量为b,并初始化为空;

4-3)迭代开始,对混合策略-评价网络进行训练,初始化迭代次数episode=1;

4-4)设置当前时间步k=0,随机初始化auv的状态变量s0,令当前时间步的状态变量sk=s0;并产生一个探索噪声noisek;

4-5)根据n个当前策略网络和探索噪声noisek确定当前时间步的动作向量ak为:

4-6)auv在当前状态sk下执行动作ak,根据步骤2-3)得到奖励函数rk+1,并观测到一个新的状态sk+1;记ek=(sk,ak,rk+1,sk+1)为一个经验样本;如果经验列队集合r的样本数量已经达到最大容量b,则先删除最先加入的一个样本,再将经验样本ek存入经验列队集合r中;否则直接将经验样本ek存入经验列队集合r中;

从经验列队集合r中选取a个经验样本,具体如下:当经验列队集合r中样本数量不超过n时,则选取该经验列队集合r中的所有经验样本;当经验列队集合r超过n时,则从该经验列队集合r中随机选取n个经验样本(sl,al,rl+1,sl+1);

4-7)根据选取的a个经验样本计算每个评价网络的期望贝尔曼绝对误差ebaeq,用于表征每个评价网络的性能,公式如下:

选择性能最差的评价网络,通过以下公式求得该性能最差的评价网络的序号,记为c:

4-8)由第c个评价网络通过如下次贪婪策略得到每个经验样本在下一时间步的动作向量:

4-9)通过多个准q学习方法计算第c个评价网络的目标值公式如下:

4-10)计算第c个评价网络的损失函数l(wc),公式如下:

4-11)通过损失函数l(wc)对权重参数wc的导数来更新第c个评价网络的权重参数,公式如下:

其余评价网络的权重参数保持不变;

4-12)从n个策略网络中随机选择一个策略网络来重置第d个策略网络

4-13)根据更新后的第c个评价网络计算第d个策略网络的确定性策略梯度并以此更新第d个策略网络的权重参数θd,计算公式分别如下:

其余策略网络的权重参数保持不变;

4-14)令k=k+1并对k进行判定:如k<k,则重新返回步骤4-5),auv继续跟踪参考轨迹;否则,进入步骤4-15);

4-15)令episode=episode+1并对episode进行判定:如episode<m,则重新返回步骤4-4),auv进行下一个迭代过程;否则,进入步骤4-16);

4-16)迭代结束,终止混合策略-评价网络的训练过程,将迭代终止时的n个策略网络的输出值通过步骤3-3)中的计算公式得到最终auv轨迹跟踪控制的目标策略μf(sk),由该目标策略实现对auv的轨迹跟踪控制。

本发明的特点及有益效果:

本发明提出的方法采用了多个策略网络和评价网络。对于多个评价网络,通过定义期望贝尔曼绝对误差来评估每个评价网络的性能,在每个时间步只更新性能最差的一个评价网络,不同于已有基于强化学习的控制方法,本发明提出多个准q学习方法来计算更为准确的评价网络目标值,该方法可以解决动作值函数过估计问题,并且可以在不借助目标评价网络的前提下稳定学习过程。对于多个策略网络,在每个时间步随机选择一个策略网络,并采用确定性策略梯度进行更新。最终学习到的策略为所有策略网络的均值。

1)本发明提出的auv轨迹跟踪控制方法不依赖于模型,通过auv在行驶过程中的采样数据,来自主学习出使得控制目标达到最优的目标策略,该过程不需要对auv模型做任何假设,尤其适用于在复杂深海环境下工作的auv,有很高的实际应用价值。

2)本发明方法采用多个准q学习来得到比已有方法更加准确的评价网络目标值,既减小了由评价网络近似得到的动作值函数的方差,还解决了动作值函数过估计问题,从而得到更优的目标策略,实现高精度的auv轨迹跟踪控制。

3)本发明方法基于期望贝尔曼绝对误差来决定每个时间步该更新哪一个评价网络,这种更新规则可以减弱较差评价网络的影响,从而保证学习过程的快速收敛。

4)本发明方法由于采用了多个评价网络,其学习过程不易受到恶劣的auv历史跟踪轨迹的影响,鲁棒性好,学习过程稳定。

5)本发明方法将强化学习与深度神经网络相结合,具有很强的自学习能力,能够在不确定的深海环境中实现对auv的高精度自适应控制,在auv轨迹跟踪、水下避障等场景中有着很好的应用前景。

附图说明

图1是本发明提出方法与现有ddpg方法的性能对比图;其中,图(a)为学习曲线对比图,图(b)为auv轨迹跟踪效果对比图。

图2是本发明提出方法与神经网络pid方法的性能对比图;其中,图(a)为auv沿x、y方向的坐标轨迹跟踪效果对比图,图(b)为auv在x、y方向的跟踪误差对比图。

具体实施方式

本发明提出的一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,下面结合附图和具体实施例进一步详细说明如下。

本发明提出了一种基于深度强化学习的自主水下航行器跟踪控制算法,主要包括四个部分:定义auv轨迹跟踪控制问题、建立auv轨迹跟踪问题的马尔科夫决策过程模型、构建混合策略-评价网络结构和求解auv轨迹跟踪控制的目标策略。

1)定义auv轨迹跟踪控制问题

定义auv轨迹跟踪控制问题包括四个组成部分:确定auv系统输入、确定auv系统输出、定义轨迹跟踪控制误差和建立auv轨迹跟踪控制目标;具体步骤如下:

1-1)确定auv系统输入

令auv系统输入向量为τk=[ξk,δk]t,其中ξk、δk分别为auv的螺旋桨推力和舵角,下标k表示第k个时间步即时刻k·t的取值,其中t为时间步长,下同;ξk、δk的取值范围分别为其中分别为最大的螺旋桨推力和最大舵角,根据auv所采用的螺旋桨型号确定。

1-2)确定auv系统输出

令auv系统输出向量为ηk=[xk,yk,ψk]t,其中xk、yk分别为第k个时间步auv在惯性坐标系i-xyz下沿x、y轴的坐标,ψk为第k个时间步auv前进方向与x轴的夹角。

1-3)定义轨迹跟踪控制误差

根据auv的行驶路径选取参考轨迹定义第k个时间步的auv轨迹跟踪控制误差为:

1-4)建立auv轨迹跟踪控制目标

对于步骤1-3)中的参考轨迹dk,选择如下形式的目标函数:

其中,γ是折扣因子,h为权重矩阵;

建立auv轨迹跟踪控制的目标为找到一个最优系统输入序列τ*使得初始时刻的目标函数p0(τ)最小,计算公式如下:

2)建立auv轨迹跟踪问题的马尔科夫决策过程模型

马尔科夫决策过程(mdp)是强化学习理论的基础,因此需要对步骤1)中的auv轨迹跟踪问题进行mdp建模。强化学习的主要元素包括智能体、环境、状态、动作和奖励函数,智能体的目标是通过与auv所处环境的交互来学习一个最优动作(或控制输入)序列来最大化累计奖励(或最小化累计跟踪控制误差),进而实现auv轨迹跟踪目标的求解。具体步骤如下:

2-1)定义状态向量

定义auv系统的速度向量为φk=[uk,vk,χk]t,其中uk、vk分别为第k个时间步auv沿前进方向、垂直于前进方向的线速度,χk为第k个时间步auv环绕前进方向的角速度。

根据步骤1-2)确定的auv系统输出向量ηk和步骤1-3)定义的参考轨迹,定义第k个时间步的状态向量如下:

2-2)定义动作向量

定义第k个时间步的动作向量为该时间步的auv系统输入向量,即:ak=τk。

2-3)定义奖励函数

第k个时间步的奖励函数用于刻画在状态sk采取动作ak的执行效果,根据步骤1-3)定义的轨迹跟踪控制误差ek和步骤2-2)定义的动作向量ak,定义第k个时间步的auv奖励函数如下:

2-4)将步骤1-4)建立的auv轨迹跟踪控制的目标τ*转换为强化学习框架下的auv轨迹跟踪控制目标

定义策略π为在某一状态下选择各个可能动作的概率,则定义动作值函数如下:

其中,表示对奖励函数、状态和动作的期望值(下同);k为最大时间步;

该动作值函数用于描述在当前及之后所有状态下均采取策略π时的期望累计折扣奖励,因此,在强化学习框架下,auv轨迹跟踪控制目标(即智能体的目标)是通过与auv所处环境的交互来学习一个最优目标策略π*,使得初始时刻的动作值最大,即:

其中,p(s0)为初始状态s0的分布;a0为初始动作向量。

因此,步骤1-4)建立的auv轨迹跟踪控制的目标τ*的求解可转换为π*的求解。

2-5)简化强化学习框架下的auv轨迹跟踪控制目标

类似于动态规划,许多强化学习方法使用如下迭代贝尔曼方程来求解步骤2-4)中的动作值函数:

假定策略π是确定性的,即从auv的状态向量空间到auv的动作向量空间是一一映射的关系,并记为μ,于是上述迭代贝尔曼方程可以简化为:

此外,对于确定性的策略μ,将步骤2-4)中的最优目标策略π*简化为确定性最优目标策略μ*

3)构建混合策略-评价网络

由步骤2-5)可知,利用强化学习求解auv轨迹跟踪问题的核心是如何求解确定性最优目标策略μ*和对应的最优动作值函数本发明方法采用一种混合策略-评价网络来分别估计μ*构建混合策略-评价网络包括三部分:构建策略网络、构建评价网络和确定目标策略,具体步骤如下:

3-1)构建策略网络

混合策略-评价网络结构通过构建n(为了平衡本发明算法跟踪控制精度与网络训练速度,其取值不宜过大也不宜过小)个策略网络来估计确定性最优目标策略μ*。其中,θp为第p个策略网络的权重参数,p=1,…,n;各策略网络均分别使用一个全连接的深度神经网络来实现,每个策略网络均分别包含一个输入层、两个隐藏层和一个输出层,各策略网络的输入为状态向量sk,各策略网络输出为动作向量ak,两个隐藏层分别含有400和300个单元。

3-2)构建评价网络

混合策略-评价网络结构通过构建m(评价网络数量的选取依据与上述策略网络数量的选取依据相同)个评价网络来估计最优动作值函数其中,wq为第q个评价网络的权重参数,q=1,…,m;各评价网络均分别使用一个全连接的深度神经网络来实现,各评价网络均分别包含一个输入层、两个隐藏层和一个输出层,两个隐藏层分别含有400和300个单元;各评价网络的输入为状态向量sk和动作向量ak,其中状态向量sk从输入层输入到各评价网络,动作向量ak从第一个隐藏层输入到各评价网络,各评价网络输出为在状态向量sk下采取动作向量ak的动作值。

3-3)确定目标策略

根据所构建的混合策略-评价网络,将第k个时间步学习到的auv轨迹跟踪控制的目标策略μf(sk)定义为n个策略网络输出的均值,计算公式如下:

4)求解auv轨迹跟踪控制的目标策略μf(sk),具体步骤如下:

4-1)参数设置

分别设置最大迭代次数m、每次迭代的最大时间步k、经验回放抽取的训练集大小n、各评价网络的学习率αω、各策略网络的学习率αθ、折扣因子γ和奖励函数中的权重矩阵h;本实施例中,m=1500,k=1000(每个时间步长t=0.2s),n=64,各评价网络的αω=0.01,各策略网络的αθ=0.001,γ=0.99,h=[0.001,0;0,0.001];

4-2)初始化混合策略-评价网络

随机初始化n个策略网络和m个评价网络的权重参数θp和wq;从n个策略网络中随机选择第d(d=1,…,n)个策略网络记为

构建经验列队集合r,设该经验列队集合r的最大容量为b(本实施例b=10000),并初始化为空;

4-3)迭代开始,对混合策略-评价网络进行训练,初始化迭代次数episode=1;

4-4)设置当前时间步k=0,随机初始化auv的状态变量s0,令当前时间步的状态变量sk=s0;并产生一个探索噪声noisek(本实施例采用奥恩斯坦-乌伦贝克(ornstein-uhlenbeck)探索噪声);

4-5)根据n个当前策略网络和探索噪声noisek确定当前时间步的动作向量ak为:

4-6)auv在当前状态sk下执行动作ak,根据步骤2-3)得到奖励函数rk+1,并观测到一个新的状态sk+1;记ek=(sk,ak,rk+1,sk+1)为一个经验样本;如果经验列队集合r的样本数量已经达到最大容量b,则先删除最先加入的一个样本,再将经验样本ek存入经验列队集合r中;否则直接将经验样本ek存入经验列队集合r中;

从经验列队集合r中选取a个经验样本,a≤n,具体如下:当经验列队集合r中样本数量不超过n时,则选取该经验列队集合r中的所有经验样本;当经验列队集合r超过n时,则从该经验列队集合r中随机选取n个经验样本(sl,al,rl+1,sl+1),l为被选择的经验样本所在的时间步;

4-7)根据选取的a个经验样本计算每个评价网络的期望贝尔曼绝对误差ebaeq,用于表征每个评价网络的性能,公式如下:

选择性能最差的评价网络,通过以下公式求得该性能最差的评价网络的序号,记为c:

4-8)由第c个评价网络通过如下次贪婪策略得到每个经验样本在下一时间步的动作向量:

4-9)通过多个准q学习方法计算第c个评价网络的目标值公式如下:

4-10)计算第c个评价网络的损失函数l(wc),公式如下:

4-11)通过损失函数l(wc)对权重参数wc的导数来更新第c个评价网络的权重参数,公式如下:

其余评价网络的权重参数保持不变;

4-12)从n个策略网络中随机选择一个策略网络来重置第d个策略网络

4-13)根据更新后的第c个评价网络计算第d个策略网络的确定性策略梯度并以此更新第d个策略网络的权重参数θd,计算公式分别如下:

其余策略网络的权重参数保持不变。

4-14)令k=k+1并对k进行判定:如k<k,则重新返回步骤4-5),auv继续跟踪参考轨迹;否则,进入步骤4-15)。

4-15)令episode=episode+1并对episode进行判定:如episode<m,则重新返回步骤4-4),auv进行下一个迭代过程;否则,进入步骤4-16)。

4-16)迭代结束,终止混合策略-评价网络的训练过程,将迭代终止时的n个策略网络的输出值通过步骤3-3)中的计算公式得到最终auv轨迹跟踪控制的目标策略μf(sk),由该目标策略实现对auv的轨迹跟踪控制。

本发明实施例的有效性验证

本发明所提出的基于深度强化学习的auv轨迹跟踪控制方法(以下简称mpq-dpg)的性能分析如下所示,所有对比实验均是基于广泛使用的remus自主无人航行器,其最大螺旋桨推力和舵角分别为86n和0.24rad;且采用如下参考轨迹:

此外,在本发明实施例中,评价网络数量m与策略网络数量n相同,后文统一记为n。

1)mpq-dpg与现有的ddpg方法对比分析

图1为本发明提出的深度强化学习的auv提出轨迹跟踪控制方法(mpq-dpg)与现有ddpg方法在训练过程中的学习曲线和轨迹跟踪效果上的比较。其中,图(a)中的学习曲线是通过五次独立实验得到,图(b)中ref表示参考轨迹。

分析图1,可得如下结论:

a)相对于ddpg方法,mpq-dpg的学习稳定性更好,这是由于mpq-dpg采用多个评价网络和策略网络,可以降低差样本对学习稳定性的影响。

b)mpq-dpg方法最终收敛的平均累计奖励明显高于ddpg方法,这说明了mpq-dpg方法的跟踪控制精度要明显高于ddpg方法。

c)从图1(b)中可以观察到,mpq-dpg方法得到的跟踪轨迹几乎与参考轨迹重合,说明mpq-dpg方法可以实现高精度的auv跟踪控制。

d)随着策略网络和评价网络数量的增大,mpq-dpg方法的跟踪控制精度会逐渐提高,但提高的幅度在n>4之后将不再明显。

2)mpq-dpg方法与现有神经网络pid方法对比分析

图2为本发明为水下无人航行器轨迹跟踪控制提出的mpq-dpg方法与神经网络pid方法在坐标轨迹跟踪曲线和坐标轨迹跟踪误差上的比较。图中ref表示参考坐标轨迹,pidnn表示神经网络pid算法,n=4。

分析图2可得,神经网络pid控制方法的跟踪性能明显差于本发明提出的mpq-dpg方法;此外,图2(b)中的跟踪误差表明,mpq-dpg方法可以实现误差更快的收敛,特别是在起始阶段,mpq-dpg方法仍然可以实现快速、高精度的跟踪性能,而神经网络pid方法的响应时间要明显长于mpq-dpg方法,且跟踪误差的收敛性较差。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1