一种基于神经网络和人工势场的协同博弈路径规划方法与流程

文档序号:15968930发布日期:2018-11-16 23:21阅读:374来源:国知局

本发明属于智能体动态路径规划领域,特别涉及一种基于神经网络和人工势场的协同博弈路径规划方法。

背景技术

基于神经网络和人工势场的协同博弈路径规划是指:多智能体采用改进的神经网络和人工势场结合的方法,协同地以到达目标区为目的、规避障碍区为约束而进行的路径规划,其中博弈是指目标区和障碍区实时针对多智能体运动进行对抗性反馈。协同博弈路径规划问题是二维空间对质点的动态路径规划问题的重要分支,该问题的研究对机器人围捕、机器人足球赛等现实应用具有重要意义。

现有的人工势场、神经网络等方法对于解决协同博弈路径规划问题都存在一定不足。人工势场法是现有的多智能体实时路径规划问题中的常用方法,该方法借鉴物理场的思想,在虚拟空间中构建来自目标的引力势场和来自障碍的斥力势场,产生的合力影响对象(可能是机器人、飞行器或车辆)的运动,实用性很强,具有原理直观、算法结构简单而可靠易于实现、对动态环境的适应性好、计算开销小而实时性好、无需预先构建c空间(configurationspace)等优点。经过长期研究,人工势场法常见的局部最优解、临近障碍目标不可达(goalsnon-reachablewithobstaclesnearby,gnron)、过狭窄通道时震荡碰壁、动态障碍等问题也已得到较好解决。但现有的人工势场法对协同博弈场景考虑不足,环境的对抗性反馈和智能体协同很难用规则和策略定量地描述。基于控制论的方法虽然可以进行定量的优化,但计算复杂度往往超出实时性的要求。

ssge等2000年在“newpotentialfunctionsformobilerobotpathplanning”中提出的方法是目前最为经典的人工势场法,其是在khatib等1986年在“real-timeobstacleavoidanceformanipulatorsandmobilerobots”中首次提出的原始人工势场法基础上改进了斥力函数构造方法,很大程度上克服了原始方法存在的临近障碍目标不可达(goalsnon-reachablewithobstaclesnearby,gnron)问题。该方法主要包括以下步骤:

1)计算目标点对智能体的引力;

引力势场如公式(1)所示:

其中ka为引力增益,ρ(p,pgoal)=||pgoal-p||为智能体到目标点的欧几里得距离,p为智能体位置坐标,pgoal为目标点位置坐标,n∈(0,+∞),由经验惯例通常取n=2。

引力可通过引力势场的负梯度求得,如公式(2)所示:

2)计算威胁区对智能体的斥力;

斥力势场如公式(3)所示:

其中kr为斥力增益,ρ(p,pthreat)=||pthreat-p||为智能体到威胁区边界最近点的欧几里得距离(正是该距离的引入,避免了同时临近障碍和目标时,斥力覆盖引力造成目标不可达),pthreat为威胁区边界最近点的位置坐标,n∈(0,+∞),由经验惯例通常取n=2,斥力可通过斥力势场的负梯度求得,如公式(4)所示:

3)求合力;

合力为引力和斥力的矢量和,然后进一步将合力转化为运动方向和速度,转化方法根据具体的路径规划问题场景确定。

在每个时刻,智能体按照计算得到的当前时刻的合力进行运动直至下一个时刻;若智能体在下一个时刻到达目标点,则路径规划结束;若未达到,则继续进入下一步路径规划,跳转至步骤1)。

该方法的主要缺点是:对于动态场景的适应性不佳,势场函数不能考虑目标和障碍的运动,不能进行带有预测和前置量的路径规划。

神经网络作为一种强大的机器学习和知识表示方法已经被应用于路径规划之中。一些研究将神经元和神经网络架构映射到构型空间中去,以神经元的输出作为势场引导对象运动。另一些研究利用神经网络进行路径规划前的知识准备工作,例如对环境分类、预测障碍运动模式、计算函数方程等。神经网络也与其它一些方法结合使用,包括模糊控制、遗传算法、模拟退火等。然而很多研究只是利用了神经网络的基本架构和正向传播过程,并未充分利用其学习能力。

为了适应动态路径规划场景,一些研究提出通过各种方式根据动态变化的态势情况自适应调整路径规划方程系数,其中较为典型的是2014年林志雄在《计算机仿真》中提出的“基于神经模糊势场法的足球机器人路径规划”。该方法先对人工势场的函数加以改进,然后增加模糊神经网络模块实时调整改进的人工势场函数系数,模糊神经网络模块由人工设定的模糊规则和模糊集隶属度函数离线训练生成。该方法主要步骤如下:

1)构建和训练模糊神经网络模块;

设定模糊规则集,通过离线训练获得模糊神经网络模块。

2)自适应优化势场函数系数;

使用步骤1)得到的模糊神经网络模块,在线实时对改进的势场函数系数(目标相对速度参数α,障碍相抵参数β)进行优化,具体方法是以一定时间间隔,以当前状态信息作为模糊神经网络输入,正向输出优化的势场函数系数(目标相对速度参数α,障碍相抵参数β)。

3)路径规划;

将步骤2)获得的自适应优化的势场函数系数(目标相对速度参数α,障碍相抵参数β)代入下面的势场函数进行引力和斥力计算,并最终得到合力。

3-1)计算目标点对智能体的引力;

引力计算方法如公式(5)所示:

fatt(p)=kaρ(p,pgoal)+α(vg-v)(5)

其中,ka为引力增益,ρ(p,pgoal)=||pgoal-p||为智能体到目标点的欧几里得距离,p为智能体位置坐标,pgoal为目标点位置坐标,vg为目标速度,v为智能体速度,n∈(0,+∞),由经验惯例通常取n=2。

3-2)计算威胁区对智能体的斥力;

斥力计算方法如公式(6)所示:

其中kr为斥力增益,ρ(p,pthreat)=||pthreat-p||为智能体到威胁区边界最近点的欧几里得距离,pthreat为威胁区边界最近点的位置坐标,p0为斥力最大影响范围,超出该范围后威胁区对智能体斥力降为0,v0为障碍速度,n∈(0,+∞),由经验惯例通常取n=2。

3-3)求合力

合力为引力和斥力的矢量和,然后进一步将合力转化为智能体的运动方向和速度,转化方法根据具体的路径规划问题场景确定。

在每个时刻,智能体按照计算得到的当前时刻的合力进行运动直至下一个时刻;若智能体到达目标点,则路径规划结束;若未达到,则继续进入下一步路径规划,跳转至步骤3-1)。

该方法的主要缺点是:对于博弈场景下的协同路径规划适应性有所欠缺,其路径规划的协同和博弈性主要体现在模糊规则的制定中,然而模糊规则需要人为制定,质量难以保证,采集难度大,不如从样本中学习的好;另一方面,该方法对经典人工势场法中的公式进行了改进,但改进是直接针对引、斥力函数的,并非对于势场函数,根据“由场到力”的原理,该方法跳过场函数直接改进力函数的理论依据有待进一步论证。



技术实现要素:

本发明的目的是为克服已有技术的不足之处,提出一种基于神经网络和人工势场的协同博弈路径规划方法。本发明能够较好地解决协同博弈场景下的路径规划问题,发挥神经网络的学习能力,实用性好,动态自适应性好。

本发明提出一种基于神经网络和人工势场的协同博弈路径规划方法,其特征在于,该方法包括以下步骤:

1)离线阶段;

1-1)构建训练样本集;具体步骤如下:

1-1-1)从参与协同博弈路径规划的r智能体中任意选取第r个智能体记为fr,获取fr的1条优化路径;该优化路径共有t步,则该优化路径包含1至t时刻智能体fr的位置坐标;

对该优化路径,将第t个时刻的智能体位置坐标和对应环境作为一个训练样本的输入;其中第t个时刻的智能体位置坐标为(fr_xt,fr_yt),fr_xt为第r个智能体第t时刻的x坐标,fr_yt为第r个智能体第t时刻的y坐标;第t个时刻对应环境为:fr在t时刻的运动方向fr_vt,t时刻的目标位置(g_xt,g_yt),t时刻的目标运动方向g_vt,t时刻的障碍位置(o_xt,o_yt),t时刻的障碍运动方向o_vt以及除fr外的其它协同智能体t时刻所在位置坐标分别记为(f1_xt,f1_yt)、(f2_xt,f2_yt)、…(fr_xt,fr_yt);将第t时刻的势场函数系数即斥力增益kr作为该训练样本的输出,其中第t时刻的kr通过将第t+1时刻与第t时刻的智能体位置差代入人工势场函数求解得到;则该条优化路径共生成t-1个训练样本;

1-1-2)重复步骤1-1-1),对r个智能体共获取m条优化路径,并对每条优化路径生成对应的训练样本;将所有优化路径的训练样本构成训练样本集;

1-2)构建bp神经网络模块;

1-3)利用步骤1-1)的训练样本集采用冲量梯度下降法对步骤1-2)建立的bp神经网络模块进行离线训练,当到达训练截止条件时,得到训练完毕的bp神经网络模块;

2)在线阶段;

2-1)获取r个智能体中每个智能体的初始位置和对应环境信息,记当前时刻为t时刻,初始化计步器c=0;

2-2)将每个智能体当前时刻的位置和环境信息输入步骤1-3)得到的训练完毕的bp神经网络模块,网络模块输入对应的该智能体当前时刻的斥力增益kr;

对于第r个智能体fr,bp神经网络模块的输入为t时刻的fr位置(fr_xt,fr_yt),t时刻的fr运动方向fr_vt,t时刻的目标位置(g_xt,g_yt),t时刻的目标运动方向g_vt,t时刻的障碍位置(o_xt,o_yt),t时刻的障碍运动方向o_vt,除fr外的其它协同智能体t时刻的位置(f1_xt,f1_yt)、(f2_xt,f2_yt)、…(fr_xt,fr_yt);bp神经网络模块的输出为:智能体fr的t时刻的的斥力增益kr;

2-3)在当前时刻进行基于人工势场的路径规划,得到每个智能体当前时刻的合力;具体步骤如下:

2-3-1)计算目标点对智能体的引力;

对每个智能体,计算引力势场如公式(1)所示:

其中,ka为引力增益,设置为1,ρ(p,pgoal)=||pgoal-p||为智能体到目标点的欧几里得距离,p为智能体位置坐标,pgoal为目标点位置坐标,n∈(0,+∞);

引力通过引力势场的负梯度求得,如公式(2)所示:

2-3-2)计算威胁区对智能体的斥力;

对每个智能体,计算斥力势场如公式(3)所示:

其中,kr为步骤2-2)得到的当前时刻的斥力增益;ρ(p,pthreat)=||pthreat-p||为智能体到威胁区边界最近点的欧几里得距离,pthreat为威胁区边界最近点的位置坐标,p0为斥力最大影响范围;

斥力通过斥力势场的负梯度求得,如公式(4)所示:

2-3-3)求合力;

每个智能体的合力为该智能体对应的引力和斥力的矢量和,矢量的方向即为该智能体下一个时刻的运动的方向;

2-4)每个智能体根据步骤2-3)计算得到的合力进行运动直至t+1时刻,更新计步器c=c+1,并进行判定:

若t+1时刻,r个智能体中任一智能体到达目标点且所有智能体均未到达威胁区,则路径规划成功,方法结束;若t+1时刻,r个智能体中任一智能体到达威胁区,则路径规划失败,方法结束;若t+1时刻所有智能体均未到达到成功或失败条件,则令t=t+1,将t+1时刻作为新的当前时刻,然后重新返回步骤2-2),继续下一时刻路径规划;当计步器c的步数到达设定的步数上限a步时,若所有智能体仍然未达到成功或失败条件,则路径规划记为超时,方法结束。

本发明的特点及有益效果在于:

本发明能够更好地解决协同博弈场景下的路径规划问题,能够更好地适应目标和障碍运动下的动态路径规划,并在路径规划中充分考虑目标和障碍针对本智能体运动做出的对抗性变化;本发明无需人为制定模糊规则,减轻了使用难度,增加了实用性,发挥神经网络的学习能力,通过从协同博弈样本中学习,直接提升了解决协同博弈路径规划问题的效果。

本发明提出了使用bp神经网络动态优化人工势场函数系数,设计了一种以智能体和环境当前状态为输入、势场函数系数为输出的bp神经网络及相应的样本处理和学习方法。

本发明提升了多智能体协同下的博弈路径规划的效果,提升了对动态路径规划的自适应性,对机器人围捕、机器人足球赛等现实应用具有重要意义。

附图说明

图1为本发明方法的整体流程图。

图2为本发明实施例中红方飞机和蓝方飞机路径规划区域的平面俯视图。

图3为本发明实施案例中采用传统经典方法的路径规划结果示意图。

图4为本发明实施案例中采用本发明方法的路径规划结果示意图。

具体实施方式

本发明提出一种基于神经网络和人工势场的协同博弈路径规划方法,下面结合附图和具体实施例进一步详细说明如下。

本发明提出一种基于神经网络和人工势场的协同博弈路径规划方法,分为离线阶段和在线应用阶段,整体流程如图1所示,包括以下步骤:

1)离线阶段;

1-1)构建训练样本集;具体步骤如下:

1-1-1)对于r个智能体的协同博弈路径规划问题(r为正整数),获取第r个智能体fr的1条“优化路径”(r小于等于r),优化路径是指该路径能够较好地满足该协同博弈路径规划问题的目标和约束,优化的程度将影响学习训练得到的神经网络的性能,优化路径的获取可以通过多种手段,例如人工路径规划、基于寻优算法的仿真路径规划等。记该优化路径共有t步(t为正整数且t大于1),即该优化路径包含1至t时刻智能体fr的位置坐标。对该优化路径,将第t个时刻的智能体坐标和对应环境作为一个训练样本的输入;其中第t个时刻的智能体位置坐标为(fr_xt,fr_yt),fr_xt为第r个智能体第t时刻的x坐标,fr_yt为第r个智能体第t时刻的y坐标,t小于等于t;第t个时刻对应环境为:fr在t时刻的运动方向(即第r个智能体第t时刻的y坐标)fr_vt,t时刻的目标位置(g_xt,g_yt),t时刻的目标运动方向g_vt,t时刻的障碍位置(o_xt,o_yt),t时刻的障碍运动方向o_vt以及除fr外的其它协同智能体t时刻所在位置坐标分别记为(f1_xt,f1_yt)、(f2_xt,f2_yt)、…(fr_xt,fr_yt)。将第t时刻的势场函数系数(斥力增益kr)作为该训练样本的输出,其中第t时刻的kr通过将第t+1时刻与第t时刻的智能体位置差代入人工势场函数求解得到,假设一条优化路径包含t步(即总共有t个时刻),则该条优化路径共生成t-1个训练样本(每个训练样本包含对应的输入和输出),样本的数量的大小将影响学习训练得到的神经网络的性能。

1-1-2)重复步骤1-1-1),对r个智能体共获取m条优化路径(m为正整数,m越大训练效果越好,我们认为每个智能体是相同的,只是初始位置不同,只要m够大的话不需要每个智能体都有对应的优化路径),并对每条优化路径生成对应的训练样本;将所有优化路径的训练样本构成训练样本集。

1-2)构建bp神经网络模块;

本发明采用单隐层bp神经网络模块,通过试探法和经验数据设置中间层神经元个数(例如对2个智能体协同的博弈路径规划问题可设为24),激活函数为sigmoid函数。

1-3)利用步骤1-1)得到的训练样本集对步骤1-2)建立的bp神经网络模块进行离线训练,得到训练完毕的bp神经网络模块;

利用步骤1-1)中获取的训练样本集的样本,采用冲量梯度下降法离线训练bp神经网络模块,以均方误差小于0.001或训练迭代达到100000轮为训练截止条件,得到训练完毕的bp神经网络模块。至此,准备工作完成,可以进入实时路径规划在线应用阶段。

2)在线阶段;

2-1)获取r个智能体中每个智能体的初始位置和对应环境信息,这些信息是已知得的,可通过雷达等已有传感器技术获得,记当前时刻为t时刻,初始化计步器c=0;

2-2)将每个智能体当前时刻的位置和环境信息输入步骤1-3)得到的训练完毕的bp神经网络模块,网络模块输入对应的该智能体当前时刻的势场函数系数(斥力增益kr),利用bp神经网络模块对势场函数系数进行自适应优化;

对于第r个智能体fr,bp神经网络模块的输入为t时刻的fr位置(fr_xt,fr_yt),t时刻的fr运动方向fr_vt,t时刻的目标位置(g_xt,g_yt),t时刻的目标运动方向g_vt,t时刻的障碍位置(o_xt,o_yt),t时刻的障碍运动方向o_vt,除fr外的其它协同智能体t时刻的位置(f1_xt,f1_yt)、(f2_xt,f2_yt)、…(fr_xt,fr_yt);bp神经网络模块的输出为:智能体fr的t时刻的势场函数系数(斥力增益kr)。

在实时路径规划在线应用阶段,从初始位置开始,每一时刻对智能体规划其下一步运动到何位置,使用步骤1-3)训练得到的bp神经网络模块,以当前时刻智能体的位置和环境作为输入,正向输出该时刻的势场函数系数(斥力增益kr),达到在线实时计算当前环境下近似最优的斥力增益kr的作用。下一时刻,输入变化的位置和环境使用bp神经网络模块输出更新斥力增益kr,达到自适应优化的作用。

2-3)在当前时刻进行基于人工势场的路径规划,得到每个智能体当前时刻的合力;具体步骤如下:

2-3-1)计算目标点对智能体的引力;

对每个智能体,计算引力势场如公式(1)所示:

其中,ka为引力增益,设置为1,这是为了进一步降低bp神经网络模块输出维度从而提升精度、降低计算复杂度,考虑到合力势场的实质是引力势场和斥力势场的对比,采用比例缩放的思想,从而仅需自适应优化斥力增益kr即可。ρ(p,pgoal)=||pgoal-p||为智能体到目标点的欧几里得距离,p为智能体位置坐标,pgoal为目标点位置坐标,n∈(0,+∞),由经验惯例通常取n=2。

引力可通过引力势场的负梯度求得,如公式(2)所示:

2-3-2)计算威胁区对智能体的斥力;

对每个智能体,计算斥力势场如公式(3)所示:

其中,kr为步骤2-2)得到的当前时刻的斥力增益。ρ(p,pthreat)=||pthreat-p||为智能体到威胁区边界最近点的欧几里得距离(正是该距离的引入,避免了同时临近障碍和目标时,斥力覆盖引力造成目标不可达),pthreat为威胁区边界最近点的位置坐标,p0为斥力最大影响范围,超出该范围后威胁区对智能体斥力降为0,n∈(0,+∞),由经验惯例通常取n=2。

斥力可通过斥力势场的负梯度求得,如公式(4)所示:

2-3-3)求合力;

每个智能体的合力为该智能体对应的引力和斥力的矢量和,矢量的方向即为该智能体下一个时刻的运动的方向;

2-4)每个智能体根据步骤2-3)计算得到的合力进行运动直至t+1时刻,更新计步器c=c+1,并进行判定:

若t+1时刻,r个智能体中任一智能体到达目标点且所有智能体均未到达威胁区,则路径规划成功,方法结束;若t+1时刻,r个智能体中任一智能体到达威胁区,则路径规划失败,方法结束;若t+1时刻所有智能体均未到达到成功或失败条件,则令t=t+1,将t+1时刻作为新的当前时刻,然后重新返回步骤2-2),继续进入下一时刻(即下一步)路径规划;当计步器c的步数到达设定的步数上限a步时(a为正整数,本实施例中a取600)若所有智能体仍然未达到成功或失败条件,则路径规划以超时结束。

下面结合一个具体实施例对本发明进一步详细说明如下。

本实施例以红方2架飞机(红方a机和红方b机)协同地对蓝方1架飞机(靶机)进行博弈路径规划为例。

背景:

图2所示为双方飞机路径规划区域的平面俯视图,初始位置:红方a机在图下部偏左,红方b机在图下部偏右,蓝方靶机在图上部,对红方2架飞机有一个共同的目标区,对红方a机和红方b机分别有一个威胁区。双方飞机均在情报支持下获得对方实时位置和航向信息,靶机两侧区域为目标区、正前方区域为威胁区,红方飞机以进入目标区为目的、以避开威胁区为约束,进行协同博弈路径规划。

基本假设:

假设双方飞机为二维空间内的质点,俯视图中的1个单位距离代表现实空域中的1千米,时域上的步长相当于现实中的1秒。双方飞机始终保持最大速度飞行,其中红方飞机速度0.3千米/秒(约0.9马赫),蓝方飞机速度0.5千米/秒(约1.5马赫)。

初始位置:

红方双机采用间距100千米的编队,若以红方飞机航向作为0度,则靶机随机出现在红方双机编队的-90至+90度方向、距离约300千米。

目标区:

如图2所示点线边界,半径最大处在靶机机头指向的±90度,可达110千米。

威胁区:

相当于传统路径规划问题中的障碍区,与双方飞机相对速度相关,因此红方a机与b机因航向不同而具有不同的威胁区,如图2所示虚线边界,最大处出现在双方飞机迎头飞行时,可达105千米。

判定条件:

当红方任一飞机进入威胁区,为路径规划“失败”;当红方任一飞机进入目标区,且均未进入威胁区,为路径规划“成功”。超过最大步数(设为600步)时红方飞机仍未进入目标区或威胁区,则为“平”局。

博弈环境:

根据红方飞机前一步路径规划决策造成的当前位置和航向,靶机按照“航向指向最先进入威胁区的红方飞机”的策略实时调整航向。

本实施例提出一种基于神经网络和人工势场的协同博弈路径规划方法,包括以下步骤:

1)离线阶段;

1-1)构建训练样本集;

已知红方a机分别在6个初始位置时的优化路径,即总共6条优化路径,对每一条优化路径,将第t个时刻的坐标和对应环境作为一个训练样本的输入,将第t时刻的势场函数系数(斥力增益kr)作为该训练样本的输出,其中第t时刻的kr通过将第t+1时刻与第t时刻的智能体位置差代入人工势场函数求解得到,假设一条优化路径包含t步(即总共有t个时刻),则该优化路径共生成t-1个训练样本(每个训练样本包含对应的输入和输出)。

对6条优化路径均按以上方式处理,并对每条优化路径生成对应的训练样本;将所有优化路径的训练样本构成训练样本集。

本实施例中,红方b机作为“环境”的一部分,参与构建训练样本集。

由于a机和b机是相同的智能体,也可以对b机做相同的处理加入到训练样本集中,但本实施例中仅使用了a机的优化路径构建训练样本集。

1-2)构建bp神经网络模块;

采用单隐层bp神经网络模块,设置中间层神经元个数为24,激活函数为sigmoid函数。

对红方a机第t+1时刻进行路径规划时,bp神经网络模块的输入为:红方a机t时刻位置(fa_xt,fa_yt),红方a机t时刻运动方向fa_vt,目标区最近点t时刻位置(g_xt,g_yt),t时刻靶机运动方向g_vt,t时刻障碍区最近点位置(o_xt,o_yt),t时刻红方另一架飞机b的位置(fb_xt,fb_yt);bp神经网络模块输出为:红方a机t时刻优化的势场函数系数(斥力增益kr)。

1-3)利用步骤1-1)获取的训练样本集对步骤1-2)建立的bp神经网络模块进行离线训练,得到训练完毕的bp神经网络模块;

使用步骤1-1)中训练样本集的样本,采用冲量梯度下降法离线训练bp神经网络模块,以均方误差小于0.001或训练迭代达到100000轮为截止条件。至此,准备工作完成,可以进入实时路径规划在线应用阶段。

2)在线阶段;

2-1)获取每个智能体的初始位置和对应的环境信息,记当前时刻为t时刻,初始化计步器c=0;

2-2)将每个智能体当前时刻的位置环境信息输入步骤1-3)得到的训练完毕的bp神经网络模块,网络模块输入对应的该智能体当前时刻的势场函数系数(斥力增益kr),利用bp神经网络模块对势场函数系数进行自适应优化;

进入实时路径规划在线应用阶段,从初始位置开始,每一时刻对红方飞机a和b分别规划其下一步运动到何位置,使用步骤1-3)训练得到的神经网络模块,以当前时刻智能体的位置和环境作为输入,正向输出该时刻的势场函数系数(斥力增益kr),达到在线实时计算当前环境下近似最优的斥力增益kr的作用。下一时刻,输入变化的位置和环境使用bp神经网络模块输出更新斥力增益kr,达到自适应优化的作用。

2-3)在当前时刻进行基于人工势场的路径规划,得到每个智能体当前时刻的合力;具体步骤如下

2-3-1)计算目标点对智能体的引力;

对每个智能体(本实施例为红方飞机),计算引力势场如公式(1)所示:

其中ka设置为1,n=2。

引力可通过引力势场的负梯度求得,如公式(2)所示:

2-3-2)计算威胁区对智能体的斥力;

斥力势场如公式(3)所示:

其中n=2。

斥力可通过斥力势场的负梯度求得,如公式(4)所示:

2-3-3)求合力

智能体的合力为该智能体对应的引力和斥力的矢量和,矢量的方向即为该智能体(即红方飞机)下一步运动的方向。

2-4)每个智能体根据步骤2-3)计算得到的合力进行运动直至t+1时刻,更新计步器c=c+1,并进行判定:

若t+1时刻,红方任一飞机到达目标区且所有红方飞机均未到达威胁区,则路径规划以成功结束;若红方任一飞机到达威胁区,则路径规划以失败结束;若t+1时刻所有红方飞机体均未到未达到成功或失败条件,则令t=t+1,将t+1时刻作为新的当前时刻,然后重新返回步骤2-2),继续进入下一时刻(即下一步)路径规划;当计步器c的步数到达600步时红方飞机仍然未达到成功或失败条件时,路径规划以平局结束。

效果:

图3展示采用经典方法(ssge等2000年在“newpotentialfunctionsformobilerobotpathplanning”中提出的方法)的路径规划结果,所示为双方飞机路径规划的平面俯视图,初始位置:红方a机在图下部中间,红方b机在图下部偏左,蓝方靶机在图上部偏右。该方法中的斥力增益kr和引力增益取值为统计获得的平均最优值。由图3可见,由于势场函数系数不能自适应优化:一是造成红方飞机的路径规划对靶机调整航向接近或离开并不敏感,缺乏博弈;二是造成红方两架飞机虽然相距靶机一近一远,路径趋势却相似,未能产生协同。最终的路径规划结果是失败。同样场景下采用本发明方法时,路径规划结果如图4所示,双方飞机初始位置不变,势场函数系数根据实时相对态势自适应优化:红方b机由于距离靶机更远,斥力增益kr自适应减小以使其快速接近靶机,对友机形成支援,这是协同能力的体现;路径规划末段红方飞机即将进入目标区或威胁区,当靶机航向指向本机时斥力增益kr显著增大以逃离威胁区,当靶机航向偏离本机后斥力增益kr迅速回落以趁机逼近目标区,这是博弈能力的体现。

另外,通过一组大样本统计地验证本方法的性能和计算开销,并与经典方法进行对比,如表1所示。样本组包括1000个随机初始位置的路径规划,统计结果显示,对比经典方法,本方法的成功率显著提升达32.3个百分点,成功所需步数减少了约15.37%,充分表明了本方法对路径规划性能的提升。另一方面,虽然神经网络正向传播过程引入了额外的计算开销,使其增加了4个数量级,但依然在毫米量级,考虑到未来实际应用中还将获得进一步软硬件优化,本方法的计算开销是可以接受的。

表1本发明方法与经典方法的总体性能与开销对比表

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1