无人机路径规划方法及装置与流程

文档序号:18454594发布日期:2019-08-17 01:30阅读:542来源:国知局
无人机路径规划方法及装置与流程

本发明实施例涉及飞行器技术领域,尤其涉及一种无人机路径规划方法及装置。



背景技术:

随着车辆数目的日益增加,地面交通变得拥堵不堪,因此,空中交通受到广泛的关注。其中,飞行器的路径规划是保障空中交通安全和提高交通效率的关键步骤。通常情况下,路径规划是按照一定的评价体系,在规定的时间和空间约束下,寻找由起点到终点的最优路径。但是在实际情况中,飞行器在工作过程中往往无法掌握空间环境的全部信息,有时还要面对地形环境,自身机动性能等因素的限制。这些不利因素无疑给无人机的路径规划造成了不小的挑战。

国内外研究人员在路径规划方面做了大量的工作,包括一些传统规划方法和基于强化学习的方法。现有的规划方法主要包括dijkstra算法和a*算法等,这些规划方法能够获取到从初始点到目的地的最短路径,但是在实施的过程中,必须要事先知道完整的环境信息。同时,这些算法本身的复杂度较高,随着问题规模的增长,算法所需要的计算资源将急剧增大。因此在实际情况下,上述路径规划方法难以得到应用。为解决该问题,基于强化学习的方法被提出,强化学习方法无需事先知道完整的环境信息,方法的复杂度也较低,但是在实际应用中,当周围环境的复杂程度较高时,无人机在训练过程中可能会在较长的时间中,失去探索的方向,甚至困在某个循环中,以致找不到终点,从而使得路径规划失败。

因此,现在亟需一种无人机路径规划方法,解决上述由于环境复杂程度较高,而导致无人机找不到终点从而使得路径规划失败的问题。



技术实现要素:

本发明实施例提供一种无人机路径规划方法及装置,以解决现有技术由于环境复杂程度较高,而导致无人机找不到终点从而使得路径规划失败的问题。

第一方面,本发明实施例提供一种无人机路径规划方法,包括:

获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;

根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的;

基于q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。

在一种可能的设计中,所述获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,具体包括:

根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;

获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;

基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。

在一种可能的设计中,所述根据所述合格轨迹集获取空间内各网格的访问频数,具体包括:

获取所述空间内任意两个网格之间的相互影响因子;

根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;

根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。

在一种可能的设计中,所述空间内各网格的访问频数具体为:

其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。

在一种可能的设计中,所述基于q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径,具体包括:

初始化迭代次数;

当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;

根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;

当所述迭代次数达到所述预设次数后,根据所述更新后的状态动作函数获取训练后的状态动作函数,根据所述更新后的状态动作函数和所述训练后的状态动作函数得到所述无人机规划路线。

在一种可能的设计中,所述基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数,具体包括:

根据所述空间内各网格的访问频数和所述当前状态动作函数,得到状态概率;

根据所述状态概率获取下一步动作和下一步状态,所述下一步动作为无人机下一步要执行的动作,所述下一步状态为所述无人机执行所述下一步动作后所处的状态;

根据所述下一步动作和所述下一步状态,得到所述当前状态动作函数的下一状态动作函数。

在一种可能的设计中,所述更新后的状态动作函数具体为:

其中,s为当前状态,a为当前动作,s'为下一步状态,a'为下一步动作,q'(s,a)为所述更新后的状态动作函数,q(s,a)为所述当前状态动作函数,q(s',a')为所述下一状态动作函数,α为训练速率,r为即时报酬,γ为折扣率,用于减小下一状态动作对当前状态动作的影响。

第二方面,本发明实施例提供一种无人机路径规划装置,包括:

获取模块,用于获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;

处理模块,用于根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行网格化得到的;

规划模块,用于基于q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。

在一种可能的设计中,所述获取模块具体用于:

根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;

获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;

基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。

在一种可能的设计中,所述处理模块具体用于:

获取所述空间内任意两个网格之间的相互影响因子;

根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;

根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。

在一种可能的设计中,所述空间内各网格的访问频数具体为:

其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。

在一种可能的设计中,所述规划模块具体用于:

初始化迭代次数;

当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;

根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;

当所述迭代次数达到所述预设次数后,根据所述更新后的状态动作函数获取训练后的状态动作函数,根据所述更新后的状态动作函数和所述训练后的状态动作函数得到所述无人机规划路线。

在一种可能的设计中,所述规划模块具体还用于:

根据所述空间内各网格的访问频数和所述当前状态动作函数,得到状态概率;

根据所述状态概率获取下一步动作和下一步状态,所述下一步动作为无人机下一步要执行的动作,所述下一步状态为所述无人机执行所述下一步动作后所处的状态;

根据所述下一步动作和所述下一步状态,得到所述当前状态动作函数的下一状态动作函数。

在一种可能的设计中,所述更新后的状态动作函数具体为:

其中,s为当前状态,a为当前动作,s'为下一步状态,a'为下一步动作,q'(s,a)为所述更新后的状态动作函数,q(s,a)为所述当前状态动作函数,q(s',a')为所述下一状态动作函数,α为训练速率,r为即时报酬,γ为折扣率,用于减小下一状态动作对当前状态动作的影响。

第三方面,本发明实施例提供一种无人机路径规划设备,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的无人机路径规划方法。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的无人机路径规划方法。

本发明实施例提供的无人机路径规划方法及装置,首先通过获取专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,得到示教轨迹集,从而将专家知识保留在示教轨迹中,然后根据示教轨迹集得到合格轨迹集,进而获取到空间内各网格的访问频数。本发明实施例将专家知识和q-learning方法结合,实现人机交互,通过专家知识在示教轨迹中的引入,能够较好地启发无人机在路径上的探索,从而避免环境复杂程度较高时无人机找不到终点的情况发生,同时也能提高无人机寻找路径的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的无人机路径规划方法的流程示意图;

图2为本发明又一实施例提供的无人机路径规划方法的流程示意图;

图3为本发明实施例提供的源任务设计流程示意图;

图4为本发明实施例提供的三维示教轨迹dmp处理的示意图;

图5为本发明实施例提供的卷积神经网络的构造示意图;

图6为本发明实施例提供的无人机路径规划装置的结构示意图;

图7为本发明实施例提供的无人机路径规划设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的无人机路径规划方法的流程示意图,如图1所示,包括:

s11,获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹。

本发明实施例基于专家知识驱动,令专家采用人工示教的方式,将知识保留在源任务的示教轨迹中。具体的,令专家依据个人经验与所拥有的知识对每项源任务进行人工示教,即,控制无人机执行多个源任务,从而获得多条无人机在空间中运动的轨迹,得到示教轨迹集。其中,无人机配备导航系统和摄像系统,可实时获取自身的位置和周边环境信息,专家也可根据无人机配备的导航系统和摄像系统来获取无人机所处的状态。

对于获取的示教轨迹集,由于其质量难以保证,因此需要进行过滤处理。本发明实施例中,对示教轨迹集进行分类,得到合格轨迹集和不合格轨迹集。其中,合格轨迹集为示教轨迹中满足预设条件的轨迹,不合格轨迹集为示教轨迹中剩余的其他轨迹。其中,预设条件可以有多个,本发明实施例中,一种可能的预设条件为,无人机根据示教轨迹集中的轨迹飞行时,与任何障碍物都不产生碰撞。满足上述预设条件的轨迹则为合格轨迹。

s12,根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的。

得到合格轨迹集后,对空间进行均匀网格化处理,即,将智能体空间分为一个个的网格。由于合格轨迹集里无人机飞行的轨迹经过的网格数十分有限,因此本发明实施例获取各个网格之间的影响关系,来得到空间内所有网格的访问频数,以避免整体空间状态不均匀的情况,其中,空间内各网格的访问频数指的是空间内各个网格的总体访问情况。

s13,基于q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。

q-learning方法为一种强化学习的方法,本发明实施例采用q-learning方法来进行循环训练,得到无人机规划路径。在对空间进行均匀网格化处理后,各个网格都有对应的初始化值。同时,根据上述合格轨迹集,来获取空间内所有网购的访问频数。由于选取的合格轨迹集是专家示教轨迹集中各维度表现都良好的轨迹集,因此通过合格轨迹集来进行训练。当无人机充初始地点到目的地时,每一条合格轨迹都会经过空间中对应的若干个网格,因此,对于任一个网格,若无人机经过的次数多,则该网格对应的访问频数就较高。反之,若对于任一个网格,无人机经过的次数很少,甚至没有经过,则该网格对应的访问频数就低。

根据各个网格的访问频数,就可以约束无人机状态的个数,其中,无人机的状态可以用无人机所处的位置表征。因此,根据各个网格的访问频数,不断约束无人机路径的空间大小。当某一网格的访问频数越高时,无人机路径就越有可能经过该网格,反之,则无人机路径经过该网格的可能性较小。经过多次的计算与约束,无人机在每个回合中所走的路径也渐趋稳定,进而得到最后的无人机规划路径。

本发明实施例提供的无人机路径规划方法,首先通过获取专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,得到示教轨迹集,从而将专家知识保留在示教轨迹中,然后根据示教轨迹集得到合格轨迹集,进而获取到空间内各网格的访问频数。本发明实施例将专家知识和q-learning方法结合,实现人机交互,通过专家知识在示教轨迹中的引入,能够较好地启发无人机在路径上的探索,从而避免环境复杂程度较高时无人机找不到终点的情况发生,同时也能提高无人机寻找路径的速度。

下面结合图2-5,并采用具体的实施例,对本发明实施例的方案实施过程进行详细说明。图2为本发明又一实施例提供的无人机路径规划方法的流程示意图,如图2所示,包括:

s201,将空间进行区域网格划分构成空间q值表。

一个智能体空间内部是连续的,此处的智能体即为无人机,智能体空间即为无人机可能到达的空间。由于空间内的点数量庞大,不能对每个空间点的情况都加以处理,因此为了后续q-learning算法的实施,本发明实施例将空间进行区域网格划分,将空间划分为一个个均匀的网格,从而形成一个空间q值表。

s202,获取示教轨迹集。

现有的迁移学习方式在是需要为迁移专门设计简单的源任务用于强化学习算法的训练。在源任务训练完成后,再将知识迁移到目标任务中进行训练。因为强化学习算法对于任务的改变十分敏感。这样的流程往往很难达到强迁移,即无人机模仿学习的效果不好。如果源任务与目标任务间的相关性差,甚至会造成负迁移,即无人机未能通过训练学习模仿到对应的任务流程,甚至可能学习到另一套与目标任务无关的流程。为解决该问题,在本发明实施例中,专家将采用人工示教的方式将知识保留在源任务的示教轨迹中。通过对示教轨迹的挖掘,将专家知识以一种可以量化的方式进行表达,以供目标任务的强化学习过程使用。

首先,根据目标子任务得到源任务集,其中目标子任务是根据无人机路径规划中的实际动作得到的。图3为本发明实施例提供的源任务设计流程示意图,如图3所示,在实现无人机路径规划的过程中,根据无人机的实际动作需求,要面临避障,速度变化,捕捉目标等目标子任务的挑战。本发明实施例在准备过程中将这些目标子任务从目标任务中抽离出来,作为单独的任务来完成。在这些子任务<y1,y2,......,yk>的基础上再进行简化与改动,便得到了源任务的集合<x1,x2,......,xk>。例如,若子任务为避障,则对应的源任务可能为左转、右转等,若子任务为速度变化,则对应的源任务可能为加速、减速等。从子任务到源任务的转换,具体的可以通过数学建模完成。由于这些源任务是从子任务演变过来的,与目标任务的相关性较好,因此有利于后续的知识迁移。

有了以上的源任务集以后,专家依据个人经验与所拥有的知识对每项源任务进行人工示教。在专家的控制下,智能体(即无人机)完成一系列源任务。获取专家在控制无人机完成源任务集中各项源任务时无人机在空间中运动的轨迹,得到示教轨迹集。在示教过程中,记录下智能体在空间中运动的轨迹,从而将专家知识包含在示教轨迹中。针对每项源任务xi,都有其对应的n条示教轨迹所以总共有k×n条示教轨迹。

s203,将示教轨迹集经dmp处理得到参数集。

由于获得的示教轨迹的质量参差不齐,难以达到统一的标准,其包含的专家知识的质量也难以保证,因此,本发明实施例利用动态运动基元(dynamicmovementprimitives,以下简称dmp)和卷积神经网络(convolutionalneuralnetworks,以下简称cnn)对以上示教轨迹进行分类,保留有用的,对后续训练有帮助的示教轨迹。cnn分类器相对于其他分类方法来说,能够更好地挖掘数据的底层结构信息,进而提升分类的准确度。

但是cnn分类器在确定参数的过程中往往需要较多的训练数据作为支撑,而本发明实施例中,示教轨迹的数目是极其有限的。示教轨迹本身是一个时间序列问题,如果把每个时间点代入到神经网络中,就会需要大量的训练数据,而示教轨迹集无法提供足够的数据。而dmp作为一种线性近似器,构成了运动轨迹到各维度上的权重参数的一种映射,可以对运动轨迹进行更好地捕捉。通过线性系统,尽可能地模拟实际轨迹,其线性近似器的权重参数向量w可以唯一表征时间序列的信息。在这种情况下,可以用较少的参数表示出一条运动轨迹的全局信息。

因此,本发明实施例采用dmp参数对轨迹信息进行表示,降低问题复杂度,进而减少cnn所训练的参数个数。针对本发明实施例中可能出现的高维示教轨迹时,可以用dmp对轨迹进行分维度表达。

图4为本发明实施例提供的三维示教轨迹dmp处理的示意图,如图4所示,针对三维的高阶示教轨迹,将其分为x、y、z三个维度,并采用dmp进行处理。同时,针对不同维度的轨迹,设置不同的权重向量wx、wy和wz,其中,上述权重向量是0-1之间随机初始化的值,在后续处理时,需要通过卷积神经网络对上述权重向量进行更新。示教轨迹经dmp处理后,得到一系列dmp参数集δ。

s204,通过cnn分类器对参数集进行分类。

图5为本发明实施例提供的卷积神经网络的构造示意图,如图5所示,关于cnn分类器的设计,本发明实施例主要用到了卷积层、池化层、dropout层和全连接层。卷积层和池化层可以提升cnn提取特征并对其分类的能力。dropout层加在全连接层上可以防止过拟合,提高模型的泛化能力。

由于dmp可以较好地保留轨迹信息,对dmp参数分类也就相当于示教轨迹分类,即对轨迹进行了降维处理。将得到的dmp参数集δ输入cnn分类器,进行相应的处理,得到分类结果。

s205,判断轨迹是否合格,若是,执行s207,若否,执行s206。

根据分类结果,对轨迹进行判定,若轨迹合格,则执行s207,若轨迹不合格,则执行s206

s206,舍弃该轨迹。

对于不合格的轨迹,本发明实施例不予采用,直接舍弃。

s207,组成合格轨迹集。

对于高维运动轨迹,本发明实施例对该轨迹的各个维度分别进行分类。最终在确定轨迹时,选取那些能在多个维度上都具有良好表现的轨迹,得到合格轨迹集δ'。本发明实施例中,具有良好表现的轨迹指的是无人机在根据该轨迹飞行时不会与任何障碍物发生任何碰撞。

s208,根据合格轨迹集计算各个网格的访问频数。

在为各个源任务<x1,x2,......,xk>选择好合理的示教轨迹后,本发明实施例对轨迹进行专家知识的挖掘与迁移。由于示教轨迹所经过的网格数是十分有限的,如果只赋值给这些被直接访问的网格,会造成整体空间状态不均匀的情况发生,这会影响后续学习的效率。

因此本发明实施例获取空间内网格之间的相互影响关系并借助这种关系,刻画出该空间全部网格的被访问可能性,即各个网格的访问频数。之后,统计每个网格的访问频数n,借访问频数的形式表示专家知识对后续训练的影响。智能体空间中任务可能有变,但如访问频数这类的空间信息,则构成了智能体空间的不变特征。更具体地说,访问频数这样的不变特征为专家知识在不同任务间迁移提供了有利条件。

为计算智能体空间内的访问频数,本发明实施例首先获取空间内任意两个网格i和j之间的相互影响因子:

其中,si,j为网格i与网格j之间的相互影响因子,di,j表示网格i与j各自中心之间的距离,c作为常数被用来避免分母取0的情况,c可以为任意的正常数。在实际计算的情况下,本发明实施例主要统计的是示教轨迹所访问的方格对空间内所有网格的影响。通过这样的计算,智能体空间内部状态不均匀的问题将得以很好的解决。

之后,根据相互影响因子得到任一网格在一项源任务中的访问频数。针对第i项源任务来说,第m号方格的访问频数nmi可由下式计算得到:

其中,假设示教轨迹共访问了s个方格,下标中的i表示第i项源任务。

之后,根据权重因子和任一网格在一项源任务中的访问频数,得到空间内各网格的访问频数。引入权重因子w来计算智能体空间内每个网格的总体访问情况。于是有:

其中,m为空间内第m号网格,nm为空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。

这部分权重因子的确定取决于专家对于各项源任务的重要性排序,因此,这也可以看成是专家知识对无人机路径规划的直接影响。至此,可以计算出智能体空间内各状态访问频数这一特征的具体值。

得到各网格的访问频数后,本发明实施例用于进行无人机状态个数的约束。对于访问频数较高的网格,无人机路径规划经过该网格的可能性就越大,反之则无人机路径经过该网格的可能性就越小。因此根据各网格的访问频数,就能够将无人机的状态限定在一定的范围之内,即,无人机规划路径在一定的空间范围内。

s209,初始化空间q值表和迭代次数。

初始迭代次数n0设置为0,预设次数设置为n,其中n的具体数值可根据实际需要设定,此处不作具体限定。初始化空间q值表,即设置空间内每一网格是初始状态动作函数值,本发明实施例中空间q值表可随机初始化。

s210,根据e-greedy策略选取下一步动作。

开始迭代操作,在迭代次数未达到预设次数时,在各网格的访问频数约束的空间内,基于e-greedy策略,即e-贪心算法,根据空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数。具体的,根据空间内各网格的访问频数和当前状态动作函数,设定状态概率e,e为0-1之间的常数,例如可以设定e为0.8、0.9等。然后获取随机概率p,其中p也是0-1之间的常数。

将p与e进行比较,当p大于e时,选取能使得状态动作函数值最大的动作作为下一步动作a',然后根据下一步动作a'得到下一步状态s',其中下一步动作为无人机下一步要执行的动作,下一步状态为无人机执行下一步动作后所处的状态。本发明实施例中,无人机所处的状态可以用无人机的位置来表征,例如,当前无人机位于位置a,此时的下一步动作a'为左转,执行a'后无人机将位于位置b,则位置b为无人机的下一步状态s'。当p不大于e时,则随机选取动作作为下一步动作a'。

当无人机处在约束空间内任意一个位置时,它的下一步动作根据e-greedy策略进行选取,因此每次有e的概率选择对应q值最大的动作。同时,为了探索未知空间,每次也有1-e的概率随机选取动作。

s211,更新空间q值表与智能体的状态。

根据当前状态动作函数的下一状态动作函数,对当前状态动作函数进行训练更新,得到更新后的状态动作函数。

在智能体空间均匀网格化,状态函数值已被初始化的情况下,整个空间可以被视作一张q-learning中具有初始值的q表格。根据q-learning算法,q表格内的值按照下式更新:

其中,s为当前状态,a为当前动作;s'为下一步状态,a'为下一步动作;q'(s,a)为所述更新后的状态动作函数;q(s,a)为所述当前状态动作函数;q(s',a')为所述下一状态动作函数;α为训练速率;r为即时报酬,当下一状态动作能够到达目的地时,r为正数,例如可以设置为1,当下一状态动作与障碍物发送碰撞时,r为负数,例如可以设置为-1,其他情况下,r=0;γ为折扣率,γ是位于0-1之间的常数,用于减小下一状态动作对当前状态动作的影响,γ的具体数值可以根据实际需要设定。

s212,更新迭代次数。

更新迭代次数n0=n0+1。

s213,判断迭代次数是否达到预设次数,若是,执行s214,若否,执行s210。

当n0达到预设次数n后,则执行s214,否则执行s210,继续循环过程。

s214,循环结束。

迭代次数n0达到预设次数n,循环结束,根据更新后的状态动作函数获取训练后的状态动作函数,从而得到无人机规划路线。

本发明实施例提供的无人机路径规划方法,首先通过获取专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,得到示教轨迹集,从而将专家知识保留在示教轨迹中,然后根据示教轨迹集得到合格轨迹集,进而获取到空间内各网格的访问频数,其中源任务由目标子任务演变得到,与目标任务的相关性较好,能够提高后续强化学习的效果。其次,获取专家对于各项源任务的重要性排序,进一步影响无人机的路径规划。本发明实施例将专家知识和q-learning方法结合,实现人机交互,通过专家知识在示教轨迹中的引入,能够较好地启发无人机在路径上的探索,从而避免环境复杂程度较高时无人机找不到终点的情况发生,同时也能提高无人机寻找路径的速度。

图6为本发明实施例提供的无人机路径规划装置的结构示意图,如图6所示,包括获取模块61、处理模块62和规划模块63,其中:

获取模块61用于获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;

处理模块62用于根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行网格化得到的;

规划模块63用于基于q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。

在一种可能的设计中,所述获取模块61具体用于:

根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;

获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;

基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。

在一种可能的设计中,所述处理模块62具体用于:

获取所述空间内任意两个网格之间的相互影响因子;

根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;

根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。

在一种可能的设计中,所述空间内各网格的访问频数具体为:

其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。

在一种可能的设计中,所述规划模块63具体用于:

初始化迭代次数;

当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;

根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;

当所述迭代次数达到所述预设次数后,根据所述更新后的状态动作函数获取训练后的状态动作函数,根据所述更新后的状态动作函数和所述训练后的状态动作函数得到所述无人机规划路线。

在一种可能的设计中,所述规划模块63具体还用于:

根据所述空间内各网格的访问频数和所述当前状态动作函数,得到状态概率;

根据所述状态概率获取下一步动作和下一步状态,所述下一步动作为无人机下一步要执行的动作,所述下一步状态为所述无人机执行所述下一步动作后所处的状态;

根据所述下一步动作和所述下一步状态,得到所述当前状态动作函数的下一状态动作函数。

在一种可能的设计中,所述更新后的状态动作函数具体为:

其中,s为当前状态,a为当前动作,s'为下一步状态,a'为下一步动作,q'(s,a)为所述更新后的状态动作函数,q(s,a)为所述当前状态动作函数,q(s',a')为所述下一状态动作函数,α为训练速率,r为即时报酬,γ为折扣率,用于减小下一状态动作对当前状态动作的影响。

本发明实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图7为本发明实施例提供的无人机路径规划设备的硬件结构示意图,如图7所示,该无人机路径规划设备包括:至少一个处理器71和存储器72。其中,处理器71和存储器72通过总线73连接。

可选地,该模型确定还包括通信部件。例如,通信部件可以包括接收器和/或发送器。

在具体实现过程中,至少一个处理器71执行所述存储器72存储的计算机执行指令,使得至少一个处理器71执行如上的无人机路径规划方法。

处理器71的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器。

总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的无人机路径规划方法。

上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(applicationspecificintegratedcircuits,简称:asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1