基于贝叶斯学习的无人机集群在线任务规划方法与流程

文档序号:21360227发布日期:2020-07-04 04:33阅读:315来源:国知局
基于贝叶斯学习的无人机集群在线任务规划方法与流程
本发明涉及涉及无人机任务规划
技术领域
,特别是涉及一种基于贝叶斯学习的无人机集群在线任务规划方法、系统、计算机设备及存储介质。
背景技术
:无人机群是一种典型的多智能体系统,可以自主或远程控制,无需飞行员即可执行任务。无人机集群通常用于执行重要任务,例如灾情监测、植物保护和军事侦察。以灾情监测为例,多架无人机可以在灾区上空持续巡逻,协调无人机之间的行动。无人机集群侦察过程可以是:首先收集目标区域的先验知识,并为无人机提供环境动态模型;其次,无人机被分配到目标区域并基于算法执行侦察任务,此时,往往需要派遣无人机集群持续侦察目标环境以提供态势信息。由于无人机的工作环境往往是快速动态变化的,特别是在通信不良等复杂条件下,无人机集群往往需要迅速做出决策并执行行动,因此需要提前对无人机集群进行任务规划。因此,传统的无人机集群任务规划方法往往是根据环境动态模型来进行任务规划的,由于先验知识收集和处理是一个艰苦的过程,会面对如延迟、噪音、偏差和错误等信息,导致环境动态模型参数可能是未知的或者不完美的,且在未知环境中没有预先建立好环境动态模型时,存在无人机集群收集信息不准确的问题。技术实现要素:基于此,为了解决上述技术问题,提供一种基于贝叶斯学习的无人机集群在线任务规划方法、系统、计算机设备及存储介质,可以提高无人机集群任务规划的精度。一种基于贝叶斯学习的无人机集群在线任务规划方法,所述方法包括:分别获取各个无人机的观察转移矩阵,所述无人机根据所述观察转移矩阵实时获取环境状态信息;根据所述环境状态信息生成环境状态转移信息,并根据所述环境状态转移信息生成环境动态函数;通过在线学习算法更新所述环境动态函数的参数,得到目标环境动态函数;根据所述目标环境动态函数,通过在线规划算法规划各个所述无人机的任务路径。在其中一个实施例中,所述方法还包括:提取所述环境状态信息中的环境空间特征;根据所述环境空间特征确定无人机的运动边界以及运动顶点;根据所述运动边界以及所述运动顶点生成无向图。在其中一个实施例中,所述方法还包括:获取所述无人机在所述运动顶点处的状态转移概率;所述根据所述环境状态信息生成环境状态转移信息,包括:根据所述环境状态信息以及所述状态转移概率,生成所述环境状态转移信息。在其中一个实施例中,所述通过在线学习算法更新所述环境动态函数的参数,包括:根据所述观察转移矩阵获取所述无人机在所述运动顶点处的观察数据,并将所述观察数据输入至所述在线学习算法中;获取所述无人机在所述运动顶点处的先验信念;根据所述先验信念以及所述观察数据,计算出所述无人机在所述运动顶点处的后验信念;根据所述后验信念更新所述环境动态函数的参数。在其中一个实施例中,所述根据所述目标环境动态函数,通过在线规划算法规划各个所述无人机的任务路径,包括:获取与所述无人机对应的执行策略;根据所述目标环境动态函数,通过所述执行策略计算与所述无人机对应的回报值;通过所述在线规划算法对所述回报值进行修订,得到修订回报值;根据所述修订回报值规划所述无人机的任务路径。一种基于贝叶斯学习的无人机集群在线任务规划系统,所述系统包括:信息获取模块,用于分别获取各个无人机的观察转移矩阵,所述无人机根据所述观察转移矩阵实时获取环境状态信息;环境动态函数生成模块,用于根据所述环境状态信息生成环境状态转移信息,并根据所述环境状态转移信息生成环境动态函数;目标函数生成模块,用于通过在线学习算法更新所述环境动态函数的参数,得到目标环境动态函数;路径规划模块,用于根据所述目标环境动态函数,通过在线规划算法规划各个所述无人机的任务路径。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:分别获取各个无人机的观察转移矩阵,所述无人机根据所述观察转移矩阵实时获取环境状态信息;根据所述环境状态信息生成环境状态转移信息,并根据所述环境状态转移信息生成环境动态函数;通过在线学习算法更新所述环境动态函数的参数,得到目标环境动态函数;根据所述目标环境动态函数,通过在线规划算法规划各个所述无人机的任务路径。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:分别获取各个无人机的观察转移矩阵,所述无人机根据所述观察转移矩阵实时获取环境状态信息;根据所述环境状态信息生成环境状态转移信息,并根据所述环境状态转移信息生成环境动态函数;通过在线学习算法更新所述环境动态函数的参数,得到目标环境动态函数;根据所述目标环境动态函数,通过在线规划算法规划各个所述无人机的任务路径。上述基于贝叶斯学习的无人机集群在线任务规划方法、系统、计算机设备及存储介质,通过分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息;根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数;通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数;根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。通过预先设置好的观察转移矩阵可以获取到未知环境下的环境状态信息;由于在线学习算法和在线规划算法适用于具有复杂耦合关系的无人机集群,可在短时间内生成高回报和远期策略,可以提高无人机集群任务规划的精度。附图说明图1为一个实施例中基于贝叶斯学习的无人机集群在线任务规划的应用环境图;图2为一个实施例中基于贝叶斯学习的无人机集群在线任务规划方法的流程示意图;图3为一个实施例中无人机集群侦察示意图;图4为一个实施例中环境动态模型的示意图;图5为一个实施例中分布适变式集群因子化前瞻树的示意图;图6为实验中分布适变式集群观测转移模型的示意图;图7为实验中场景a1至场景a4的平均l1-t的示意图;图8为实验中场景a1至场景a4的平均回报值和标准差的示意图;图9为实验中场景b1中每轮每个算法的平均运行时间的示意图;图10为实验中场景b2中各个算法平均回报值及其均方差的示意图;图11为实验中无人机的数量对l1-t的影响的示意图;图12为实验中场景c1中无人机数量对l1-v的影响的示意图;图13为一个实施例中基于贝叶斯学习的无人机集群在线任务规划系统的结构框图;图14为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请实施例提供的基于贝叶斯学习的无人机集群在线任务规划方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110、无人机120,其中计算机设备110与无人机120之间可以通过无线连接。计算机设备110可以分别获取各个无人机120的观察转移矩阵,无人机120根据观察转移矩阵实时获取环境状态信息;计算机设备110可以根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数;计算机设备110可以通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数;计算机设备110可以根据目标环境动态函数,通过在线规划算法规划各个无人机120的任务路径。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、平板电脑和便携式可穿戴设备等。在一个实施例中,如图2所示,提供了一种基于贝叶斯学习的无人机集群在线任务规划方法,包括以下步骤:步骤202,分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息。在本实施例中,每个无人机都具备有观察能力,即无人机可以观察到其所在区域的信息。无人机的观察能力可以通过观察转移矩阵来描述,具体的,每个无人机都有一个独立的事先给定的观察转移矩阵。观察转移矩阵可以表示为po,其中,在观察转移矩阵po中,表示当前状态为ii时,观测为ij的概率。无人机可以根据观察转移矩阵po实时获取环境状态信息。其中,环境状态信息可以包括物理环境的特征,物理环境的特征可以是由物理环境的时空特征决定的。其中,物理环境的时空特征可以包括空间特征、时间特征等。步骤204,根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数。在一个时间步长中,无人机可以从当前位置移动到邻近位置,当无人机访问当前位置时,可以自动观测当前位置以及邻近位置,同时将当前位置的信息状态重置,但是不会重置邻近位置的信息状态。当无人机观测到当前位置的信息状态发生变化,或者无人机从当前位置移动到邻近位置时,可以根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数。步骤206,通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数。其中,环境动态函数的参数可以是期望信息状态转移矩阵。具体的,计算机设备可以通过在线学习算法基于贝叶斯方法来对期望信息状态转移矩阵进行更新,从而得到目标环境动态函数。步骤208,根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。计算机设备可以根据在线规划算法通过扩展蒙特卡洛树搜索方法来规划各个无人机的任务路径。在本实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划方法,通过分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息;根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数;通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数;根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。通过预先设置好的观察转移矩阵可以获取到未知环境下的环境状态信息;由于在线学习算法和在线规划算法适用于具有复杂耦合关系的无人机集群,可在短时间内生成高回报和远期策略,可以提高无人机集群任务规划的精度。在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划方法还可以包括生成无向图的过程,具体过程包括:提取环境状态信息中的环境空间特征;根据环境空间特征确定无人机的运动边界以及运动顶点;根据运动边界以及运动顶点生成无向图。环境空间特征可以被表示为无向图,记为g=<v,e>。其中,v可以用于表示运动顶点集合;e可以用于表示所有无人机运动边界的边的集合,图g中运动顶点的数量可以记为|v|。无人机能够在边上往返运动。运动顶点可以用于表示重要的点目标或面目标。运动顶点v∈v表示指挥员感兴趣的重要目标,e∈e表示两个运动顶点之间是直接可达的,允许无人机直接飞行。时间离散化时步t∈{0,1,2,...},在每个时步中,环境状态改变一次,同时每个无人机完成一次观察、决策和行动。其次,每个运动顶点具有独立变化的信息状态,运动顶点的信息状态分为几个等级ik∈{i1,i2,...,ik},其中i1表示没有新信息时的状态。信息值fk∈r*由信息值函数确定。若k越大,运动顶点的未知信息可能越多,信息值fk也就越高。因此,信息价值函数是单调递增的。如图3所示,在一个实施例中,提供了未知环境中由5个无人机组成的无人机集群侦察示例。其中,黑点代表运动顶点,黑线代表运动边界,三角形代表无人机,阴影区域代表侦察区域。k个无人机,可以用m表示,m={m1,m2,...,mk},在图g中的指定侦察区域内持续收集信息。无人机mk的侦察区域记为gk=<vk,ek>,是g的一个子图,不同无人机的侦察区域可能相互重叠。在任一时步t,每个无人机都在g中的某个运动顶点上,并且允许不同的无人机同时访问同一运动顶点。无人机是移动自主决策实体,行动发生在两个连续的时步之间。在一个时步中,无人机能够从当前顶点v∈vk移动到其邻居顶点adjgk(v)。当无人机访问运动顶点v时,可以会自动观测运动顶点及其相邻运动顶点,同时运动顶点的信息状态将重置为i1,但不会重置其相邻顶点的信息状态。在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划方法还可以包括生成环境状态转移信息的过程,具体过程包括:获取无人机在运动顶点处的状态转移概率;根据环境状态信息以及状态转移概率,生成环境状态转移信息。每个运动顶点具有独立变化的信息状态,运动顶点的信息状态分为几个等级ik∈{i1,i2,...,ik},其中i1表示没有新信息时的状态。计算机设备可以获取无人机在运动顶点处的状态转移概率,从而生成环境状态转移信息。在一个实施例中,如图4所示,示出了环境动态模型的示意图,包括信息状态转移模型和观测转移模型。在获取到观察转移矩阵po后,可以令pio为实际的环境动态模型:pio=pipo。如图4所示,图(a)描述了未知环境中信息状态转移模型;图(b)描述了未知环境中观测转移模型。由于每个无人机的位置状态是完全可观察的,而每个顶点的信息状态是部分可观察的。因此环境动态模型用于描述信息状态转移。在一个实施例中,计算机设备可以根据环境状态转移信息建立ba-td-pomdp框架。部分可观察马尔可夫决策过程(partiallyobservablemarkovdecisionprocess,pomdp)是一种通用化的马尔可夫决策过程,pomdp架构可以模拟不同的真实世界的连续过程。ba-td-pomdp框架可以记为<m,u,a,o,d,r,b,λ,h>。ba-td-pomdp框架中,m={m1,…,mk}是所有无人机的集合,其中mk表示第k个无人机,k表示集合中无人机的数量。m(k)∈m\mk表示在集合m中但不包含mk的无人机集合。u=×kuk是超状态集合,包括信息状态、位置状态和dirichlet参数,记为状态分解为无人机的位置状态和运动顶点的信息状态,记为s=<sv,si>。为状态转移的计数向量。无人机mk的局部超状态记为uk=sk×tk。其中,是所有状态转移参数空间。具体地,是在状态sk执行行动后,状态变为s′k的次数。无人机mk的非可控特征为其侦察区域的信息状态,只能观测但无法控制。无人机mk的非局部控制特征为其位置状态,能够为其自身和其他无人机影响。令为无人机mk的局部状态历史。a=×kak是所有无人机的行动集合,其中ak表示无人机mk的行动空间。一个联合行动记为a=[a1,…ak],ak∈ak。无人机的行动是从当前运动顶点运动到其相邻运动顶点或继续访问当前运动顶点。o=×kok是所有无人机的联合观测集合,包括对位置状态的观测和信息状态的观测,记为o=<ov,oi>。一个联合观测记为o=[o1,…ok],ok∈ok。无人机mk的观测为其局部状态sk。因为位置状态是完全可观的,记为对于信息状态,每个无人机只能观测当前时刻当前位置或者邻居位置。d=×kdk是所有无人机的联合估算环境动态函数。其中,dk为无人机mk的环境动态函数:其中,为在给定时,从信息状态ii到状态in的期望状态转移概率;从信息状态in到观测ij的期望观测概率。当无人机mk执行一个行动,且在真实环境中获得一些观测时,更新一次环境动态函数。其中,是新状态对(ii,in)出现在中的次数。r是在超状态u中执行行动a的即时全局回报函数。回报函数事先是已知的。全局即时回报函数可以分解为所有无人机的局部即时回报函数之和:其中,rk是无人机mk的局部即时回报函数。假设多个无人机在同一时间访问同一运动顶点的效果等于一个无人机的效果。那么rk(sk,ak)定义如下:其中,f(ik)是运动顶点v中的信息值,mfirst是通过协作后第一个被分配访问顶点运动v的无人机。b=×kbk是全局信念状态,表示超状态的概率分布,记为对于计数向量无人机是无法观测的,只能得到计数向量的信念。位置状态是确定的,而信息状态是不确定的。信念状态记为bs=<bv,bi>,其中bv是位置状态的信念,而bi是信息状态的信念。环境的假设条件被放宽了,每个运动顶点独立地变化。因此,无人机mk的信息信念可以被因子化:其中,为运动顶点vn的信息状态,为顶点vn的信息状态为im的概率。初始地,令和表示无人机mk的先验知识。无人机mk的初始信念状态为:其中,为kronecker函数,即当时,函数等于1;反之为0。进一步,运动顶点v的信息状态根据如下公式更新:其中,λ是第一个元素为1且元素数量为n的单位向量,vcur表示在时步t被任一无人机访问的顶点。γ∈[0,1]是折扣率。h∈z+表示规划步长。在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划方法还可以包括更新环境动态函数的参数的过程,具体过程包括:根据观察转移矩阵获取无人机在运动顶点处的观察数据,并将观察数据输入至在线学习算法中;获取无人机在运动顶点处的先验信念;根据先验信念以及观察数据,计算出无人机在运动顶点处的后验信念;根据后验信念更新环境动态函数的参数。在本实施例中,以无人机mk为例进行算法介绍。在线学习算法的输入是无人机mk在真实系统中执行动作ak后获得的观察ok。由于实际环境动态模型参数在仿真过程中是未知的,因此需要提出一种算法来预测信息状态转移矩阵t。首先,基于在线学习算法估计未知信息状态sk。其次,信息状态转移矩阵的学习需要使用贝叶斯学习方法。首先计算运动顶点的先验信念b(s)。其次,在观察到ok之后,计算运动顶点在时步t状态sk∈sk的后验信念b(sk|ok)。第三,选择b(s|ok)中具有最大值的元素所对应的状态作为顶点在时步t的评估状态s′k,并将s′k添加到在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划方法还可以包括规划无人机的任务路径的过程,具体过程包括:获取与无人机对应的执行策略;根据目标环境动态函数,通过执行策略计算与无人机对应的回报值;通过在线规划算法对回报值进行修订,得到修订回报值;根据修订回报值规划无人机的任务路径。在本实施例中,联合策略π:b→a表示每个无人机如何根据当前信念状态选择策略。令πk为无人机mk的策略。此外,全局即时值函v(h)为在历史h上采用联合策略π后的期望即时回报值。在td-pomdp中,全局值函数可以分解为所有无人机的局部即时值函数的总和:其中,hk(t)=[ak(0),ok(0),...,ak(t),ok(t)]是无人机mk的“观测-行动”历史,eπk是执行mk后的期望值。每个无人机的策略是在其优先无人机集合基础上的计算得到的。无人机mk,的优先无人机集合被定义为在无人机mk之前分配的一组无人机,其相应的优先策略集表示为在这种情况下,无人机mk获得无人机ck余下的回报值,即修订回报值其中,引入惩罚因子pe以防止异步重复计数问题,每当无人机mk在m(k)∈ck之前访问运动顶点v时会发生这种情况,这样实际无人机mk的回报值低于其真实价值。此外,全局修订值函数定义如下:其中,是深度d的无人机mk的局部修订回报值。图5显示了一个因子化前瞻树的例子。每个无人机构建一个局部前瞻树,其中圆形循环表示无人机的局部历史,方形表示叶节点的估算值。在线规划算法由几个程序组成:迭代搜索程序、搜索程序、仿真程序、快速搜索程序。每个无人机在每个时步并行迭代地执行算法,在搜索和扩展树之后协调动作。无人机mk首先执行迭代搜索程序,其中迭代次数不超过k。在每次迭代中,在初始化hk之后,执行搜索程序以获取在优先策略集πck约束下的最优策略πk和值函数vk。通过合作图,将πk和vk传送给其他无人机,并接收其他无人机的π(k)和v(k)。无人机mk需要在第n次迭代中等待来自k-n个无人机的消息。需要强调的是,消息传递畅通与否对集群性能影响很大。如果消息无损传递,则无人机能够相互获知其他无人机准备执行策略和值函数,便于各个无人机根据设定规则做决策,因而可以获得近似最优的集群性能;反之,如果无人机需要快速决策或者超过了消息等待时间,那么即便没有等到k-n个消息也可以执行下一步的决策,但该方案无法保证近似最优的集群性能。在比较v(k)与vk之后,存储最大值函数对应的无人机及其策略,分别记为m*和如果具有最大值对应无人机本身,则无人机完成次轮决策,同时其当前时步的策略为πk。否则,m*和将分别添加到ck和πck中,根据πck修订信念bk(hk)。搜索程序计算从depth=0到depth=h-1的无人机mk的最佳行动,并将这些行动存入最优策略中。在每个深度中,和从对应的信念状态中采样。当不满足终止条件时,从采样,同时d基于参数为的dirichlet分布采样。然后程序调入仿真程序,之后,具有最大值的行动记录在中。信息状态反映在即时回报值中,此外在确定行动后位置状态及其观察也是确定性的。仿真程序首先通过上置信界算法计算最优行动通过模拟器g采样得到一个新状态s′k,一个新观测以及一个新修订即时回报值如果h′k不属于树treek,那么前瞻树通过初始化叶节点h′k进行扩展,并计算信念b(h′k)。如果hk属于treek,则通过仿真程序搜索树,直到深度不低于h为止。快速搜索程序通过执行随机策略πrollout来获取节点hk的估计值。仿真系统需要考虑两种冲突。第一种冲突是多个无人机同时访问相同的位置;第二种冲突是无人机mk决定以depth访问运动顶点v,而其他先分配的无人机决定在t∈{depth+1,...,h-1}。在这种冲突下,无人机mk访问运动顶点v的回报值被高估了。具体地,程序首先将sk复制到s′k以避免后续采样的影响。然后,程序查找是否存在第二种冲突,其中δt用于记录访问v的最小时差。当第二种冲突存在时,计算出惩罚因子pe以惩罚无人机mk访问v被高估的值,其中rk是一个采样的修订回报值。此外,无人机的修订期望回报值公式为:其中,在时步t1的修订期望回报值,b(t1)是在时步t1运动顶点v的信念,时步t1是无人机mk的访问时间,时步t2(t2>t1)是最接近t1的无人机m(k)∈ck的访问时间。在一个实施例中,使用本技术方案进行试验的过程及结果如下:实验构建了一些典型的侦察问题。图3可以用于模拟典型的侦察环境。5架无人机在图上执行任务,其中图中包含68个运动顶点和103条运动边界,5个指定的侦察区域对应5架无人机。实际上,运动顶点表示一片区域,例如1000×1000平米的区域,运动边界表示无人机可以直接在区域间移动。在每个区域中,无人机需要耗费一定时间拍照并处理这些照片以获取感兴趣的信息。选择这些无人机的最大处理时间作为时步单位,例如10分钟。此外,感兴趣的信息被离散化为四个状态,相应的值是f={0,2,5,10}。假设所有顶点具有相同的信息转移矩阵,并且所有无人机具有相同的观察能力。真实的信息状态转移如图4(a)所示,无人机的观察转移如图4(b)所示。每次观察后,更新期望的信息状态转移矩阵t。由于矩阵t在当前时刻可能不准确,因此基于当前矩阵推算的未来回报值不如基于未来矩阵推算的回报值准确。因此,折扣因子γ不应该设置过高,在该实验中设置为γ=0.6。所有运动顶点的初始信息状态设置为i1,所有无人机的初始位置在其指定的巡逻区域中随机分配。此外,因为需要使用dirichlet分布评估信息转移矩阵pi,初始计数矩阵所有元素都是1,本实施例中实验在2.6ghz因特尔双核cp和8gb内存的计算机上运行。在一个实施例中,评估了观察能力算法性能的影响,即对l1-t的影响以及实验中的总平均回报值。“l1-距离”是一个评估模型的准确性的指标。信息转移矩阵的“l1-距离”(简称l1-t)由来度量。每个无人机的规划步长设置为7,每个场景的采样次数为1000。在每个场景中,每个算法运行30轮,每轮运行500个时步。在本实施例中,实验构建了四种场景方案:场景a1:无人机具有完全观测能力,观测能力如图6(a)所示。场景a2:无人机具有部分观测能力,观测能力如图4(b)所示。场景a3:无人机具有部分观测能力,观测能力如图6(b)所示。场景a4:无人机具有部分观测能力,观测能力如图6(c)所示。在场景a1中,每个无人机都能够完全观察其当前和邻居位置的信息状态。无人机的观察能力逐渐从场景a1到场景a4逐渐减小。如图7所示,图7描述了场景a1、场景a2、场景a3和场景a4的平均l1-t。随着时间的增加,四条曲线分别逐渐收敛到一个点。实验结果表明,观察能力越高,l1-t越小,期望信息状态转移矩阵t越准确。如图8所示,图8描述了场景a1、场景a2、场景a3和场景a4的平均回报值和标准差。平均回报值的统计分为五组,其中每100个时步统计一次。结果显示场景a1中的回报值高于场景a2,场景a2中的值高于场景a3,场景a3中的回报值高于场景a4。由于无人机的观察能力从场景a4到场景a1逐渐增加,因此对信息状态转移矩阵t和信息状态信念估计的准确性逐渐提高。这意味着,准确的评估有助于做出正确的决策。在一个实施例中,评估了规划步长对dgsmcp、edgsmcp、ba-pomcp和fv-pomcp(factored-valuepomcp)的影响。评估指标为每轮的平均回报值和平均运行时间。基于期望模型的分布式贪婪搜索蒙特卡罗规划(dgsmcpwithexpectedmodel,edgsmcp)算法是dgsmcp算法的一个变体。在每次仿真中,dgsmcp在dirichlet分布上采样估算环境动态模型,而edgsmcp建立估算环境动态模型。与dgsmcp比较时,edgsmcp更省时。此外,ba-pomcp是目前最先进的通用在线学习和规划算法,用于解决ba-pomdp及其扩展问题。fv-pomcp是解决因子化的多无人机的pomdp问题框架的最先进算法。变量为规划步长h和采样次数(简称nos)。观察能力设置与场景a2相同。在每个场景中,每个算法运行30轮,每轮运行200个时步。构建的四个场景为:场景b1:规划步长h为1。场景b2:规划步长h为4。场景b3:规划步长h为7。场景b4:规划步长h为10。图9描述场景b1中各个算法的平均回报值及其均方差。实验表明,从50次采样到1000次采样dgamcp和edgamcp具有的相似性能。从50次采样到1000次采样,dgamcp性能分别优于ba-pomcp性能的49.95%、58.15%、23.66%和13.66%。此外,在这些场景中,dgamcp的性能比fv-pomcp的性能分别高出6.58%到25.70%。表1描述了场景b1中每轮每个算法的平均运行时间。实验结果表明,在这些场景中,edgamcp的运行时间略低于dgamcp的运行时间,dgamcp的运行时间远低于ba-pomcp和fv-pomcp的运行时间。表1:nosba-pomcpdgamcpedgamcpfv-pomcp501.840.930.6937.851006.041.641.2177.4150046.647.004.77382.621000103.4013.619.17769.11图10描述了场景b2中各个算法平均回报值及其均方差。实验表明,从50次采样到1000次采样dgamcp和edgamcp具有的相似性能。从50次采样到1000次采样,dgamcp回报值远超过ba-pomcp回报值。同时,dgamcp回报值高出fv-pomcp回报值的8.59%到31.21%。表2描述了场景b2中每轮每个算法的平均运行时间。实验结果表明,dgamcp的运行时间略高于ba-pomcp的运行时间,edgamcp的运行时间与ba-pomcp的运行时间相似。此外,fv-pomcp的运行时间远远高于其他三种算法。表2:nosba-pomcpdgamcpedgamcpfv-pomcp502.345.964.9554.251006.0510.718.77137.4750036.9545.4536.19799.93100072.1786.8868.581747.95表3和表4描述场景b3中各个算法了平均运行时间及平均回报值。随着采样次数的增加,这四种算法的平均回报值和平均运行时间逐渐增加。在这些场景中,dgamcp回报值类似于edgamcp回报值,但dgamcp的运行时间略高于edgamcp的运行时间。dgamcp的运行时间高于ba-pomcp的运行时间,而dgamcp回报值接近ba-pomcp回报值的两倍。此外,dgamcp完全优于fv-pomcp。表3:nosba-pomcpdgamcpedgamcpfv-pomcp504.3815.1013.3455.461009.4227.7924.46142.8850046.78115.2399.50864.15100096.23214.65181.341915.62表4:nosba-pomcpdgamcpedgamcpfv-pomcp50710.301960.831955.331501.43100804.731989.031987.201636.575001122.732034.302028.371781.1310001254.532043.302030.171862.00随着采样次数的增加,这四种算法的平均回报值和平均运行时间逐渐增加。在这些场景中,dgamcp回报值类似于edgamcp回报值,但dgamcp的运行时间略高于edgamcp的运行时间。dgamcp的运行时间高于ba-pomcp的运行时间,而dgamcp回报值接近ba-pomcp回报值的两倍。此外,dgamcp完全优于fv-pomcp。表5和表6分别描述了场景b4中各个算法平均运行时间和平均回报值。实验结果表明,dgamcp的平均回报值和平均运行时间略高于edgamcp。ba-pomcp的平均运行时间低于edgamcp,但在50次采样、100次采样、500次采样和1000次采样中,ba-pomcp的平均回报值分别为dgamcp的35.81%,39.29%,53.96%和61.22%。dgamcp的平均回报值高于fv-pomcp回报值的9.59%至31.86%,平均运行时间远远低于fv-pomcp。表5:表6:nosba-pomcpdgamcpedgamcpfv-pomcp50706.601973.001970.031496.23100789.002008.301991.061614.575001097.532033.902029.371779.5710001251.432044.002035.131865.07在一个实施例中,实验将dgsmcp和edgsmcp与ba-pomcp和fv-pomcp进行比较,以评估无人机数量对算法性能的影响。评估指标包括:即每轮的平均回报值和平均运行时间。变量为无人机的数量(简称nor)。值函数的“l1-距离”(简称l1-v)通过如下公式度量:其中,和是分别通过执行最优算法和其他算法从0到t的期望累积回报值。于ba-pomcp在适当采样的情况下收敛于ε-优值函数,因而ba-pomcp为作为最优算法予以对比。观测能力与场景a2相同,规划步长设置为7,采样次数设置为1000。在每个场景中,每个算法运行30轮,每轮运行200个步骤,运行时间限制设置为2000秒。此外,构建的四种场景如下:场景c1:如图3所示,2个无人机在图上执行任务。每个无人机有1个邻居,巡逻大约40个顶点。场景c2:如图3所示,5个无人机在图上执行任务。每个无人机有大约2个邻居,巡逻大约19个顶点。场景c3:如图3所示,7个无人机在图上执行任务。每个无人机有大约2个邻居,巡逻大约13个顶点。场景c4:如图3所示,10个无人机在图上执行任务。每个无人机有大约3个邻居,巡逻大约10个顶点。表7和表8分别描述场景c1到场景c4四种算法的平均运行时间和平均回报值。执行程序过程中,内存溢出和违反时间限制的结果由符号“–”表示。实验结果表明,在场景c1中,ba-pomcp具有最高的平均回报值和最低的平均运行时间。但是,在场景c4中,执行ba-pomcp算法时出现内存不足的情况。在场景c2和场景c3中执行fv-pomcp时违反了时间限制。在这些场景中,dgamcp平均回报值比edgamcp稍高,而edgamcp平均运行时间的略低于dgamcp。虽然dgamcp的平均回报值为ba-pomcp的98.90%,但它在场景c2和场景c3中分别优于ba-pomcp62.87%和96.84%。场景c1和场景c2中,dgamcp的平均回报值的fv-pomcp的101.24%和109.74%。表7:nosba-pomcpdgamcpedgamcpfv-pomcp5019.90102.9092.0646.4210096.23214.65181.341915.625001360.17309.15266.50-1000-480.55409.07-表8:nosba-pomcpdgamcpedgamcpfv-pomcp50850.60841.27838.778311001254.532043.302032.1718625001284.072527.502502-1000-3335.933323.80-图11描述了无人机的数量对l1-t的影响。实验结果表明所有曲线最终收敛到相似的值。在场景c4中,曲线具有最快的收敛速度,场景c1中的曲线具有最低的收敛速度。事实上,对于相同的观察能力,无人机的数量越多,每次采集的样本越多,观测矩阵收敛也越快。与其他算法相比,在场景c1中根据ba-pomcp构建前瞻树能够进行充分的采样。因此在这种情况下,ba-pomcp可以视为最优算法。图12显示场景c1中无人机数量对l1-v的影响。随着时间t的增加,dgamcp、edgamcp和fv-pomcp的值函数逐渐收敛。具体来说,在时步t=200,dgamcp、edgamcp和fv-pomcp的l1-v分别为1.1%、1.4%和2.3%。当时步t小于10时,这三条曲线波动较大并且可能小于0。一方面,初始回报值很小,即使回报值偏差很小,偏差的比率也可能很大。另一方面,不准确的期望信息转移矩阵可能导致错误的决定。本方案的实验分析如下:本实验主要研究了提出的在线学习算法和在线规划算法的性能。性能指标包括l1-t、l1-v、平均回报值和平均运行时间。对于在线学习算法,状态估计的准确性与得到的观测矩阵po有很大关系。因此,当无人机具有较高的观察能力时,对信息状态转移矩阵t的评估将更准确,反之亦然。对于在线规划算法,ba-pomcp适用于单无人机或小规模无人机的决策问题。由于ba-pomcp构建了一个关于所有无人机行动的全局前瞻树,使得粒子滤波器无法得到较好的近似值。此外在多无人机场景中,ba-pomcp性能往往表现不佳。fv-pomcp适用于具有局部交互的多无人机的决策问题。fv-pomcp为每个无人机构建一个局部前瞻树。但是,每个无人机在构建前瞻树时,需要考虑其邻居无人机的动作。因此,在紧耦合的多无人机场景中,fv-pomcp往往变现不佳。在dgamcp和edgamcp中,每个无人机根据自己的行动搜索并扩展局部前瞻树,使每棵树具有较低的分支因子。因此,dgamcp和edgamcp只需要通过采样就能得到高回报值。与fv-pomcp相比,dgamcp和edgamcp更加节省时间。由于在fv-pomcp中扩展和搜索树时,需要在每个深度协调不同前瞻树的行动,而dgamcp和edgamcp只需要在完成树的构建之后再协调。此外,dgamcp和edgamcp能够收敛到相同的值函数,因此他们可以获得相近的回报值。应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图13所示,提供了一种基于贝叶斯学习的无人机集群在线任务规划系统,包括:信息获取模块1310、环境动态函数生成模块1320、目标函数生成模块1330和路径规划模块1340,其中:信息获取模块1310,用于分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息。环境动态函数生成模块1320,用于根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数。目标函数生成模块1330,用于通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数。路径规划模块1340,用于根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划系统还包括:特征提取模块、信息确定模块以及图像生成模块,其中:特征提取模块,用于提取环境状态信息中的环境空间特征。信息确定模块,用于根据环境空间特征确定无人机的运动边界以及运动顶点。图像生成模块,用于根据运动边界以及运动顶点生成无向图。在一个实施例中,提供的一种基于贝叶斯学习的无人机集群在线任务规划系统还包括概率获取模块,用于获取无人机在运动顶点处的状态转移概率;环境动态函数生成模块1320还用于根据环境状态信息以及状态转移概率,生成环境状态转移信息。在一个实施例中,目标函数生成模块1330还用于根据观察转移矩阵获取无人机在运动顶点处的观察数据,并将观察数据输入至在线学习算法中;获取无人机在运动顶点处的先验信念;根据先验信念以及观察数据,计算出无人机在运动顶点处的后验信念;根据后验信念更新环境动态函数的参数。在一个实施例中,路径规划模块1340还用于获取与无人机对应的执行策略;根据目标环境动态函数,通过执行策略计算与无人机对应的回报值;通过在线规划算法对回报值进行修订,得到修订回报值;根据修订回报值规划无人机的任务路径。在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于贝叶斯学习的无人机集群在线任务规划方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息;根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数;通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数;根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取环境状态信息中的环境空间特征;根据环境空间特征确定无人机的运动边界以及运动顶点;根据运动边界以及运动顶点生成无向图。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取无人机在运动顶点处的状态转移概率;根据环境状态信息以及状态转移概率,生成环境状态转移信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据观察转移矩阵获取无人机在运动顶点处的观察数据,并将观察数据输入至在线学习算法中;获取无人机在运动顶点处的先验信念;根据先验信念以及观察数据,计算出无人机在运动顶点处的后验信念;根据后验信念更新环境动态函数的参数。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取与无人机对应的执行策略;根据目标环境动态函数,通过执行策略计算与无人机对应的回报值;通过在线规划算法对回报值进行修订,得到修订回报值;根据修订回报值规划无人机的任务路径。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:分别获取各个无人机的观察转移矩阵,无人机根据观察转移矩阵实时获取环境状态信息;根据环境状态信息生成环境状态转移信息,并根据环境状态转移信息生成环境动态函数;通过在线学习算法更新环境动态函数的参数,得到目标环境动态函数;根据目标环境动态函数,通过在线规划算法规划各个无人机的任务路径。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取环境状态信息中的环境空间特征;根据环境空间特征确定无人机的运动边界以及运动顶点;根据运动边界以及运动顶点生成无向图。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取无人机在运动顶点处的状态转移概率;根据环境状态信息以及状态转移概率,生成环境状态转移信息。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据观察转移矩阵获取无人机在运动顶点处的观察数据,并将观察数据输入至在线学习算法中;获取无人机在运动顶点处的先验信念;根据先验信念以及观察数据,计算出无人机在运动顶点处的后验信念;根据后验信念更新环境动态函数的参数。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取与无人机对应的执行策略;根据目标环境动态函数,通过执行策略计算与无人机对应的回报值;通过在线规划算法对回报值进行修订,得到修订回报值;根据修订回报值规划无人机的任务路径。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1