一种基于势博弈的多无人机协同搜索方法_4

文档序号:9921647阅读:来源:国知局
基本单元进行一次 独立的测量,测量结果为Zi,g,t,其4表示无人机VI在时刻t 的位置,Rsi表示无人机传感器的探测范围;若其中屯、位置位于C,.,,之内,则某一单元g内的 信息被无人机VI检测到;在时刻t,无人机VI执行一次测量,观测结果表示如下,(1) 此夕Μ尋正确率和误警率分别定义为P(Zi,g,t=l I目g=l)=Pc和P(Zi,g,t=l I目g=0)=pf, 并假设运两个参数已知,且在整个任务执行过程中保持不变,其中表示目标存在于单元g 中的概率; 对于多无人机网络的通信拓扑,将其建模为一个动态图Gt=(et,vt),该动态图中Vt为顶 点集合,表示为vt = {1,2,...,N},Et为连接边集合,表示为Et = {{i, j} :i, jev; I I < Rci},其中Wi,t和表示两个不同无人机Vi和vj在时亥ijt的位置,Rci为无人机的通信范 围;无人机Vi在时刻t的邻居集合表示为Ni,t= {jEv I U,j} Εε*} U U},为表征方便,设该无 人机本身属于其邻居集合;无人机VI在时刻t的度记为di,t= |Ni,t|,表示它将自身位置信息 和传感器信息传递给邻居个体的能力; 步骤二:多无人机协调运动的势博弈建模和双对数-线性学习法势博弈求解 2.1多无人机协调运动的势博弈建模 将多无人机协调运动建模成势博弈的过程中,包括Ξ方面的要素:博弈参与者、参与者 行动集及效用函数;博弈参与者即为参与捜索过程的η架无人机,需要考虑的为行动集和效 用函数的设计; 博弈参与者行动集Ai的设计:它定义了博弈参与者可选择的全部行为,其中的元素被称 为行动,是参与者在博弈过程中的决策变量;无人机的捜索效率取决于其传感器性能W及 其所在的位置,将某一博弈者的行动集定义为在任务区域内它所能选择的位置,Ai={g|g e Ω }, W,. eF ;无人机Vi的行动表示为aiEAi,整个无人机群体的集体行动表示为a=(ai, 32, ...,an),称作行动组合;设a(t-l)为无人机Vi在时刻t-1的行动组合,则根据无人机运动 特性W及障碍物等行动约束,将时刻t行动集简化为上一时刻行动集的函数,受限的行动 集,记为-明对于博弈者任一行动aiEAi,有aiECi(ai),即无人机被允许停 留在上一时刻的位置; 在无人机被布置到任务器捜集信息时,密度函数η: Ω M+用来记录无人机对任务区 域内目标时间发生概率的了解程度;M+表示正的实数集;由于信号衰减,传感器性能随着 目标单元与无人机位置之间的几何距离增大而降低,因此用非减可微函数f( II q-pi II ): 对传感器的信号强度进行量化分析,qe Ω为任务区域中单元格的位置,Pi为无 人机VI的位置;无人机的性能用概率密度函数和信号衰减综合表示如下:式中n(q)为密度函数,化1为无人机VI的传感距离; 博弈参与者效用函数化(ai,a-i)的设计:无人机VI的效用函数设计为整体效用的边际贡 献值,记做根据势函数的定义,按照式(3)设计效用函数,构成的博弈为势博弈,满足势博弈的相 关性质,能利用各种学习算法保证其最优性和收敛性; 2.2双对数-线性学习法的势博弈求解 采用双对数-线性学习法对问题进行求解,减少无人机计算资源的负担,有利于多无人 机的实时运动控制;在双对数-线性学习法中,首先按异步时间模型W相同的概率随机选择 一架无人机Vi E V改变其位置;与此同时,其他无人机保持之前的行动不变a-i (t) = a-i (t- 1);选择出的无人机从其受限行动集Ci(ai(t-1))中选出尝试动作年W改变其位置其中Zi表示无人机Vi在受限行动集中行动的最大个数,表示关无人机VI在选择出尝试动作為.后,在时刻t按照策略pi(t)e Δ (Ai)来更新其动作,博弈 者策略Pi(t)定义如下:式中化如口_,^/-!的分别是无人机当前行动的效用W及按照选定尝试 动作改变后的假想效用;式中参数τ定义了噪声的强度,即无人机作决策时在多大程度上会 选择次优动作;当时,无人机会W概率1选择a-i( t-1)的最佳应对动作;注意,当对于无人机Vi e V和其行动集中的任一对动作^0,af G 4,可达性表示存在一系列的行 动幻,。^幻;,对所有的tE{i,2,...,m}满足α; eC,'(a;)对于无人机viEV和其 行动集中的任一对动作α;ι,<巨4,口,'eC,.(A)〇A eC(a;),表示其可逆性;对于构 造成效用函数为式(2)的势博弈的多无人机协调运动问题,如果博弈者遵循双对数-线性学 习法,并且其受限行动集满足可达性和可逆性,则无人机在t^w,T^〇时将移动到最大化 其覆盖性能的位置; 步骤Ξ:根据传感器探测信息更新概率图,对更新后的概率图进行信息融合,获取目标 存在概率 3.1根据传感器探测信息更新概率图 首先根据先验知识建立表征各无人机对任务区域的理解程度的概率图,然后通过贝叶 斯规则和在运动过程中获得的信息对概率图进行更新,具体步骤如下; 在捜索过程中,每架无人机VI保存一个它对任务区域所有基础单元的概率图Pi,g,t,表示在时刻t目标存在于单元g中的概率,0g= 1和0g = 〇分别表示目标是 否存在于单元g ;无人机VI根据传感器观测信息Bi, t更新其概率图,公式如下 Pi,g,t=P(目 g=l|Bi,t). (8) 目标存在于单元g在无人机VI在时亥ijt观测值为Zi,g,t时的条件概率P(0g=l|Zi,g,t)按照 贝叶斯公式表示为C9) 其中P(0g=i)为目标存在于单元g中的先验概率;将无人机VI在前一时刻t-1对于目标 存在于单元g的概率估计作为先验概率,结合对于g在时刻t的观测Zi,g,t,式(9)变为(10) 根据贝叶斯公式上式的分母表示为?化,8,〇=?化,8,1;|目8=1化(目8=1)+?化,8,1;|目8 = 〇)P(目g = 0),其中P(Zi,g,t|目g=l)和P(Zi,g,t|目g = 0)为正确检测率和误警率,为建模部分中 的Pc和Pf;将式(10)代入式(9)中,概率图更新规则表示如下,运样,对于Pi,g,tE (0,1),Pi,g,t和Qi,g,t存在一对一映射,实现从Qi,g,t恢复Pi,g,t; 3.2对更新后的概率图进行信息融合,获取目标存在概率 在步骤Ξ中"根据传感器探测信息更新概率图"部分,无人机VI利用传感器探测到的新 息对上一时刻t-1的概率图出,g,t进行更新;每架无人机将更新后的概率图传输给它当前的 邻居,邻居由通信距离和各自的位置决定;然后,利用线性组合的方式对自身更新的概率图 和通信获取的邻居概率图进行融合,如下式(14) 其中是无人机Vi概率图Qj,g, t-1的权重;将不是无人机Vi邻居个体的权重设为 wi,j,t = 0,上式写成如下的形式;(15) 运里Wt= ( ω i,j)采用著名的Metropolis权重矩阵,表示为其中di(t),d^t)表示节点i和j的度,在实际配置中,将WtERDXn存储成稀疏矩阵的形 式,减少所需存储空间;若无人机网络连通,则Wt为遍历性双随机矩阵,使各概率图渐进稳 定到平均一致性;该权重矩阵适用于分布式配置,无人机无需了解无人机网络的通信拓扑 等全局信息,甚至不需要参与整个任务的无人机数目; 对于式(15)定义的分布式信息估计过程,如果执行任务的无人机网络通信拓扑满足W 下两个条件之一,则能够保证渐进收敛到概率图初始状态巧,g,,。的平均值:或者无人机的通 信网络为连通图;或者无人机的通信网络为存在独立通信失败的连通图; 步骤四:根据目标存在概率更新不确定度,并进行多无人机协同捜索 通过与邻居通信进行信息融合,得到估计值II ,该值用来刻画无人机VI对于任 务区域Ω单元g的不确定度;I I越大,无人机Vi的不确定值越小,反之亦然;而捜索问 题构造成了一个具有受限行动集的势博弈,并利用双对数线性学习方法进行协调运动;因 此,利用II化J,k||构造势博弈效用函数中的密度函数n(q),形式如下:(17) 其中kn为正的增益参数,ru,g,k表示无人机VI在时刻k对于单元g的不确定度值; 协同捜索问题被分解为Ξ个连续的部分:协调运动、传感器观测和信息融合更新;开始 更新前,每个无人机初始化一个概率图,该图存储着每个单元中目标存在的概率;随后无人 机根据步骤二中建立的势博弈模型进行协调运动,W优化整体的捜索性能;当到达新的位 置之后,无人机利用传感器对覆盖范围内的单元进行探测;随后,结合探测到的数据,无人 机根据步骤Ξ对各自的概率图进行更新,并通过与邻居个体进行通信进行信息融合;重复 步骤二和步骤Ξ,直至各单元的不确定度降低到设定的阔值之下,此时捜索任务完成。
【专利摘要】本发明是一种基于势博弈的多无人机协同搜索方法,其实施步骤为:步骤一:多无人机协同搜索问题建模;步骤二:多无人机协调运动的势博弈建模和双对数-线性学习法势博弈求解;步骤三:根据传感器探测信息更新概率图,对更新后的概率图进行信息融合,获取目标存在概率;步骤四:根据目标存在概率更新不确定度,并进行多无人机协同搜索。本发明能实现多无人机协同搜索,包含基于势博弈的协调运动、概率图更新、信息融合等过程,由于自身分布式的控制方式,方法计算简单,具有较强的鲁棒性,能有效应对外界干扰。
【IPC分类】G05D1/12, G05B13/04
【公开号】CN105700555
【申请号】CN201610143227
【发明人】段海滨, 李沛
【申请人】北京航空航天大学
【公开日】2016年6月22日
【申请日】2016年3月14日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1