一种基于强化学习的无线传感器网络协同跟踪方法

文档序号:10474359阅读:236来源:国知局
一种基于强化学习的无线传感器网络协同跟踪方法
【专利摘要】本发明公布了一种基于强化学习的无线传感器网络协同跟踪方法,主要解决了无线传感器网络协同跟踪过程中跟踪精度与能量消耗矛盾的问题。所述方法包括:采用Q学习方法,对协同跟踪过程中的簇首及簇成员进行了最优选择;通过制定簇首选择及切换强化学习函数与回报函数,得出了簇首最优选择策略及最优切换时机;在保证跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。该方法在满足跟踪精度的前提下,通过减少簇内成员的使用数量以及采样次数,从而减少了节点的能量消耗,进而延长了网络的工作寿命。
【专利说明】
-种基于强化学习的无线传感器网络协同跟踪方法
技术领域
[0001] 本发明属于无线传感器网络技术领域,特别是一种基于强化学习的无线传感器网 络协同跟踪方法。
【背景技术】
[0002] 现代化战争中,由于战场环境恶劣,作战态势瞬息万变,作战指挥员需要及时掌握 敌方部队的装备及人员的位置信息,进而明确敌方的作战意图。在复杂地形地物条件及严 密伪装的情况下,对地面目标进行跟踪成为了光学侦查和雷达侦查的盲区。然而,无线传感 器网络则可W通过探测人员及装备在地面运动时发出的声响、引起的地面震动或红外福射 变化来发现与跟踪地面运动目标,因此,无线传感器网络协同跟踪方法成为了当前的研究 执占。 "、、'、、、〇
[0003] 无线传感器节点具有独立的探测、计算及通信能力,但是由于节点个体存在能量 有限、资源有限和计算能力有限的约束,传感器节点独立对目标进行跟踪往往无法获得预 期的效果。网络需要通过合理的节点调度方法来延长工作寿命。WSN协同跟踪中普遍采用开 启跟踪目标附近传感器节点而其他节点休眠的工作形式,如何在保证跟踪精度的前提下尽 可能降低网络能量消耗成为了当今学术界研究的关键问题。
[0004] WSN协同跟踪问题是一种在跟踪精度与能量消耗双重约束下的最优问题,因此可 W使用常用的最优求解方法对其进行处理。用于WSN协同跟踪问题处理的典型最优求解方 法包括自然启发式协同跟踪方法、博弈论协同跟踪方法W及强化学习协同跟踪方法=种。 Jena R K等人于2014年提出基于人工蜂群算法的无线传感器网络节点自组织方法,该方法 由于考虑了群体中全局最优捜索的情况,因而能够获得最优解,但算法本身仍具有陷入局 部最优解的可能W及收敛速度慢的缺点。Lin X-H等人于2015年提出基于博弈论的无线传 感器网络能量消耗平衡方法,进而实现网络性能指标的最优求解。但是,使用博弈论的思想 对无线传感器网络协同跟踪问题进行求解时,由于难W选择合适的近似博弈模型,因而得 到的结果往往并非是真正适合网络的最优解。S.Pino-Povedano等人于2014年提出基于强 化学习的无线传感器网络协同跟踪方法,进而实现减少网络能量消耗的目的。该方法具有 必然能够获取最优解的优势,但仍存在着寻优过程较长的缺陷。

【发明内容】

[0005] 本发明所解决的技术问题在于提供一种基于强化学习的无线传感器网络协同跟 臣宗方'法(Reinforcement Learnin邑 Collaborative Trackin邑 Al邑orithm,RLCTA)。
[0006] 实现本发明目的的技术解决方案为:基于强化学习的无线传感器网络协同跟踪算 法包括动态节点选择与目标状态估计两部分。首先,采用动态联盟的思想,通过目标运动触 发机制,在目标附近建立无线传感器网络动态感知簇,通过制定簇首选择及切换强化学习 函数与回报函数,得出了簇首最优选择策略及最优切换时机。在保证跟踪精度的前提下,通 过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。然后,根据动态 感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标的状态进行估计,进而 实现WSN协同跟踪任务。
[0007]本发明与现有技术相比具有W下优点:
[000引1.通过Q学习方法获得簇首最优动作策略,进行最优簇首切换及簇成员的最优选 择;在满足跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔降低网络能 耗。
[0009] 2.针对无线传感器网络协同跟踪中的能量消耗问题,建立跟踪精度误差口限W及 探测概率口限,进而确定了簇成员最少使用个数,在此基础上建立动态感知簇,从而保证了 跟踪精度允许误差范围内的能量消耗最小。
[0010] 下面结合附图对本发明作进一步详细描述。
【附图说明】
[0011] 图1为本发明的流程图。
[0012] 图2为无线传感器网络协同跟踪仿真场景图。
[0013] 图3为跟踪误差比较图。
[0014] 图4为算法能耗对比图。
【具体实施方式】
[0015] 依据附图,对本发明的技术方案作具体说明。
[0016] 所述基于强化学习的无线传感器网络协同跟踪方法,包括W下步骤:
[0017] 步骤1、首先,对无线传感器网络进行能量模型建立。
[0018] 根据使用形式不同,消耗能量可W分为四类基本类型:传感器探测能量消耗Es,节 点发射数据能量消耗Et,节点接收数据能量消耗ErW及节点进行数据融合能量消耗Ef。
[0019] Es与使用传感器进行探测的次数有关,每进行一次探测消耗的能量为一常数。
[0020] Et和Er均与进行通信的数据量有关,当发射(接收)b比特数据时,消耗能量可W分 别表示为:
[0021] (1)
[0022] (2)
[0023] 其中,Sm表示数据发射节点,Sn表示数据接收节点,et表示射频能耗系数,ed表示电 路放大系数,rmn表示节点m与节点n之间的欧氏距离,0表示路径衰减系数;er表示射频消耗 系数。
[0024] Ef与参与数据融合的数据量大小有关,当融合b比特数据时,消耗能量可W表示 为:
[0025] 拉=efb (3)
[0026] 其中,ef表示融合单位比特数据时消耗的能量。
[0027] 考虑跟踪精度约束对模型的影响,定义跟踪精度口限为〇〇,探测概率口限0d。为了 保证跟踪精度满足要求,k时刻跟踪精度误差O化)与探测概率Pr化)需要满足:
[002引 巫化)<巫0 (4)
[0029] Pr(k) < 0d 巧)
[0030] 步骤2、选取簇成员个数。
[0031] 簇成员个数的选择与探测概率PHk)有关。对网络覆盖区域的运动目标进行跟踪 时,假设需要M个节点同时进行探测,每个节点的探测概率均设为a,则此时的探测概率可W 表示为:
[0032] Pr(k) = l-(l-a)M (6)
[0033] 由式(5)和(6)可得簇成员个数为:
[0034] (7)
[0035] 率口限的情况下,簇成员个数最少为:
[0036] (8)
[0037] 运里,「X]表示对X向上取整,即取不小于X的最小整数。
[0038] 因此,为了保证无线传感器网络能够对覆盖区域内的目标进行跟踪,每个簇内成 员节点数目应不小于Mmin。为了保证能量消耗最小,在成簇时成员节点数目均选择为Mmin。
[0039] 步骤3、选取簇首及簇成员。
[0040] 簇首及簇成员工作时,可W分为两种模式:探测模式与簇首切换模式。在探测模式 下,簇首的工作包括接收成员节点探测数据,W及对接收到的数据进行数据融合;簇成员的 工作包括使用传感器探测运动目标,W及将获得的数据发送给簇首。在簇首切换模式下,簇 首负责发射任命信号给新的簇首,簇成员负责接收加入新簇的信号。针对上述两种工作模 式,根据最小成簇数目Mmin,在探测模式下,簇首及簇成员能量消耗表示如下:
[0041 ] (9)
[00 创 (10)
[0043] 其中,Ed_ch表示探测模式下簇首的能量消耗;Ed_cm表示探测模式下簇成员的能量消 耗总和表示第j个节点对运动目标进行探测的次数,nh表示节点j与簇首间的欧氏距离。
[0044] 在簇首切换模式下,簇首及簇成员能量消耗表示如下:
[0045]
(11)
[0046] EcC-CM=GrbbcMmin (12)
[0047] 其中,Eee_CH表示簇首切换模式下的簇首能量消耗,b。。表示簇首任命指令的比特 数,表示当前簇首与下一时刻簇首的欧氏距离;Ecc_cm表示簇首切换模式下的簇成员能量 消耗,bb。表示建立簇成员指令的比特数。
[004引在动态感知簇建立阶段,需要根据性能指标对簇首W及簇成员进行选择。在簇首 选择时应满足各节点与目标间的欧氏距离r不大于节点的探测半径Rd,假设满足条件的节 点个数为J时,可W定义Q值函数如下:
[0049]
(。)
[0050] 其中,St表示当前作为簇首的节点编号j;at表示对应的动作,具有保持与更新两种 形式。
[0051]根据令Q值最大的动作at不同可W对St进行选择。当选择保持动作时,st+1保持t时 刻的节点编号j;当选择更新动作时,SW更新为t+1时刻的节点编号。经过J次选择后,可W 得到最终策略Kt(S):
[00 对
(14)
[0053]其中,At表示at所能选取的动作的集合。该式表示获取最大Q值时,选取动作at的过 程。当采用此策略时,获得编号对应的节点即为簇首。
[0化4] 为下俱讯动杰威钮德能够对后动日标讲斤有泌服臨,可W定义如下回报函数;
[0055]
(15)
[0056] 其中,口,,如)表示基于马氏距离的信息效用函数,用于刻画节点跟踪 能力的强弱,其具体定义为:
[0化7]
(16)
[005引其中,抑与Kw,却)表示目标状态的概率密度,Xk表示目标状态集合,z0:k-康示0至 k-1时刻的历史量测集合,表示k时刻节点j的量测值;Dm (Xk I k-1,j)表示目标与节点j之间 的马氏距离,L(j)表示节点j的位置坐标列向量,XkIk-i表示目标位置预测坐标列向量,Zai1_, 表示目标预测协方差矩阵的逆阵。由上可见,当节点j与目标越近,-DM(Xk|k-l,j)越大,即节 点j对目标探测的效用越高。
[0059] 根据上述定义的回报函数可知,当第j + 1个节点的信息效用函数优于第j个节点 时,获得消极回报,通过式(13)递推计算Q值,便可W得到最优簇首选择策略。然后,在簇首 通讯半径Rc覆盖的区域内选择信息效用函数最大的Mmin个节点作为簇成员,从而实现簇的 建立。
[0060] 由于簇首及簇成员能量有限,并且对目标的跟踪受到簇成员探测半径Rd的限制, 考虑到网络能量均衡性W及跟踪有效性,需要在特定时刻进行簇首切换,从而组成新的动 态感知簇。针对簇首切换问题,可W定义Q值函数如下:
[0061 ]
(17)
[0062]其中,Sk表示当前簇首工作模式;ak表示簇首采用的动作,具有保持与切换两种形 式。当选择保持动作时,Sk=0,簇首工作在探测模式;当选择切换动作时,Sk= 1,簇首工作在 切换模式。畏缘.前W得到畏优雄择策略:
[006;3]
(18)
[0064] 其中,Ak表示ak所能选取的动作的集合。该式表示获取最大Q值时,选取动作ak的过 程。当采用此策略时,获得的簇首切换时间为最优。
[0065] 为了保证簇首剩余能量条件W及跟踪有效性,可W构造回报函数:
[0066]
(19)
[0067] 其中,rcc化)表示簇首切换回报函数,EcH(k)表示k时刻簇首剩余能量,Elow表示簇 首存活能量下限,rj表示目标与第j个簇成员间的欧氏距离,城表示第j个簇成员的探测半 径。
[0068] 根据式(19)可知,当簇首剩余能量小于存活能量下限与簇首切换消耗能量之和或 运动目标超出当前簇任意簇成员探测半径时,保持当前簇工作的动作将会得到消极回报, 将会触发簇首切换动作。
[0069] 步骤4、采用在跟踪精度允许的范围内选择最大采样时间间隔的方式,保证网络能 量消耗达到最小。定义采样时间间隔Q值函数:
[0070]
(20)
[007。 其中,A tk表示k-1时刻到k时刻的采样时间间隔;表示对A tk采取的动作,具有 增大间隔与减小间隔两种形式,且每次调节时,均按照固定常数A Uin进行调节。最终,可W 得到最终策略:
[007^
(21)
[0073] 其中,表示动作所能选取的动作的集合。按照该式可W获得令Q值最大的动 作选取方式,此时获得的A tk即为k时刻最优采样时间间隔。由于采样时间间隔不可能无限 制的减小,因此,当采样时间间隔等于最小采样时间间隔Tmin时,便认为达到最小值。
[0074] 庶巧I册腔摇睛吿成同巧尿I掀.
[0075]
(22)
[0076] 在式(22)中,当k时刻的跟踪精度误差O (k)小于k-1时刻时,获得积极的回报,此 时可W适当增大采样时间间隔,从而降低能量消耗;反之,减小采样时间间隔,从而确保跟 踪精度满足要求。当跟踪精度误差O (k)大于跟踪精度口限(60时,采样时间间隔选取最小 采样时间间隔Tmin,从而保证无线传感器网络能够较快地达到跟踪精度要求。
[0077] 步骤5、目标状态估计。
[007引当k时刻,存在N个节点对同一目标进行跟踪时,可W构造目标量测集合Zk:
[0079]
(23)
[0080] 其中,Zy康示k时刻节点j产生的目标量测信息。
[0081 ]离散时间目标状态方程及目标量测方程定义如下:
[0082] Xk+i=F( A tk)Xk+?k (24)
[0083] Zk = h(Xk)+vk (25)
[0084] 其中,Xk表示目标状态集合,F(Atk)表示状态转换矩阵,表示过程噪声;h(Xk) 表示目标量测矩阵,Vk表示量测噪声。在本章中《 k和Vk均为高斯白噪声,且其协方差矩阵分 别为Qk和化。
[0085] 扩展卡尔曼滤波过程分为状态预测及状态更新两个阶段:
[0086] (1)预测:
[0087]
U6)
[008引 Pk|k-i = F( AtOPk-I|k-iFT( Atk)+Qk-i (27)
[0089] 其中,义|1_,表示目标状态预测矩阵,PkM表示预测状态误差协方差矩阵。
[0090]
(28)
[0091] 其中,Kk表示卡尔曼增益,化表示k时刻量测方程关于目标状态的雅克比矩阵:
[OOW] (29)
[0093]
[0094] (30)
[0095] (31)
[0096] 其中,表示目标状态估计矩阵,Pklk表示估计状态误差协方差矩阵。
[0097] 当在二维平面运动时,目标状态矩阵可W表示为:
[009引 Xk= {x,Vx,y,Vy} (32)
[00"]其中,(x,y)表示目标的位置,(Vx,Vy)表示目标速度的分量。
[0100] 状态误差协方差矩阵可W写为如下形式:
[0101] Pkik=[化] (33)
[0102] 其中,Oij表示矩阵中的元素值,且i = l,2,3,4,j = l,2,3,4。
[0103] 叱时-疏加 Il仿 晋指単化古単巧随而W夫志责.
[0104]
(34)
[0105] 跟踪精度误差可W用预测位置误差协方差矩阵的迹表示:
[0106] 巫化)=tr(2Atk) (35)
[0107] 根据EKF算法,可W得到无线传感器网络下的目标跟踪状态表达形式,根据式(35) 即可求得步骤3中各个时刻的跟踪精度。
[0108] 下面对本发明的方法进行仿真验证,
[0109] 假设无线传感器网络使用300个相同传感器节点,随机分布在500mX500m的监测 区域内。传感器节点的节点初始能量0.2J,Es = 8X10-7J,et = 45X10-9J/bit,ed=10X10-i2j/(bit ? m2),0 = 2,er=135Xl〇-9j/bit,ef = 5Xl〇-9j/bit,bcc=128Obit,bbc = 64bit。节 点探测概率a = 〇.78,探测概率口限目d = 0.99,跟踪误差口限巫〇 = 10,最小采样时间间隔Tmin = O-OlSo
[0110] 目标运动模型选择为二维平面运动,运动模型如式(24)、(25)所示,式中,状态转 移矩阵F( A tk)及协方差矩阵Q化,A tk)定义如下:
[0111] 。6)
[0112] (37)
[0113] 其中,Atk为采样时间间隔,q表示过程噪声强度系数,运里取q = 0.5,运动目标初 始状态乂〇=[50 3 50 3]了,协方差矩阵初始值?〇 =山曰邑([20 4 20 4])。
[0114] 跟踪精度评价指标选择为位置估计均方根误差,其定义为:
[0115]
(38)
[0116] 其中,化表示仿真次数,^与兩./分别表示第1次仿真中目标在k时刻的位置估计值 与真实值。
[0117] 为了验证本发明的化CTA方法在跟踪精度与能量消耗方面的性能,选择协同跟踪 中较为经典的IDSQ方法和A-DCS方法加 W比较。
[0118] 图2中显示了无线传感器网络协同跟踪的仿真场景图,通过仿真说明了动态成簇 及簇首切换功能的有效性。
[0119] 图3为跟踪误差比较图,采用RLCTA、IDSQ及A-DCSS种方法分别对同一运动目标进 行跟踪,通过计算位置估计均方根误差可W看出,RLCTA方法的跟踪误差明显小于后两者, 从而证明了本发明提出的方法在跟踪精度方面的优越性。
[0120] 图4为方法能耗对比图,对化CTA、IDSQ及A-DCSS种方法在跟踪过程中的能量消耗 加 W分析,可W看出化CTA方法的能量消耗小于后两者,运是由于该方法通过减少簇成员数 量,减少簇首切换,增大采样时间间隔的方式,尽可能地减少了能量的消耗,因此,证明了本 发明方法对减少网络消耗的有效性。
[0121] 综上所述,本发明的基于强化学习的无线传感器网络协同跟踪方法能够有效地进 行目标跟踪任务,在有效减小跟踪精度误差的同时,降低了网络能量消耗,本发明的强化学 习无线传感器网络协同跟踪方法在处理跟踪精度及能量消耗矛盾方面具有积极的意义。
【主权项】
1. 一种基于强化学习的无线传感器网络协同跟踪方法,其特征在于,包括以下步骤: 第一步,根据无线传感器网络建立能量模型及跟踪精度模型。 第二步,根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员 个数。 第三步,选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数 计算,将信息效用函数的值作为奖惩标准,从而获得令Q值最大的最优动作策略,此时获取 的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点,通过将各节 点信息效用函数值从大到小依次排列,选取函数值最大的最少簇成员个数的节点作为簇成 员。 第四步,判断跟踪精度误差是否达到精度误差门限,若精度误差大于门限值,则采样时 间间隔选为最小采样时间间隔;若精度误差满足门限要求,则根据Q值函数计算获得的最优 策略对米样时间间隔进行增减,最终获得最优米样时间间隔。 第五步,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标 的状态进行估计,进而实现WSN协同跟踪任务。2. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的簇首选择方法,具体是,在簇首选择时应满足各节点与目标间的欧氏距离r不大于节 点的探测半径Rd,假设满足条件的节点个数为J时,可以定义Q值函数如下:其中,st表示当前作为簇首的节点编号j;at表示对应的动作,具有保持与更新两种形 式。3. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的簇首选择回报函数,具体是,回报函数如下:其中表示基于马氏距离的信息效用函数,用于刻画节点跟踪能力 的强弱。4. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的簇首切换方法,具体是,根据簇首能量有限及对目标的跟踪受到簇成员探测半径Rd 的限制,定义Q值函数如下:其中,sk表示当前簇首工作模式;ak表示簇首采用的动作,具有保持与切换两种形式。当 选择保持动作时,sk = 0,簇首工作在探测模式;当选择切换动作时,sk=l,簇首工作在切换 模式。5. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的簇首切换回报函数,具体是,回报函数如下:其中,rcc(k)表示簇首切换回报函数,EcH(k)表示k时刻簇首剩余能量,Euw表示簇首存活 能量下限,^表示目标与第j个簇成员间的欧氏距离,祀表示第j个簇成员的探测半径。6. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的簇首切换方法,具体是,定义Q值函数如下:其中,A tk表示k-Ι时刻到k时刻的采样时间间隔;表示对△ tk采取的动作,具有增大 间隔与减小间隔两种形式,且每次调节时,均按照固定常数A 行调节。当采样时间间 隔等于最小采样时间间隔Tmin时,便认为达到最小值。7. 根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于, 所述的采样时间间隔选择回报函数,具体是,回报函数如下:其中,Φ (k)表示跟踪精度误差。
【文档编号】H04W52/02GK105828287SQ201610146721
【公开日】2016年8月3日
【申请日】2016年3月11日
【发明人】丁勇, 张祺琛, 柏茂羽, 胡忠旺
【申请人】南京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1