一种高级量测体系网络中传感器节点的自适应调度方法_2

文档序号:9353393阅读:来源:国知局
均期望P满足:
[0035]
[0036] S和0表示对当前和未来行为值函数及平均回报P估计的加权值;
[0037] 调度策略探索结束条件指连续一段时间的平均回报P之差小于10 4,依据最大化 平均回报P的原则,找到的最优策略(Ji :S - A),即状态一行为值映射集合作为传感器节 点的调度表。
[0038] 该调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点根据调 度表工作的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调度表进 行更新。
[0039] 所述较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指在探索 新的状态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则更新调 度表中的状态-行为值。
[0040] 本发明的有益效果是:由于电网负荷具有时间性和季节性波峰、波谷特性,其末梢 智能传感器网络具有其他无线传感器网络所不具有的流量负载特性,为了有效的利用有限 的电池能量,通过基于R -learning的方法实现了高级量测体系网络中传感器节点的自适 应学习和调度,消除了传感器节点固定占空比所带来的不适应流量负载变化的缺点,通过 传感器节点的动态感知能力,根据不同时期的流量负载特性,生成当前接近最优的调度表, 从而提高了各个位置上的传感器节点的能量效率,降低了传感器节点的能量消耗,增加了 传感器节点的生存时间,提高了高级量测体系网络的实用性。
【附图说明】
[0041] 下面结合附图和【具体实施方式】对本发明作进一步详细说明:
[0042] 图1为本发明中调度表创建过程的流程示意图;
[0043] 图2为本发明中调度表更新过程的流程示意图;
[0044] 图3为本发明的整体流程示意图;
[0045] 图4为增强学习算法的简化模型结构示意图。
【具体实施方式】
[0046] 参照附图,该高级量测体系网络中传感器节点的自适应调度方法包括创建调度表 并依据调度表工作,其中,调度表的创建过程包括如下步骤:
[0047] 步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取 历史电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信 息负载曲线;
[0048] 步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用 e _贪婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数;
[0049] 步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并 依据增强学习算法的回报函数得出前一周期行为值的回报值。
[0050] 步骤4)利用前一周期行为值的回报值对通过R-learning算法得出的传感器节点 的状态_行为值表进行修正,并根据e-贪婪策略选择下一周期的行为值;
[0051] 步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为 值表中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均 值,得出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节 点得到一个接近于最优的状态一行为值映射集合,该状态一行为值映射集合即为需要创 建的调度表。
[0052] 其中,步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。
[0053] 在步骤2)中,获取当前周期的行为值是指根据e -策略选择当前状态下的行为值 时,设计新的行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状 态L和数据平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的 迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最 优值函数。
[0054] 行为搜索策略公式为:
[0055]
[0056] nb表示当前队列长度,n _是队列的最大值,action _是行为集合的最大值,L 3是 当前区域历史负荷预测状态,L_是前一日历史负荷曲线的最大值,b是当重传次数超过设 定的门限值时所取的调整值;
[0057] aMtiniatlcin计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间, 此时在此取值子空间内根据e-贪婪策略获取当前周期行为值。
[0058] e _贪婪策略包括:
[0059] 实际选取的行为值为a,取值子空间为[aestiniatlcin_5, aestiniatlcin+5],
若 1- e >random[0, 1],贝丨J a = aE,否则, 以等概率从[aestimaticin-5,aestimaticin+5]中任选一个作为行为值a,random[0, 1]为区间[0, 1] 上的随机数。
[0060] 步骤3)中的回报函数定义为r,回报值为传感器节点能量效率和无线通信繁忙程 度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到。
[0061] 在本发明中,主要目标有两个:首先,最大化能量利用效率,即最小化平均发送每 个包所消耗的能量。其次,最小化节点的平均传输时延,其又包括两部分,即最小化数据包 在传感器节点存储队列的等待时间和最小化传感器节点邻居节点的平均传输时延。因此, 回报函数由两个独立的部分组成,分别反映了本发明的两个目标。
[0062] 根据在高级量测体系网络中传感器节点工作的特点,其中对于传感器节点能量效 率和无线通信繁忙程度因子,其根据在一个周期初始阶段及结束阶段队列长度的不同,分 为四种情况。情况一:初始阶段队列长度不为〇,且结束阶段队列长度大于初始阶段队列长 度,说明此时传感器节点无线通信较为繁忙,计算公式为收发包数量和与本周期消耗能量 的比值与队列繁忙程度因子进行加权。情况二:初始阶段队列长度不为0,且结束阶段队列 长度小于等于初始阶段队列长度,说明此时传感器节点无线通信较为空闲,计算公式为收 发包数量和与本周期消耗能量的比值。情况三:初始阶段队列长度为0,且结束阶段队列长 度不为0,说明此时传感器节点无线通信较为繁忙,计算公式为无线通信繁忙程度因子。情 况四:初始阶段队列长度为0,且结束阶段队列长度也为0,说明此时传感器节点工作状态 较优,定义此时传感器节点能量效率和无线通信繁忙程度因子为1。传感器节点平均传输时 延为传感器节点i所有邻居节点传输时延的平均值。回报函数涉及的加权因子均需根据传 感器节点实际工作环境的不同进行调优。依据前述内容,传感器节点能量效率和无线通信 繁忙程度因子r E用公式表示为:
[0063]
[0064] njP n ^表示一个周期内的发包数量和收包数量,n' b和n b表示在t+1周期和t周 期的队列长度,B是队列空间的长度,是一个周期内消耗的能量;
[0065] 传感器邻居节点平均传输时延A为:
[0066]
[0067] k表示节点i的邻居节点的数量,1^表示节点i的平均时延。
[0068] 根据多目标优化算法,回报函数表示为:
[0069]
[0070] rE。和ruj分别是r jP r ^的最大值。
[0071] 传感器节点通过R-learning算法的公式表示如下,行为值函数满足:
[0072]
[0073] s'表不下一周期的状态;
[0074] 平均期望P满足:
[0075]
[0076] 0和0表示对当前和未来行为值函数及平均回报P估计的加权值;
[0077] 调度策略探索结束条件指连续一段时间的平均回报P之差小于10 4,依据最大化 平均回报P的原则,找到的最优策略(Ji :S - A),即状态一行为值映射集合作为传感器节 点的调度表。
[0078] 上述步骤可参照附图1的流程图,图1中:
[0079] 步骤S101),每日零时,用户或关口智能电能表将前一天24小时电气参量信息 负载曲线广播给各传感器节点;与此同时,各传感器节点读取自身队列长度和数据重传次 数;
[0080] 步骤S102),各传感器节点根据当前周期队列长度、数据重传次数、负荷曲线,使用 策略获取当前周期行为值;
[0081] 步骤S103),下一周期传感节点根据能量效率和数据传送时延获得前一周期行为 值的回报值;
[0082] 步骤S104),传感器节点通过R-learning算法更新传感器节点的状态-行为表并 根据e-策略选择下一周期的行为值;
[0083] 步骤S105),判断传感器节点是否符合调度策略探索结束条件;
[0084] 步骤S106),如果S105)为真则传感器节点得到一个接近于最优的状态一行为值 映射集合即调度表,否则循环执行步骤S103)。<
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1