一种高级量测体系网络中传感器节点的自适应调度方法_4

文档序号:9353393阅读:来源:国知局
明的目标有两个:首先,最大化能量效率,即最 小化发送每个包所消耗的能量。其次,最小化节点的平均传输时延。因此,回报函数由两个 独立的部分组成,反映了本发明的两个目标。
[0137] 根据多目标优化算法,回报函数可以如下所示:
[0138]
[0139] 1^表示能量效率,反映了所有邻居节点的平均时延。表示如下:
[0140]
[0141] njP n ^表示一个周期内的发包数量和收包数量,n' b和n b表示在t+1周期和t周 期的队列长度。B是队列空间的长度,是一个周期内消耗的能量。
[0142]
[0143] k表示节点i的邻居节点的数量,1^表示节点i的平均时延。r E。和ruj分别是r ^ 和的最大值。
[0144] 在R-learning过程中,在每个周期的结束,节点计算回报函数值,更新行为值并 根据e-策略选择下一周期的行为,目的是平衡状态-行为对的探索以及修正最优策略。 R-learning算法流程为:
[0145] 初始化p和Q(s, a),对任意s,a
[0146] 重复循环:s -当前状态;
[0147] 根据e-策略选择s状态下的行为a;
[0148] 执行行为a,获得回报r及下一时刻状态s' ;
[0149]
[0150] 如果 MW) = (/'(,然后:
[0151]
[0152] 在此算法流程的基础上,本章根据P0MDP模型的特点,根据e -策略选择当前状态 下的行为时,设计了新的行为搜索策略,即通过结合队列长度、历史区域电网负荷预测状态 L和数据平均重传次数减少函数估计行为值的取值子空间,这样可以减少算法逼近最优解 所需要的迭代次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可 以逼近最优值函数,同时这也符合高级量测体系网络的工作特性。搜索策略公式如下:
[0153]
[0154] nb表示当前队列长度,n _是队列的最大值,action _是行为集合的最大值,L 3是 当前区域历史负荷预测状态,L_是前一日历史负荷曲线的最大值,b是当重传次数超过设 定的门限值时所取的调整值。当a Mtiniatlcin计算得到后,将其前后区间长度为5子区间的作 为行为值的取值子空间。
[0155] 最后通过e-贪婪策略选取下一周期的行为值,实际选取的行为值为a,取值子 空间为[a estimtlon_5,aestimtlon+5],运扣麵^ 1- e >random[0, 1],则 a = aE,否则,以等概率从[aestimaticin-5, aestimaticin+5]中任选一个作为 行为值a,random[0, 1]为区间[0, 1]上的随机数。所述行为值a指当前周期传感器节点所 需的时间片数。
[0156] 调度策略探索结束条件指连续的一段时间的平均回报P之差小于10 4,即平均回 报趋近于收敛。这表明调度表的变化已经趋近于稳定,此时得到的调度表接近于最优调度 策略。
[0157] 综上所述,本发明不限于上述【具体实施方式】。本领域技术人员,在不脱离本发明的 精神和范围的前提下,可做若干的更改和修饰。本发明的保护范围应以本发明的权利要求 为准。
【主权项】
1. 一种高级量测体系网络中传感器节点的自适应调度方法,其特征是包括创建调度表 并依据调度表工作,调度表的创建过程包括如下步骤: 步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取历史 电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信息负 载曲线; 步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用ε -贪 婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数; 步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并依据 增强学习算法的回报函数得出前一周期行为值的回报值; 步骤4)利用前一周期行为值的回报值对通过R-Iearning算法得出的传感器节点的状 态-行为值表进行修正,并根据ε-贪婪策略选择下一周期的行为值; 步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为值表 中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均值,得 出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节点得 到一个状态一行为值映射集合,该状态一行为值映射集合即为需要创建的调度表。2. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。3. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时,设计新的 行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据 平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的迭代次数, 尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值函数。4. 如权利要求3所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 所述行为搜索策略公式为:nb表示当前队列长度,η _是队列的最大值,action _是行为集合的最大值,L s是当前 区域历史负荷预测状态,Lniax是前一日历史负荷曲线的最大值,b是当重传次数超过设定的 门限值时所取的调整值; Istinatlcin计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间,此时 在此取值子空间内根据ε-贪婪策略获取当前周期行为值。5. 如权利要求4所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 所述的ε-贪婪策略包括: 实际选取的行为值为a,取值子空间为[aest_tlC]n-5, aestiniatlcin+5], ) - ηι严 e [~臓_ - 5, 以等概率从[aestimaticin-5,aestimaticin+5]中任选一个作为行为值a,random[0, 1]为区间[0, 1] 上的随机数。6. 如权利要求5所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 步骤3)中的回报函数定义为r,回报值为传感器节点能量效率和无线通信繁忙程度因子加 权和、再与传感器邻居节点平均传输时延进行加权计算得到;传感器节点能量效率和无线 通信繁忙程度因子4为:nJP η彦示一个周期内的发包数量和收包数量,n' b和n b表示在t+Ι周期和t周期的 队列长度,B是队列空间的长度,Efraiire是一个周期内消耗的能量; 传感器邻居节点平均传输时延A为:k表示节点i的邻居节点的数量,1^表示节点i的平均时延。7. 如权利要求6所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 传感器节点通过R-Iearning算法的公式表示如下,行为值函数满足: .· I . -a' _ ' '<i ' t和β表示对当前和未来行为值函数及平均回报p估计的加权值; 调度策略探索结束条件指连续一段时间的平均回报P之差小于10 4,依据最大化平均 回报P的原则,找到的最优策略(31 :S - A),即状态一行为值映射集合作为传感器节点的 调度表。8. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法,其特征是 该调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点根据调度表工作 的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调度表进行更新。9. 如权利要求8所述的高级量测体系网络中传感器节点的自适应调度方法,其特征 是所述较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指在探索新的状 态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则更新调度表中 的状态-行为值。
【专利摘要】本发明涉及一种高级量测体系网络中传感器节点的自适应调度方法,该方法基于增强学习算法创建调度表,各传感器节点依据调度表工作,并以较小的概率探索,如发现更优结果时则更新调度表,从而实现了高级量测体系网络中传感器节点的自适应学习和调度,提高了各个位置上的传感器节点的能量效率,从而降低了传感器节点的能量消耗,增加了传感器节点的生存时间。
【IPC分类】H04W84/18, H04W52/02
【公开号】CN105072671
【申请号】CN201510381808
【发明人】谭虎, 王建玲, 马建生, 孙秀云, 李文波, 李明明, 王小亮, 郑冬仙, 金志强, 徐亭亭, 刘刚, 张薇伟, 徐力, 付明义, 王珂
【申请人】国网山东省电力公司潍坊供电公司, 国家电网公司
【公开日】2015年11月18日
【申请日】2015年6月30日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1