一种高级量测体系网络中传感器节点的自适应调度方法_4

文档序号：9353393阅读：来源：国知局

明的目标有两个：首先，最大化能量效率，即最小化发送每个包所消耗的能量。其次，最小化节点的平均传输时延。因此，回报函数由两个独立的部分组成，反映了本发明的两个目标。
[0137] 根据多目标优化算法，回报函数可以如下所示：
[0138]
[0139] 1^表示能量效率，反映了所有邻居节点的平均时延。表示如下：
[0140]
[0141] njP n ^表示一个周期内的发包数量和收包数量，n' b和n b表示在t+1周期和t周期的队列长度。B是队列空间的长度，是一个周期内消耗的能量。
[0142]
[0143] k表示节点i的邻居节点的数量，1^表示节点i的平均时延。r E。和ruj分别是r ^ 和的最大值。
[0144] 在R-learning过程中，在每个周期的结束，节点计算回报函数值，更新行为值并根据e-策略选择下一周期的行为，目的是平衡状态-行为对的探索以及修正最优策略。 R-learning算法流程为：
[0145] 初始化p和Q(s, a)，对任意s，a
[0146] 重复循环：s -当前状态；
[0147] 根据e-策略选择s状态下的行为a;
[0148] 执行行为a，获得回报r及下一时刻状态s' ；
[0149]
[0150] 如果 MW) = (/'(，然后：
[0151]
[0152] 在此算法流程的基础上，本章根据P0MDP模型的特点，根据e -策略选择当前状态下的行为时，设计了新的行为搜索策略，即通过结合队列长度、历史区域电网负荷预测状态 L和数据平均重传次数减少函数估计行为值的取值子空间，这样可以减少算法逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数，同时这也符合高级量测体系网络的工作特性。搜索策略公式如下：
[0153]
[0154] nb表示当前队列长度，n _是队列的最大值，action _是行为集合的最大值，L 3是当前区域历史负荷预测状态，L_是前一日历史负荷曲线的最大值，b是当重传次数超过设定的门限值时所取的调整值。当a Mtiniatlcin计算得到后，将其前后区间长度为5子区间的作为行为值的取值子空间。
[0155] 最后通过e-贪婪策略选取下一周期的行为值，实际选取的行为值为a，取值子空间为[a estimtlon_5，aestimtlon+5]，运扣麵^ 1- e >random[0, 1]，则 a = aE，否则，以等概率从[aestimaticin-5, aestimaticin+5]中任选一个作为行为值a，random[0, 1]为区间[0, 1]上的随机数。所述行为值a指当前周期传感器节点所需的时间片数。
[0156] 调度策略探索结束条件指连续的一段时间的平均回报P之差小于10 4,即平均回报趋近于收敛。这表明调度表的变化已经趋近于稳定，此时得到的调度表接近于最优调度策略。
[0157] 综上所述，本发明不限于上述【具体实施方式】。本领域技术人员，在不脱离本发明的精神和范围的前提下，可做若干的更改和修饰。本发明的保护范围应以本发明的权利要求为准。
【主权项】
1. 一种高级量测体系网络中传感器节点的自适应调度方法，其特征是包括创建调度表并依据调度表工作，调度表的创建过程包括如下步骤：步骤1)传感器节点读取自身队列长度和数据重传次数，并从关口智能电表获取历史电气参量信息负载曲线；历史电气参量信息负载曲线是指上一时间区域的电气参量信息负载曲线；步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数，并使用ε -贪婪策略获取当前周期的行为值；行为值是指当前周期传感器节点所需的时间片数；步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延，并依据增强学习算法的回报函数得出前一周期行为值的回报值；步骤4)利用前一周期行为值的回报值对通过R-Iearning算法得出的传感器节点的状态-行为值表进行修正，并根据ε-贪婪策略选择下一周期的行为值；步骤5)重复步骤3)和步骤4)，在上一时间区域内，计算在步骤3)时状态-行为值表中所有回报值的平均值，同时计算在步骤4)时状态-行为值表中所有回报值的平均值，得出上述两个平均值的差值，当该差值满足调度策略探索结束条件的标准时，传感器节点得到一个状态一行为值映射集合，该状态一行为值映射集合即为需要创建的调度表。2. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。3. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤2)中获取当前周期的行为值是指根据ε-策略选择当前状态下的行为值时，设计新的行为搜索策略，该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L和数据平均重传次数减少函数估计行为值的取值子空间，以减少逼近最优解所需要的迭代次数，尤其是当网络比较稳定时，只需要得到最优策略准则的一个子集就可以逼近最优值函数。4. 如权利要求3所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述行为搜索策略公式为：nb表示当前队列长度，η _是队列的最大值，action _是行为集合的最大值，L s是当前区域历史负荷预测状态，Lniax是前一日历史负荷曲线的最大值，b是当重传次数超过设定的门限值时所取的调整值； Istinatlcin计算得到后，将其前后区间长度为5子区间的作为行为值的取值子空间，此时在此取值子空间内根据ε-贪婪策略获取当前周期行为值。5. 如权利要求4所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述的ε-贪婪策略包括：实际选取的行为值为a，取值子空间为[aest_tlC]n-5, aestiniatlcin+5]， ) - ηι严 e [~臓_ - 5, 以等概率从[aestimaticin-5，aestimaticin+5]中任选一个作为行为值a，random[0, 1]为区间[0, 1] 上的随机数。6. 如权利要求5所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是步骤3)中的回报函数定义为r，回报值为传感器节点能量效率和无线通信繁忙程度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到；传感器节点能量效率和无线通信繁忙程度因子4为：nJP η彦示一个周期内的发包数量和收包数量，n' b和n b表示在t+Ι周期和t周期的队列长度，B是队列空间的长度，Efraiire是一个周期内消耗的能量；传感器邻居节点平均传输时延A为：k表示节点i的邻居节点的数量，1^表示节点i的平均时延。7. 如权利要求6所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是传感器节点通过R-Iearning算法的公式表示如下，行为值函数满足： .· I . -a' _ ' '<i ' t和β表示对当前和未来行为值函数及平均回报p估计的加权值；调度策略探索结束条件指连续一段时间的平均回报P之差小于10 4,依据最大化平均回报P的原则，找到的最优策略（31 :S - A)，即状态一行为值映射集合作为传感器节点的调度表。8. 如权利要求1所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是该调度方法还包括调度表的更新过程，调度表的更新过程为：传感器节点根据调度表工作的同时，以较小的概率探索新的状态-行为值，当发现更优的结果时对调度表进行更新。9. 如权利要求8所述的高级量测体系网络中传感器节点的自适应调度方法，其特征是所述较小的概率为5%的概率，发现更优的结果时对调度表进行更新是指在探索新的状态-行为值时，如果发现Q(s，a)的值优于已创建的调度表中的最优值时，则更新调度表中的状态-行为值。
【专利摘要】本发明涉及一种高级量测体系网络中传感器节点的自适应调度方法，该方法基于增强学习算法创建调度表，各传感器节点依据调度表工作，并以较小的概率探索，如发现更优结果时则更新调度表，从而实现了高级量测体系网络中传感器节点的自适应学习和调度，提高了各个位置上的传感器节点的能量效率，从而降低了传感器节点的能量消耗，增加了传感器节点的生存时间。
【IPC分类】H04W84/18, H04W52/02
【公开号】CN105072671
【申请号】CN201510381808
【发明人】谭虎, 王建玲, 马建生, 孙秀云, 李文波, 李明明, 王小亮, 郑冬仙, 金志强, 徐亭亭, 刘刚, 张薇伟, 徐力, 付明义, 王珂
【申请人】国网山东省电力公司潍坊供电公司, 国家电网公司
【公开日】2015年11月18日
【申请日】2015年6月30日

完整全部详细技术资料下载

当前第4页1 2 3 4