一种高级量测体系网络中传感器节点的自适应调度方法

文档序号:9353393阅读:173来源:国知局
一种高级量测体系网络中传感器节点的自适应调度方法
【技术领域】
[0001] 本发明涉及智能电网领域,具体的说是一种高级量测体系网络中传感器节点的自 适应调度方法。
【背景技术】
[0002] 在智能电网中,高级量测体系(AMI)是用来测量、采集、传送、储存、分析和应用客 户用电信息,实现需求响应、双向互动,支持客户合理用电、节约用电的技术体系。与传统 用电信息采集系统相比,高级量测体系不但能实现对计量点电能、电流、电压、功率因数、负 荷曲线等电气参量信息的采集,同时还可以通过智能传感网络采集非计量点的数据,如用 户侧设备运行状态、分布式电源运行信息、有序充放电监控信息、智能楼宇/小区用能信息 等。
[0003] 高级量测体系的末梢智能传感器网络具有传感识别设备种类多、数量大、实时性 要求高等特点,由于电网负荷具有时间性和季节性波峰、波谷特性,从而引起末梢智能传感 器网络具有其他无线传感器网络所不具有的流量负载特性,为了有效的利用能量,节点传 感识别设备的通信模块在大部分时间需要保持在睡眠模式,只有在接收和发送数据时才周 期性的进入侦听模式。在实际运行中,当网络负载比较稳定时,靠近汇聚点的节点由于需要 转发更多的数据,因而需要更长的侦听时间,想反,距离汇聚节点较远的节点则应该更多的 处于睡眠状态。但是,现有的调度系统没有考虑这种情况,没有为不同位置的传感器节点分 配不同的占空比。同样的,在网络拓扑结构比较稳定时,现有调度系统也没有考虑到由于电 网负荷波峰波谷效应造成的末梢网络流量负载的变化,因此,现有的调度系统不能很好的 适应网络负载和拓扑的变化,从而影响网络节点的能量效率和时延。
[0004] 面对智能传感器网络这一新型高级量测体系末梢网络,如何在确保信息实时、稳 定传送的同时,尽可能减少传感器节点自身消耗的能量、延长传感器节点生存时间,是高级 量测体系网络中传感器应用的重要问题。
[0005] 本发明基于增强学习算法开发出了一种传感器节点的自适应调度方法。下面首先 对"增强学习"进行简单介绍,正如文献《增强学习:导论》中所指出,增强学习源自人类认 知学和动物学习心理学,采用了在人类或动物学习中经常体现的"尝试与失败"机制,通过 在学习过程中获得的评价性反馈信号(即回报函数),寻找未来回报最大化的最优策略。增 强学习算法的特点是不需要指定任务怎样实现,而是通过反馈信号是有利回报还是惩罚来 寻找最优策略以最大化目标评价函数。与其它机器学习算法不同,增强学习不是建立在对 问题世界一组观察的样本集合的基础上,而是将对动态变化的环境的适应作为一个学习过 程。目前对增强学习的研究主要建立在马尔科夫过程(Markov)的基础上,优化求解模型, 主要集中在提高计算效率上,但对其机理的研究还有很大的差距。增强学习的含义通常有 两个方面,一是将增强学习本身作为一类问题,二是解决这类问题的方法的集合。在本申请 中,主要采用第二种含义,即采用统计和动态规划的方法来获得对某一状态下某一行为回 报函数值的评价,并据此获得在所有状态下行为的最优策略的方法作为增强学习。
[0006] 在文献《一种能量感知传感器通信中接近最优的增强学习框架》中,对增强学习问 题的求解提出了一种Actor-Critic算法,实现了一种接近最优的点对点通信框架。在文献 《RL-MAC: -种基于增强学习算法的无线传感器网络MAC层协议》中,提出了一种自适应的 无线传感器网络MAC层协议,通过将MAC层的自适应调度问题映射为一类增强学习问题,通 过采用Q-learning的求解方法,得到近似最优的自适应调度集合,实现了一种高吞吐量、 低能量消耗的无线传感器网络MAC层协议。Q-learning算法是适用于求解决策优化的目标 函数为折扣回报的无限马尔科夫决策过程的一类增强学习问题,但包括文献《在增强学习 问题中采用折扣回报还是平均期望回报:R-learning与Q-learning的实际案例比较》在内 的一些机器学习领域的研究表明,在增强学习问题的求解中,最重要的是选取合适的回报 函数,与采用折扣回报函数相比,选取平均期望回报更接近希望解决的实际问题,同时证明 了文献《一种最大化非折扣回报的增强学习算法》所提出的,R-learning将平均期望回报 作为决策优化目标函数求解无限马尔科夫决策过程这类增强学习问题,在真实环境中优于 Q-learning。但R-learning算法在求解某些增强学习问题时会遇到收敛性问题,因此需要 作出适应性的调整。

【发明内容】

[0007] 本发明要解决的技术问题是提供一种高级量测体系网络中传感器节点的自适应 调度方法,该调度方法在确保信息实时、稳定传输的同时,能够最大限度降低各传感器节点 的能量消耗、延长传感器节点的生存时间。
[0008] 为解决上述技术问题,本发明的高级量测体系网络中传感器节点的自适应调度方 法的特点是包括创建调度表并依据调度表工作,调度表的创建过程包括如下步骤:
[0009] 步骤1)传感器节点读取自身队列长度和数据重传次数,并从关口智能电表获取 历史电气参量信息负载曲线;历史电气参量信息负载曲线是指上一时间区域的电气参量信 息负载曲线;
[0010] 步骤2)根据历史电气参量信息负载曲线、自身队列长度、数据重传次数,并使用 e _贪婪策略获取当前周期的行为值;行为值是指当前周期传感器节点所需的时间片数;
[0011] 步骤3)根据当前周期完成后得出的传感器节点的能量效率和数据传送时延,并 依据增强学习算法的回报函数得出前一周期行为值的回报值;
[0012] 步骤4)利用前一周期行为值的回报值对通过R-learning算法得出的传感器节点 的状态_行为值表进行修正,并根据e-贪婪策略选择下一周期的行为值;
[0013] 步骤5)重复步骤3)和步骤4),在上一时间区域内,计算在步骤3)时状态-行为 值表中所有回报值的平均值,同时计算在步骤4)时状态-行为值表中所有回报值的平均 值,得出上述两个平均值的差值,当该差值满足调度策略探索结束条件的标准时,传感器节 点得到一个状态一行为值映射集合,该状态一行为值映射集合即为需要创建的调度表。
[0014] 步骤1)和步骤5)中所述的上一时间区域为前一日的24小时。
[0015] 步骤2)中获取当前周期的行为值是指根据e -策略选择当前状态下的行为值时, 设计新的行为搜索策略,该行为搜索策略通过结合队列长度、历史区域电网负荷预测状态L 和数据平均重传次数减少函数估计行为值的取值子空间,以减少逼近最优解所需要的迭代 次数,尤其是当网络比较稳定时,只需要得到最优策略准则的一个子集就可以逼近最优值 函数。
[0016] 所述行为搜索策略公式为:
[0017]
[0018] nb表示当前队列长度,n _是队列的最大值,action _是行为集合的最大值,L 3是 当前区域历史负荷预测状态,L_是前一日历史负荷曲线的最大值,b是当重传次数超过设 定的门限值时所取的调整值;
[0019] aMtiniatlcin计算得到后,将其前后区间长度为5子区间的作为行为值的取值子空间, 此时在此取值子空间内根据e-贪婪策略获取当前周期行为值。
[0020] 所述的e -贪婪策略包括:
[0021] 实际选取的行为值为a,取值子空间为[aest_tlC]n-5, aestiniatlcin+5], Q{s,ai:) - max(J(s,uK),uKe\aestimatm -5, K-timutioa+ 5].,.若 1- e >random[0, 1],贝丨J a = aE,否则, 以等概率从[aestimaticin-5,aestimaticin+5]中任选一个作为行为值a,random[0, 1]为区间[0, 1] 上的随机数。
[0022] 步骤3)中的回报函数定义为p回报值为传感器节点能量效率和无线通信繁忙程 度因子加权和、再与传感器邻居节点平均传输时延进行加权计算得到;传感器节点能量效 率和无线通信繁忙程度因子^为:
[0023]
[0024] njP n ^表示一个周期内的发包数量和收包数量,n' b和n b表示在t+1周期和t周 期的队列长度,B是队列空间的长度,是一个周期内消耗的能量;
[0025] 传感器邻居节点平均传输时延A为:
[0026]
[0027] k表示节点i的邻居节点的数量,1^表示节点i的平均时延。
[0028] 根据多目标优化算法,回报函数表示为:
[0029]
[0030] rE。和ruj分别是r jP r ^的最大值。
[0031]传感器节点通过R-learning算法的公式表示如下,行为值函数满足:
[0032]
[0033] s'表不下一周期的状态;
[0034] 平
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1