一种高级量测体系网络中传感器节点的自适应调度方法_3

文档序号:9353393阅读:来源:国知局
br>[0085] 本发明的调度方法还包括调度表的更新过程,调度表的更新过程为:传感器节点 根据调度表工作的同时,以较小的概率探索新的状态-行为值,当发现更优的结果时对调 度表进行更新。其中,较小的概率为5%的概率,发现更优的结果时对调度表进行更新是指 在探索新的状态-行为值时,如果发现Q(s,a)的值优于已创建的调度表中的最优值时,则 更新调度表中的状态-行为值。对于调度表的更新过程,可参照图2,在图2中:
[0086] 步骤S201),传感器节点根据调度表工作,并以较小的概率(如5%的概率)探索 新的状态-行为值;
[0087]步骤S202),判断传感器节点是否获得更好的状态-行为值;
[0088] 步骤S203),如果S202为真则更新调度表,否则执行步骤S201)。
[0089] 前述为本发明的步骤过程,下面对本发明的原理进行分析。首先对本发明调度方 法所使用的相关概念进行介绍。
[0090] (1)增强学习
[0091] 增强学习源自人类认知学和动物学习心理学,采用了在人类或动物学习中经常体 现的"尝试与失败"机制,通过在学习过程中获得的评价性反馈信号(即回报函数),寻找未 来回报最大化的最优策略。增强学习算法的特点是不需要指定任务怎样实现,而是通过反 馈信号是有利回报还是惩罚来寻找最优策略以最大化目标评价函数。与其它机器学习算法 不同,增强学习不是建立在对问题世界一组观察的样本集合的基础上,而是将对动态变化 的环境的适应作为一个学习过程。增强学习的含义通常有两个方面,一是将增强学习本身 作为一类问题,二是解决这类问题的方法的集合。在本发明的研究中,主要是将采用统计和 动态规划的方法来获得对某一状态下某一行为回报函数值的评价,并据此获得在所有状态 下行为的最优策略的方法作为增强学习。在增强学习的实际应用中,最常采用的模型是马 尔科夫模型,在此模型的基础上,增强学习的简化模型结构如图4所示。
[0092] 图4中,增强学习模块接收当前环境状态的输入,根据内部的推理机制,执行相应 的动作。在此动作的作用下,环境进入下一状态。模块接收环境新的状态并获得对上一动作 的反馈值(即回报值)。其目的是通过合理的评价准则,学习到一个满足需求最优策略(: S - A)。假定环境符合马尔可夫性,则增强学习问题可以通过马尔可夫决策过程(Markov Decision Process,MDP)建模,下面给出其定义。
[0093] 定义1 : 一个马尔科夫决策过程从数学角度可以用一个五元组来表示,即 {S,A,r,P,J},其中S是有限或连续状态空间,包含决策过程所有可能的状态集合,A为有限 或连续行为空间,是每一个状态所有可能的动作的集合。R是一个回报函数(SXA - R),P 是马尔科夫决策过程的状态转移概率,满足如下的马尔科夫性和齐次性:
[0094]
[0095] J为决策优化的目标函数。
[0096] 根据定义1,状态转移概率P满足如下等式:
[0097]
[0098] 决策优化的目标函数J主要有两种类型:
[0099] 折扣回报:
[0103] 在本发明中,重点研究平均期望回报函数,这是因为有研究证明,平均期望回报与 折扣回报相比更接近于真实问题。为优化马尔科夫决策过程的性能目标评价函数,在动态 规划和增强学习方法中都定义了马尔科夫决策过程的策略和状态值函数的定义。
[0104] 定义2 : (MDP过程的马尔科夫性)策略JT = 〇。,31 …31 n)满足公式:
[0105] (a8.(sw):j >0
[0106] 8"和a n分别为马尔科夫决策过程在时刻n的状态集和行为集,则称it为马尔科 夫策略。若对于任意1,有31 n= JT。,则称马尔科夫策略JT为平稳的,简称平稳策略。
[0107] 增强学习算法的主要的目的是找到最优策略31%以最大化目标函数J。因此,需 要定义状态值函数V" (s)和行为值函数Q" (s,a)。
[0108] 假设31为平稳策略,状态值函数V" (s)表示为:
[0109]
[0110] 其中,数学期望EJ}定义在状态转移概率P和平稳策略31的分布上。P "表示 根据决策策略Jr获得的平均期望回报Ja。行为值函数Q"(s,a)与状态值函数V"(s)相似, 表示以状态s t开始并且执行行为a ,所获得平均期望回报。
[0111]
[0112] 根据上面的公式,最优化策略31 $可以用如下公式表示:
[0113]
[0114] 状态值函数f(s)和行为值函数(T(S,a)当满足最优化策略3^时,满足公式:
[0115]
[0116] 根据动态规划的有关理论,f(s)和QYs,a)分别满足如下的贝尔曼方程:
[0117]
[0118]
[0119] 对于模型已知(即状态转移概率已知)的马尔科夫决策过程,利用动态规划的值 迭代和策略迭代等算法可以求解最优值函数和最优策略。但在本发明实际应用的高级量测 网络应用场景中,由于模型未知,传统的动态规划方法无法进行求解,而增强学习成为一种 有效的求解手段。
[0120] (2)问题建模
[0121] 增强学习算法通过行为值函数Q(s',a')来代替对状态转移概率P的需要,解决了 动态规划在实际应用中所面临的困难。为了解决本发明面临的传感器节点自适应调度最优 化问题,将自适应调度问题映射为一个马尔科夫决策过程,将R-learning算法用公式表示 如下,
[0122] 行为值函数的学习:
[0123]
[0124] s'表示下一时刻的状态。显然下一时刻的状态s'是根据状态转移概率P出现的。
[0125] 平均期望P的学习:
[0126]
[0127] 0和0表示对当前和未来行为值函数及平均回报P估计的加权值。
[0128] 但将R-learning算法直接应用于本发明时,会遇到收敛性的问题,这是由于增强 学习模块无法完全感知环境的状态信息,即使此时环境可以被建模为马尔可夫决策过程, 由于对环境状态的感知的不准确,对于状态的差异无法有效的区分。在这种问题的解决中, 如果不对R-learning算法进行任何改进就加以应用的话,算法将很难收敛,造成找不到最 优解的情况发生。这种部分感知问题理论上属于非马尔可夫型环境,在这种模型中,不仅需 要考虑动作的不确定性,同时必须考虑状态的不确定性,这种描述更接近于现实世界。解决 这类部分感知问题的基本思路是将部分可以感知的环境转换为马尔科夫决策过程,被定义 为 POMDP(Partially Observable Markov Decision Process),最后通过预测模型法不断 地逼近现实环境,但预测模型往往随着环境复杂程度的增加,预测模型呈现爆炸性增长,导 致算法的计算量过大而不可行。因此对于这类问题的解决主要通过提出一些逼近算法对 标准的、MDP建模的增强学习算法进行微调这种思路。由于传感器计算能力的限制,算法必 须建立在简单、有效地基础上,本发明主要通过考虑高级量测网络本身的一些特性参数与 R-learning算法相结合,减少了算法收敛所需要的迭代次数,这样既可以保证得到接近最 优的策略,同时可以有效的增加算法本身的收敛速度。
[0129] 在本发明的自适应调度方法中,对于调度表的创建是通过预测当前区域电网负荷 状态、当前节点队列大小、当前节点能量效率、当前节点吞吐量等环境信息,自适应的决定 在下一个周期内节点的行为(即占空比)。当一个周期结束,节点将得到一个回报值,根据 得到的回报值,节点根据一定的探索策略(如e _策略)在下一周期选择行为,一系列与回 报相对应的行为将被迭代的生成,在这一过程中,一个性能更优的调度表被生成。
[0130] 调度学习模块需要提供的定义如下:
[0131] 状态集:节点的状态向量表示如下:
[0132] (nb, L) G S
[0133] 状态向量是队列长度nb和历史区域电网负荷预测状态L的集合。历史区域电网 负荷预测状态L由当前时间和前一天区域负荷曲线比对产生,前一天区域负荷曲线由电能 计量器每天定时发送到末梢传感器节点,当传感节点需要获取自身所处状态时,根据当前 时间与前一天的负荷曲线判断自身所处状态。
[0134] L G {L_波峰、L議波谷、L_n均值、波峰-均值、L_nniax均值-波峰、 波谷-均值、L_n _均值-波谷}
[0135] 行为集:行为被定义为通过预先分配激活时间产生的占空比。因此一个值比较大 的行为意味着为节点在一个周期内分配更多的激活时间,这将会导致更高的吞吐量、更小 的时延和消耗更多的能量。
[0136] 回报函数:回报函数定义为r。本发
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1