1.一种基于后决策状态学习的基站关断节能方法,其特征在于,包括以下步骤:
步骤s1:将宏微网络中的用户根据关联规则进行分类,并将各类用户的数目定义为网络状态,将各个基站的开/关操作定义为网络行动;
步骤s2:将时延受限的节能问题映射为cmdp模型,刻画网络中各类业务的动态变化情况;
步骤s3:计算出基站在每个时间周期内的决策前状态和后决策状态,并根据关断策略执行前已知的决策前状态学习关断策略执行后未知的后决策状态;
步骤s4:在每个时间周期内,对值函数和后决策状态值函数进行迭代更新;首先使用后决策状态值函数更新值函数;然后使用更新后的值函数更新后决策状态值函数;反复更新直至满足预设条件,得到最优的基站关断节能策略。
2.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,所述根据关联规则进行分类具体为:
步骤s11:将宏微网络覆盖区域内的每个基站编号为k=0,1,...,k,其中0表示宏基站;
步骤s12:把网络中的用户根据关联基站的不同进行分类,
步骤s13:将接入宏基站的用户定义为第0类用户;将接入小基站k(k=1,2,...,k)的用户定义为第k类用户;当小基站k处于关闭状态时,小基站的用户会接入宏基站接受服务,此时第k类用户变为第0类用户。
3.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,所述步骤s2具体为:
步骤s21:在基于cmdp的基站关断模型中,针对每一个负载状态x,为其匹配相应的关断策略y,基于每一对网络状态和网络行动,设有与之相对应的状态转移概率p(x’|x,y),成本函数c(x,y);
步骤s22:网络控制器感知当前的负载状态x(t)并根据当前负载水平给出相应的小基站关断策略y(t),基于t时刻的负载状态和关断策略,网络在t+1时刻的负载水平为x’的概率为p(x’|x,y);
步骤s23:系统的成本函数c(x,y)会反馈给网络控制器,由网络控制器来判定当前采取策略的优劣。
4.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,所述决策前状态的计算方法为:
t时刻基站k的决策前负载状态xk(t)等于t-1时刻的决策后负载状态
5.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,所述后决策状态的计算方法为:
决策后状态指的是某个时间周期内基站关断策略执行后一下个周期的用户到达前的网络负载状态。对于宏基站来说,t时刻的决策后负载状态
6.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,所述决策状态值函数的更新方法为:
在后决策状态在线学习方法中,后决策状态
其中a(t)为学习速率因子,为了使更新过程收敛,a(t)需要满足
7.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,
所述值函数的更新方法为:
状态x(t)的值函数ut(x(t))的更新过程如下式所示:
其中c(x(t),y)为t时刻网络的成本函数;g为折扣因子;
8.根据权利要求1所述的基于后决策状态学习的基站关断节能方法,其特征在于,
所述成本函数的计算方法为:
网络的成本函数定义如下:
其中
9.一种根据1-8任一所述的基于后决策状态学习的基站关断节能方法的装置,其特征在于,装置包括:
感知单元,用于感知每个时期周期上各个基站关联的用户数目,观测网络系统的动态变化情况;
学习单元,根据感知单元感知的系统状态学习最优的小基站关断策略;
操作单元,根据学习单元获得的小基站关断策略进行基站开/关操作。
10.根据权利要求9所述的基于后决策状态学习的基站关断节能方法的装置,其特征在于,所述感知单元获得的系统状态为决策前状态,其中决策前状态指的是某个时间周期内的用户到达后基站关断策略执行前的网络负载状态。