基于后决策状态学习的基站关断节能方法和装置与流程

文档序号:20040820发布日期:2020-02-28 11:53阅读:484来源:国知局
基于后决策状态学习的基站关断节能方法和装置与流程

本发明属于移动通信技术领域,具体涉及一种基于后决策状态学习的基站关断节能方法和装置。



背景技术:

随着无线蜂窝网络中用户数目的不断增加及其所需数据速率的不断提高,蜂窝网络的规模也在逐渐扩大,巨大的网络规模和较多的无线设备造成了巨大的能量消耗,这给环境和经济带来了严重的影响。为了提高蜂窝网络的环境效益和经济效益,节能减排已经成为当前通信网络的重要设计目标。为了在满足蜂窝网络中日益增加的用户需求的同时减少网络的能量消耗,无线宏微网络已经成为当前的热门研究方向之一。在宏基站覆盖范围内密集部署高容量、低功耗的小基站成为目前在满足用户所需服务质量(qualityofservice,qos)的同时降低能源消耗的主要方式。

宏微网络中的小基站一般是按照巅峰时期网络的业务水平进行部署的,而不考虑网络业务随着时间动态变化的情况。调查结果表明,每天有超过40%的时间里网络业务量不到巅峰时期业务量的10%,若在网络负载较低时依然开启所有基站,会明显造成网络带宽资源和能量资源的浪费。因基站的能量消耗在整个网络能耗中占60~80%,当网络中的负载水平较低时,关闭利用率较低的小基站可在很大程度上减少网络的能源消耗。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于后决策状态学习的基站关断节能方法及装置,充分利用网络已知的先验知识加快学习速度,在保证网络服务质量的同时得到最优的基站关断节能策略。

为实现上述目的,本发明采用如下技术方案:

一种基于后决策状态学习的基站关断节能方法,包括以下步骤:

步骤s1:将宏微网络中的用户根据关联规则进行分类,并将各类用户的数目定义为网络状态,将各个基站的开/关操作定义为网络行动;

步骤s2:将时延受限的节能问题映射为cmdp模型,刻画网络中各类业务的动态变化情况;

步骤s3:计算出基站在每个时间周期内的决策前状态和后决策状态,并根据关断策略执行前已知的决策前状态学习关断策略执行后未知的后决策状态;

步骤s4:在每个时间周期内,对值函数和后决策状态值函数进行迭代更新;首先使用后决策状态值函数更新值函数;然后使用更新后的值函数更新后决策状态值函数;反复更新直至满足预设条件,得到最优的基站关断节能策略。

进一步的,所述根据关联规则进行分类具体为:

步骤s11:将宏微网络覆盖区域内的每个基站编号为k=0,1,...,k,其中0表示宏基站;

步骤s12:把网络中的用户根据关联基站的不同进行分类,

步骤s13:将接入宏基站的用户定义为第0类用户;将接入小基站k(k=1,2,...,k)的用户定义为第k类用户;当小基站k处于关闭状态时,小基站的用户会接入宏基站接受服务,此时第k类用户变为第0类用户。

进一步的,所述步骤s2具体为:

步骤s21:在基于cmdp的基站关断模型中,针对每一个负载状态x,为其匹配相应的关断策略y,基于每一对网络状态和网络行动,设有与之相对应的状态转移概率p(x’|x,y),成本函数c(x,y);

步骤s22:网络控制器感知当前的负载状态x(t)并根据当前负载水平给出相应的小基站关断策略y(t),基于t时刻的负载状态和关断策略,网络在t+1时刻的负载水平为x’的概率为p(x’|x,y);

步骤s23:系统的成本函数c(x,y)会反馈给网络控制器,由网络控制器来判定当前采取策略的优劣。

进一步的,所述决策前状态的计算方法为:

t时刻基站k的决策前负载状态xk(t)等于t-1时刻的决策后负载状态加上t时刻的用户到达量ak(t),具体计算如下式所示:

进一步的,所述后决策状态的计算方法为:

决策后状态指的是某个时间周期内基站关断策略执行后一下个周期的用户到达前的网络负载状态。对于宏基站来说,t时刻的决策后负载状态等于t时刻的决策前负载状态x0(t)加上从关闭小基站转移来的负载再减去离开的用户数d0(t);对于小基站来说,若小基站保持开启,则t时刻的决策后负载状态等于决策前负载状态xk(t)减去离开的用户数dk(t),若小基站关闭,则t时刻的决策后负载状态为0,具体计算如下式所示:

进一步的,所述决策状态值函数的更新方法为:

在后决策状态在线学习方法中,后决策状态值函数会根据下式进行更新:

其中a(t)为学习速率因子,为了使更新过程收敛,a(t)需要满足这两个条件。表示t-1时刻后决策状态的值函数;ut(x(t))表示t时刻决策前状态x(t)的值函数。进一步的,所述值函数的更新方法为:

状态x(t)的值函数ut(x(t))的更新过程如下式所示:

其中c(x(t),y)为t时刻网络的成本函数;g为折扣因子;表示t-1时刻后决策状态的值函数。

进一步的,所述成本函数的计算方法为:

网络的成本函数定义如下:

其中分别为宏基站和小基站的功率;表示小基站集合;b为拉格朗日乘子;d0(x,y)表示宏基站的用户数量;dth表示宏基站可以承载的最大门限值。

一种基于后决策状态学习的基站关断节能方法的装置,包括:

感知单元,用于感知每个时期周期上各个基站关联的用户数目,观测网络系统的动态变化情况;

学习单元,根据感知单元感知的系统状态学习最优的小基站关断策略;

操作单元,根据学习单元获得的小基站关断策略进行基站开/关操作。

进一步的,所述感知单元获得的系统状态为决策前状态,其中决策前状态指的是某个时间周期内的用户到达后基站关断策略执行前的网络负载状态。

本发明与现有技术相比具有以下有益效果:

1、本发明可根据网络的业务状态动态地调整基站的开关状态在保证用户服务质量的同时有效地降低宏微网络的能量消耗

2、本发明采用后决策状态学习放方法在线更新网络的开/关策略可以充分利用网络已知的先验知识加快学习速度

3、本发明根据关断策略执行前已知的网络状态学习关断策略执行后未知的网络状态,从而快速制定出相应的关断策略。后决策状态学习方法不仅学习速度快,且可在保证网络服务质量的同时得到最优的基站关断节能策略。

附图说明

图1是本发明一实施例中实施在宏微网络中的节能原理示意图

图2是本发明一实施例中决策前状态和后决策状态原理图;

图3是本发明一实施例中根据网络负载动态调整基站工作状态的原理图;

图4是本发明一实施例中方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1,本实施例中,宏微网络中部署的大量小基站是为了满足业务高峰时期的用户服务质量要求,当网络中的业务量较低时,很多小基站会处于空闲或者低负载状态,此时依然开启这些小基站会造成能量资源的浪费。因此,通过关闭利用率较低的小基站把其关联用户转移到宏基站进行服务,可在保证用户服务质量的同时达到节能的目的。

本发明提供一种基于后决策状态学习的基站关断节能方法,包括以下步骤:

步骤s1:将宏微网络中的用户根据关联规则进行分类,并将各类用户的数目定义为网络状态,将各个基站的开/关操作定义为网络行动;

步骤s2:将时延受限的节能问题映射为cmdp模型,刻画网络中各类业务的动态变化情况;

步骤s3:计算出基站在每个时间周期内的决策前状态和后决策状态,并根据关断策略执行前已知的决策前状态学习关断策略执行后未知的后决策状态;

步骤s4:在每个时间周期内,对值函数和后决策状态值函数进行迭代更新;首先使用后决策状态值函数更新值函数;然后使用更新后的值函数更新后决策状态值函数;反复更新直至满足预设条件,得到最优的基站关断节能策略。

在本实施例中,所述根据关联规则进行分类具体为:

步骤s11:将宏微网络覆盖区域内的每个基站编号为k=0,1,...,k,其中0表示宏基站;

步骤s12:把网络中的用户根据关联基站的不同进行分类,

步骤s13:将接入宏基站的用户定义为第0类用户;将接入小基站k(k=1,2,...,k)的用户定义为第k类用户;当小基站k处于关闭状态时,小基站的用户会接入宏基站接受服务,此时第k类用户变为第0类用户。

在本实施例中,所述步骤s2具体为:

步骤s21:在基于cmdp的基站关断模型中,针对每一个负载状态x,为其匹配相应的关断策略y,基于每一对网络状态和网络行动,设有与之相对应的状态转移概率p(x’|x,y),成本函数c(x,y);

步骤s22:网络控制器感知当前的负载状态x(t)并根据当前负载水平给出相应的小基站关断策略y(t),基于t时刻的负载状态和关断策略,网络在t+1时刻的负载水平为x’的概率为p(x’|x,y);

步骤s23:系统的成本函数c(x,y)会反馈给网络控制器,由网络控制器来判定当前采取策略的优劣。

在本实施例中,所述决策前状态的计算方法为:

t时刻基站k的决策前负载状态xk(t)等于t-1时刻的决策后负载状态加上t时刻的用户到达量ak(t),具体计算如下式所示:

在本实施例中,所述后决策状态的计算方法为:

决策后状态指的是某个时间周期内基站关断策略执行后一下个周期的用户到达前的网络负载状态。对于宏基站来说,t时刻的决策后负载状态等于t时刻的决策前负载状态x0(t)加上从关闭小基站转移来的负载再减去离开的用户数d0(t);对于小基站来说,若小基站保持开启,则t时刻的决策后负载状态等于决策前负载状态xk(t)减去离开的用户数dk(t),若小基站关闭,则t时刻的决策后负载状态为0,具体计算如下式所示:

在本实施例中,所述决策状态值函数的更新方法为:

在后决策状态在线学习方法中,后决策状态值函数会根据下式进行更新:

其中a(t)为学习速率因子,为了使更新过程收敛,a(t)需要满足这两个条件。表示t-1时刻后决策状态的值函数;ut(x(t))表示t时刻决策前状态x(t)的值函数。在本实施例中,所述值函数的更新方法为:

状态x(t)的值函数ut(x(t))的更新过程如下式所示:

其中c(x(t),y)为t时刻网络的成本函数;g为折扣因子;表示t-1时刻后决策状态的值函数。

进一步的,所述成本函数的计算方法为:

网络的成本函数定义如下:

其中分别为宏基站和小基站的功率;表示小基站集合;b为拉格朗日乘子;d0(x,y)表示宏基站的用户数量;dth表示宏基站可以承载的最大门限值。

参考图2,本实施例中提供一种基于后决策状态学习的基站关断节能方法的装置,包括:

感知单元,用于感知每个时期周期上各个基站关联的用户数目,观测网络系统的动态变化情况;

学习单元,根据感知单元感知的系统状态学习最优的小基站关断策略;

操作单元,根据学习单元获得的小基站关断策略进行基站开/关操作。

所述感知单元获得的系统状态为决策前状态,其中决策前状态指的是某个时间周期内的用户到达后基站关断策略执行前的网络负载状态。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1