一种基于强化学习的基站休眠方法、设备和介质与流程

文档序号:31541026发布日期:2022-09-16 23:52阅读:127来源:国知局
一种基于强化学习的基站休眠方法、设备和介质与流程

1.本发明属于移动通信技术领域,特别是涉及一种基于强化学习的基站休眠方法、设备和介质。


背景技术:

2.随着移动通信数据量的持续大幅度上涨,移动用户设备呈现爆炸性增长趋势,人们对数据流量的需求正在呈指数增长。国际电信联盟无线电标准化组织(itu-r)提出了超密集组网(ultra-dense network,udn)的概念,超密集网络通过密集部署微基站来增加系统的吞吐量,来应对人们对高速率的需求。超密集网络在带来高速率、强覆盖的同时,也带来了难以忍受的能耗问题。而且,超密集网络(ultra-dense network,udn)和毫米波(mmwave)通信作为未来通信的关键技术,网络密集化部署导致的微基站数目的增多,移动通信网络的能耗进一步激增,这使得能耗成为了移动通信的一个关键指标。根据相关数据表明,基站消耗了网络总功耗的60%-80%功耗,因此减少基站的能耗对提高整个网络的能量效率有着重大的意义。由于基站是依据网络负载的峰值部署的,并且还留有很大的容量冗余。网络中的流量负载在时空维度上存在较大的波动,由于业务的潮汐效应,单个基站处于负载峰值的时间只占据整个运行周期的很小一部分,大部分时刻基站实际负载远远小于网络最大容量。在基站零负载的情况下,基站的能耗仍高达50%-60%,这必将导致网络能量效率(energy efficiency,ee)的低下和能量的浪费。因此在流量需求较低的时段(如凌晨),可以将部分低负载基站的接入用户移交给邻近的开启基站,然后将其切换至休眠状态,从而地降低整个网络的能量消耗。
3.如何降低基站能耗,学界和业界提出了一系列的方案,其中基站休眠被认为是最好的方法之一,因为这种方案不需要改变网络架构,并且易于实现。基站休眠一方面需要降低网络的能耗水平,另一方面需要保证用户的服务质量。基站的功耗可以分为三个部分:第一部分是功率放大器和射频电路消耗的传输功率,该部分占总体基站功耗的40%-50%的能量消耗;第二部分是,信号处理和空调等设备消耗的功率和基站状态转换时消耗的功率,基站35%的能量消耗在这;第三部分是基站状态转换功率(激活和关闭状态之间的转换),该部分占基站总功耗的15%。保证用户服务质量主要指,用户接入某个基站后,用户的可达网络速率大于等于其需求速率。因此基站休眠不仅要确定哪些基站休眠,还得考虑基站切换的次数以及用户服务质量。
4.目前对于基站休眠的研究中,大部分是一种基于模型的分析方法,基于模型的方法能在理论推到上收获到很好的结果,但是现实中模型与理论模型相差甚远,这使得理论模型和响应的算法难以在现实生活中合理应用。与传统算法相比,机器学习算法在初步研究结果中表现出更好的性能,深度学习作为一种无模型,以数据驱动的方式通过输入输出训练来降低计算的复杂度。但是在复杂的无线系统中,很难获得完美的训练数据,此外训练本身非常耗时。在这种背景下,属于机器学习范畴的强化学习在无线电资源管理更为擅长,强化学习是一种自主学习算法,具有自主自适应性,从而为未来网络赋能,并且在强化学习
中,对于系统模型和先验数据的要求非常宽松,因为它具有很强的自主学习能力。


技术实现要素:

5.本发明目的是为了解决现有技术中的问题,提出了一种基于强化学习的基站休眠方法、设备和介质。该方法通过lstm预测基站未来流量,根据预测结果确定候选关闭基站,然后在确保满足用户的服务质量和减少工作状态切换的情况下,通过强化学习来确定基站关闭状态。
6.本发明是通过以下技术方案实现的,本发明提出一种基于强化学习的基站休眠方法,具体包括以下步骤:
7.步骤1、假设超密集网络是由1个宏基站和n个微基站构成的异构网,其中宏基站负责控制整个网络,微基站负责业务数据传输;宏基站一直处于激活状态;微基站的状态分为激活和休眠两种状态,其决策问题建模成一个二进制整数规划,将这些基站记为集合bs={sbs1,...,sbsn},每隔一个周期统计各个基站的流量负载,并将其记录,各个微基站根据历史流量数据应用于lstm网络中训练各自流量的预测模型;
8.步骤2、根据步骤1得到的流量预测模型,统计当前各个微基站的每个时刻的流量值并输入到lstm网络中,获取微基站在下一统计时刻的流量预测值,并且根据当前时刻的流量负载情况和预测得到的流量负载情况,设置相应的预留资源,避免由于突发业务导致通信链路堵塞问题;
9.步骤3、当步骤2的微基站流量预测值和资源预留总和大于门限阈值的时候,将该微基站加入候选关闭微基站集合;
10.步骤4、统计候选微基站覆盖范围内的用户数量和各个用户的流量需求;通过csi-rs反馈获取每个用户的信干噪比sinr;
11.步骤5、根据步骤3得到的候选关闭微基站集合和步骤4得到的基站服务用户的流量需求,通过对预测流量大小对候选微基站进行排序,流量小的微基站具有更高的关闭优先级;根据价值函数将流量负载小的微基站覆盖的用户移交给临近的开启的微基站,并且接收微基站根据用户当前速率需求调整其预留资源的大小;
12.步骤6、获取每个基站当前时刻的关闭状态集合,以及候选关闭微基站集合内的微基站服务用户的速率;采用ε-greedy策略选择基站关闭集合,得到待关闭微基站集合,如果满足最小速率需求条件,便将其作为一个可选的关闭微基站集合,并计算奖励回报值,将其存储到存储单元memory中,然后从memory中随机选取数据,输入到网络中,从而修正网络模型;如果不符合条件,舍弃这个集合。
13.进一步地,微基站i服务的用户j的信干噪比记作sinr
i,j
,当前用户的传输速率记为r
i,j
,根据香农公式可得r
i,j
=blog2(1+sinr
i,j
),其中b是传输带宽。
14.进一步地,在步骤1中,微基站历史流量数据为其中表示在t统计时刻时,微基站i的流量数据;运用lstm网络根据各个微基站的流量数据训练各自的lstm模型。
15.进一步地,所述训练各自的lstm模型具体为:输入搜集到的基站历史流量数据,将其分为训练数据集合和测试数据集合,用训练数据训练lstm网络,获取lstm模型,输入测试数据集,计算误差函数,根据误差修正网络模型,当误差小于门限值后,输出当前微基站的
流量预测模型,并且预测下一统计时刻的流量数据。
16.进一步地,对于微基站i,根据微基站i当前流量数据、历史流量数据以及移交用户的速率情况,确定资源预留值大小,当资源预留值与流量预测值之和大于流量门限值的时候,微基站i加入到候选关闭微基站集合中,否则该基站会处于开启状态。
17.进一步地,在步骤4中,假设用户j的服务微基站为i,在实际网络中,基站发射csi-rs给用户,用户根据导频信号进行信道估计得到信道矩阵从而计算得到下行链路的信干噪比,然后通过上行的csi-rs反馈信令反馈给服务基站,根据香农公式可得r
i,j
=blog2(1+sinr
i,j
),其中b是传输带宽。
18.进一步地,在步骤5中,根据关闭候选微基站和用户的流量需求,通过对预测流量大小对候选微基站进行排序,流量小的微基站具有更高的关闭优先级,对于优先级高的微基站,先考虑该微基站覆盖范围内用户的移交,将其移交给临近微基站,当该微基站内的服务用户移交结束之后,该微基站关闭。
19.进一步地,在步骤6中,先初始化两个相同的网络eval_model和target_model,只考虑候选关闭微基站集合,状态空间为每个基站当前统计时刻的关闭状态集合和用户速率;采用ε-greedy策略探索基站关闭集合,随机生成一个数r,当r小于epsilon的时候,将状态输入到eval_model,得到价值函数,根据价值函数取得关闭基站集合;当r小于epsilon的时候,随机确定候选微基站关闭状态;根据当前基站关闭状态,如果每个微基站覆盖的用户都满足最小速率需求条件,便将其作为一个可选的关闭微基站集合,并计算奖励回报值,将其存储到存储单元memory中,然后从memory中随机选取数据,输入到两个网络中,从而修正网络模型;如果不符合条件,并舍弃这个集合,根据最终微基站决策动作,确定需要关闭的微基站。
20.本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于强化学习的基站休眠方法的步骤。
21.本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于强化学习的基站休眠方法的步骤。
附图说明
22.图1为本发明中基站休眠的总流程图;
23.图2为本发明中lstm框架的结构图;
24.图3为本发明中应用lstm预测基站流量数据的流程图;
25.图4为本发明中资源预留的流程图;
26.图5为本发明中应用强化学习的基站休眠决策的流程图。
具体实施方式
27.下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.结合图1-5,本发明提出一种基于强化学习的基站休眠方法,具体包括以下步骤:
29.步骤1、假设超密集网络是由1个宏基站和n个微基站构成的异构网,其中宏基站负责控制整个网络,微基站负责业务数据传输;宏基站一直处于激活状态;微基站的状态分为激活和休眠两种状态,其决策问题建模成一个二进制整数规划,将这些基站记为集合bs={sbs1,...,sbsn},每隔一个周期统计各个基站的流量负载,并将其记录,各个微基站根据历史流量数据应用于lstm网络中训练各自流量的预测模型;
30.步骤2、根据步骤1得到的流量预测模型,统计当前各个微基站的每个时刻(时间粒度推荐为1小时但不限于1小时)的流量值并输入到lstm网络中,获取微基站在下一统计时刻的流量预测值,并且根据当前时刻的流量负载情况和预测得到的流量负载情况,设置相应的预留资源,避免由于突发业务导致通信链路堵塞问题;
31.步骤3、当步骤2的微基站流量预测值和资源预留总和大于门限阈值的时候,将该微基站加入候选关闭微基站集合;
32.步骤4、统计候选微基站覆盖范围内的用户数量和各个用户的流量需求;通过csi-rs(channel state information reference signal,信道状态参考信号)反馈获取每个用户的信干噪比(signal to interference plus noise ratio,sinr);
33.步骤5、根据步骤3得到的候选关闭微基站集合和步骤4得到的基站服务用户的流量需求,通过对预测流量大小对候选微基站进行排序,流量小的微基站具有更高的关闭优先级;根据价值函数将流量负载小的微基站覆盖的用户移交给临近的开启的微基站,并且接收微基站根据用户当前速率需求调整其预留资源的大小;
34.步骤6、获取每个基站当前时刻的关闭状态集合,以及候选关闭微基站集合内的微基站服务用户的速率;采用ε-greedy策略选择基站关闭集合,得到待关闭微基站集合,如果满足最小速率需求条件,便将其作为一个可选的关闭微基站集合,并计算奖励回报值,将其存储到存储单元memory中,然后从memory中随机选取数据,输入到网络中,从而修正网络模型;如果不符合条件,舍弃这个集合。
35.微基站i服务的用户j的信干噪比记作sinr
i,j
,当前用户的传输速率记为r
i,j
,根据香农公式可得r
i,j
=blog2(1+sinr
i,j
),其中b是传输带宽。
36.在步骤1中,微基站历史流量数据为其中表示在t统计时刻时,微基站i的流量数据;运用lstm网络根据各个微基站的流量数据训练各自的lstm模型。
37.所述训练各自的lstm模型具体为:输入搜集到的基站历史流量数据,将其分为训练数据集合和测试数据集合,用训练数据训练lstm网络,获取lstm模型,输入测试数据集,计算误差函数,根据误差修正网络模型,当误差小于门限值后,输出当前微基站的流量预测模型,并且预测下一统计时刻(可以单步预测也可以多步预测)的流量数据。
38.根据步骤1得到各个微基站的流量预测值,为了避免业务突发性导致通信资源不够用,于是引入了资源预留,对于微基站i,根据微基站i当前流量数据、历史流量数据以及移交用户的速率情况,确定资源预留值大小,当资源预留值与流量预测值之和大于流量门限值的时候,微基站i加入到候选关闭微基站集合中,否则该基站会处于开启状态。
39.在步骤4中,假设用户j的服务微基站为i,在实际网络中,基站发射csi-rs给用户,用户根据导频信号进行信道估计得到信道矩阵从而计算得到下行链路的信干噪比,然后通
过上行的csi-rs反馈信令反馈给服务基站,根据香农公式可得r
i,j
=blog2(1+sinr
i,j
),其中b是传输带宽。
40.在步骤5中,根据关闭候选微基站和用户的流量需求,通过对预测流量大小对候选微基站进行排序,流量小的微基站具有更高的关闭优先级,对于优先级高的微基站,先考虑该微基站覆盖范围内用户的移交,将其移交给临近微基站,当该微基站内的服务用户移交结束之后,该微基站关闭。
41.在步骤6中,先初始化两个相同的网络eval_model和target_model,只考虑候选关闭微基站集合,状态空间为每个基站当前统计时刻的关闭状态集合和用户速率;采用ε-greedy策略探索基站关闭集合,随机生成一个数r,当r小于epsilon的时候,将状态输入到eval_model,得到价值函数,根据价值函数取得关闭基站集合;当r小于epsilon的时候,随机确定候选微基站关闭状态;根据当前基站关闭状态,如果每个微基站覆盖的用户都满足最小速率需求条件,便将其作为一个可选的关闭微基站集合,并计算奖励回报值,将其存储到存储单元memory中,然后从memory中随机选取数据,输入到两个网络中,从而修正网络模型;如果不符合条件,并舍弃这个集合,根据最终微基站决策动作,确定需要关闭的微基站。
42.本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种基于强化学习的基站休眠方法的步骤。
43.本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种基于强化学习的基站休眠方法的步骤。
44.实施例
45.本发明针对超密集网络中基站休眠,提供了一种基于强化学习的基站休眠方法。具体方法是:如图1所示,建立深度强化学习模型,对超密集网络中的各个基站的未来流量负载进行预测,确定超密集网络中各个基站的关闭情况。该方法通过引入lstm模型,通过历史数据来预测网络中各个基站未来的流量负载情况;然后根据预测出的流量负载情况,在保证用户服务质量的情况下,利用强化学习的方法选取合适的基站进行休眠,从而降低网络能耗。
46.基于强化学习的基站休眠方法,包括以下步骤:
47.(一)训练微基站的流量预测模型
48.在介绍训练微基站的流量预测模型之前,先介绍以下lstm框架,参考图2,递归神经网络常用于时间序列预测,其允许信息持久化,从而利用以前数据的知识预测未来的信息。lstm网络是一种特殊的递归神经网络,它通过引入单元状态和不同的门来避免递归神经网络中梯度消失问题。标准的lstm单元具有三个彼此交互学习的门,即输入门、忘记门和输出门。这些门的定义为:
49.f
t
=σ(wf·
[h
t-1
,x
t
]+bf)
[0050]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0051][0052][0053]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
[0054]ht
=o
t

tanh(c
t
)
[0055]
其中,σ(
·
)为sigmoid函数,

为hadamard积,w和b为权重矩阵和偏置矩阵。接下来介绍训练微基站的流量预测模型。
[0056]
参考图3,训练基站流量预测模型主要包括以下步骤:
[0057]
(1)先搭建lstm网络结构模型,并且初始化lstm网络;
[0058]
(2)输入搜集到的基站历史流量数据,将其分为训练数据集合和测试数据集合;
[0059]
(3)用训练数据训练lstm网络,获取lstm模型;
[0060]
(4)输入测试数据集,计算误差函数,根据误差修正网络模型,当误差小于门限值后,输出当前微基站的流量预测模型,并且预测下一统计时刻(可以单步预测也可以多步预测)的流量数据。
[0061]
涉及到基站休眠,因为流量数据的粒度比切换基站状态的时间间隔小很多,所以需要多步预测。假设每个统计时间为δ,当预测z步(z个统计时间)的时候,预测间隔可以表示为t
pred
=δz,于是在t
pred
时间内,总的业务数据量用平均值表示,为:
[0062][0063]
其中,为j时刻n基站的流量数据值。
[0064]
(二)设定基站预留资源比例
[0065]
参考图4,通过在基站历史流量数据上的训练,可以获取到基站流量的模糊预测模型。根据预测得到的基站流量数据值以及历史训练得到的误差最大值确定基站预留资源大小。资源预留值的大小也可根据网络状况人为设定。当资源预留值与流量预测值之和大于流量门限值的时候,微基站i加入到候选关闭微基站集合中,否则该基站会处于开启状态。
[0066]
(三)选取休眠基站
[0067]
假设用户j的服务微基站为i,在实际网络中,基站发射csi-rs给用户,用户根据导频信号进行信道估计得到信道矩阵从而计算得到下行链路的信干噪比,然后可以通过上行的csi-rs反馈信令反馈给服务基站,根据香农公式可得r
i,j
=blog2(1+sinr
i,j
),其中b是传输带宽。
[0068]
根据上面对基站各方面功耗的阐述,基站的功耗可以分为三个部分:功率放大器和射频电路消耗的传输功率信号处理和空调等设备消耗的功率基站由active/sleep转换时消耗的功率于是,时隙t总的功耗可以表示为:
[0069][0070]
基站的功率放大器和射频电路导致的功耗可以表示为:
[0071][0072]
信号处理和空调等设备能量消耗可以表示为:
[0073][0074]
综上所述,t时隙网络的功率消耗为:
[0075][0076]
为了联合最小化转换功率、设备消耗以及发射功率等,本文考虑t时隙的能量消耗:
[0077][0078]
于是,可以得到能量效率为:
[0079][0080]
最后,问题转变成为最小化e
total
,基站发射功率和空调设备功率出厂前就已经确定了,可以改变的只有p
m,k
和限制条件为:
[0081][0082]
s.t.
[0083][0084][0085]
下面讨论如何将强化学习和基站休眠策略结合在一起。首先,每个微基站可视为一个agent,其状态空间,行为空间,奖励函数在下文进行阐述。
[0086]
(a)状态空间:每个用户的当前时隙所需业务的最小速率为:
[0087][0088]
前一个时隙的基站模式状态矩阵:
[0089][0090]
(b)动作空间:动作空间为当前时隙基站的休眠策略
[0091]
奖励:在当前时隙采取休眠策略时,网络过度耗电会造成惩罚,其奖励可以设置为:此时奖励最大化的问题变成了耗能最小的问题。
[0092]
参考图5,先初始化两个相同的网络eval_model和target_model,只考虑候选关闭微基站集合,状态空间为每个基站当前统计时刻的关闭状态集合和用户速率。采用ε-greedy策略探索基站关闭集合,随机生成一个数r,当r小于ε的时候,将状态输入到eval_model,得到价值函数,根据价值函数取得关闭基站集合;当r小于ε的时候,随机确定候选微基站关闭状态。根据当前基站关闭状态,如果每个微基站覆盖的用户都满足最小速率需求条件,便将其作为一个可选的关闭微基站集合,并计算奖励回报值,将其存储到存储单元
memory中,然后从memory中随机选取数据,输入到两个网络中,从而修正网络模型;如果不符合条件,并舍弃这个集合。根据最终微基站决策动作,确定需要关闭的微基站。
[0093]
以上对本发明所提出的一种基于强化学习的基站休眠方法、设备和介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1