基于值函数近似的超密集异构网络小站编码协作缓存方法与流程

文档序号:17376033发布日期:2019-04-12 23:19阅读:188来源:国知局
本发明属于移动通信中的无线网络部署
技术领域
:,特别涉及了一种超密集异构网络小站编码协作缓存方法。
背景技术
::随着智能终端的普及和互联网业务的发展,为满足用户对于高数据速率和高服务质量的要求,超密集异构网络将成为第五代移动通信系统(5g)的关键技术之一,通过在宏基站覆盖范围内部署密集的小站,可有效提升网络边缘用户的通信质量,从而提高频谱效率和系统吞吐量。然而,由于小站通过无线回程链路连接到宏基站,密集部署的小站给无线回程链路造成巨大的压力,此时高负载的无线回程链路成为网络的瓶颈。超密集网络架构亟待与其他的网络架构或技术相融合来更好地服务用户,移动网络边缘化就是一种合适的选择。边缘存储是移动网络边缘化架构中一个重要的概念,即在小站缓存文件来减少高峰期的海量数据传输,可有效减轻系统回程链路负载,降低传输时延,提升用户体验。超密集异构网络中小站数目多、距离近,用户一般处在多个小站的覆盖范围内,如果小站为用户协作传输文件,则可以使小站有限的缓存空间得到更加充分地利用。因此超密集异构网络中的边缘缓存问题是值得深入研究的。现有缓存技术往往是把缓存决策建模成一个优化问题。首先,往往认为文件流行度是不随时间变化的,实际网络中的文件流行度是时刻变化的,这种基于不变的文件流行度来求解优化问题的方法不能追踪文件流行度的不断变化,从而使得出的缓存决策并不能很好地适用于实际网络;其次,即使是把不变的文件流行度换成瞬时的文件流行度,文件流行度变换一次,优化问题就要重新运行一次,带来巨大的网络开销,况且建模的优化问题往往是np-hard(non-polynomialhard)问题,求解非常困难;最后,由于缓存问题本身是根据网络中已经发生过的文件请求行为,作出缓存决策,为将要发生的文件请求行为做准备,基于传统解优化问题制定缓存决策的方法不能挖掘网络中文件请求的转移模式,从而使作出的缓存决策对将要发生的文件请求并不是最优的。技术实现要素:为了解决上述
背景技术
:提出的技术问题,本发明提供基于值函数近似的超密集异构网络小站编码协作缓存方法,采用值函数近似方法来挖掘文件请求的潜在转移模式,获得优于传统方法的协作缓存策略。为了实现上述技术目的,本发明的技术方案为:基于值函数近似的超密集异构网络小站编码协作缓存方法,将宏基站及其覆盖范围内的小站作为机器,宏基站负责决定每个时隙状态下小站要执行的动作并下达给各小站,各小站负责执行动作,所述状态包括本时隙的文件流行度和前一时隙做出的协作缓存决策,所述动作是指本时隙做出的为下一时隙文件请求服务协作缓存决策;采用值函数近似的强化学习方法,将值函数表达为状态和动作的函数,以最大化平均累积小站直接服务的文件请求数目为优化目标,通过不断地与环境交互,适应环境的动态变化,挖掘出潜在的文件请求转移模式,得到值函数的近似式,进而得到与文件请求转移模式相匹配的协作缓存决策;宏基站对协作缓存决策进行编码,并将编码协作缓存结果传达给各小站。进一步地,包括以下步骤:步骤1、采集网络信息,设置参数:采集网络中的宏基站集合m、小站集合p、文件请求集合c1以及第m个宏基站覆盖范围内的小站数目pm,m∈m;获得小站缓存空间k,运营商根据网络运行情况和硬件成本确定站缓存空间k;运营商根据超密集异构网络中的文件请求情况将一天时间划分为t个时隙,并设置每个时隙的时间起点,根据发生时间先后将每个时隙划分为三个阶段:文件传输阶段、信息交换阶段和缓存决策阶段;步骤2、制定基于mds编码的基站协作缓存方案:将小站的协作缓存决策向量记为a(t),a(t)中的每个元素ac(t)∈[0,1],c∈c1,代表在第t时隙小站缓存第c个文件的比例,ac(t)≠0的文件集合即是t时隙缓存的文件集合,记为c'(t),第c个文件包含b个信息比特,第m个宏基站通过mds编码把b个信息比特编码生成个校验比特:上式中,d是接收信号功率大于一个阈值的小站的个数,阈值由运营商根据网络运行情况确定,所有个校验比特分为小站候选比特和宏基站候选比特两部分,其中小站候选比特包含pmb个比特,即每个小站有互不重复的b个候选比特,在t时隙每个小站从各自的候选比特中选择前ac(t)b个比特进行缓存;宏基站从其候选比特中任意选取(1-dac(t))b个比特进行缓存,根据mds编码性质,一次文件请求获得至少b个校验比特就能够恢复整个文件;步骤3、制定基站协作传输方案:用户的每次文件请求首先从覆盖它的d个小站获得dac(t)b个比特,若dac(t)≥1,则宏基站不需再传输数据;否则宏基站从d个小站中选择距离用户最近的一个小站,传输(1-dac(t))b个比特给该小站,然后由该小站把这些比特传输给用户,宏基站传输的数据称为回程链路负载;步骤4、用马尔科夫决策过程mdp来描述强化学习任务:建立强化学习四元组其中x代表状态空间,a代表动作空间,代表状态转移概率,在x状态下执行动作a转移到x′状态的概率,代表该转移带来的奖赏;强化学习四元组具体形式如下:动作空间:由于缓存决策向量包含的元素个数等于集合c1的元素个数c,因此动作空间是c维连续空间,把每维ac(t)量化成l个离散值,l由运营商根据宏站计算能力确定,则离散化的动作空间为a={a1,a2,…,a|a|},其中任意一个动作向量j∈{1,2,…,|a|}需满足满足该条件的动作向量总个数为|a|,第t时隙的缓存决策a(t)∈a;状态空间:在第t时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量n(t)=[n1(t),n2(t),…,nc(t)],总文件流行度记为向量θ(t)=[θ1(t),θ2(t),…,θc(t)],其中c∈c,那么第t时隙的状态记为x(t)=[θ(t),a(t-1)];令h={θ1,θ2,…,θ|h|}为总文件流行度集合,θ(t)经量化后即为集合h中的一个元素,则状态空间记为x={x1,x2,…,x|h||a|},状态x(t)∈x;状态转移概率:在第t时隙执行动作a(t)后,该动作作用到当前的状态x(t)上,环境从当前状态以潜在的转移概率转移到下一个状态x(t+1),该转移概率是未知的;奖赏:在环境转移到x(t+1)的同时,环境会给机器一个奖赏,奖赏在这里定义成小站直接服务的文件请求数目:上式中,u[·]代表阶跃函数,为在第t时隙的缓存决策阶段更新小站缓存需传输的文件数目,为在第(t+1)时隙的信息交换阶段由宏基站传输的文件数目;步骤5、明确强化学习目标:定义确定性策略函数π(x),x∈x,根据该策略知,在状态x(t)下要执行的动作a(t)=π(x(t)),则状态值函数:上式中,代表从状态x(t)出发,使用策略π所带来的累积奖赏,0≤γ<1是t时隙执行的动作π(x(t))对将来状态影响程度的度量;得到状态值函数后,便得到状态-动作值函数,即q函数:上式中,a'(t))代表从状态x(t)出发,执行动作a'(t)后再使用策略π带来的累积奖赏;用x,x',a分别代替x(t),x(t+1),a'(t),目标是找到使期望累积奖赏最大的策略记为π*(x),最优值函数为根据最优策略得到:也即:步骤6、制定基于值函数近似的q-learning过程:(601)用值函数近似的方法来表示q函数,即将q函数表示为状态和动作的函数,受瞬时奖赏的启发,在状态x(t)下,执行动作a'(t),q函数近似表示为:上式中,ω1和ω2代表两部分的权重,设置ω1>>ω2,β,ηi,ξi是未知的参数,需要通过学习得到;(602)求解协作缓存决策:(603)建立q-learning的目标:根据上式计算在状态x(t)下,执行动作a(t)所带来累积奖赏真实值:上式中,为状态x(t+1)下的动作估计值;(604)定义损失函数:上式中,η=[η1,η2,…,ηc],ξ=[ξ1,ξ2,…,ξc],eπ表示对策略π求期望;根据损失函数更新参数β,η,ξ;步骤7、设置当前时隙t=1,随机设置起始状态x(t)=[θ(t),a(t-1)],参数初始值βp=0,ηp=0,ξp=0,运营商根据网络变化快慢设置γ的值,范围为[0,1),根据要更新的参数的数量级确定更新步长δ的值,范围为(0,1],根据网络规模设置训练时隙的个数ttotal;步骤8、在t时隙的缓存决策阶段,使用ε-贪心法的策略取状态x(t)下要执行的协作缓存决策a(t);步骤9、宏基站根据步骤2将需要缓存的文件进行mds编码,并将编码后的数据包传输给小站缓存;步骤10、在t+1时隙的文件传输阶段,用户请求文件,基站根据步骤3协作传输为用户服务;步骤11、在t+1时隙的信息交换阶段,每个宏基站覆盖范围内的所有小站将其在t+1时隙内文件请求次数报告给宏基站,宏基站汇总文件请求总次数记为向量n(t+1),并计算总文件流行度记为向量θ(t+1);步骤12、转移到的状态为x(t+1)=[θ(t+1),a(t)],计算奖赏函数步骤13、估计在状态x(t+1)下要执行的动作:步骤14、根据步骤(604)更新q函数近似式中的参数;步骤15、如果t=ttotal,则停止训练,进入步骤16;否则,t=t+1,进入下一时隙,回到步骤8,继续训练;步骤16、从t时隙开始,基于训练得到的q函数近似式确定协作缓存决策,服务于下一时隙的文件请求。进一步地,,在步骤3中,d的确定方法如下:设用户被d'个小站服务的概率为pd',首先基于运营商的基站部署情况,根据用户位置的历史数据计算得到pd':在时间段τ内,每隔τ'时间间隔分别记录u个用户的位置,τ与τ'由运营商根据网络运行情况自行确定,记录用户u∈{1,2,…,u}在每个位置处接收信号功率大于一个阈值的基站个数d',那么基站个数为d'的位置数目记为利用u个用户的历史位置计算得到:上式中,表示在用户u的历史位置中,有i个基站为用户u提供服务的位置数目;然后,选取d为使概率值pd'最大的d':进一步地,在步骤(602)中,由于ω1>>ω2,省略得到缓存决策:上式的求解过程如下:①根据lmaxd/l≥1确定缓存决策向量中元素的最大值,lmax是最大元素的分母,由于在满足不等式的取值范围内lmax越小越好,因此表示向上取整;②根据基站缓存空间计算缓存决策向量中各个元素i/l的个数zi,i=1,2,…,lmax:其中表示向下取整;③确定各个元素的位置:把系数ηiθi(t),i=1,2,…,c按降序排列,排序后的第j个元素记为对应于排序前的第hj个文件,首先初步确定各个元素的位置:然后,调整中满足条件1-lmaxd/l<0的元素,从开始到j=1结束,循环下面的步骤来调节动作向量中的元素:从中找到满足条件和的最小j',把减1/l,加1/l;同样采用上述求解方法估计步骤13中的进一步地,在步骤8中,以概率1-ε根据步骤(602)选取协作缓存决策;以概率ε随机选择一个满足条件和的协作缓存决策。进一步地,在步骤(604)中,采用随机梯度下降方法来更新q函数近似表示式中的参数β,η,ξ:上式中βc,代表当前时隙的参数,βp,代表前一时隙的参数,0<δ≤1代表更新步长。采用上述技术方案带来的有益效果:本发明利用小站协作编码缓存及协作传输为用户提供服务,通过强化学习挖掘收集到的真实网络中文件请求的转移模式来制定缓存决策,作为一种数据驱动的机器学习方法,无需任何对数据先验分布的假设,更加适用于实际系统;且通过与环境实时交互,可追踪时变的文件流行度,作出相应的缓存策略,过程简单可行,不需解np-hard问题。本发明基于值函数近似方法制定协作缓存决策,宏基站通过与环境的不断交互,收集状态信息,作出相应的协作缓存决策,并将决策传达给各小站,能有效利用小站有限的存储空间缓存最准确的文件,显著提高由小站直接服务的文件请求数目,降低系统回程链路负载。附图说明图1是本发明的方法流程图。具体实施方式以下将结合附图,对本发明的技术方案进行详细说明。本发明提出一种以最大化平均累积小站直接服务的文件请求数目为目标,在小站缓存文件总大小不超过小站缓存空间的前提下,基于值函数近似的超密集异构网络小站编码协作缓存方法。该方法通过强化学习挖掘文件请求的转移模式,并根据挖掘到的模式制定小站编码协作缓存方法。将强化学习描述成一个mdp(markovdecisionprocess),宏基站及其覆盖范围内小站作为机器,宏基站负责决定要执行的动作并下达给各小站,各小站负责执行动作,改变环境,环境根据奖赏函数反馈给机器一个奖赏,通过不断地与环境交互,学习得到每个时隙的状态下小站要执行的动作,这里的状态是宏基站观察到的环境的部分描述,包括这一时隙的文件流行度以及前一个时隙作出的协作缓存决策,这里的动作是指这一时隙作出的为下一个时隙文件请求服务的协作缓存决策。奖赏函数是根据缓存决策的目标来定义的,这里定义成小站直接服务的文件请求数目。值函数近似(valuefunctionapproximation)是一种强化学习方法,适用于强化学习任务是在巨大的离散状态空间或连续状态空间上进行的情况,把值函数表达为状态和动作的函数,以最大化平均累积小站直接服务的文件请求数目为优化目标,通过不断地与环境交互,适应环境的动态变化,可挖掘出潜在的文件请求转移模式,得到值函数的近似式,进而得到与文件请求转移模式相匹配的协作缓存决策。宏基站结合mds(maximumdistanceseparable)编码方法,将文件编码,最后将编码协作缓存结果传达给各小站,显著提高由小站直接服务的文件请求数目,降低系统回程链路负载。下文以lte-a系统为例来给出一种实施例,如图1所示,具体步骤如下:第一步:采集网络信息,设置参数:采集网络中的宏基站集合m、小站集合p、文件请求集合c1以及第m个宏基站覆盖范围内的小站数目pm,m∈m,集合c1包含c个文件;获得小站缓存空间k,运营商根据网络运行情况和硬件成本确定站缓存空间k;运营商根据超密集异构网络中的文件请求情况将一天时间划分为t个时隙,并设置每个时隙的时间起点,根据发生时间先后将每个时隙划分为三个阶段:文件传输阶段、信息交换阶段和缓存决策阶段。第二步:制定基于mds编码的基站协作缓存方案:小站的协作缓存决策向量记为a(t)=[a1(t),a2(t),…,ac(t)],其中0≤ac(t)≤1,c∈c代表在第t时隙小站缓存第c个文件的比例,ac(t)≠0的文件集合(即t时隙缓存的文件集合)记为c'(t),文件c包含b个信息比特,宏基站m通过mds编码把b个信息比特编码生成个校验比特:其中d是接收信号功率大于一个阈值的小站的个数,阈值由运营商根据网络运行情况自行确定,所有个校验比特分为小站候选比特和宏基站候选比特两部分,其中小站候选比特包含pmb个比特,即每个小站有互不重复的b个候选比特,在t时隙每个小站从各自的候选比特中选择前ac(t)b个比特进行缓存;宏基站从其候选比特中任意选取(1-dac(t))b个比特进行缓存,根据mds编码性质,一次文件请求获得至少b个校验比特即可以恢复整个文件。第三步:制定基站协作传输方案:用户的每次文件请求首先从覆盖它的d个小站获得dac(t)b个比特,若dac(t)≥1,则宏基站不需再传输数据;否则宏基站从d个小站中选择距离用户最近的一个小站,传输(1-dac(t))b个比特给该小站,然后由该小站把这些比特传输给用户,宏基站传输的数据称为回程链路负载。d的确定方法:用户被d'个小站服务的概率为pd',首先基于运营商的基站部署情况,根据用户位置的历史数据计算得到pd':在时间段τ内,每隔τ'时间间隔分别记录u个用户的位置,τ与τ'由运营商根据网络运行情况自行确定,记录用户u∈{1,2,…,u}在每个位置处接收信号功率大于一个阈值的基站个数d',那么基站个数为d'的位置数目记为利用u个用户的历史位置计算得到:其中表示在用户u的历史位置中,有i个基站为用户u提供服务的位置数目。选取d为使概率值pd'最大的d':第四步:用mdp来描述强化学习任务:其中x代表状态空间,a代表动作空间,代表状态转移概率,在x状态下执行动作a转移到x’状态的概率,代表该转移带来的奖赏;强化学习四元组在该问题中的具体形式如下:1、动作空间:动作定义为小站的协作缓存决策向量,机器能采取的动作构成了动作空间,由于缓存决策向量包含的元素个数等于文件的个数c,因此这里动作空间是c维连续空间,把每维0≤ac≤1,c∈c量化成l个离散值,l由运营商根据宏站计算能力自行确定,则离散化的动作空间为a={a1,a2,…,a|a|},其中任意一个动作向量j∈{1,2,…,|a|}需满足满足该条件的动作向量总个数为|a|,第t时隙的缓存决策a(t)∈a。2、状态空间:状态是机器感知到其所处环境的描述,状态由文件流行度向量和小站的协作缓存决策向量组成,例如在第t时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量n(t)==[n1(t),n2(t),…,nc(t)],总文件流行度记为向量θ(t)=[θ1(t),θ2(t),…,θc(t)],其中c∈c,那么第t时隙的状态记为x(t)=[θ(t),a(t-1)];令h=={θ1,θ2,…,θ|h|}为总文件流行度集合,θ(t)经量化后即为集合h中的一个元素,则状态空间记为x=={x1,x2,…,x|h||a|},状态x(t)∈x。3、状态转移概率:在第t时隙执行动作a(t)后,该动作作用到当前的状态x(t)上,环境从当前状态以潜在的转移概率转移到下一个状态x(t+1),该转移概率是未知的。4、奖赏:在环境转移到x(t+1)的同时,环境会给机器一个奖赏,奖赏在这里定义成小站直接服务的文件请求数目:其中,u[·]代表阶跃函数,当括号内的值大于0时,函数值为1,否则为0;为在第t时隙的缓存决策阶段更新小站缓存需传输的文件数目,为在第(t+1)时隙的信息交换阶段由宏基站传输的文件数目。第五步:明确强化学习目标:定义确定性策略函数π(x),x∈x,根据这个策略,可知在状态x(t)下要执行的动作a(t)=π(x(t));定义γ折扣期望累积奖赏的状态值函数:其中eπ表示对策略π求期望,代表从状态x(t)出发,使用策略π所带来的累积奖赏,0≤γ<1是t时隙执行的动作π(x(t))对将来状态影响程度的度量。得到状态值函数后,便可得到状态-动作值函数(q函数):代表从状态x(t)出发,执行动作a'(t)后再使用策略π带来的累积奖赏,(4)式和(5)式称为bellman等式。用x,x',a分别代替x(t),x(t+1),a'(t),目标是找到使期望累积奖赏最大的策略记为π*(x),最优值函数为根据最优策略下的(4)式和(5)式,可得到:也即:(6)(7)两式揭示了非最优策略的改进方式,即将策略选择的动作改变为当前最优的动作:在强化学习四元组已知的情况下,基于(8)式可用值迭代算法或策略迭代算法解bellman等式得到最优策略。第六步:状态转移概率未知情况下,基于值函数近似的q-learning过程:由于状态转移概率是未知的,所以无法通过策略迭代算法或值迭代算法得到最优的策略;同时由于状态转移概率未知导致从状态值函数到q函数的转换困难,因此考虑直接估计q函数;1、q函数近似:为解决大状态空间和动作空间造成的q-table存储以及遍历搜索的困难,用值函数近似的方法来表示q函数,即将q函数表示为状态和动作的函数,受瞬时奖赏的启发,以t时隙为例,在状态x(t),执行动作a'(t),q函数近似表示为:其中ω1和ω2代表两部分的权重,设置ω1>>ω2,β,ηi,ξi是未知的参数,需要通过学习得到。2、协作缓存决策的选择:由于ω1>>ω2,省略得到缓存决策:(11)式求使中括号内值最大的协作缓存策略,从中括号内的表达式可以看出,与(1-da'i(t))相乘的因子ηiθi(t)直接关系到中括号内值的大小,ηiθi(t)越大,其对应的(1-da'i(t))应该越小,这样才会使中括号内的值越大。因此(11)式的求解过程如下:①根据lmaxd/l≥1确定缓存决策向量中元素的最大值,lmax是最大元素的分母,由于在满足不等式的取值范围内lmax越小越好,因此表示向上取整;②计算缓存决策向量中各个元素i/l,i=1,2,…,lmax的个数zi:其中表示向下取整;③确定各个元素的位置:把系数ηiθi(t),i=1,2,…,c按降序排列,排序后的第j个元素记为对应于排序前的第hj个文件,首先初步确定各个元素的位置:然后,调整中满足条件1-lmaxd/l<0的元素,从开始到j=1结束,循环下面的步骤来调节动作向量中的元素:从中找到满足条件和的最小j',把减1/l,加1/l。3、q-learning的目标:把(6)式代入(5)式可得:(14)式揭示了在状态x(t)下,执行动作a(t)所带来累积奖赏真实值的计算方法:其中为状态x(t+1)下的动作估计值,根据步骤2来估计。定义损失函数:其中参数向量η=[η1,η2,…,ηc],ξ=[ξ1,ξ2,…,ξc],q-learning的目标就是使q函数的估计值和真实值尽可能地接近,也即最小化损失函数。4、采用随机梯度下降方法来更新q函数近似表示式中的参数β,η,ξ:其中βc,代表当前时隙的参数,βp,代表前一时隙的参数,0<δ≤1代表更新步长。第七步:设置当前时隙t=1,随机设置起始状态x(t)=[θ(t),a(t-1)],参数初始值βp=0,ηp=0,ξp=0,运营商根据网络变化快慢设置γ的值,范围为[0,1),根据要更新的参数的数量级确定δ的值,范围为(0,1],根据网络规模设置训练时隙的个数ttotal。第八步:在t时隙的缓存决策阶段,使用ε-贪心法的策略取状态x(t)下要执行的协作缓存决策a(t):以概率1-ε根据第六步中步骤2选取协作缓存决策;以概率ε随机选择一个满足条件和的协作缓存决策。第九步:宏基站根据第二步将需要缓存的文件进行mds编码,并将编码后的数据包传输给小站缓存。第十步:在第(t+1)时隙的文件传输阶段,用户请求文件,基站根据第三步协作传输为用户服务。第十一步:在第(t+1)时隙的信息交换阶段,每个宏基站覆盖范围内的所有小站将其在第(t+1)时隙内文件请求次数报告给宏基站,宏基站汇总文件请求总次数记为向量n(t+1),并计算总文件流行度记为向量θ(t+1)。第十二步:转移到的状态为x(t+1)=[θ(t+1),a(t)],根据(3)式计算奖赏函数第十三步:根据第六步中步骤2估计在状态x(t+1)下要执行的动作:第十四步:根据(17)式更新q函数近似式中的参数。第十五步:如果t=ttotal,则停止训练,进入第十六步;否则,t=t+1,进入下一时隙,回到第八步,继续训练。第十六步:从t时隙开始,基于训练得到的q函数近似式根据第六步中步骤2确定协作缓存决策,服务于下一时隙的文件请求。根据上述过程可知,在q函数学习过程中,宏基站及其覆盖范围内小站作为机器,把文件流行度以及小站的协作缓存决策作为状态,把协作缓存决策作为动作,把小站直接服务的文件请求数目作为奖赏函数,通过不断与环境进行交互,以最大化累积奖赏函数为目标,学习得到q函数近似式,进而得到每个状态下的协作缓存决策,然后宏基站用mds编码将要缓存的文件进行编码,并把编码结果传达给各小站进行协作缓存。该方法利用强化学习方法,从数据中找模式,无需基于数据分布求解优化问题。能追踪实时变化的文件流行度,充分挖掘并利用潜在的文件请求转移模式来制定协作缓存决策,更适用于实际系统,显著提高由小站直接服务的文件请求数目,有效降低系统回程链路负载,提供系统性能,提升用户体验。实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1