基于ε-贪婪的在线序贯感知与机会接入方法

文档序号:7871087阅读:337来源:国知局
专利名称:基于ε-贪婪的在线序贯感知与机会接入方法
技术领域
本发明涉及无线通信技术中的认知无线电领域,具体讲是针对统计未知的机会频谱接入系统中,最优序贯感知顺序的在线学习方法。
背景技术
受频谱监管部门的倡议和认知无线电技术进步的驱动,动态频谱接入(DSA)已经被广泛认可为提高频谱利用率的有效手段。为了保护主用户通信不受影响,认知用户在接入信道前需要对信道进行频谱感知,以确保信道空闲。受限于硬件水平,认知终端通常一次只能感知整个频段的一小部分。在此情况下,如何合理的安排感知顺序,将直接影响系统的吞吐量和接入时延。实现最优的信道感知与接入中的一个关键难点,就是难以预估的信道统计分布,尤其是实际的异构网络场景下,不同信道的可用概率和链路质量不尽相同。在线学习,由于其与生俱来的自适应性和有效性,已经被广泛应用于动态无线网络中。通过限定认知用户在每个时隙中只感知一个信道,现有的在线接入研究将此类问题建模为经典的多臂老虎机(MAB =Mult1-Armed Bandit)分析模型。即用户只需要根据对信道收益的统计,在每个时隙选择一个信道接入,来最大化系统累计吞吐量。尽管这种简单的“每时隙选一个信道”的研究模型在同步的周期感知系统中有一定的合理性,但在更多的分布式认知网络里,尤其是点对点通信场景,这种简单模型并不合适。一方面,由于信道感知时间通常都远远小于传输时隙(比如,TV信道的感知时间通常为10毫秒级,而主用户保护约束下的传输时隙为2秒),当用户感知发现当前信道占用时,直接切换到下一信道进行频谱感知比在原信道等待下一次传输时隙更为合理且有效。另一方面,由于无线信道状态的随机性,切换信道进行感知通常都能获得更多的传输机会,即获得多信道分集增益。并且,由于可用信道的数目众多 (比如,超过半数的用户拥有20个以上的可用TV信道),这种分集增益还是非常可观的。基于此,本发明针对统计未知的异构信道网络下,提出一种基于在线学习的序贯信道感知与接入策略。不同于以往方法中限制每时隙只选择一个信道感知接入,在本方案的模型中,允许用户在每个时隙中序贯地感知信道,并机会的接入进行传输。由此,通过实时动态地调整感知顺序和接入策略,最大化系统在一定时间段上的累积吞吐量收益。

发明内容
本发明提出了一种动态频谱环境中基于ε -贪婪的在线序贯感知与机会接入方法,以解决在统计信息未知时,序贯感知顺序学习与累积吞吐量优化的问题。本发明是采用以下技术方案实现的:一种基于ε -贪婪算法的在线序贯感知与机会接入方法,在每个时隙中,用户序贯地感知信道,并机会的接入进行传输。本发明中,包括初始化相关参数的步骤和在每一个时隙进行的基于在线学习的接入决策的步骤。
本发明中,初始化相关参数的步骤具体包括:1.1对每个信道i,i e {I,..., N},初始化各信道空闲概率估计g = O,各信道被感知的次数统计IIi=O ;1.2初始化候选信道集合Stl=U,...,N},其中N为信道总数;1.3初始化ε-贪婪算法的控制参数ε = ε(ι,ε ^的取值与信道总数N相关,根据网络场景中的信道数目N,Stl取0.5 2.5之间的一个值。本发明中,所述的算法控制参数ε ^的取值与信道总数N的关系,如表I所示;
权利要求
1.一种基于ε-贪婪算法的在线序贯感知与机会接入方法,其特征在于在每个时隙中,用户序贯地感知信道,并机会的接入进行传输。
2.根据权利要求1所述的基于ε-贪婪的在线序贯感知与机会接入方法,其特征在于,包括初始化相关参数的步骤和在每一个时隙进行的基于在线学习的接入决策的步骤。
3.根据权利要求2所述的基于贪婪算法的在线序贯感知与机会接入方法,其特征在于,初始化相关参数的步骤具体包括: 1.1对每个信道i,i e {I,..., N},初始化各信道空闲概率估计^ = O,各信道被感知的次数统计Iii=O ; 1.2初始化候选信道集合Stl= {1,...,N},其中N为信道总数; 1.3初始化贪婪算法的控制参数ε =、,^的取值与信道总数N相关,根据网络场景中的信道数目N,Stl取0.5 2.5之间的一个值。
4.根据权利要求3所述的基于贪婪算法的在线序贯感知与机会接入方法,其特征在于,所述的算法控制参数y ^的取值与信道总数N的关系,如表I所示;
5.根据权利要求2所述的基于贪婪的在线序贯感知与机会接入方法,其特征在于,在任一时隙j进行基于在线学习的信道接入决策的步骤具体包括: 步骤0.对每个信道i,i e {1,...,N},初始化各信道空闲概率估计~ =0,各信道被感知的次数统计Iii=O ; 步骤1.采用下述公式调整候选信道集合S和算法控制参数ε ;
全文摘要
一种基于ε-贪婪算法的在线序贯感知与机会接入方法,在每个时隙中,用户序贯地感知信道,并机会的接入进行传输;包括初始化相关参数的步骤和在每一个时隙进行的基于在线学习的接入决策的步骤。本发明能够主动的学习环境并自适应环境的动态变化。本发明是一种在线的实施决策方法,系统根据每一次的决策和反馈实时调整下一步的决策,从而得以最大化系统的长期累积吞吐量收益。
文档编号H04W74/08GK103179675SQ20131000634
公开日2013年6月26日 申请日期2013年1月8日 优先权日2013年1月8日
发明者王金龙, 吴启晖, 李柏文, 郑学强 申请人:中国人民解放军理工大学通信工程学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1