认知无线电中基于协作学习的多用户动态频谱接入方法

文档序号:7725857阅读:130来源:国知局
专利名称:认知无线电中基于协作学习的多用户动态频谱接入方法
技术领域
本发明涉及一种特别用于认知无线电系统中多用户动态频谱接入的方法,属于通信技术领域。
背景技术
无线电频谱是全人类共享的有限自然资源,各国对无线频谱的管制都很严格,一般都是由国家统一分配。随着信息时代的到来,无线通信的各种新业务发展迅速,无线设备被广泛使用,无线频谱资源日趋紧张。事实上在许多频段,频谱接入问题比频谱物理稀缺问题更为显著,大部分原因是由于法定的分配规则限制了用户的接入能力。2002年11月,美国联邦通信委员会(FCC)发布了一项由Spectrum-Policy Task Force提交的旨在有效管理美国频谱资源的报告。该报告明确指出“在许多频带,频谱的准入是一个比频谱本身稀缺更加重要的问题,频谱的稀缺很大程度上是由于法规限制了这些频谱上的潜在用户获得准入。”事实确实如此,如果统计一下包括郊区在内的各类地域的频谱占有率,将会发现一些频带在绝大数时间是未被占据的;一些频带是部分时间被占据的;而另外一些频带则是被密集使用的。这种频谱利用的不均的情况引导了通信业界研究人员去思考“频谱空穴”(Spectrum Holes)这样一个崭新的概念,即“一个频谱空穴是分配给授权用户的频带,但是,在某一指定时间和空间,在授权用户不占用这一频带的情况下,此频带可以被其他用户使用。”这样,频谱资源的潜在利用率可以得到明显提高。认知无线电(CR=Cognitive Radio)技术被认为是未来探测频谱空穴特性、高效利用无线频谱的主要手段,是能够有效缓解频谱分配与利用这对矛盾的技术。认知无线电的概念起源于1999年Jowph Mitola博士的奠基性工作,他的博士论文中是这样描述认知无线电的无线个人数字助理和相关的网络在无线电资源和通信方面具有充分的计算智能来探测用户的通信需求,并根据这些需求来提供相应最合适的无线电资源和无线服务。著名通信理论学者、人工智能大师Simom Haykin教授从数字信号处理、网络、人工智能和计算机软硬件实现等角度出发定义了认知无线电,即“认知无线电是一个智能的无线通信系统,可以感知无线环境,通过对环境的理解、主动学习实现在特定的无线操作参数(如功率、载波调制和编码等方案)实时改变和调整它的内部状态。适应外部环境的变化,具有在不影响其他授权用户(主用户,Primary user, Licensed user)的前提下智能地利用大量空闲频谱并且随时随地、智能、高可靠性通信的潜能。”FCC定义认知无线电是一种可通过与其运行环境交互而改变其发射机参数的无线电。国际电信联盟 ITU(International Telecommunication Union)定义认知无线电为可感知或了解其操作的环境从而动态、自治地调整其操作参数的无线电或系统。总的来说,认知无线电可认为是一种可以依靠人工智能的支持,感知环境,根据一定的学习和决策算法,实时、自适应地改变系统工作参数,动态地检测和有效地利用空闲频谱的无线电。研究认知无线电对于解决无线频谱资源紧张的问题具有十分重要的意义。
学习是人类智能的重要表现之一,人所以能够适应环境的变化并提高解决问题的能力,其原因在于人能通过学习积累经验,总结规律,以增长知识和才能。人工智能大师 Simon认为学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行相同任务或相类似的任务时,会比现在做的更好或效率更高。学习是认知无线电系统的一个重要环节,认知无线电系统能够感知周围环境(如无线电环境,信道环境等), 并能从环境中学习,通过实时的改变相应的固定参量(如发送功率,发送频率和调制策略等),来达到通信的可靠性和更有效的频谱利用率这两个主要目的。

发明内容
技术问题本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态接入方法,单个智能体(认知用户)可以独立地解决各种简单的问题,但是当问题变复杂时,单智能体独立学习却越来越无能为力,因此此时必须得依靠多个智能体共同工作来解决这些复杂的问题。本发明将黑板模型、融合算法和强化学习结合起来,可以提高多认知用户系统的学习速率。技术方案本发明中,基于协作学习的多用户动态频谱接入方法的思路是每个认知用户都采用单Agent强化学习算法独立地进行学习,为了加快学习速度、提高学习效率,多个认知用户通过黑板模型进行策略的共享,一段学习时间后,利用融合算法对多个策略进行融合来改进策略,然后利用融合后的策略进行再学习。这相当于给每个认知用户增加了先验知识,从而能使其更快地学习。方法框架如

图1所示动作选择器根据Q值和选定的动作选择策略来选择动作。执行器执行动作选择器选择的动作,作用于环境,使得环境状态St转移到下一状
χ st+i οQ学习根据环境状态s,采取的动作a和奖赏函数r,通过Q-Iearning算法进行学习,从而智能地调整认知用户的动作策略。黑板模型每学习N步之后,每个认知用户将自己当前的Q值发布到黑板上,同时从黑板上获取其他认知用户的Q值,从而实现策略共享。融合算法对从黑板获得的策略进行融合,以期能获得更高奖赏值的策略。该方法的具体内容为a、初始化随机初始化每个认知用户的状态-动作对函数值Q(s,a),s表示认知用户的状态,a表示认知用户所采取的动作,设定初始学习速率α C1、温度参数T和迭代次数 N;b、状态空间的构建状态空间S = {如S2,…,sK,々,&,···,<5^},其中、= 0表示信道被授权用户k占用= 1表示信道未被占用;Sl &表示授权用户占用的信道,K为授权用户数,·^ ~ ^表示被认知用户占用的信道,Cl1 dM表示M个认知用户数;C、动作选择策略对状态-动作函数值Q(st,at)用玻耳兹曼法进行非线性化,然后再采用轮盘赌算法进行选择,用Boltzmarm机分布选择动作的概率
权利要求
1.一种认知无线电系统中基于协作学习的多用户动态频谱接入方法,其特征在于该方法的具体内容为a、初始化随机初始化每个认知用户的状态-动作对函数值Q(s,a),s表示认知用户的状态,a表示认知用户所采取的动作,设定初始学习速率α C1、温度参数T和迭代次数N ;b、状态空间的构建状态空间S= { ,而,…,%,'"‘‘ ^/),其中% = 0表示信道被授权用户k占用= 1表示信道未被占用;Sl %表示授权用户占用的信道,K 为授权用户数,·^ ~ ^表示被认知用户占用的信道,Cl1 dM表示M个认知用户数;c、动作选择策略对状态-动作函数值Q(st,at)用玻耳兹曼法进行非线性化,然后再采用轮盘赌算法进行选择,用B ο 11 ζ marm机分布选择动作的概率
2.如权利要求1所述的认知无线电系统中基于协作学习的多用户动态频谱接入方法, 其特征在于对Q值利用融合方法进行计算的过程为步骤1 设N次迭代为一个学习周期,在每个学习周期结束之后,各认知用户将自己当前的Q值发送到黑板,并且分享黑板中其它认知用户的Q值,找出拥有最大Q值的认知用户
全文摘要
本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态频谱接入方法,该方法将黑板模型、融合算法以及强化学习方法结合起来,先对各个状态-动作对函数值用Boltzmann机进行非线性化,再采用轮盘赌算法进行动作选择,然后确定奖赏函数,实现黑板模型,即所有认知用户将各自当前的Q值通过公共控制信道发送到黑板,并且可以从黑板中获取其它认知用户的Q值,然后利用融合算法进行计算,在此基础上,每个认知用户都根据融合后的Q值进行动作选择。本发明中的每个认知用户独立执行强化学习算法,同时它们之间进行相互合作,共享状态、策略和奖赏,从而加快学习速度。
文档编号H04W16/10GK102238555SQ20111020042
公开日2011年11月9日 申请日期2011年7月18日 优先权日2011年7月18日
发明者朱洪波, 朱琦, 李晓静, 杨龙祥 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1