专利名称:动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
技术领域:
本发明涉及无线通信技术中的认知无线电领域,具体讲是基于多智能体强化学习实现在动态频谱环境中频率功率联合分配的新方法。
背景技术:
目前,随着无线通信业务种类的快速增长,对无线频谱资源的需求也呈指数增长, 使得未来无线通信中的频谱资源“匮乏”问题日益突出。认知无线电技术在保证主用户服务质量的条件下以“伺机接入”的方式利用授权用户的空闲频段,大大提高了频谱的使用效率,是解决“频谱匮乏”问题的有效方法。认知网络中(cognitive radio networks简称 CRN)的频率功率联合分配技术通过合理的分配各认知用户或次级用户(secondary user, 简称SU)所使用的频率和功率,尽可能的减少SU之间的干扰,提升认知无线网络的吞吐量。 因此,频率功率联合分配技术是保证认知无线网络传输效率的前提和基础。频率功率联合分配是实现认知网络共享CRN频谱资源的主要方法之一。通过合理配置SU的接入信道以及发射功率,实现在不干扰主用户(primary user,简称PU)的前提下,优化认知网络的吞吐量性能。然而与非认知系统的资源分配不同,由于PU占用状态的动态变化,认知用户的可用频谱资源同样是动态的,因此SU必须根据PU状态实时的调整策略。此时给联合分配方法的设计带来许多新的挑战。强化学习(reinforcement learning,简称RL)采用对外界环境和自身决策不断探测的方式,获取在动态环境中,能最优化长远收益的决策。通过采用RL学习方法,单个SU 能够适应频谱资源的动态性,实现最大化长远收益的频率功率联合决策。然而在多个SU并存时,由于各SU的频率功率联和决策互相影响,互相制约,且处于动态变化之中,因此RL学习方法的性能将大打折扣,甚至无法收敛。多智能体强化学习方法(multi-agent reinforcement learning,简称MARL)考虑了在多个学习者共存时,对环境的动态变化和其它学习者策略动态变化的学习问题。其主要思想是将RL学习方法中的单个用户决策学习扩展至多个用户的联合决策学习,因此能有效地解决单个用户决策学习的低效性和不稳定性。近年来MARL方法在无线资源分配领域得到了广泛应用。
发明内容
本发明的目的是针对PU占用信道状态动态变化时,多个SU共存的CRN网络中的频率功率联和分配问题,提出一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法。本发明的技术方案是一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,包括下列步骤步骤1.参数初始化,完成以下工作1. 1网络中每个认知链路i,i e {1,...,N}初始化其行为回报函数即Q函数Qij0 (x, fw) = 0, χ e χ, f1 e Fi其中χ表示状态变量,而X表示所有状态集合,#表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率决策,而Fi则表示联和频率选择fi所有可能组合的联合频率决策集合;1. 2初始化认知链路的历史干扰大小即I值表Iij0 (x, f1) = N0, X e X, f1 e Fi其中Ntl表示表示噪声功率;1. 3初始化其他认知链路频率策略的估计值元0(x,y;.)= l/|巧I,N、,jti其中。表示认知链路j的频率选择,Fj表示认知链路j可选的频率集合,I · I表示求解集合的势,If」表示用户j可选频率集的大小;步骤2.感知决策时隙之频率决策实现主用户状态的感知和认知链路的频率决策,通过执行以下分布式方法实现在t,t = 0,1,2,...次迭代中,首先,每个认知链路i,i e {1,...,N}通过执行
2. 1求解出针对每一个状态和联合频率决策的平均Q函数;然后基于2. 1获取的平均Q函数,通过执行2. 2求解认知链路的频率策略;根据链路的频率策略,执行2. 3获取最终的频率决策;2. 1计算平均Q函数这(x,/)
权利要求
1.一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,其特征在于实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。
2.根据权利要求1所述的动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,其特征在于,包括下列步骤步骤1.参数初始化,完成以下工作·1.1网络中每个认知链路i,i e {1,...,N}初始化其行为回报函数即Q函数Α,“χ, f1) = 0, χ e X, f1 e Fi其中χ表示状态变量,而X表示所有状态集合,f"表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率决策,而Fi则表示联和频率决策f"所有可能组合的联合频率决策集合;·1. 2初始化认知链路的历史干扰大小即I值表 Iii0 (X, = N0, X e X,f1 e Fi 其中Ntl表示表示噪声功率;·1.3初始化其他认知链路频率策略的估计值
全文摘要
一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。本发明能够在动态的频谱环境中实现实时的,性能优越的频率功率联和分配。
文档编号H04W72/04GK102448070SQ201210006680
公开日2012年5月9日 申请日期2012年1月11日 优先权日2012年1月11日
发明者刘鑫, 吴启晖, 王金龙, 郑学强 申请人:中国人民解放军理工大学