一种基于认知的卫星通信网络选择算法

文档序号:9633593阅读:966来源:国知局
一种基于认知的卫星通信网络选择算法
【技术领域】
[0001] 本发明属于卫星通信技术,具体设及一种基于认知的卫星通信网络选择算法。
【背景技术】
[0002] 在地面移动通信中,已经分配给用户的频谱资源经常处于空闲状态运种问题时常 发生,卫星通信同样面临频谱利用率不均衡的现实情况。运种看上去无频谱资源可用而实 则频谱资源充足的现象的症结在于,各个网系对频谱资源采取"独占"的授权分配政策。在 授权用户没有利用授权频段时,其他用户也无权使用该频段,运一缺乏灵活性的政策造成 了巨大浪费。因此,在卫星通信系统中引入认知的概念是非常重要而迫切的。利用认知技 术,卫星网管中屯、对各个卫星通信网系的空间与频谱资源状况进行监测与分析,充分了解 卫星通信频谱资源的实时变化,并依据认知结果,合理地为认知用户选择网络并组织分配 卫星资源,从而为更多用户提供质量更高的卫星通信服务,提高整个卫星通信系统的组网 效率和频谱资源利用率。
[0003] 基于认知的卫星通信网络选择是指认知用户在多重卫星通信网络覆盖下,在开机 初始寻找网络接入或者因为位置移动进行网络切换时,综合考虑用户业务信息、网络状态 等,根据一定的算法策略,保证自身始终接入条件最优的网络。目前,常见的传统网络选择 算法包含算数加权法、乘法加权法、逼近最优解序列偏好法、灰度关联分析法等。由于传统 的网络选择技术是对已知参数的直接加权计算,因此不适用于用户在陌生环境或者先验信 息不足时的网络选择。而基于认知的卫星通信网络选择算法通过认知用户与外界环境的 交互、学习和更新,在不对主用户产生有害干扰的同时,完成一种动态的卫星通信网络的 选择。近年来,研究学者针对强化学习提出了多种算法。张冬梅值ongmei Zhang),马 华东化Uadong Ma). "A Q-Learning-based Decision Making Scheme for Application Reconfiguration in Sensor Networks" (Computer Supported Cooperative Work in Design, 2007.) -文对Q学习算法进行了相关研究与应用,Q学习是强化学习研究过程中的 里程碑,Q学习可W从有延迟的回报中获取最优控制策略,从而选择能够达到目的的动作。Q 学习对环境的先验知识要求较低,在大空间、复杂非线性系统中具有良好学习性能。李莉斯 (Lilith, N),多冈西值Ogancay, K). "Distributed Dynamic Call Admission Control and Channel Allocation Using SARSA" (Communications, 2005 Asia-Pacific Conference on) -文对SARAS学习算法进行了相关研究与应用,SARAS学习是一种"在策略"算法,即值 函数更新和选择动作的策略相同。SARAS学习与Q学习不同,Q学习是一种"离策略"算法, 而且Q学习是基于后继状态的各假设动作的最大R值来更新R值,SARAS学习是利用学习 策略所选择的实际动作a来更新R值;Q学习依据修改后的R值确定动作,而SARAS学习 依据当前R值确定下一状态时的动作。

【发明内容】

[0004] 本发明的目的在于提供一种基于认知的卫星通信网络选择算法,认知用户通过与 外界环境的交互、学习和更新,在不对主用户产生有害干扰的同时,完成一种动态的卫星通 信网络的选择,实现单个认知用户在多重卫星通信网络覆盖并且卫星网管中屯、提供的各个 卫星通信网络的状态和信息参数不足时仍然能够接入最佳网络。 阳〇化]实现本发明目的的技术解决方案为:一种基于认知的卫星通信网络选择算法,方 法步骤如下:
[0006] 步骤1、建立基于认知的卫星通信系统模型。
[0007] 步骤2、在所述基于认知的卫星通信系统模型中,认知用户感知自身所处环境覆盖 的卫星通信网络,若只有一个可用的卫星通信网络,则选择当前网络;若存在多重卫星通信 网络,则认知用户通过卫星网管中屯、收集各个卫星通信网络的状态和信息参数,即先验信 息,先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载,并 转入步骤3。
[0008] 步骤3、认知用户根据卫星网管中屯、提供的先验信息,使用合适的方法选择多重卫 星通信网络覆盖下的最佳网络:
[0009] 当先验信息完全时,认知用户根据自身的业务需求并且结合收集到的先验信息, 直接进行网络选择;当缺少至少一项上述先验信息时,则认知用户利用强化学习技术获取 各个卫星通信网络的反馈信息,从而进行网络选择,转入步骤4。
[0010] 步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而 进行网络选择,步骤如下:
[0011] 步骤4-1、根据环境状态S,S G S、认知用户执行的动作a, a G A、状态-动作奖励 值R(S,a)和状态转移概率函数P (S,a),利用马尔可夫决策过程进行建模,并且W状态-动 作奖励值R(s,a)作为衡量标准,其中A是动作选择集合,S是环境状态集合;
[0012]步骤4-2、初始化状态-动作奖励值Ri (S,a),当认知用户无法获得任何先验信息 时,令Ri (S,a) = 0 ;当认知用户已知部分先验信息时,不同的卫星通信网络对应不同的奖 励值Ri (S,a),其中,Rt (S,a)表示认知用户第t次访问该状态-动作对时的奖励值;
[0013] 步骤4-3、认知用户在与多重卫星通信网络的交互过程中,获取环境状态S,根据 当前环境状态S下的状态-动作奖励值Rt (S,a),按照使Rt (S,a)最大的策略选择动作 过;
[0014] 步骤4-4、认知用户执行动作a,得到性能体验反馈信号f(s,a)和下一时刻的环境 状态S',寻找环境状态s'下的状态-动作奖励值的最大值maxRt(s',a'),并根据式(1)更 新 Rt (S, a):
[0015] R"i (S, a) = (1-A t)Rt (S, a)+入t(ft+丫maa'xRt(s',曰')) (I)
[0016] 其中,折扣因子丫体现未来反馈相对当前反馈的重要性,在t时刻的学习因子 入t(s,a)的更新如式(2)所示,体现认知用户与环境的交互速率;
(2)
[001引其中,Nt(S,a)表示在t时刻认知用户访问状态-动作对(S,a)的次数,b为衰减 因子;
[0019] 步骤4-5、判断认知用户是否找到当前环境下的最优网络,即认知用户的选择结果 是否收敛,当认知用户接入最优网络时结束迭代循环;否则,返回步骤4-2。
[0020] 所述步骤I中,基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星 网管中屯、,其中,一个卫星通信网络至少对应一颗卫星,卫星在通信网络内完成中继任务; 主用户是每个卫星通信网络内的授权用户,不同卫星通信网络内的主用户相互之间没有影 响,经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中屯、报备即可;认知 用户是伺机利用空闲资源的未经授权的用户,在不影响主用户通信时,认知用户能够接入 任何可用的卫星通信网络,进而建立卫星通信链路。
[0021] 在基于认知的卫星通信链路中,主用户向卫星发出申请信号,卫星转发申请信号 到卫星网管中屯、,由于主用户已经得到授权,则卫星网管中屯、接收到主用户的申请后分配 相应的网络资源给主用户,认知用户通过与卫星和网管中屯、的交互获得反馈信息,从而根 据收集到的信息接入最优的卫星通信网络。
[0022] 本发明与现有技术相比,其显著优点在于:(1)与传统的网络选择技术相比,本发 明将静态的选择过程改进为动态的学习过程,不但适用陌生环境而且在先验知识较少的特 殊网络环境也具备较大的优势;(2)与同为机器学习的监督学习相比,强化学习产生的强 化信号是对执行动作的优劣的一种评价而非直接指导,可W实现在线学习;(3)与同为机 器学习的无监督学习相比,强化学习时刻与环境进行交互;(4)本发明根据认知用户在不 同网络得到的服务质量不同实时调整服务的强化信号,使认知用户接入更加适合自己的网 络,从而提高系统的资源利用效率,改善认知用户服务体验。
【附图说明】
[0023] 图1为本发明的一种基于认知的卫星通信网络选择算法的流程图。
[0024] 图2为本发明的一种基于认知的
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1