一种卫星通信系统中基于深度增强学习的动态信道分配方法与流程

文档序号:17629044发布日期:2019-05-10 23:58阅读:191来源:国知局
一种卫星通信系统中基于深度增强学习的动态信道分配方法与流程

本发明涉及卫星通信领域,具体是一种卫星通信系统中基于深度增强学习的动态信道分配方法。



背景技术:

随着人们对卫星提供的高质量与低资费服务的需求愈加迫切,卫星通信系统通过星载多波束配置因可实现高频谱效率及终端尺寸小型化,获得了广泛关注。当今高通量卫星亦或是高容量卫星,都采用了星上灵活载荷与多波束配置方案,进一步提升了多波束卫星系统的频谱利用率,因此动态信道分配成为了研究热点。

在多波束卫星系统场景下,传统的信道分配方案为静态分配方案,即将卫星系统中可用信道资源固定的分配给各波束,避免波束间同信道干扰。但是该静态分配方案会使得系统信道资源难以高效充分利用,这在波束间业务量不均匀时表现更为严重。相比于静态信道分配方案,动态信道分配方案则可根据波束业务量动态调整,能提升信道资源利用率。

现有的动态信道分配方案多考虑当前各波束业务量及用户分布,而为新业务请求分配可用信道时忽视了各波束间动态信道分配的时域关联特性,即当前时刻对一个新业务分配的信道资源,会对后续业务请求分配信道资源时产生影响。这主要是由于同一信道资源分配在不同波束间会产生相互干扰,进而恶化该信道上传输业务质量。

因此,如何考虑时域关联特性进行动态信道分配是目前亟待解决的问题。



技术实现要素:

本发明针对上述时域关联特性进行动态信道分配的问题,提出了一种卫星通信系统中基于深度增强学习的动态信道分配方法,用于解决多波束卫星场景中的动态信道分配问题。

所述基于深度增强学习的动态信道分配方法,具体步骤如下:

步骤一、针对geo多波束卫星系统,构建包含星载多波束天线,小区,信道以及用户的场景;

在此场景中,多波束卫星系统通过星载多波束天线配置,将覆盖范围分为多个独立的小区,并分配可用的信道为各小区的接入用户提供服务。

卫星系统中所有服务的用户集合为{1,2,…k...,k};可用信道集合为{1,2,…m...,m};

步骤二、某用户k发起业务请求后,在每个信道上逐个计算该用户以香农容量为表征的服务质量ck;

具体步骤如下:

步骤201、计算用户k在每个可用信道上的接收端信号yk;

接收端信号yk为:

其中,表示用户k的有用信号,表示除去用户k外,其余所有用户的共信道干扰;σk表示用户k接收天线引入的热噪声;

hk,k为发送给用户k的信号,被用户k接收后,形成的有用信号的信道系数,wk表示系统为用户k提供服务所分配的信道结果,为1*m的向量;分配信道则元素wk为1,否则为0。操作符表示哈达玛积;sk为卫星发送给用户k的信号,为m*1的列向量。hk,i为发送给用户i的信号,被用户k接收后形成的干扰信道系数,wi表示系统为用户i提供服务所分配的信道结果,为m*1的列向量;分配信道则元素wi为1,否则为0。si为卫星发送给用户i的信号,i的取值为1~k。

所有用户所分配的信道组成信道占用矩阵w=[w1,w2,…,wk];

步骤202、针对用户k,根据各可用信道的接收端信号yk中的有用信号和共信道干扰信号,分别计算每个信道对应的有用信号功率dk及共信道干扰信号功率ik,

用户k在某信道上接收的有用信号功率dk计算公式如下:

dk=|hk,k|2·diag{wk}·[diag{wk}]h

共信道干扰信号功率ik计算公式如下:

gk=[hk,1,hk,2,…,hk,k]\hk,k=0,为干扰信道系数的向量,表征了卫星分别发送给用户1~k的信号,被用户k接收后形成的干扰信道系数。

分配矢量vm=[vm,1,vm,2,…,vm,k]t表示对占用了信道m的所有用户发射功率。

步骤203、根据共信道干扰信号功率ik,结合噪声计算干扰信号与噪声功率之和uk;

uk=ik+|σk|2·em

em是m阶单位矩阵。

步骤204、对用户k而言,根据接收端有用信号功率dk、干扰信号与噪声功率之和uk,计算用户k以香农容量为表征的服务质量ck;

ck=bc·det[log2(em+γk)]

其中,表示用户k在每信道上接收信号的sinr(信号与干扰加噪声比);bc表示系统固定为每个信道设定的带宽值。

步骤三、判断用户k在各信道提供的香农容量是否满足ck≥cth,如果是,该分配的信道可用,进行业务正常传输;否则,则该信道不可用,业务请求将掉话或阻塞并结束。

用户k在某信道上的传输性能满足用户k的传输速率要求,该信道为可用信道。

cth为设定的最低容量阈值,与传输业务类型及接收机抗噪性能有关。

步骤四、从满足ck≥cth的可用信道列表中动态分配出一个信道给用户k。

具体步骤如下:

步骤401、构造马尔科夫决策过程中的状态量。

将动态信道分配问题建模为马尔科夫决策过程mdp,需建立对应的状态s、动作a及收益r。状态量定义如下:st=(ut,wt,ut)

st为t时刻的状态,ut为正在服务的用户集合,w为系统信道分配矩阵,ut为待分配信道的用户,即用户k。

步骤402、将该状态量输入到训练好的深度神经网络中,获得网络的输出,即动作价值。

深度神经网络的功能是将输入的状态st映射为m个实数值,称之为动作价值。

动作价值网络记为q(s;θ):s→q(s|a;θ);θ为神经网络的参数;

q(s|a;θ)表示在参数为θ的神经网络时,当前状态为s下,选择动作a对应的q值,即预期收益值。

训练的过程如下:

首先,每次业务到达时,根据动作价值网络选择具有最大映射实值的信道进行分配,并记录上次状态st-1、上次动作at-1、立即收益rt、本次状态st保存到缓存中;

然后,从缓存中随机选择批量的数据训练动作价值网络,训练中使用的准确值yj定义规则如下:

γ是折扣因子参数;j为时刻变量。

步骤403、从可用信道列表中选择具有最大动作价值对应的信道,分配给用户k。

步骤404、对深度神经网络基于误差反向传播原则进行更新,以提升系统动态信道分配的性能。

步骤五、当用户k完成特定业务传输时,放弃所占用的信道;等待下一次新用户请求时,则进入新一轮的信道分配过程。

本发明的优点和带来的有益效果在于:

1、一种基于深度增强学习的动态信道分配方法,通过与传统静态信道分配方案、传统动态信道分配方案的对比,可有效降低系统阻塞率。

2、一种基于深度增强学习的动态信道分配方法,通过将卫星建模为智能体,用户业务请求建模为外部环境,将多波束卫星场景中的动态信道分配最小化业务阻塞率的问题,建模为智能体与环境交互过程中最大化可达收益的过程,并进而采用深度增强学习算法解决。

3、一种基于深度增强学习的动态信道分配方法,更有效的提升信道利用率,降低业务阻塞率。

4、一种基于深度增强学习的动态信道分配方法,考虑了动态信道分配之间时域关联性,可以有效降低系统阻塞率,提高卫星通信系统负载承载量及频谱效率。

附图说明

图1是本发明一种卫星通信系统中基于深度增强学习的动态信道分配方法的场景示意图;

图2是本发明一种卫星通信系统中基于深度增强学习的动态信道分配方法的流程图;

图3是本发明与传统静态、动态信道分配方案的业务阻塞率对比图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明一种卫星通信系统中基于深度增强学习(drl)的动态信道分配方法(deepreinforcementlearningbaseddynamicchannelallocationmethodinsatellitecommunicationsystems),如图2所示,具体步骤如下:

步骤一、针对geo多波束卫星系统,构建包含星载多波束天线,小区,信道以及用户的场景;

geo多波束卫星系统如图1所示,本实施例采用37波束。在此场景中,多波束卫星系统通过星载多波束天线配置,将覆盖范围分为多个独立的小区,并分配可用的信道为各小区的接入用户提供服务。用户通过系统分配的信道资源获得的服务质量,取决于在该信道资源上所能传输的信息速率,而该服务质量通常会有一个最低的信息速率门限。

卫星多波束覆盖的服务范围内,根据不同地域的业务量模型会有用户不断地发起业务请求,继而系统会在对应的波束内寻求可用信道并分配给该用户,而当系统中没有可用信道时,该新请求业务将被阻塞。当所服务的用户在完成特定业务传输时,会放弃对所分配信道的占用。

卫星通信系统中所服务的用户集合为{1,2,…k...,k};系统可用信道集合为{1,2,…m...,m};该系统对各用户提供服务所分配的信道,通过一个信道占用矩阵w=[w1,w2,…,wk]来表征。

步骤二、某用户k发起业务请求后,在每个信道上逐个计算该用户以香农容量为表征的服务质量ck;

具体步骤如下:

步骤201、记发送端有用信号为s,信号由卫星发射机到用户接收机过程中信道质量为h。此时,计算用户k在每个可用信道上的接收端信号yk;

接收端信号yk为:

其中,表示用户k的有用信号,表示除去用户k外,其余所有用户的共信道干扰;σk表示噪声,本场景下主要考虑用户k接收天线引入的热噪声;

hk,k为发送给用户k的信号,被用户k接收后,形成的有用信号的信道系数,wk表示系统为用户k提供服务所分配的信道结果,为1*m的向量;分配信道则元素wk为1,否则为0。操作符表示哈达玛积;sk为卫星发送给用户k的信号,为m*1的列向量。hk,i为发送给用户i的信号,被用户k接收后形成的干扰信道系数,wi表示系统为用户i提供服务所分配的信道结果,为m*1的列向量;分配信道则元素wi为1,否则为0。si为卫星发送给用户i的信号,i的取值为1~k。

步骤202、针对用户k,根据各可用信道的接收端信号yk中的有用信号和共信道干扰信号,分别计算每个信道对应的有用信号功率dk及共信道干扰信号功率ik,

用户k在某信道上接收的有用信号功率dk计算公式如下:

dk=|hk,k|2·diag{wk}·[diag{wk}]h(2)

共信道干扰信号功率ik计算公式如下:

gk=[hk,1,hk,2,…,hk,k]\hk,k=0,为干扰信道系数的向量,表征了卫星分别发送给用户1~k的信号,被用户k接收后形成的干扰信道系数。

分配矢量vm=[vm,1,vm,2,…,vm,k]t表示对占用了信道m的所有用户发射功率。

步骤203、根据共信道干扰信号功率ik,结合噪声计算干扰信号与噪声功率之和uk;

uk=ik+|σk|2·em(4)

em是m阶单位矩阵。

步骤204、对用户k而言,根据接收端有用信号功率dk、干扰信号与噪声功率之和uk,计算用户k以香农容量为表征的服务质量ck;

ck=bc·det[log2(em+γk)](5)

其中,表示用户k在每信道上接收信号的sinr(信号与干扰加噪声比);bc表示系统固定为每个信道设定的带宽值。

步骤三、判断用户k在各信道提供的香农容量是否满足ck≥cth,如果是,该分配的信道可用,进行业务正常传输;否则,则该信道不可用,业务请求将掉话或阻塞并结束。

用户k在某信道上的传输性能满足用户k的传输速率要求,该信道为可用信道。为保证用户k的业务获得满意服务,应至少保证所分配信道资源提供的香农容量不低于设定的最低容量阈值cth,该阈值与传输业务类型及接收机抗噪性能有关。

步骤四、从满足ck≥cth的可用信道列表中动态分配出一个信道给用户k。

卫星通信系统场景下的动态信道分配问题,可以看做是序列决策问题。从该角度而言,把多波束卫星系统建模为离散事件驱动系统,其中可划分为逐个依次到达的业务请求。在每次业务请求事件发生时间t,记用户ut为该业务请求的发起用户,记bt为该业务请求服务对应的波束。当新业务请求到达时,卫星系统查看当前是否有可用信道资源,若有则从可用信道资源中基于分配策略,选择分配矢量给用户以使其获得服务;否则,该业务将被阻塞。定义性能指标φt以表示在时刻t发生的业务请求被服务亦或是被阻塞,如公式(6)所示:

动态信道分配的目的旨在最小化系统阻塞率,也就是最小化被阻塞业务的个数。

卫星通信系统中动态信道分配问题是一个序列决策问题,为此通过将其建模为一个马尔可夫决策过程,并进而通过基于深度增强学习的模型去解决。

具体步骤如下:

步骤401、构造马尔科夫决策过程中的状态量。

马尔科夫决策过程mdp是一组具有马尔科夫属性的序列决策过程。将动态信道分配问题建模为马尔科夫决策过程,需建立对应的状态s、动作a及收益r。为此,状态定义为系统当前信道分配状态、新业务请求信息,动作定义为对该业务请求所分配的信道,收益定义为是否阻塞下系统收益。基于此,可建模的mdp表征为mdp={s,a,r}

状态量定义如下:st=(ut,wt,ut)

st为t时刻的状态,ut为正在服务的用户集合,w为系统信道分配矩阵,ut为待分配信道的用户,即用户k。

步骤402、将该状态量输入到训练好的深度神经网络中,获得网络的输出,即动作价值。

基于所建立的mdp中的状态及动作,配置动作价值网络。该动作价值网络采用神经网络(亦包含深度神经网络),输入即为状态值st,输出即为各动作对应的映射m个实数值。将此动作价值网络记为q(s;θ):s→q(s|a;θ)。理解为采取该动作后(即分配该信道后),系统可获得的预期收益值q(m;s_t),即在状态st下,分配信道m时的预期收益。

θ为神经网络的参数;q(s|a;θ)表示在参数为θ的神经网络时,当前状态为s下,选择动作a对应的q值,即预期收益值。

对该网络的训练旨在使得该动作价值网络性能最优,即可根据当前状态选择最优的信道进行分配,从而最小化系统阻塞率。训练的过程,参照如下步骤实施:

a)每次业务到达时,根据动作价值网络选择具有最大映射实值的信道进行分配,并记录上次状态st-1、上次动作at-1、立即收益rt、本次状态st;

b)将记录的一组数据(st-1,at-1,rt,st)保存到缓存中;

c)从缓存中随机选择批量的数据训练动作价值网络,训练中使用的准确值yj定义规则如下:

γ是折扣因子参数,一般取值为0.95;j为时刻变量。

步骤403、从可用信道列表中选择具有最大动作价值对应的信道,分配给用户k。

步骤404、对深度神经网络基于误差反向传播原则进行更新,以提升系统动态信道分配的性能。

步骤五、当用户k完成特定业务传输时,放弃所占用的信道;等待下一次新用户请求时,则进入新一轮的信道分配过程。

本发明所提出的采用了人工智能中的深度增强学习的动态信道分配方法,通过与传统静态信道分配方案、传统动态信道分配方案的对比,性能分析如图3所示,本发明的方案可有效降低系统阻塞率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1