一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法

文档序号:25494412发布日期:2021-06-18 07:25阅读:186来源:国知局
一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法

本发明涉及一种车联网技术,尤其涉及一种车联网的资源分配方法,更具体地说,涉及一种采用深度确定性策略梯度(deepdeterministicpolicygradient,ddpg)算法的5g车联网的车对车(vehicle-to-vehicle,v2v)通信资源分配方法。



背景技术:

车联网(vehicle-to-everything,v2x)是物联网(internetofthings,iot)在智能交通系统(intelligenttransportationsystem,its)领域中的典型应用,它是指基于intranet、internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间的实时感知和协作,实现了智能交通管理和服务,例如改善了道路安全,增强了路况感知并减少了交通拥堵。

合理的车联网资源分配对于减轻干扰、提高网络效率和最终优化无线通信性能至关重要。传统的资源分配方案大多利用缓慢变化的大规模衰落信道信息进行分配。有文献提出了一种启发式的位置相关上行链路资源分配方案,其特征在于空间资源重用,而不需要完整的信道状态信息,因此减少了信令开销。另有研究开发了包括车辆分组、复用信道选择和功率控制的框架,可以降低v2v用户对蜂窝网络的总干扰,同时最大化v2v用户的和速率或最小可达速率。但随着通信量的与日俱增和通信速率需求的大幅提升,高移动性导致无线信道快速变化给资源分配带来很大的不确定性,传统的资源分配方法无法满足人们对车联网的高可靠性和低延时需求。

深度学习提供了多层计算模型,可以从非结构化源中学习具有多级抽象的高效数据表示,为解决许多传统上被认为是困难的问题提供了一种强大的数据驱动方法。基于深度强化学习算法的资源分配方案比传统资源分配算法更能满足车联网的高可靠性和低延时性的要求。有文献提出了一种可以应用于单播和广播场景的基于深度强化学习的新型分布式车对车通信资源分配机制。根据分布的资源分配机制,智能体,即v2v链路或车辆不需要等待全局状态信息就可以做出决定以找到最佳子带和传输功率水平。但现有的基于深度强化学习的v2v资源分配算法无法满足5g网络下高带宽、大容量、超可靠低时延等场景的差异化服务需求。

因此本发明提出的资源分配方法采用5g网络切片技术,能在5g网络下为不同应用场景提供差异化服务,同时采用可在一系列连续动作空间的优化中表现稳定的ddpg算法进行v2v资源分配,以系统吞吐量最大化作为v2v资源分配的优化目标,在复杂度和性能之间取得了很好的平衡。



技术实现要素:

发明目的:针对现有技术存在的上述问题,提出一种基于深度强化学习ddpg算法v2v用户资源分配方法,v2v通信以网络切片技术接入5g网络。该方法能在v2v链路对v2i链路没有干扰的情况下,以较低的v2v链路延迟实现系统吞吐量最大化的v2v用户资源分配。

技术方案:在考虑v2v链路延迟的情况下,以合理的资源分配达到系统通信系统吞吐量最大化的目的。我们采用5g网络切片技术,v2v链路和v2i链路使用不同的切片,v2v链路对v2i链路不产生干扰。采用分布式的资源分配方法,不需要基站集中调度信道状态信息,将每条v2v链路视为智能体,并且基于瞬时状态信息和每个时隙从邻居共享的信息来选择信道和发射功率。通过建立深度强化学习模型,利用ddpg算法优化深度强化学习模型。根据优化后的深度强化学习模型,得到最优的v2v用户发射功率和信道分配策略。完成上述发明通过以下技术方案实现:一种采用ddpg算法的基于5g网络切片的v2v资源分配方法,包括步骤如下:

(1)将车联网中的通信业务分为两种类型,即车辆与路边设施之间(v2i)的宽带多媒体数据传输以及车与车之间(v2v)关于行车安全的数据传输;

(2)利用5g网络切片技术,将v2i与v2v通信业务分别划分到不同切片;

(3)构建的用户资源分配系统模型为k对v2v用户共用授权带宽为b的信道;

(4)采用分布式的资源分配方法,在考虑v2v链路延迟的情况下,以通信系统吞吐量最大化为目标构建深度强化学习模型;

(5)考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,记忆回放三个机制的深度确定性策略梯度(ddpg)算法优化深度强化学习模型;

(6)根据优化后的深度强化学习模型,得到最优v2v用户发射功率和信道分配策略。

进一步的,所述步骤(4)包括如下具体步骤:

(4a),具体地定义状态空间s为与资源分配有关的信道信息,包括子信道m相应v2v链路瞬时信道信息gt[m],子信道m前一时隙接收到的干扰强度it-1[m],子信道m在前一时隙被相邻的v2v链路选择的次数nt-1[m],v2v用户传输的剩余负载lt,剩余时延ut,即

st={gt,it-1,nt-1,lt,ut}

将v2v链路视为智能体,每次v2v链路基于当前状态st∈s选择信道和发射功率;

(4b),定义动作空间a为发射功率和选择的信道,表示为

其中,为第k个v2v链路用户的发射功率,为第m个信道被第k个v2v链路用户使用情况;

(4c),定义奖励函数r,v2v资源分配的目标是v2v链路选择频谱子带和发射功率,在满足延迟约束,对其他v2v链路产生较小的干扰的要求下最大化v2v链路的系统吞吐量。因此奖励函数可以表示为:

其中,t0为最大可容忍延迟,λd、λp为两个部分的权值,t0-ut是传输所用的时间,随着传输时间的增加,惩罚也会增加。

(4d),依据建立好的s,a和r,在q学习的基础上建立深度强化学习模型,评估函数q(st,at)表示从状态st执行动作at后产生的折扣奖励,q值更新函数为:

其中,rt为即时奖励函数,γ为折扣因子,st为v2v链路在t时刻的状态信息,st+1表示v2v链路在执行at后的状态,a为动作at构成的动作空间。

有益效果:本发明提出的一种采用深度确定性策略梯度算法的基于5g网络切片的v2v资源分配方法,v2v通信使用网络切片技术接入5g网络,利用深度强化学习优化策略获得最优的v2v用户信道分配和发射功率联合优化策略,v2v用户通过选择合适的发射功率和分配信道,来降低v2v链路之间的相互干扰,在满足链路延迟的约束下,最大化v2v链路的系统吞吐量。本发明使用ddpg算法可以有效解决v2v用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。

综上所述,在保证资源分配合理,v2v链路间低干扰以及计算复杂度低的情况下,本发明提出的一种采用深度确定性策略梯度算法的基于5g网络切片的v2v资源分配方法在最大化v2v系统吞吐量方面是优越的。

附图说明

图1为本发明实施例提供的一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法的流程图;

图2为本发明实施例提供的基于5g网络切片技术的v2v用户资源分配模型示意图;

图3为本发明实施例提供的基于actor-critic模型的深度强化学习框架示意图;

图4为本发明实施例提供的v2v通信深度强化学习模型示意图;

具体实施方式

本发明的核心思想在于:v2v通信以网络切片技术接入5g网络,采用分布式的资源分配方法,将每条v2v链路视为智能体,通过建立深度强化学习模型,利用ddpg算法优化深度强化学习模型。根据优化后的深度强化学习模型,得到最优的v2v用户发射功率和信道分配策略。

下面对本发明做进一步详细描述。

步骤(1),车联网中的通信业务车联网中的通信业务分为两种类型即,车辆与路边设施之间(v2i)的宽带多媒体数据传输以及车与车之间(v2v)与行车安全相关的数据传输。

步骤(2),利用5g网络切片技术,将v2i与v2v分别划分到不同切片。

步骤(3),构建的用户资源分配系统模型为k对v2v用户共用授权带宽为b的信道,

包括如下具体步骤:

(3a),建立v2v用户资源分配系统模型,系统包括k对v2v用户(vues),用集合κ={1,2,...,k}表示,总的授权带宽b被等分成m个带宽为b0的子信道,子信道用集合表示;

(3b),第k条v2v链路的sinr可以表示为:

其中,

gd是共享相同rb的所有v2v链路的总干扰功率,gk是第k条v2v链路车联网用户的信道增益,是第k′条v2v链路对第k条v2v链路的干扰增益。第k条v2v链路的信道容量可以表示为:

cv[k]=w·log(1+γv[k]);表达式3

(3c),对于第k个v2v链路,其在t时刻选择信道信息为:

则第m个信道被第k条v2v链路使用,同时有且i≠m,即k为v2v链路总个数,m为v2v链路接入切片的可用信道总数。

步骤(4),采用分布式的资源分配方法,在考虑v2v链路延迟的情况下,以通信系统吞吐量最大化为目标构建深度强化学习模型,包括如下具体步骤:

(4a),具体地定义状态空间s为与资源分配有关的观测信息,包括子信道相应v2v链路瞬时信道信息子信道前一时隙接收到的干扰强度it-1[m],信道m在前一时隙被相邻的v2v链路选择的次数ny-1[m],剩余的v2v负载lt,剩余时延ut,即

(4b),定义动作空间a为发射功率和选择的信道,表示为

其中,为第k个v2v链路用户的发射功率,为第m个信道被第k个v2v链路用户使用情况,表示第m个信道被第k个v2v链路用户使用,表示第m个信道没有被第k个v2v链路用户使用;

(4c),定义奖励函数r,v2v资源分配的目标是v2v链路选择频谱子带和发射功率,在满足延迟约束,对其他v2v链路产生较小的干扰的要求下最大化v2v链路的系统吞吐量。因此奖励函数可以表示为:

其中,t0为最大可容忍延迟,λd、λp为两个部分的权值,t0-ut是传输所用的时间,随着传输时间的增加,惩罚也会增加。为了获得长期的良好回报,应同时考虑眼前的回报和未来的回报。因此,强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报,

其中,β∈[0,1]是折扣因子;

(4d),依据建立好的s,a和r,在q学习的基础上建立深度强化学习模型:评估函数q(st,at)表示从状态st执行动作at后产生的折扣奖励,q值更新函数为

其中,rt为即时奖励函数,γ为折扣因子,st为v2v链路在t时刻的状态信息,st+1表示v2v链路在执行at后的状态,a为动作at构成的动作空间。

步骤(5),为了解决基于5g网络切片的v2v资源分配问题,以v2v链路为智能体所建立的深度强化学习模型中的动作空间包括发射功率和信道选择两个变量,考虑发射功率一定范围内连续变化,为了解决这种高维动作空间,尤其是连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,记忆回放三个机制的ddpg算法优化深度强化学习模型。

深度学习拟合指ddpg算法基于actor-critic框架,分别使用参数为θ和δ的深度神经网络来拟合确定性策略a=μ(s|θ)和动作值函数q(s,a|δ)如说明书附图图3所示。

软更新指动作值网络的参数在频繁梯度更新的同时,又用于计算策略网络的梯度,使得动作值网络的学习过程很可能出现不稳定的情况,所以提出采用软更新方式来更新网络。

分别为策略网络和动作值网络创建在线网络和目标网络两个神经网络:

训练过程中利用梯度下降不断更新网络,目标网络的更新方式如下

θ′=τθ+(1-τ)θ表达式9

δ′=τδ+(1-τ)δ表达式10

经验回放机制是指与环境交互时产生的状态转换样本数据具有时序关联性,易造成动作值函数拟合的偏差。因此,借鉴dqn算法的经验回放机制,将采集到的样本先放入样本池,然后从样本池中随机选出一些mini-batch样本用于对网络的训练。这种处理去除了样本间的相关性和依赖性,解决了数据间相关性及其非静态分布的问题,使得算法更容易收敛。

利用包含深度学习拟合,软更新,记忆回放三个机制的ddpg算法优化深度强化学习模型,包括如下步骤:

(5a),初始化训练回合数p;

(5b),初始化p回合中的时间步t;

(5c),在线actor策略网络根据输入状态st,输出动作at,并获取即时的奖励rt,同时转到下一状态st+1,从而获得训练数据(st,at,rt,st+1);

(5d),将训练数据(st,at,rt,st+1)存入经验回放池中;

(5e),从经验回放池中随机采样m个训练数据(st,at,rt,st+1)构成数据集,发送给在线actor策略网络、在线critic评价网络、目标actor策略网络和目标critic评价网络;

(5f),设置q估计为

yi=ri+γq′(si+1,μ′(si+1|θ′)|δ′)表达式11

定义在线critic评价网络的损失函数为

通过神经网络的梯度反向传播来更新critic当前网络的所有参数θ;

(5g),定义在线actor策略网络的给抽样策略梯度为

通过神经网络的梯度反向传播来更新actor当前网络的所有参数δ;

(5h),若在线训练次数达到目标网络更新频数,根据在线网络参数δ和θ分别更新目标网络参数δ′和θ′;

(5i),判断是否满足t<k,k为p回合中的总时间步,若是,t=t+1,进入步骤5c,否则,进入步骤5j;

(5j),判断是否满足p<i,i为训练回合数设定阈值,若是,p=p+1,进入步骤5b,否则,优化结束,得到优化后的深度强化学习模型。

步骤(6),根据优化后的深度强化学习模型,得到最优v2v用户发射功率和信道分配策略,包括如下步骤:

(6a),利用ddpg算法训练好的深度强化学习模型,输入系统某时刻的状态信息sk(t);

(6b),输出最优动作策略得到最优的v2v用户发射功率和分配信道

最后,对说明书中的附图进行详细说明。

在图1中,描述了一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法的流程,v2v通信使用网络切片技术接入5g网络,利用ddpg优化深度强化学习模型获得最优的v2v用户信道分配和发射功率联合优化策略。

在图2中,描述了基于5g网络切片技术的v2v用户资源分配模型,v2v通信和v2i通信使用不同的切片。

在图3中,描述了深度学习拟合指ddpg算法基于actor-critic框架,分别使用参数为θ和δ的深度神经网络来拟合确定性策略a=μ(s|θ)和动作值函数q(s,a|δ)。

在图4中,描述了v2v通信深度强化学习模型。可以看出v2v链路作为智能体基于当前状态st∈s根据奖励函数选择信道和发射功率。

根据对本发明的说明,本领域的技术人员应该不难看出,本发明的采用5g网络切片技术基于深度强化学习ddpg算法的v2v资源分配方法可以提高系统吞吐量并且能保证通信时延达到安全要求。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1