一种基于深度强化学习的D2D通信网络切片分配方法

文档序号：25993540发布日期：2021-07-23 21:06阅读：155来源：国知局

本发明涉及移动互联网通信技术领域，更具体地，涉及一种基于深度强化学习的d2d通信网络切片分配方法。

背景技术：

互联网的普及，深刻地影响了人们的生产、生活和学习方式，网络已经成为支撑现代社会发展和技术进步的重要基础设施之一。5g时代的来临，为无线通信带来了众多优异的性能。5g将极大提升通信的传输速率支持海量的设备连接，提供超高可靠性、超低时延的卓越性能。5g无线网络支持不同垂直行业的多样化业务场景，如自动驾驶、智能家居、增强现实等，这些业务场景有着不同的通信需求。同样地，多设备的网络接入，为稀缺的频谱资源使用带来了困境。d2d通信利用相邻设备之间的直接链路进行通信，而无需基站的参与，减轻基站的负担。d2d提供了以设备为中心的新视野，将流量从传统的以网络为中心的实体卸载到d2d网络中，增加了系统的网络容量，提高系统的频谱利用率。

为了满足多样化服务和异构网络下的严格通信要求，网络切片技术是一个有效的解决方案。网络切片能够在同一物理网络基础设施上实现多个隔离且独立的虚拟逻辑网络，为通信业务创建定制化的虚拟网络，从而实现业务差异化并保证每种业务的服务等级协议。由于可以按需创建切片，并根据需求对切片进行修改或废止，因此，网络切片提供了动态的无线资源和网络管理的灵活性和适应性。

为了解决动态的需求感知资源分配问题，强化学习是有效的解决方案。强化学习是机器学习的一个分支，强化学习智能体通过观察环境状态转换和获取反馈(奖励)来学习如何在环境中执行最佳操作。基于dqn的深度强化学习在于环境的交互过程中，会过高地估计动作的q值，估计的误差会随着动作的执行而传递并增加，最终导致智能体无法得到最优的策略。duelingddqn强化学习基于竞争的架构，解决了动作值的过估计问题。在复杂的通信场景下，如何利用基于强化学习算法来进行资源分配的决策，以此为多业务通信以及d2d通信提供优异的性能，是值得研究的问题。

公开日为2020年09月18日，公开号为cn111683381a的中国专利公开了一种基于深度强化学习(dqn)的端到端网络切片资源分配算法，从端到端的角度联合考虑接入侧和核心侧影响对资源进行动态合理分配。为训练得到合理的dqn网络，求解dqn中环境的反馈，将端到端系统接入率最优化问题解耦为接入侧和核心侧两部分，然后分别设计动态背包算法以及最大接入的链路映射算法求得最大端到端接入。该专利同样具有dqn的深度强化学习的问题，估计的误差会随着动作的执行而传递并增加，最终导致智能体无法得到最优的策略。

技术实现要素：

本发明提供一种基于深度强化学习的d2d通信网络切片分配方法，有效地保证系统中各业务满足性能要求，为多业务以及d2d通信进行无线资源的分配，从而提供系统通信性能。

为解决上述技术问题，本发明的技术方案如下：

一种基于深度强化学习的d2d通信网络切片分配方法，包括以下步骤：

s1：将通信业务根据业务类型进行分类，建立多业务切片和d2d切片资源分配模型；

s2：根据duelingddqn算法构建切片资源分配的强化学习模型；

s3：为duelingddqn算法中的智能体定义业务切片的当前状态s、下一时刻状态s′，当前动作a，以及由状态和动作构建系统的奖励r；

s4：利用经验回放进行duelingddqn的学习，最后得到切片资源分配的最优解。

优选地，步骤s1中所述将通信业务根据业务类型进行分类，具体分为控制类、数据采集类、媒体类和d2d通信。

优选地，步骤s1中建立多业务切片和d2d切片资源分配模型具体为：

所述控制类通信对应于urllc切片，数据采集类通信对应于mmtc切片，媒体类对应于embb切片，d2d通信则通过复用urllc、mmtc、embb切片中的资源形成d2d通信切片；

定义各切片的效用，根据各切片的效用定义系统的效用，以系统最大效用为目标，定义系统的优化目标和约束条件，构建所述的多业务切片和d2d切片资源分配模型。

优选地，所述定义各切片的效用，根据各切片的效用定义系统的效用，以系统最大效用为目标，定义系统的优化目标和约束条件，具体为：

切片的效用由一段时间内，切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得，用公式表示为：

式中，qoen表示数据包成功传输的比例，即切片的效用；是切片所服务的所有用户的集合，而表示用户un所产生的数据包的集合，表示对于数据包用户un是否成功传输，即如果用户un进行数据包的传输时，能够满足业务的速率要求以及时延要求那么否则rn为最低的速率要求，为用户的数据速率，ln为最大的时延要求，为用户的时延；

所述系统的效用表示为各切片的效用的加权和，系统的优化模型用公式表示为：

其中，βn是表示切片业务优先级的权重，约束条件c1是系统总体带宽的限制，则表明d2d通信复用上行资源进行传输，c2表明在一定的时间间隔内，切片业务数据包产生的总数量为tqn，c3则表示用户的数据包传输是否成功的限制。

优选地，所述用户的数据速率由分配给用户的频谱资源以及无线信道的信干噪比，而信干噪比由用户与基站之间的无线信道的信道增益，接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益，其他干扰用户的发射功率决定，数据速率用公式表示为：

其中，信干噪比为：

是用户的发射功率，是用户到基站之间的信道增益，是用户受到的干扰，σ²表示噪声；

用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr：

优选地，步骤s2中根据duelingddqn算法构建切片资源分配的强化学习模型，具体为：

将基站中的切片资源分配控制器定义为强化学习智能体，并创建训练q神经网络和目标q神经网络两个网络，所述训练q神经网络在每一个训练时刻都进行网络权重的更新，而所述目标q神经网络则按照预设的频率复制所述训练q神经网络的权重来进行更新，所述训练q神经网络与所述目标q神经网络具有一样的结构；

训练q神经网络和目标q神经网络的输入是系统的状态，输出分为两个支路，一个支路输出一个标量，表示状态值函数；另一个支路输出动作的优势函数。

优选地，所述创建训练q神经网络和目标q神经网络两个网络，具体为：

创建四层全连接的线性神经网络，其中输入层的神经元个数为四个，对应于四种不同的切片的状态；第一中间层的神经元数量设置为512，并采用relu函数作为激活函数；第二中间层的神经元数量设置为512，采用relu函数作为激活函数；输出层分为两个支路，上层支路使用1个神经元，采用relu作为激活函数，输出状态值函数，下层支路使用108个神经元，采用relu作为激活函数，输出动作的优势函数。

优选地，步骤s3中所述定义业务切片的当前状态s、下一时刻状态s′，当前动作a，以及由状态和动作构建系统的奖励r，具体为：

所述智能体观察系统环境，获取所需的状态值；

定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和，表示为s＝(su，se，sm，sd)，其中su，se，sm，sd分别表示urllc切片、embb切片、mmtc切片以及d2d切片的未传输的数据包数量；

定义智能体的动作为切片无线资源的分配，表示为a＝(w1，w2，w3，w4)，其中w1，w2，w3，w4分别表示urllc切片、embb切片、mmtc切片以及d2d切片分配获得的系统资源比例，并且满足w1+w2+w3＝1；

定义智能体的奖励为进行业务传输后系统所获得的效用，即

定义智能体观察的下一时刻状态为智能体在当前状态s，执行某一动作a后，智能体到达的状态s′。

优选地，步骤s4中所述利用经验回放进行duelingddqn的学习，最后得到切片资源分配的最优解，具体为：

为智能体创建一个用于训练的经验回放池，在每一个迭代过程中，将当前时刻状态s，当前时刻动作a，下一时刻状态s′，当前时刻奖励r′组成一个元组(s，a，r′，s′)放在经验回放池中，用于智能体的学习训练；

经验回放以及智能体学习的过程如下：

首先，在学习开始时，智能体不断将经验存到经验回放池中；然后，神经网络训练的过程中，从缓存中取出一个mini-batch，即一个批量的经验数据；训练q神经网络和目标q神经网络根据经验数据进行学习，最后得到最优的切片资源分配方案。

优选地，智能体学习具体为：

智能体，目标是找到最优的资源分配策略π^*，策略是智能体的状态空间到动作空间的映射，最优策略π^*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励，长期系统奖励是一段时间t内系统的折扣奖励总和，折扣因子0＜γ＜1：

r＝r0+γ¹r1+γ²r2+γ³r3+…+γ^t-1rt-1

ri为第i次学习的智能体奖励，0＜i＜t-1；

在策略π下，系统的动作值函数为：

系统收敛到最优策略的时候，最优的策略就是在状态s下，使q值最大化的动作：

采用基于竞争的架构来构建q神经网络，具体地，q神经网络的输出层分为两个支路，一个支路输出当前时刻的状态值v(s)，另一个支路输出所有的动作优势值a(s，a)，它们与q值之间的关系如下：

q(s，a)＝v(s)+a(s，a)

在q神经网络中输入状态s，那么得到动作值函数表示为：

其中θ是q神经网络的权重参数；

切片分配具体有以下过程得出：

初始化训练q神经网络和目标q神经网络权重

初始化经验回放池b容量为n，时刻t＝0，目标q神经网络的更新周期ttr；

初始化mini-batch的大小为size；

当切片资源控制器未获得最优的策略，切片资源控制器观察环境，获取各个切片未发送的数据包数量，即状态st，执行∈-greedy策略，以概率∈t随机选择一个切片资源分配动作at；否则选择动作at＝argmaxaq(st，a；θ^b)；

切片资源控制器执行资源分配动作at，获得经过裁剪后的奖励rt，并观察下一时刻状态st+1；

将经验(st，at，rt+1，st+1)存放到b中，若b容量满则覆盖之前的经验；

随机从经验回放池b中取出size个经验，组成mini-batch(si，ai，ri+1，si+1)，得到

计算

计算损失函数

利用adam优化器更新训练q神经网络的权值θ^a，如果mod(t，ttr)＝＝0，则更新目标q神经网络

更新t＝t+1，直到t达到最大值前，重复上述步骤，得到切片分配。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对多业务切片和d2d切片进行资源分配，并对应到不同urllc切片、mmtc切片、embb切片、d2d切片，结合网络切片技术和duelingddqn强化学习算法，构建基于深度强化学习的资源分配模型，提高切片资源分配的效率，满足各类业务的通信要求，并使体验质量最优。

附图说明

图1为本发明的方法流程示意图。

图2为是实施例中的网络切片资源分配模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于深度强化学习的d2d通信网络切片分配方法，如图1所示，包括以下步骤：

s1：将通信业务根据业务类型进行分类，建立多业务切片和d2d切片资源分配模型；

s2：根据duelingddqn算法构建切片资源分配的强化学习模型；

s3：为duelingddqn算法中的智能体定义业务切片的当前状态s、下一时刻状态s′，当前动作a，以及由状态和动作构建系统的奖励r；

s4：利用经验回放进行duelingddqn的学习，最后得到切片资源分配的最优解。

步骤s1中所述将通信业务根据业务类型进行分类，具体分为控制类、数据采集类、媒体类和d2d通信。

步骤s1中建立多业务切片和d2d切片资源分配模型具体为：

所述控制类通信对应于urllc切片，数据采集类通信对应于mmtc切片，媒体类对应于embb切片，d2d通信则通过复用urllc、mmtc、embb切片中的资源形成d2d通信切片；四种切片的集合表示为x＝{x1，x2，x3，x4}，这些切片共享聚合的系统无线频谱资源，表示系统中的所有用户的集合，表示分类到切片xn的用户的集合。对于用户他们的业务服从特定的流量模型，即用户数据包的生成服从特定的分布。

表1给出典型业务和d2d通信的通信要求，系统为各个切片分配无线频谱资源，首先，建立多业务切片和d2d切片资源分配模型，并定义系统的优化目标和约束条件，然后建立基于duelingddqn的切片资源分配的强化学习模型。进一步地，采用一种基于duelingddqn的深度强化学习资源分配算法——rc-d3qn算法，并将基站的资源分配控制器作为智能体，通过定义状态、动作、奖励，利用经验回放进行智能体的训练，最终收敛，分配结果满足各个切片的通信要求，并得到资源分配的最优解。

所述定义各切片的效用，根据各切片的效用定义系统的效用，以系统最大效用为目标，定义系统的优化目标和约束条件，具体为：

切片的效用由一段时间内，切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得，用公式表示为：

所述系统的效用表示为各切片的效用的加权和，系统的优化模型用公式表示为：

所述用户的数据速率由分配给用户的频谱资源以及无线信道的信干噪比，而信干噪比由用户与基站之间的无线信道的信道增益，接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益，其他干扰用户的发射功率决定，数据速率用公式表示为：

其中，信干噪比为：

是用户的发射功率，是用户到基站之间的信道增益，是用户受到的干扰，σ²表示噪声；

用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr：

步骤s2中根据duelingddqn算法构建切片资源分配的强化学习模型，具体为：

训练q神经网络和目标q神经网络的输入是系统的状态，输出分为两个支路，一个支路输出一个标量，表示状态值函数；另一个支路输出动作的优势函数。

所述创建训练q神经网络和目标q神经网络两个网络，具体为：

步骤s3中所述定义业务切片的当前状态s、下一时刻状态s′，当前动作a，以及由状态和动作构建系统的奖励r，具体为：

所述智能体观察系统环境，获取所需的状态值；

定义智能体的奖励为进行业务传输后系统所获得的效用，即

定义智能体观察的下一时刻状态为智能体在当前状态s，执行某一动作a后，智能体到达的状态s′。

步骤s4中所述利用经验回放进行duelingddqn的学习，最后得到切片资源分配的最优解，如图2所示，具体为：

提出rc-d3qn算法对智能体进行训练。为了提高智能体资源分配的效率和速度，提出了奖励函数的设置机制。为了适应动态环境的变化，rc-d3qn方法采用rewardclipping的思想将奖励剪裁到区间r∈{0，1}中。具体地，奖励剪裁的思想是：根据系统环境先验知识设置一个系统效用阈值threshold，如果系统的效用低于该阈值，则r＝0；如果切片资源的分配方案使得系统的效用大于阈值threshold，则r＝1。

经验回放以及智能体学习的过程如下：

智能体学习具体为：

r＝r0+γ¹r1+γ²r2+γ³r3+…+γ^t-1rt-1

ri为第i次学习的智能体奖励，0＜i＜t-1；

在策略π下，系统的动作值函数为：

系统收敛到最优策略的时候，最优的策略就是在状态s下，使q值最大化的动作：

q(s，a)＝v(s)+a(s，a)

在q神经网络中输入状态s，那么得到动作值函数表示为：

其中θ是q神经网络的权重参数；

切片分配具体有以下过程得出：

初始化训练q神经网络和目标q神经网络权重

初始化经验回放池s容量为n，时刻t＝0，目标q神经网络的更新周期ttr；

初始化mini-batch的大小为size；

切片资源控制器执行资源分配动作at，获得经过裁剪后的奖励rt，并观察下一时刻状态st+1；

将经验(st，at，rt+1，st+1)存放到b中，若b容量满则覆盖之前的经验；

随机从经验回放池b中取出size个经验，组成mini-batch(si，ai，ri+1，si+1)，得到

计算

计算损失函数

利用adam优化器更新训练q神经网络的权值θ^a，如果mod(t，ttr)＝＝0，则更新目标q神经网络

更新t＝t+1，直到t达到最大值前，重复上述步骤，得到切片分配。

本发明实施例通过对多业务切片和d2d切片进行资源分配，结合网络切片技术和duelingddqn强化学习算法，并利用奖励剪裁机制提高智能体的收敛速率，提高切片资源分配的效率。此外，利用∈-greedy机制保证智能体获得全局得最优奖励。

本发明提供了一种基于深度强化学习的d2d通信切片分配方法，通过对多类业务和d2d通信分类，并对应到不同urllc切片、mmtc切片、embb切片、d2d切片。然后构建基于深度强化学习的资源分配模型，采用rc-d3qn算法对不同的切片进行资源的分配，满足各类业务的通信要求，并使体验质量最优。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘元杰;伍沛然;夏明华
技术所有人：中山大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。