基于双Actor-Critic神经网络的资源分配方法与流程

文档序号:36259294发布日期:2023-12-05 13:15阅读:来源:国知局

技术特征:

1.一种基于双actor-critic神经网络的资源分配方法,其特征在于,包括:

2.根据权利要求1所述的基于双actor-critic神经网络的资源分配方法,其特征在于,在所述强化学习模型中,

3.根据权利要求2所述的基于双actor-critic神经网络的资源分配方法,其特征在于,t时刻的状态s(t)={q(t),d(t-1)};其中,q(t)表示t时刻时各服务区域的请求业务量集合;d(t-1)表示t-1时刻时各服务区域中的资源分配情况集合;

4.根据权利要求3所述的基于双actor-critic神经网络的资源分配方法,其特征在于,在所述强化学习模型中,t时刻的收益奖励r(t)表示为:

5.根据权利要求4所述的基于双actor-critic神经网络的资源分配方法,其特征在于,

6.根据权利要求2-5中任一项所述的基于双actor-critic神经网络的资源分配方法,其特征在于,所述基于双actor-critic神经网络算法对强化学习模型进行训练,得到训练通过的强化学习模型,执行:

7.根据权利要求6所述的基于双actor-critic神经网络的资源分配方法,其特征在于,每步轨迹更新过程执行:后续策略πnext(θ)中的actor网络处理当前t时刻的状态s(t),得到均值μ和方差σ,并基于均值μ和方差σ构建概率分布函数,从概率分布函数上随机取动作a(t),执行动作a(t),与环境交互,得到收益奖励r(t)和下一时刻状态s(t+1);将当前时刻的状态、动作及收益奖励作为本步状态转移轨迹样本存储到到历史数据队列中;然后,基于下一步的状态s(t+1),重复执行获取下一次轨迹更新过程,储存相应的状态转移轨迹样本;

8.根据权利要求7所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于step_t1,step_t1表示后续策略πnext(θ)中critic神经网络的更新的门限步数,此时,执行后续策略πnext(θ)中critic神经网络的更新过程:

9.根据权利要求8所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于step_t2,step_t2表示后续策略πnext(θ)更新的门限步数,此时,执行后续策略πnext(θ)的更新过程:

10.根据权利要求9所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于stepnum,每回合更新总步数stepnum等于前序策略πprev(θ)更新的门限步数,此时,执行前序策略πprev(θ)的更新过程:


技术总结
本发明涉及一种基于双Actor‑Critic神经网络的资源分配方法,属于资源分配优化技术领域,解决了现有资源分配方法实时性差、算法收敛性差等问题。该方法包括:将空间节点系统映射成空间节点数字孪生体系统;空间节点数字孪生体系统中的中央控制器内置多个实施单元,每个实施单元与多个空间上相邻的服务区域建立映射关系;将中央控制器中所有实施单元对服务区域的资源分配过程进行建模,得到强化学习模型;基于双Actor‑Critic神经网络算法对强化学习模型进行训练,得到训练通过的强化学习模型;当中央控制器接收到用户终端的业务请求时,运行训练通过的强化学习模型,实现对相应空间节点系统的资源分配。

技术研发人员:杨以杰,杨振亚
受保护的技术使用者:安世亚太科技股份有限公司
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1