1.一种基于双actor-critic神经网络的资源分配方法,其特征在于,包括:
2.根据权利要求1所述的基于双actor-critic神经网络的资源分配方法,其特征在于,在所述强化学习模型中,
3.根据权利要求2所述的基于双actor-critic神经网络的资源分配方法,其特征在于,t时刻的状态s(t)={q(t),d(t-1)};其中,q(t)表示t时刻时各服务区域的请求业务量集合;d(t-1)表示t-1时刻时各服务区域中的资源分配情况集合;
4.根据权利要求3所述的基于双actor-critic神经网络的资源分配方法,其特征在于,在所述强化学习模型中,t时刻的收益奖励r(t)表示为:
5.根据权利要求4所述的基于双actor-critic神经网络的资源分配方法,其特征在于,
6.根据权利要求2-5中任一项所述的基于双actor-critic神经网络的资源分配方法,其特征在于,所述基于双actor-critic神经网络算法对强化学习模型进行训练,得到训练通过的强化学习模型,执行:
7.根据权利要求6所述的基于双actor-critic神经网络的资源分配方法,其特征在于,每步轨迹更新过程执行:后续策略πnext(θ)中的actor网络处理当前t时刻的状态s(t),得到均值μ和方差σ,并基于均值μ和方差σ构建概率分布函数,从概率分布函数上随机取动作a(t),执行动作a(t),与环境交互,得到收益奖励r(t)和下一时刻状态s(t+1);将当前时刻的状态、动作及收益奖励作为本步状态转移轨迹样本存储到到历史数据队列中;然后,基于下一步的状态s(t+1),重复执行获取下一次轨迹更新过程,储存相应的状态转移轨迹样本;
8.根据权利要求7所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于step_t1,step_t1表示后续策略πnext(θ)中critic神经网络的更新的门限步数,此时,执行后续策略πnext(θ)中critic神经网络的更新过程:
9.根据权利要求8所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于step_t2,step_t2表示后续策略πnext(θ)更新的门限步数,此时,执行后续策略πnext(θ)的更新过程:
10.根据权利要求9所述的基于双actor-critic神经网络的资源分配方法,其特征在于,若当前轨迹更新步数等于stepnum,每回合更新总步数stepnum等于前序策略πprev(θ)更新的门限步数,此时,执行前序策略πprev(θ)的更新过程: