基于双Actor-Critic神经网络的资源分配方法与流程

文档序号：36259294发布日期：2023-12-05 13:15阅读：53来源：国知局

本发明涉及资源分配优化，尤其涉及一种基于双actor-critic神经网络的资源分配方法。

背景技术：

1、目前，以空间节点作为资源提供方、以服务区域内的用户终端作为资源使用方的空间节点系统具有灵活机动的信息传输和转发能力，近年来在各领域发挥重要作用。空间节点系统的动态性高，场景灵活多变，其映射所得的数字孪生体系统的资源分配模拟过程需要对实时数据输入做出智能化的调整，以满足对快速变化的物理世界中的应用场景实现真实孪生再现的目的。

2、随着对空间节点数据容量要求的提高，单个空间节点为单一服务区域提供资源的方式已经不能满足应用需求，能够满足多个服务区域资源分配的空间节点系统及其数字孪生体模拟技术开始逐渐发展和不断优化。另外，随着空间节点系统的规模越来越大，可用资源受到限制。由于服务区域间的业务请求分布存在地域上的不对称性和时域上不确定性，如果不能合理地通过数字孪生体模拟为服务区域选择最优的资源分配方式，将会导致一些高需求量的服务区域不能完全满足业务需求，而其他低需求量的服务区域仅使用空间节点所提供的部分容量，不合理的资源分配方式不仅无法提供令人满意的服务，而且还浪费了宝贵的可用资源。因此，有必要通过数字孪生体模拟，合理、有效地分配空间节点上的资源，动态适应非均匀业务请求的特性，所以，如何高效地利用空间节点的资源，是该领域相关研究中的重点。目前最亟待解决的问题是：如何在保证服务质量条件下，更加高效地利用有限的资源。由于空间节点系统具备高度灵活性的特点，可以实现服务区域之间的资源重用，根据业务请求灵活分配服务区域的资源。在当前已实现的技术中，空间节点通常将可利用的资源均匀分配给各个服务区域，并针对不同时间段的资源使用情况做出适应性优化，如考虑多个容量和资源使用特征的多目标优化，考虑加权系数的单目标优化等。虽然上述优化方法在一定程度上可以较好地提升资源分配性能，但是存在收敛速度较慢、算法性能依赖于初始值的合理选取的问题，同时，计算复杂度高的问题尤为突出。因此，上述优化方法均不能满足空间节点系统的强动态、高实时的无线资源分配需求。

3、近年来，人工智能领域采用深度神经网络进行训练和行为智能化的深度强化学习(deep reinforcement learning)为一系列复杂控制与决策类问题提供了新的解决思路和优化方法，也是数字孪生体模拟物理世界行为的有效工具。在以空间节点数字孪生体系统所模拟的物理世界实体为代表的动态资源管理中，上一时刻的资源分配结果会对之后时刻的资源分配产生影响，因此是一个典型的连续决策问题，当前已有较多采用深度强化学习解决此类问题。深度强化学习作为一种线上学习算法，主要应用包括基于深度强化学习的高效资源分配框架，即将资源分配问题转化为智能体与环境交互的收益最大问题；另外还可以将多种类型的资源综合考虑和权衡，实现折中的性能和整体效能的提升。然而对于多个权衡目标，当前已有解决方案虽然可以采用不同时隙分配不同动作的方式实现动作输出，但并未真正意义上实现单个时隙为所有服务区域提供资源，具有较差的实时性，不适用于空间节点的数字孪生体系统。同时，随着数字孪生体系统所模拟的空间节点服务区域数量的增加，资源分配算法的维度进一步增加，庞大的状态空间和动作空间使得计算规模进一步增大，算法的收敛性和复杂度面临着巨大的挑战。对于这个问题，常规的深度强化学习已经无法胜任。

技术实现思路

1、鉴于上述的分析，本发明实施例旨在提供一种基于双actor-critic神经网络的资源分配方法，用以解决现有资源分配方法实时性差、算法收敛性差等问题。

2、本发明公开了一种基于双actor-critic神经网络的资源分配方法，包括：

3、将空间节点系统映射成空间节点数字孪生体系统；所述空间节点数字孪生体系统包括：中央控制器，所有空间节点、服务区域及每一服务区域内的所有用户终端；

4、空间节点数字孪生体系统中的中央控制器内置多个实施单元，每个实施单元与多个空间上相邻的服务区域建立映射关系；将中央控制器中所有实施单元对服务区域的资源分配过程进行建模，得到强化学习模型；

5、基于双actor-critic神经网络算法对强化学习模型进行训练，得到训练通过的强化学习模型；

6、当中央控制器接收到用户终端的业务请求时，运行训练通过的强化学习模型，实现对相应空间节点系统的资源分配。

7、在上述方案的基础上，本发明还做出了如下改进：

8、进一步，在所述强化学习模型中，

9、将当前时刻时各服务区域的请求业务量集合和上一时刻时各服务区域中的资源分配情况集合进行组合，得到当前时刻的状态；

10、将当前时刻时各服务区域中的资源分配情况集合作为当前时刻的动作；

11、以最小化所有服务区域的提供资源量和请求业务量的差值的均值、最大化所有服务区域的提供资源量和请求业务量的比值的均值、最小化所有实施单元的在用资源块数目之和为优化目标，确定收益奖励。

12、进一步，t时刻的状态s(t)＝{q(t)，d(t-1)}；其中，q(t)表示t时刻时各服务区域的请求业务量集合；d(t-1)表示t-1时刻时各服务区域中的资源分配情况集合；

13、qi(t)表示服务区域i在t时刻的请求业务量，i＝1，2，...，nb，nb表示服务区域的总数；

14、其中，di(t-1)表示服务区域i在t-1时刻的资源分配情况，是一个nratot×1的列向量，列向量中的第r个元素表示第r个资源块对服务区域i的资源分配情况，列向量中各元素的取值为0或1，1表示t-1时刻通过实施单元分配第r个资源块到第i个服务区域，0表示t-1时刻没有通过实施单元分配第r个资源块到第i个服务区域，r＝1，2，...，nratot，nratot表示资源块的总数。

15、进一步，在所述强化学习模型中，t时刻的收益奖励r(t)表示为：

16、r(t)＝m(t)-p(t) (1)

17、其中，m(t)、p(t)分别表示t时刻的奖赏、惩罚；

18、

19、其中，ki(t)表示服务区域i在t时刻的比值，αi(t)表示服务区域i在t时刻的资源不足权重因子，βi(t)表示服务区域i在t时刻的资源盈余权重因子；

20、

21、其中，γ表示惩罚因子，nraj表示中央控制器分配给第j个实施单元的资源块的数目，nw表示中央控制器中实施单元的总数。

22、进一步，

23、

24、

25、其中，hi(t)＝|fi(t)-qi(t)|；hi(t)表示服务区域i在t时刻的差值，fi(t)表示服务区域i在t时刻的提供资源量。

26、进一步，所述基于双actor-critic神经网络算法对强化学习模型进行训练，得到训练通过的强化学习模型，执行：

27、初始化强化学习模型中的状态、动作和收益奖励；初始化双actor-critic神经网络；初始化历史数据队列为空；初始化回合总数iternum和每回合更新总步数stepnum；

28、在每一次回合，执行stepnum步轨迹更新，并将每步轨迹更新所得的状态、动作及收益奖励组成状态转移轨迹样本存入历史数据队列；并基于历史数据队列，更新后续策略πnext(θ)和前序策略πprev(θ)；

29、重复执行多个回合的轨迹更新，直至双actor-critic神经网络的状态收敛，或者，达到回合总数iternum，结束训练过程，最后得到训练通过的强化学习模型。

30、进一步，每步轨迹更新过程执行：后续策略πnext(θ)中的actor网络处理当前t时刻的状态s(t)，得到均值μ和方差σ，并基于均值μ和方差σ构建概率分布函数，从概率分布函数上随机取动作a(t)，执行动作a(t)，与环境交互，得到收益奖励r(t)和下一时刻状态s(t+1)；将当前时刻的状态、动作及收益奖励作为本步状态转移轨迹样本存储到到历史数据队列中；然后，基于下一步的状态s(t+1)，重复执行获取下一次轨迹更新过程，储存相应的状态转移轨迹样本；

31、所选取的动作满足：同一个实施单元映射到的所有服务区域之间不能同时使用相同的资源块；不同实施单元映射的距离相近的服务区域之间不同时使用同一个资源块。

32、进一步，若当前轨迹更新步数等于step_t1，step_t1表示后续策略πnext(θ)中critic神经网络的更新的门限步数，此时，执行后续策略πnext(θ)中critic神经网络的更新过程：

33、将当前历史数据队列输入后续策略πnext(θ)中的critic神经网络，计算更新状态所产生的优势函数adv_critic，根据优势函数adv_critic计算critic神经网络的损失函数lcritic(θ)，根据lcritic(θ)更新后续策略πnext(θ)中的critic神经网络；

34、其中，step_t1小于stepnum。

35、进一步，若当前轨迹更新步数等于step_t2，step_t2表示后续策略πnext(θ)更新的门限步数，此时，执行后续策略πnext(θ)的更新过程：

36、将当前历史数据队列中的状态分别输入到前序策略πprev(θ)和后续策略πnext(θ)，分别得到前序策略πprev(θ)和后续策略πnext(θ)的概率分布函数；将历史数据队列中的动作分别输入到前序策略πprev(θ)和后续策略πnext(θ)的概率分布函数，计算πnext(θ；a|s)和πprev(θ；a|s)，然后计算概率比值ξ(θ)、分段函数trunc[ξ(θ)]及更新状态所产生的优势函数adv_actor，计算后续策略πnext(θ)中actor神经网络的损失函数lactor(θ)，根据lactor(θ)更新后续策略πnext(θ)中actor神经网络，得到更新后的后续策略πnext(θ)；

37、其中，step_t2介于step_t1和stepnum之间。

38、进一步，若当前轨迹更新步数等于stepnum，每回合更新总步数stepnum等于前序策略πprev(θ)更新的门限步数，此时，执行前序策略πprev(θ)的更新过程：

39、重复后续策略πnext(θ)的更新过程，并用更新后的后续策略πnext(θ)的参数来更新前序策略πprev(θ)，得到更新后的前序策略πprev(θ)。

40、与现有技术相比，本发明至少可实现如下有益效果之一：

41、本发明提供的基于双actor-critic神经网络的资源分配方法，通过设置实施单元，将每一实施单元与空间上相邻的多个服务区域相映射，通过实施单元实现所映射的服务区域内的资源分配，有效提高了资源利用率。同时，基于所提供资源和服务区域的用户终端所需资源之间的差值和比值，建立了差值和比值模型，将空间节点数字孪生体系统资源分配问题建模成多目标优化问题，并给出空间节点数字孪生体资源分配的优化方法。最后，通过智能体与环境之间的交互建立强化学习框架和数据接口，然后进行强化学习框架中的状态、动作和奖励设计，并给出动作输出模式重构、奖赏变换和收益奖励计算等具体实现方式设计，保证了算法具有计算复杂度低、效率和实时性高等优点，很好地解决了现有资源分配方法难以满足空间节点系统的强动态、高实时性的无线资源分配需求的问题。

42、此外，本发明设计了基于双actor-critic神经网络建立实现框架，给出前序策略和后续策略综合的决策支撑方法，同时给出神经网络中损失函数的设计方法，通过限制策略更新幅度来降低参数设置的敏感性，并引入actor-critic模式，保证了算法的较高的训练效率，兼容大规模的空间节点数字孪生体系统的复杂高维度状态和动作的应用场景。

43、本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨以杰杨振亚
技术所有人：安世亚太科技股份有限公司
我是此专利的发明人

上一篇：一种基于光学原理的烟油浓度智能监测装置的制作方法
上一篇：通孔样品的制备方法及检查通孔结构的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。