一种基于深度强化学习的最优流量分割的方法和系统与流程

文档序号：31729218发布日期：2022-10-05 01:26阅读：来源：国知局

技术特征：
1.一种基于深度强化学习的最优流量分割的方法，其特征在于：获取所有需要进行流量分割的路由器的当前状态，建立路由器状态矩阵；使用每次流量分割后的全部路由器状态矩阵迭代建立训练数据集，训练数据集的输出为全网链路的状态四元组，所述状态四元组具体为[路由器状态矩阵,权重向量,平均吞吐量,下一时刻路由器状态矩阵]，其中权重向量为对每个下一跳路由器流量分割的比例；以流量规划后指定数量周期中每个路由器的平均吞吐量之和为reward，对强化学习模型进行训练，使用训练后的模型对每一个路由器进行流量分割；根据流量分割将数据包发送至下一路由器节点后，获取下一时刻路由器状态矩阵，对训练数据集进行迭代更新，并使用更新后的训练数据集重新训练模型。2.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述强化学习模型具体包括：所述强化学习模型的策略包括基于策略actor的学习和基于值函数q的学习，强化学习模型的输入为全网的路由器状态矩阵，actor的输出为当前路由器到相邻路由器所有可能的权重向量集合，q为流量分割后根据全网所有路由器的平均吞吐量之和获得的评分。3.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述权重向量具体包括：对于每一个路由器，流量分割的权重向量取值范围为[0,1]，所有权重向量的和为1。4.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述使用每次流量分割后的全部路由器状态矩阵迭代建立训练数据集，具体包括：随机选择一组权重向量作为初始权重向量，将初始权重向量对应的状态四元组作为训练数据集的初始数据；每次路由器将数据包传输至下一节点后，将整个网络拓扑的状态四元组增加到训练数据集中，对训练数据集进行迭代更新。5.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述使用每次流量分割后的全部路由器状态矩阵迭代建立训练数据集，还包括：对每个路由器生成至少一个[0,1]区间中的随机数，所有生成的随机数之和为1，使用生成的随机数作为该路由器的权重向量初始值。6.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述以流量规划后指定数量周期中每个路由器的平均吞吐量之和为reward，具体包括：将所有路由器的平均吞吐量作为当前周期的reward，以每次流量分割后指定数量周期中每个周期全网的平均吞吐量作为该次流量分割的reward。7.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述建立路由器状态矩阵，具体包括：获取每个路由器的状态向量，将所有路由器的状态向量组成状态矩阵，其中，所述状态矩阵中每一行为一个路由器的状态向量，每一列为状态向量中的一个字段，所述路由器状态向量的包括每个路由器当前时间点所在的时间段、带宽、当前负载、时延、速率和配置指标中的至少二项。8.根据权利要求1所述的基于深度强化学习的最优流量分割的方法，其特征在于，所述对强化学习模型进行训练，具体包括：
使用离线数据对强化学习模型进行预训练；和/或，使用实时数据对强化学习模型进行在线迭代。9.一种基于深度强化学习的最优流量分割的系统，其特征在于，包括控制器和路由器，具体的：控制器获取所有路由器的状态，将当前所有路由器的状态矩阵输入训练后的强化学习模型中，根据权利要求1-8中任一项的方法获取输出的权重向量，并发送至路由器；路由器根据接收到的权重向量进行流量分割，将数据包发送到下一节点，并将自身状态发送至控制器；控制器使用路由器的最新状态生成下一时刻路由器状态矩阵，将包含下一时刻状态矩阵的状态四元组加入训练数据集中，并使用更新后的训练数据集对强化学习模型进行训练。10.根据权利要求9所述的基于深度强化学习的最优流量分割的系统，其特征在于，所述控制器获取所有路由器的状态，具体包括：控制器向所有路由器发送路由器状态向量采集指令，每个路由器将自身当前的状态向量发送至控制器，控制器根据所有路由器的状态向量生成全网路由器的状态矩阵；控制器向所有路由器发送链路状态采集指令，每个路由器将自身当前的链路状态发送至控制器，控制器根据全网路由器的链路状态确定强化学习模型的action set；当路由器按照权重向量进行流量分割，传输数据包到下一节点后上报控制器，控制器向上报的路由器发出吞吐量提交指令和路由器状态向量采集指令，上报的路由器将自身当前吞吐量和状态矩阵发送至控制器，控制器生成下一时刻路由器状态矩阵。

技术总结
本发明涉及通信领域，特别是涉及一种基于深度强化学习的最优流量分割的方法和系统。主要包括：获取所有需要进行流量分割的路由器的当前状态，建立路由器状态矩阵；使用每次流量分割后的全部路由器状态矩阵迭代建立训练数据集，训练数据集的输出为全网链路的状态四元组；以流量规划后指定数量周期中每个路由器的平均吞吐量之和为Reward，对强化学习模型进行训练，使用训练后的模型对每一个路由器进行流量分割；根据流量分割将数据包发送至下一路由器节点后，获取下一时刻路由器状态矩阵，对训练数据集进行迭代更新，并使用更新后的训练数据集重新训练模型。本发明可以根据网络中所有链路的变化实现动态规划，获取长期受益最高的流量分割方案。流量分割方案。流量分割方案。

技术研发人员：黄东东毛斐强小应王建
受保护的技术使用者：烽火通信科技股份有限公司
技术研发日：2022.06.30
技术公布日：2022/10/4

完整全部详细技术资料下载

当前第2页1 2