1.一种基于人工智能的异构网络多路径调度方法,其特征在于,包括:
步骤1、将应用层的待发送数据加入该发送队列,并建立多条用于将该待发送数据发送至终端设备网络接口的tcp子流;
步骤2、各tcp子流中该待发送数据成功发送至该终端设备网络接口后产生确认消息,得到该确认消息对应的tcp子流的属性条目,集合所有tcp子流的属性条目,得到状态空间;
步骤3、使用transformer网络编码该状态空间,得到当前时刻的编码信息,并将该当前时刻的各tcp子流的间隙值与该编码信息打包成数据包后存入存入重放缓冲区;
步骤4、批量采样该重放缓冲区中的数据包,得到历史样本,将该历史样本输入强化学习网络,该强化学习网络基于函数逼近的学习策略学习该历史样本,得到每条tcp子流的间隙调整值,基于该间隙调整值调度每条tcp子流的数据。
2.如权利要求1所述的基于人工智能的异构网络多路径调度方法,其特征在于,所有该tcp子流共享该发送队列。
3.如权利要求1所述的基于人工智能的异构网络多路径调度方法,其特征在于,步骤3中该transformer网络包括:
将每个tcp子流的状态嵌入到向量,得到各子流的状态向量,根据该状态向量,提取各子流之间的关系,将各子流之间的关系通过该全连接前馈网络输入至堆叠编码器后得到该编码信息。
4.如权利要求1所述的基于人工智能的异构网络多路径调度方法,其特征在于,步骤4中该历史样本包括:t时刻和t+1时刻的状态空间st,st+1,t时刻的tcp子流的gap调节动作at,t时刻的反馈函数rt。
5.如权利要求4所述的基于人工智能的异构网络多路径调度方法,其特征在于,该强化学习网络为dqn网络;
该步骤4具体包括:
以状态-动作对(st,at)为输入,输出相应的q值q(st,at),来表示期望得到折现后的累积奖励q(st,at;θ)=e[rt|st,at;θ),应用ε贪婪策略,遵循概率为1-ε的贪婪策略,选择概率为ε的随机动作,得到π*(s);
该dqn网络以权向量θq作为q网络,通过最小化损失函数l(θq)序列,来对该dqn网络进行训练或更新;l(θq)=e[(q(st,at;θq)-yt)2]。
6.一种基于人工智能的异构网络多路径调度系统,其特征在于,包括:
模块1,用于将应用层的待发送数据加入发送队列,并建立多条用于将该待发送数据发送至终端设备网络接口的tcp子流;
模块2,用于使各tcp子流中该待发送数据成功发送至该终端设备网络接口后产生确认消息,得到该确认消息对应的tcp子流的属性条目,集合所有tcp子流的属性条目,得到状态空间;
模块3,用于以transformer网络编码该状态空间,得到当前时刻的编码信息,并将该当前时刻的各tcp子流的间隙值与该编码信息打包成数据包后存入存入重放缓冲区;
模块4、用于批量采样该重放缓冲区中的数据包,得到历史样本,将该历史样本输入强化学习网络,该强化学习网络基于函数逼近的学习策略学习该历史样本,得到每条tcp子流的间隙调整值,基于该间隙调整值调度每条tcp子流的数据。
7.如权利要求6所述的基于人工智能的异构网络多路径调度系统,其特征在于,所有该tcp子流共享该发送队列。
8.如权利要求6所述的基于人工智能的异构网络多路径调度系统,其特征在于,模块3中该transformer网络包括:
将每个tcp子流的状态嵌入到向量,得到各子流的状态向量,根据该状态向量,提取各子流之间的关系,将各子流之间的关系通过该全连接前馈网络输入至堆叠编码器后得到该编码信息。
9.如权利要求6所述的基于人工智能的异构网络多路径调度系统,其特征在于,模块4中该历史样本包括:t时刻和t+1时刻的状态空间st,st+1,t时刻的tcp子流的gap调节动作at,t时刻的反馈函数rt。
10.如权利要求9所述的基于人工智能的异构网络多路径调度系统,其特征在于,该强化学习网络为dqn网络;
该模块4具体包括:
以状态-动作对(st,at)为输入,输出相应的q值q(st,at),来表示期望得到折现后的累积奖励q(st,at;θ)=e[rt|st,at;θ),应用ε贪婪策略,遵循概率为1-ε的贪婪策略,选择概率为ε的随机动作,得到π*(s);
该dqn网络以权向量θq作为q网络,通过最小化损失函数l(θq)序列,来对该dqn网络进行训练或更新;l(θq)=e[(q(st,at;θq)-yt)2]。