用于无线系统中基于深度强化学习(DRL)的调度的方法和系统与流程

文档序号:33507466发布日期:2023-03-18 05:16阅读:来源:国知局

技术特征:
1.一种由网络节点(102)执行的用于基于深度强化学习drl的调度的方法,所述方法包括:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于drl的调度过程,所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。2.根据权利要求1所述的方法,进一步包括:分别获得用于所述多个期望网络性能行为的各网络性能指标集的多个偏好向量。3.根据权利要求1或2所述的方法,其中,所述多个网络性能指标包括:(a)分组大小,(b)分组延时,(c)服务质量qos要求,(d)小区状态,或者(e)(a)-(d)中的两项或更多项的组合。4.根据权利要求1至3中任一项所述的方法,进一步包括:分别从用于所述多个网络性能行为的各网络性能指标集的多个偏好向量中选择(502)所述偏好向量。5.根据权利要求4所述的方法,其中,从所述多个偏好向量中选择(502)所述偏好向量包括:基于一个或多个参数,从所述多个偏好向量中选择(502)所述偏好向量。6.根据权利要求5所述的方法,其中,所选择的偏好向量随时间改变。7.根据权利要求5或6所述的方法,其中,所述一个或多个参数包括一天中的时间或者业务类型。8.根据权利要求1至7中任一项所述的方法,其中,所述基于drl的调度过程是深度q学习网络dqn调度过程。9.根据权利要求1至8中任一项所述的方法,其中,所述基于drl的调度过程针对多个传输时间间隔tti中的每个tti执行分组的时域调度。10.根据权利要求1至9中任一项所述的方法,进一步包括:在执行(206)所述基于drl的调度过程之前,确定(204)用于所述期望网络性能行为的所述偏好向量。11.根据权利要求1至9中任一项所述的方法,进一步包括:在执行(206)所述基于drl的调度过程之前,针对所述多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。12.一种用于基于深度强化学习drl的调度的网络节点(102),所述网络节点(102)适于:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于drl的调度过程,所述偏好向量定义用于与所述多个期望
网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。13.根据权利要求12所述的网络节点(102),其中,所述网络节点(102)进一步适于执行根据权利要求2至11中的任何一项所述的方法。14.一种用于基于深度强化学习drl的调度的网络节点(102),所述网络节点(102)包括处理电路,所述处理电路被配置为使所述网络节点(102):使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于drl的调度过程,所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。15.根据权利要求14所述的网络节点(102),其中,所述处理电路进一步被配置为使所述网络节点(102)执行根据权利要求2至11中的任何一项所述的方法。16.一种训练基于深度强化学习drl的调度过程的计算机实现的方法,所述方法包括:针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。17.一种用于训练基于深度强化学习drl的调度过程的计算节点或网络节点,所述计算节点或网络节点适于:针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。18.一种用于训练基于深度强化学习drl的调度过程的计算节点或网络节点,所述计算节点或网络节点包括处理电路,所述处理电路被配置为使所述计算节点或网络节点:针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。
19.一种由网络节点(102)执行的用于基于深度强化学习drl的调度的方法,所述方法包括:在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于drl的调度过程的训练阶段期间,针对多个期望网络性能行为中的每个期望网络性能行为,确定(204)所述偏好向量以应用于与所述期望网络性能行为相关的多个网络性能指标;以及在所述基于drl的调度过程的执行阶段期间,使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所确定的偏好向量来执行(206)所述基于drl的调度过程。20.根据权利要求19所述的方法,其中,针对所述多个期望网络性能行为中的每个期望网络性能行为,确定(204)所述偏好向量包括:针对所述多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的所述多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。21.一种用于基于深度强化学习drl的调度的网络节点(102),所述网络节点(102)适于:在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于drl的调度过程的训练阶段期间,针对多个期望网络性能行为中的每个期望网络性能行为,确定(204)所述偏好向量以应用于与所述期望网络性能行为相关的多个网络性能指标;以及在所述基于drl的调度过程的执行阶段期间,使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所确定的偏好向量来执行(206)所述基于drl的调度过程。22.一种用于基于深度强化学习drl的调度的网络节点(102),所述网络节点(102)包括处理电路,所述处理电路被配置为使所述网络节点(102):在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于drl的调度过程的训练阶段期间,针对多个期望网络性能行为中的每个期望网络性能行为,确定(204)所述偏好向量以应用于与所述期望网络性能行为相关的多个网络性能指标;以及在所述基于drl的调度过程的执行阶段期间,使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所确定的偏好向量来执行(206)所述基于drl的调度过程。23.一种计算机程序产品,包括计算机可读介质,在所述计算机可读介质中体现计算机可读代码,所述计算机可读代码被配置以使得在由合适的计算机或处理器执行时使所述计算机或处理器执行根据权利要求1至11、16、19或20中的任何一项所述的方法。24.一种由网络节点(102)执行的用于基于深度强化学习drl的调度的方法,所述方法包括:
·
针对多个期望网络性能行为中的每个期望网络性能行为:ο确定(204)用于与所述期望网络性能行为相关的多个网络性能指标的偏好向量,所述偏好向量定义用于与所述期望网络性能行为相关的所述多个网络性能指标的权重;以及
·
使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所述偏好向量来执行(206)基于drl的调度过程。25.根据权利要求24所述的方法,其中,针对所述多个期望网络性能行为中的每个期望网络性能行为,确定(204)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量包括:针对用于与所述期望网络性能行为相关的所述多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204a)基于drl的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204b)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。

技术总结
本文公开了用于基于深度强化学习(DRL)的分组调度的系统和方法。在一个实施例中,一种由网络节点执行的用于基于DRB的调度的方法,包括:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程,该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。以此方式,以其中联合优化多个性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。


技术研发人员:萨克塞纳 J
受保护的技术使用者:瑞典爱立信有限公司
技术研发日:2021.07.07
技术公布日:2023/3/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1