用于资源控制的设备、程序和方法与流程

文档序号：27611522发布日期：2021-11-27 02:05阅读：来源：国知局

技术特征：
1.一种包括处理器电路和存储器电路的设备，所述存储器电路存储处理指令，所述处理指令在由所述处理器电路执行时，促使所述处理器电路：在有限时间段结束时，执行来自用于执行物理环境中的任务的有限资源集的资源到未决任务的指派，包括制定所述指派，其中制定所述指派包括：使用强化学习算法来制定优化奖励函数值的映射，所述奖励函数值是由预定奖励函数基于表示所述资源的清单和所述未决任务的表示以及所述映射而生成的值，所述映射是来自所述清单的单独资源到所述表示中的单独未决任务的映射，所制定的指派是根据所制定的映射的。2.根据权利要求1所述的设备，其中对于任务集合的每个成员，所述任务集合的表示包括一个或多个任务特性；对于所述清单中表示的每个资源，所述清单包括一个或多个资源特性；所述强化学习算法被配置成学习并存储任务特性与资源特性之间的关联；所述制定所述映射包括将来自所述清单的单独资源到所述表示中的单独未决任务的所述映射约束到资源具有与所存储的关联中的相应的单独未决任务的任务特性相关联的资源特性。3.根据权利要求2所述的设备，其中所述强化学习算法被配置成响应于具有资源特性并且已经被指派到具有任务特性的任务的资源已经成功执行所述任务的通知，来学习并存储所述任务特性和所述资源特性之间的关联。4.根据权利要求3所述的设备，其中所述强化学习算法被配置成响应于表示资源到任务的历史指派的结果的信息以及相应的资源特性和任务特性，来学习并存储任务特性和资源特性之间的关联，其中所存储的关联包括关联强度的定量评估，响应于指示具有特定资源特性的资源到具有特定任务特性的任务的指派的肯定结果的信息，来增加所述特定资源特性和所述特定任务特性之间的所述定量评估。5.根据权利要求4所述的设备，其中响应于指示具有特定资源特性的资源到具有特定任务特性的任务的指派的负面结果的信息，来减少所述特定资源特性和所述特定任务特性之间的所述定量评估。6.根据前述权利要求中任一项所述的设备，其中在所述有限时间段之后的一系列有限时间段的每个有限时间段结束时，重复用于执行任务的资源到未决任务的所述指派。7.根据前述权利要求中任一项所述的设备，其中所述预定奖励函数是从所制定的映射得到的因子的函数，所述因子包括预测完成的任务的数量，以及完成所述数量的任务的累积时间。8.根据权利要求4或5所述的设备，其中所述资源包括通过执行所述任务而消耗的一个或多个资源，所述清单包括所述资源的消耗开销的指示，所述因子还包括：所映射的资源的预测的累积消耗开销。
9.根据前述权利要求中任一项所述的设备，其中所述预定奖励函数基于包括所述有限资源集的使用率的因子，在奖励函数值优化和所述使用率之间存在负相关。10.根据前述权利要求中任一项所述的设备，其中所述物理环境是物理设备并且每个未决任务是所述物理设备中的技术故障，并且所述未决任务的所述表示是每个技术故障的相应的故障报告；用于执行任务的所述资源是用于解决技术故障的故障解决资源。11.根据权利要求10所述的设备，其中所述物理设备是电信网络。12.根据前述权利要求中任一项所述的设备，还包括接口电路，所述接口电路被配置成通过将所制定的映射传递到所述资源集，根据所制定的映射来指派所述资源。13.一种方法，包括：在有限时间段结束时，执行来自用于执行物理环境中的任务的有限资源集的资源到未决任务的指派，包括制定所述指派，其中制定所述指派包括：使用强化学习算法来制定优化奖励函数值的映射，所述奖励函数值是由预定奖励函数基于表示所述资源的清单和所述未决任务的表示以及所述映射而生成的值，所述映射是来自所述清单的单独资源到所述表示中的单独未决任务的映射，所制定的指派是根据所制定的映射的。14.根据权利要求13所述的方法，其中对于任务集合的每个成员，所述任务集合的表示包括一个或多个任务特性；对于所述清单中表示的每个资源，所述清单包括一个或多个资源特性；所述强化学习算法被配置成学习并存储任务特性与资源特性之间的关联；所述制定所述映射包括将来自所述清单的单独资源到所述表示中的单独未决任务的所述映射约束到资源具有与所存储的关联中的相应的单独未决任务的任务特性相关联的资源特性。15.根据权利要求14所述的方法，其中所述强化学习算法被配置成响应于具有资源特性并且已经被指派到具有任务特性的任务的资源已经成功执行所述任务的通知，来学习并存储所述任务特性和所述资源特性之间的关联。16.根据权利要求15所述的方法，其中所述强化学习算法被配置成响应于表示资源到任务的历史指派的结果的信息以及相应的资源特性和任务特性，来学习并存储任务特性和资源特性之间的关联，其中所存储的关联包括关联强度的定量评估，响应于指示具有特定资源特性的资源到具有特定任务特性的任务的指派的肯定结果的信息，来增加所述特定资源特性和所述特定任务特性之间的所述定量评估。17.根据权利要求16所述的方法，其中响应于指示具有特定资源特性的资源到具有特定任务特性的任务的指派的负面结果的信息，来减少所述特定资源特性和所述特定任务特性之间的所述定量评估。
18.根据权利要求13至17中任一项所述的方法，其中在所述有限时间段之后的一系列有限时间段的每个有限时间段结束时，重复用于执行任务的资源到未决任务的所述指派。19.根据权利要求13至18中任一项所述的方法，其中所述预定奖励函数是从所制定的映射得到的因子的函数，所述因子包括预测完成的任务的数量，以及完成所述数量的任务的累积时间。20.根据权利要求16或17所述的方法，其中所述资源包括通过执行所述任务而消耗的一个或多个资源，所述清单包括所述资源的消耗开销的指示，所述因子还包括：所映射的资源的预测的累积消耗开销。21.根据权利要求13至20中任一项所述的方法，其中所述预定奖励函数基于包括所述有限资源集的使用率的因子，在奖励函数值优化和所述使用率之间存在负相关。22.根据权利要求21所述的方法，其中所述物理环境是物理设备并且每个未决任务是所述物理设备中的技术故障，并且所述未决任务的所述表示是每个技术故障的相应的故障报告；用于执行任务的所述资源是用于解决技术故障的故障解决资源。23.根据权利要求22所述的方法，其中所述物理设备是电信网络。24.根据权利要求13至23中任一项所述的方法，还包括通过经由接口或电信网络将所制定的映射传递到所述资源集，根据所制定的映射来指派所述资源。25.一种包括指令的计算机程序，所述指令当在至少一个处理器上执行时，促使所述至少一个处理器执行根据权利要求13至24中任一项所述的方法。26.一种载体，所述载体包含如权利要求25中要求保护的计算机程序，其中所述载体包括电子信号、光信号、无线电信号或计算机可读存储介质中的一种。27.一种计算机程序产品，所述计算机程序产品包括在其上存储有如权利要求25中要求保护的计算机程序的非暂时性计算机可读介质。

技术总结
实施例包括一种设备，所述设备包括处理器电路和存储器电路，存储器电路存储处理指令，所述处理指令当由处理器电路执行时，促使处理器电路：在有限时间段结束时，执行来自用于执行物理环境中的任务的有限资源集的资源到未决任务的指派，包括制定指派，其中制定指派包括：使用强化学习算法来制定优化奖励函数值的映射，奖励函数值是由预定奖励函数基于表示资源的清单和未决任务的表示以及映射而生成的值，映射是来自清单的单独资源到表示中的单独未决任务的映射，所制定的指派是根据所制定的映射的。映射的。映射的。

技术研发人员：V
受保护的技术使用者：瑞典爱立信有限公司
技术研发日：2019.03.23
技术公布日：2021/11/26

完整全部详细技术资料下载

当前第2页1 2