用于配置强化学习代理的技术的制作方法

文档序号：36228124发布日期：2023-11-30 14:07阅读：34来源：国知局

本公开一般涉及机器学习领域。特别地，提出了一种用于配置强化学习代理以使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的技术。该技术可以被体现在方法、计算机程序、设备和系统中。

背景技术：

1、在强化学习中，代理可以观察环境并使自己适于环境，目的是最大化总结果(outcome)。代理可以维持环境中每个可能状态-动作对的值，并且对于给定的状态，代理可以根据状态到动作映射函数来选择下一个动作，例如，作为在该状态中提供最高值的动作。当代理通过采取不同的动作(例如，通过试错法过程)来探索环境时，状态-动作对的值可以基于归因于相应状态-动作对的正或负奖励(这取决于所执行的动作在给定的状态下是否是期望的)来迭代地更新，其中对于给定的状态-动作对，正奖励可以导致较高的值，并且负奖励可以导致较低的值。

2、例如，可以使用markov决策过程(mdp)模型对强化学习算法进行建模。mdp由(s，a，p，r)的元组给出，其中s是可能状态的集合，a是动作的集合，p(s，a，s’)是状态s中的动作a将导致状态s’的概率，r(s，a，s’)是动作a从状态s转变到s’的奖励。奖励是由利益相关者(stakeholder)提供以建立给定状态-行动对的成功/失败的主要输入。换句话说，奖励可以是提供给强化学习模型的人类生成的输入。奖励可以以归因于对应状态-动作对的静态值(例如+1、–1)的形式来提供，或者以奖励函数的形式来提供。例如，可以使用价值或策略迭代算法来最大化奖励。

3、虽然奖励设计(reward engineering)传统上是以试错法方式执行的(例如，对于不想要的动作设置-100)，但是此类方法可能导致多个问题，例如，包括(i)在偏离给定策略的特定状态的奖励的轻微波动，(ii)奖励的不一致估值，或者(iii)不能解释或获得来自用户对奖励模型的功效的反馈。给定强化学习代理和奖励监督者(例如，提供输入的利益相关者)，执行奖励设计的常规方式包括以下内容。(1)直接监督：在执行评估以优化行为的情况下，监督者直接观察代理的行为。这种方法具有挑战性，因为假设监督者知道关羽环境的“一切”来评估行动。可能存在从长远来看可能不一致的奖励的偏见或短视归因。(2)模仿学习：监督者解决问题，例如，具有安全和避免状态的细微差别，其中解决方案被转录到代理以复制和再现。这种方法也存在复杂性，因为监督者必须遵循代理能够理解的动作序列，并且对于代理学习新颖的奖励空间也存在约束，因为动作将被模仿。(3)逆向强化学习：在这种方法中，代理试图从历史数据中估计奖励函数。然而，假设该问题先前已经解决了，这可能并不总是如此。

4、在所有这些技术中，奖励的主观性和一致性尚未被深入探索。然而，随着代理越来越多地被部署在具有不同上下文和偏好的复杂环境中，通常期望具有更健壮的奖励函数。如果奖励函数“表现更好”，则强化学习代理通常将执行更好的学习，这——在实践中——可能引起提高收敛速度或避免不期望状态，诸如陷入局部最小值。仅仅作为示例，虽然稀疏奖励函数更容易定义(例如，如果你赢了游戏，则获得+1，否则0)，稀疏奖励也减慢了学习，因为代理在获得任何奖励之前需要采取许多行动。此外，通常也难以捕捉对可解释的动作或避免某些状态序列的需求，并且因此，引入概念(诸如可解释性和安全执行)通常进一步使过程复杂。

技术实现思路

1、因此，需要一种用于奖励设计的技术，该技术引起更一致奖励结构，该奖励结构能够实现改进的强化学习输出和/或可解释性。

2、根据第一方面，提供了一种用于将强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的方法。所述方法由执行配置器组件的计算单元来执行，并且包括获得度量重要性的定义，所述定义为与所述任务相关联的多个性能相关度量指定成对重要性值，每个成对重要性值指示所述任务的所述多个性能相关度量中的一个度量相对于另一个度量的相对重要性。所述方法还包括从度量重要性的所述定义中导出奖励结构。所述奖励结构为所述多个性能相关度量中的每一个来定义奖励，所述奖励要归因于由所述强化学习代理采取的在相应性能相关度量中产生正结果的动作。所述方法还包括将所述强化学习代理配置成在执行所述任务时采用所导出的奖励结构。

3、从度量重要性的所述定义中导出所述奖励结构可以使用多准则决策制订(mcdm)技术来执行。度量重要性的所述定义可以被提供为矩阵a：

4、

5、其中n可以是所述多个性能相关度量的度量数量，并且wij可以是指示度量ai相对于度量aj的相对重要性的成对重要性值，其中i＝1，…，n，并且j＝1，…，n。从所述矩阵a中导出所述奖励结构可以包括求解特征值问题aw＝λw：

6、

7、其中λ可以是a的最大特征值，并且w＝[w1…wn]可以是所述特征值问题的解。然后，每个权重wi可以作为对应度量ai的所述奖励，其中i＝1，…，n。可以通过将每个权重wi除以所述权重w1…wn的总和来归一化w＝[w1…wn]，其中i＝1，…，n。所述矩阵a可以是正倒数矩阵。

8、从所述矩阵a中导出所述奖励结构可以包括使用由下式定义的不一致性值作为所述矩阵a与一致性的偏差的测量来执行所述矩阵a的一致性检查：

9、

10、如果所述不一致性值高于预定义阈值，则从所述矩阵a中导出所述奖励结构可以包括在所述矩阵a的成对重要性值wij中标识导致不一致性的一个或多个项，并且扰动所述一个或多个项以减少所述不一致性。标识和扰动导致不一致性的一个或多个项可以被迭代执行，直到所述不一致性值低于所述预定义阈值。备选地，如果所述不一致性值高于预定义阈值，则从所述矩阵a中导出所述奖励结构可以包括基于一组不同的特征值λ1，…，λn和对应的线性无关特征向量v1，…，vn来重构所述矩阵a。然后，所述矩阵a可以被重构为

11、a＝pdp-1

12、其中矩阵p可以通过堆叠v1，…，vn作为列向量来构造，并且矩阵d可以是d＝(λ1，…，λn)。

13、度量重要性的所述定义可以从关于将由所述强化学习代理执行的任务的要求规范中导出。所述要求规范可以使用正式要求规范语法来制定，可选地使用简单要求语法方法(ears)来制定。所述要求规范的至少一部分可以是模式匹配的，以导出度量重要性的所述定义。响应于请求所述强化学习代理为什么采取了特定动作的原因的查询而提供的解释(例如，由根据以下第三方面所述的解释器组件所提供的解释)可以在所导出的奖励结构的基础上提供。可以参考所述要求规范的制订来提供所述解释，可选地指示采取了所述特定动作以便满足所述要求规范的所述制订。

14、所述强化学习代理可以可操作以在多个部署设置中执行所述任务。对于所述多个部署设置中的每个，可以获得特定于相应部署设置的度量重要性的不同定义，并将所述不同定义用于导出特定于所述相应部署设置的不同奖励结构。所述强化学习代理可以被配置成取决于所述强化学习代理当前操作于的部署设置来采用所述不同奖励结构中的一个。当所述强化学习代理的操作被改变到不同部署设置时，所述强化学习代理可以被自动重新配置以采用对应于所述不同部署设置的所述不同奖励结构。

15、在一个变型中，将由所述强化学习代理执行的任务可以包括确定移动通信网络的网络切片配置。然后，所述多个性能相关度量可以包括针对网络切片观察到的时延、针对网络切片观察到的吞吐量、用于重新配置网络切片的弹性、以及关于网络切片的重新配置的可解释性中的至少一个。在另一个变型中，将由所述强化学习代理执行的任务可以包括操作机器人。然后，所述多个性能相关度量可以包括所述机器人的能量消耗、所述机器人的移动准确性、所述机器人的移动速度、和由所述机器人提供的安全性级别中的至少一个。在仍有的另一个变型中，将由所述强化学习代理执行的任务可以包括确定移动通信网络的一个或多个基站的天线倾斜配置。然后，所述多个性能相关度量可以包括由所述天线倾斜配置实现的覆盖、由所述天线倾斜配置实现的容量、和由所述天线倾斜配置引起的干扰级别中的至少一个。在又有的另一个变型中，将由所述强化学习代理执行的任务可以包括确定用于将一个计算装置的计算任务卸载到一个或多个联网计算装置的卸载级别。然后，所述多个性能相关度量可以包括所述计算装置的能量消耗，由所述计算装置观察到的接收卸载到所述一个或多个联网计算装置的所述计算任务的后果(result)的时延，以及当将所述计算任务卸载到所述一个或多个联网计算装置时由所述计算装置实现的任务准确性中的至少一个。

16、根据第二方面，提供了一种用于将强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的方法。所述方法由执行所述强化学习代理的计算单元来执行，并且包括将(例如，如由根据第一方面所述的配置器组件所接收的)配置应用于所述强化学习代理以在执行所述任务时采用导出的奖励结构。所述导出的奖励结构是从度量重要性的定义中导出的，所述定义为与所述任务相关联的多个性能相关度量指定成对重要性值，每个成对重要性值指示所述任务的所述多个性能相关度量中的一个度量相对于另一个度量的相对重要性。所述导出的奖励结构为所述多个性能相关度量中的每个来定义奖励，所述奖励要归因于由所述强化学习代理采取的在相应性能相关度量中产生正结果的动作。

17、根据第二方面所述的方法可以从与根据第一方面所述的方法相关的上述强化学习代理的角度定义一种方法。因此，关于第一方面的方法的上述方面也可以被第二方面的方法所包括(即，从强化学习代理的角度)。

18、根据第三方面，提供了一种用于解释由强化学习代理执行的动作的方法，所述强化学习代理使用从度量重要性的任务特定定义中导出的奖励结构来执行任务。所述方法由执行解释器组件的计算单元来执行，并且包括响应于请求所述强化学习代理在导出的奖励结构的基础上采取了所述行动的原因的查询而提供解释。所述导出的奖励结构是从度量重要性的定义中导出的，所述定义为与所述任务相关联的多个性能相关度量指定成对重要性值，每个成对重要性值指示所述任务的所述多个性能相关度量中的一个度量相对于另一个度量的相对重要性。所述导出的奖励结构为所述多个性能相关度量中的每个来定义奖励，所述奖励要归因于由所述强化学习代理采取的在相应性能相关度量中产生正结果的动作。

19、根据第三方面所述的方法可以从与根据第一方面所述的方法相关的上述解释器组件的角度定义一种方法。因此，关于第一方面的方法的上述方面也可以被第三方面的方法所包括(即，从解释器组件的角度)。

20、根据第四方面，提供了一种计算机程序产品。所述计算机程序产品包括程序代码部分，用于当在一个或多个计算装置(例如，处理器或处理器的分布式集合)上执行所述计算机程序产品时，执行第一、第二、和第三方面中至少一方面的方法。所述计算机程序产品可以被存储在计算机可读记录介质(诸如，半导体存储器、dvd、cd-rom等等)上。

21、根据第五方面，提供了一种计算单元，配置成执行配置器组件，所述配置器组件用于将强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务。所述计算单元包括至少一个处理器和至少一个存储器，所述至少一个存储器包含由所述至少一个处理器可执行的指令，使得所述配置器组件可操作以执行本文相对于第一方面提出的方法步骤中的任一项。

22、根据第六方面，提供了一种计算单元，配置成执行强化学习代理，所述强化学习代理用于将所述强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务。所述计算单元包括至少一个处理器和至少一个存储器，所述至少一个存储器包含由所述至少一个处理器可执行的指令，使得所述强化学习代理可操作以执行本文相对于第二方面提出的方法步骤中的任一项。

23、根据第七方面，提供了一种计算单元，配置成执行解释器组件，所述解释器组件用于解释由使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的强化学习代理执行的动作。所述计算单元包括至少一个处理器和至少一个存储器，所述至少一个存储器包含由所述至少一个处理器可执行的指令，使得所述解释器组件可操作以执行本文相对于第三方面提出的方法步骤中的任一项。

24、根据第八方面，提供了一种系统，包括第五方面的计算单元，第七方面的计算单元，以及可选地，第六方面的计算单元。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A
技术所有人：瑞典爱立信有限公司
我是此专利的发明人

上一篇：一种锥-柱型管桩群桩基础结构的制作方法
上一篇：一种电泳涂料的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。