自回归地生成定义要由代理执行的动作的数据元素序列的制作方法

文档序号：37602579发布日期：2024-04-18 12:46阅读：233来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本说明书涉及使用机器学习模型来处理数据。

背景技术：

1、机器学习模型接收输入并基于所接收的输入生成输出，例如预测的输出。一些机器学习模型是参数模型，并且基于所接收的输入和模型的参数值来生成输出。

2、一些机器学习模型是深度模型，其采用多层模型来为接收到的输入生成输出。例如，深度神经网络是深度机器学习模型，其包括输出层和一个或多个隐藏层，每个隐藏层将非线性变换应用于接收到的输入以生成输出。

技术实现思路

1、本说明书描述了一种动作选择系统，该动作选择系统被实现为在一个或多个位置中的一个或多个计算机上的计算机程序，用于控制与环境交互的代理以执行任务。

2、在整个说明书中，“数据元素”可以指代例如数值(例如，整数或浮点数值)或嵌入。嵌入是指数值的有序集合，例如，数值的向量、矩阵或其他张量。

3、根据第一方面，提供了一种由一个或多个计算机执行的方法，用于使用动作选择神经网络(特别是训练的动作选择神经网络)来选择要由代理执行以与环境交互的动作。该方法包括，在时间步骤序列中的每个时间步骤：例如，根据表征环境状态的当前观测，生成到当前时间步骤为止由代理在环境中执行的任务的状态的当前表示作为(第一)数据元素序列。该方法还包括自回归地生成表示要由代理在当前时间步骤执行的当前动作的数据元素(第二)序列。例如，数据元素(第二)序列可以包括共同表示要由代理执行的动作的多个动作数据元素。在实施方式中，自回归地生成数据元素(第二)序列包括，对于从表示当前动作的数据元素的序列中的第一位置开始的每个位置(在数据元素的第二序列中)：使用动作选择神经网络处理任务的状态的当前表示以生成可能的数据元素的集合上的分数分布；根据所述分数分布来选择用于表示所述当前动作的所述数据元素序列中的所述位置的数据元素；以及通过将用于位置的所选择的(动作)数据元素级联到任务的状态的当前表示来更新任务的状态的当前表示。也就是说，更新任务状态的更新后的当前表示，即数据元素(第一)序列，以用于数据元素(第二)序列的自回归生成，特别是用于处理任务状态的当前(现在更新的)表示以选择下一位置的(动作)数据元素。在自回归地生成表示当前动作的数据元素序列之后，该方法使代理在当前时间步骤执行当前动作。然后，该方法可以使用下一时间步骤的当前观测来更新任务状态的当前表示。

4、在一些实施方式中，对于时间步骤序列中的每个时间步骤，生成到当前时间步骤为止的任务状态的当前表示包括：接收表征当前时间步骤的环境状态的当前观测；生成当前观测的表示作为数据元素的序列；以及将当前观测的表示作为数据元素序列包括在到当前时间步骤为止的任务的状态的当前表示中，例如通过将表示任务的当前状态的数据元素(第一)序列与当前观测的表示级联作为数据元素序列。

5、在一些实施方式中，当前观测由数值集合定义，并且将当前观测的表示生成为数据元素序列包括：将定义当前观测的数值集合中的每个数值以预定义顺序(即，定义观测的数值的顺序)级联成数值序列。

6、在一些实施方式中，将当前观测的表示生成为数据元素序列还包括：离散化定义当前观测的数值集合中的每个数值。

7、在一些实施方式中，表征当前时间步骤的环境的当前状态的当前观测包括由像素阵列定义的环境的图像。

8、在一些实施方式中，将当前观测的表示生成为数据元素序列包括：将通过代理与环境的交互要实现的目标回报与当前观测的表示组合作为数据元素序列，其中目标回报定义作为代理与环境的交互的结果要实现的奖励的累积度量。

9、在一些实施方式中，对于时间步骤序列中的第一时间步骤之后的每个时间步骤，将当前观测的表示作为数据元素序列包括在到当前时间步骤为止的任务的状态的当前表示中包括：接收到先前时间步骤为止的任务的状态的表示作为数据元素序列；以及将作为数据元素序列的当前观测的表示级联到作为数据元素序列的到先前时间步骤为止的任务的状态的表示，以生成到当前时间步骤为止的任务的状态的当前表示。

10、在一些实施方式中，对于当前时间步骤之前的每个时间步骤，到先前时间步骤为止的任务的状态的表示表示：(i)表征该时间步骤处的环境的状态的相应观测，以及(ii)由代理在该时间步骤处执行的相应动作。

11、在一些实施方式中，在时间步骤序列中的第一时间步骤处，将当前观测的表示作为数据元素序列包括在到当前时间步骤为止的任务的状态的当前表示中包括：接收包括表征要由代理在环境中执行的任务的数据的提示；将所述提示的表示生成为数据元素序列；以及将作为数据元素序列的当前观测的表示级联到作为数据元素序列的提示的表示，以生成到当前时间步骤为止的任务的状态的当前表示。

12、在一些实施方式中，提示包括以下中的一个或多个：任务的演示、表征环境的目标状态的目标观测、或者提供与任务相关的指令的自然语言的文本序列。

13、在一些实施方式中，已经基于训练示例集合训练了动作选择神经网络，其中对于每个训练示例：训练示例被表示为数据元素序列；表示训练示例的数据元素的序列中的至少一个数据元素被指定为动作数据元素；并且基于训练示例训练动作选择神经网络包括训练动作选择神经网络以生成包括在训练示例中的动作数据元素。

14、在一些实施方式中，该训练示例集合包括来自多个不同控制域的相应训练示例，其中每个控制域与以下相关联：(i)对应的代理，(ii)对应的环境，以及(iii)对应的任务，其中来自每个控制域的每个训练示例通过执行动作以完成对应的任务来表征对应的代理与对应的环境的交互。

15、在一些实施方式中，多个不同的控制域包括第一控制域和第二控制域，在第一控制域中，对应环境的观测具有第一维度，在第二控制域中，对应环境的观测具有不同的第二维度。

16、在一些实施方式中，多个不同的控制域包括第一控制域和第二控制域，在第一控制域中，由对应的代理执行的动作具有第一维度，在第二控制域中，由对应的代理执行的动作具有不同的第二维度。

17、在一些实施方式中，训练示例集合包括多个语言建模训练示例，其中每个语言建模训练示例表示自然语言的文本序列。

18、在一些实施方式中，动作选择神经网络包括多个自我注意神经网络层。通常，自我注意神经网络层具有针对输入的每个元素的注意层输入，并且被配置为在注意层输入上应用注意机制以生成针对输入的每个元素的注意层输出。可以使用许多不同的注意机制。

19、在一些实施方式中，对于从表示当前动作的数据元素序列中的第一位置开始的每个位置，选择用于该位置的数据元素包括：选择在分数分布下具有最高分数的数据元素。

20、在一些实施方式中，对于时间步骤序列中的每个时间步骤，表示到当前时间步骤为止的任务状态的数据元素序列包括：数值序列；嵌入序列；或者包括在一些位置处的数值和在其他位置处的嵌入的序列。

21、在一些实施方式中，代理是与真实世界环境交互的机械代理。因此，所选择的动作可以是由机械代理在真实世界环境中执行的动作，诸如使机械代理物理地操纵环境中的一个或多个对象的动作，并且表征环境状态的观测可以是真实世界环境的观测。观测可以是多模态观测。该方法可以使用动作选择神经网络来执行一个或多个任务；所描述的系统的特定优点在于，具有相同参数(权重)集合的相同动作选择神经网络可以用于执行许多不同的任务。在一些实施方式中，系统，特别是动作选择神经网络，具有12亿个或更多的可学习参数；这有助于执行多个不同任务的能力。

22、在一些实施方式中，对于时间步骤序列中的每个时间步骤，表示到当前时间步骤为止的任务状态的数据元素序列包括：数值序列；嵌入序列；或者包括在一些位置处的数值和在其他位置处的嵌入的序列。

23、在一些实施方式中，当前观测包括图像，并且将当前观测的表示生成为数据元素序列包括：生成与图像中的多个分块中的每个分块相对应的相应初始分块嵌入；使用编码器神经网络处理所述初始分块嵌入，以针对所述图像中的所述多个分块中的每一个生成相应的最终分块嵌入；其中，每个最终块嵌入作为相应的数据元素被包括在表示所述当前观测的所述数据元素序列中。

24、在一些实施方式中，生成与图像中的分块相对应的相应初始分块嵌入包括：生成表示图像中的分块中的像素的像素嵌入；生成表示图像中的分块的位置的分块位置嵌入；以及通过组合用于分块的像素嵌入和分块位置嵌入来生成用于分块的初始分块嵌入。

25、在一些实施方式中，编码器神经网络包括一个或多个自我注意神经网络层。

26、在一些实施方式中，编码器神经网络包括一个或多个残差块。

27、在一些实施方式中，代理是与真实世界环境交互的机械代理。

28、在一些实施方式中，选择要由机械代理执行的动作包括选择动作以使机械代理物理地操纵环境中的一个或多个对象。

29、根据另一方面，提供了一种系统，包括：一个或多个计算机；以及通信地耦合到所述一个或多个计算机的一个或多个存储设备，其中所述一个或多个存储设备存储指令，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行本文描述的方法的操作。

30、存储指令的一个或多个非暂时性计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行本文描述的方法的操作。

31、可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。

32、本说明书中描述的动作选择系统使用对数据元素序列进行操作的自回归动作选择神经网络来选择要由代理在环境中执行的动作。特别地，动作选择系统将观测和动作两者表示为数据元素序列，并且使用动作选择神经网络对这些序列进行操作，以自回归地生成表示要由代理在环境中执行的动作的数据元素序列。因为动作选择神经网络在数据元素序列上操作，所以可以基于可以表示为数据元素序列的任何训练示例来训练它。因此，可以基于表示任何代理与任何环境的交互的训练示例来训练动作选择神经网络以执行任何任务，而不管环境的观测和由代理执行的动作的相应维度。

33、动作选择系统基于高度多样化的训练示例集合训练动作选择神经网络，该训练示例集合表示多个不同代理与多个不同环境的交互以执行多个不同任务。因此，动作选择神经网络学习对代理控制的灵活且可转移的理解，这使得其能够快速且有效地推广到新的领域。具体地，动作选择神经网络可以执行“少次学习(few-shot learning)，”即，动作选择神经网络可以被训练以基于仅在来自新领域的少量训练示例训练之后在新领域中的任务上实现可接受的性能水平。在一些情况下，动作选择神经网络可以执行“零次学习即，通过在新领域中的任务上实现可接受的性能水平，而无需基于来自新领域的任何训练示例进行训练。因此，动作选择系统提供用于代理控制的通用模型，该通用模型比常规动作选择系统更广泛地适用。动作选择系统通过比常规系统需要更少的训练数据和更少的训练迭代来实现对计算资源(例如，存储器和计算能力)的更有效使用，以在新领域中的控制代理上实现可接受的性能水平。

34、除了训练动作选择神经网络以执行代理控制任务之外，动作选择系统还可以训练动作选择神经网络以执行语言建模，即，通过基于以自然语言表示文本的数据元素序列训练动作选择神经网络。训练动作选择神经网络以执行语言建模可以加速训练并改善动作选择神经网络的性能，例如，通过改善动作选择神经网络隐式地推断提供给动作选择神经网络的自然语言提示的含义的能力。

35、在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，主题的其他特征、方面和优点将变得显而易见。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·E·里德,K·佐尔纳,E·帕里索托,T·埃利兹,A·诺威科夫,J·W·雷,M·M·R·丹尼尔,J·F·戈麦斯德弗雷塔斯,O·文亚尔斯,S·戈麦斯,A·D·爱德华兹,J·布鲁斯,G·巴瑟-玛伦
技术所有人：渊慧科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。