1.一种由一个或多个计算机执行的用于使用动作选择神经网络来选择要由代理执行以与环境交互的动作的方法,所述方法包括,在时间步骤序列中的每个时间步骤:
2.根据权利要求1所述的方法,其中,对于所述时间步骤序列中的每个时间步骤,生成到所述当前时间步骤为止的所述任务的状态的当前表示包括:
3.根据权利要求2所述的方法,其中,所述当前观测由数值的集合定义,并且将所述当前观测的表示生成为数据元素序列包括:
4.根据权利要求3所述的方法,其中,将所述当前观测的表示生成为数据元素序列还包括:
5.根据权利要求2-4中任一项所述的方法,其中,表征在当前时间步骤的环境的当前状态的当前观测包括由像素阵列定义的图像。
6.根据权利要求2-5中任一项所述的方法,其中,将所述当前观测的表示生成为数据元素序列包括:
7.根据权利要求2-6中任一项所述的方法,其中,对于所述时间步骤序列中的第一时间步骤之后的每个时间步骤,将所述当前观测的表示作为数据元素序列包括在到所述当前时间步骤为止的所述任务的状态的当前表示中包括:
8.根据权利要求7所述的方法,其中,对于所述当前时间步骤之前的每个时间步骤,到所述先前时间步骤为止的所述任务的状态的表示表示:(i)表征所述时间步骤处的环境的状态的相应观测,以及(ii)由所述代理在所述时间步骤处执行的相应动作。
9.根据权利要求2-8中任一项所述的方法,其中,在所述时间步骤序列中的第一时间步骤处,将所述当前观测的表示作为数据元素序列包括在到所述当前时间步骤为止的所述任务的状态的当前表示中包括:
10.根据权利要求9所述的方法,其中,所述提示包括以下中的一个或多个:所述任务的演示、表征所述环境的目标状态的目标观测、或者提供与所述任务相关的指令的自然语言的文本序列。
11.根据任一前述权利要求所述的方法,其中,所述动作选择神经网络已经基于训练示例集合被训练,其中,对于每个训练示例:
12.根据权利要求11所述的方法,其中,所述训练示例集合包括来自多个不同控制域的相应训练示例,其中,每个控制域与以下相关联:(i)对应的代理,(ii)对应的环境,以及(iii)对应的任务,其中,来自每个控制域的每个训练示例通过执行动作以完成对应的任务来表征对应的代理与对应的环境的交互。
13.根据权利要求12所述的方法,其中,所述多个不同的控制域包括第一控制域和第二控制域,在所述第一控制域中,所述对应环境的观测具有第一维度,在所述第二控制域中,所述对应环境的观测具有不同的第二维度。
14.根据权利要求12或13所述的方法,其中,所述多个不同的控制域包括第一控制域和第二控制域,在所述第一控制域中,由所述对应的代理执行的动作具有第一维度,在所述第二控制域中,由所述对应的代理执行的动作具有不同的第二维度。
15.根据权利要求11-14中任一项所述的方法,其中,所述训练示例集合包括多个语言建模训练示例,其中,每个语言建模训练示例表示自然语言的文本序列。
16.根据任一前述权利要求所述的方法,其中,所述动作选择神经网络包括多个自我注意神经网络层。
17.根据任一前述权利要求所述的方法,其中,对于从表示所述当前动作的所述数据元素序列中的所述第一位置开始的每个位置,选择用于所述位置的所述数据元素包括:
18.根据任一前述权利要求所述的方法,其中,对于所述时间步骤序列中的每个时间步骤,表示到所述当前时间步骤为止的所述任务的状态的所述数据元素序列包括:数值序列;嵌入序列;或者包括在一些位置处的数值和在其他位置处的嵌入的序列。
19.根据从属于权利要求2的任一前述权利要求所述的方法,其中,所述当前观测包括图像,并且其中,将所述当前观测的表示生成为数据元素的序列包括:
20.根据权利要求19所述的方法,其中,生成与所述图像中的分块相对应的相应初始分块嵌入包括:
21.根据权利要求19或20所述的方法,其中,所述编码器神经网络包括一个或多个自我注意神经网络层。
22.根据权利要求19、20或21所述的方法,其中,所述编码器神经网络包括一个或多个残差块。
23.根据任一前述权利要求所述的方法,其中,所述代理是与真实世界环境交互的机械代理。
24.根据权利要求23所述的方法,其中,选择要由所述机械代理执行的动作包括选择动作以使所述机械代理物理地操纵所述环境中的一个或多个对象。
25.一种系统,包括:
26.存储指令的一个或多个非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-24中任一项所述的相应方法的操作。