使用优先化经验存储器训练神经网络的制作方法

文档序号：15739755发布日期：2018-10-23 22:05阅读：来源：国知局

技术特征：

1.一种用于对神经网络进行训练的方法，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作，所述方法包括：

维持重放存储器，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，多个所述经验数据块各自具有相应的预期学习进展量度，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；

通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及

在所选择的经验数据块上对所述神经网络进行训练。

2.根据权利要求1所述的方法，其中，选择所述经验数据块包括：

确定用于每个经验数据块的相应的概率，使得与具有相对较低的预期学习进展量度的经验数据块相比，具有较高的预期学习进展量度的经验数据块具有较高的概率；以及

根据所确定的概率来对经验数据块进行采样。

3.根据权利要求2所述的方法，其中，经验数据块i的概率P(i)满足：

其中，α是预定常数，k的范围跨越所述重放存储器中的所述经验数据块，并且pi是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。

4.根据权利要求3所述的方法，其中，所述优先级是所述预期学习量度加上常数值。

5.根据权利要求3所述的方法，其中，所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数，所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。

6.根据权利要求3至5中的任一项所述的方法，其中，所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。

7.根据权利要求1至5中的任一项所述的方法，其中，每个经验数据块是经验元组，所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。

8.根据权利要求7所述的方法，其中，在所选择的经验数据块上对所述神经网络进行训练包括：

针对所选择的经验元组确定时间差学习误差；以及

在调整所述神经网络的参数的值中使用所述时间差学习误差。

9.根据权利要求8所述的方法，其中，在调整所述参数的值中使用所述时间差学习误差包括：

使用针对所选择的经验元组的所述预期学习进展量度来确定用于所述时间差学习误差的权重；

使用所述权重来调整所述时间差学习误差；以及

使用调整后的时间差学习误差作为用于调整所述神经网络的参数的值的目标误差。

10.根据权利要求8所述的方法，还包括在所述神经网络的训练期间使在计算所述权重中使用的指数退火。

11.根据权利要求7至10中的任一项所述的方法，其中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值。

12.根据权利要求7至10中的任一项所述的方法，其中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值的导数。

13.根据权利要求7至10中的任一项所述的方法，其中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是通过使用所述经验元组来对所述神经网络进行训练进行的诱发权重变化的范数。

14.根据权利要求1至13中的任一项所述的方法，还包括：

使用所述预期学习进展量度来确定何时从所述重放存储器中删除经验数据块。

15.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行权利要求1至14中的任一项的相应的方法的操作。

16.一种编码有指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求1至15中的任一项的相应的方法的操作。

完整全部详细技术资料下载

当前第2页1 2 3