训练强化学习神经网络的制作方法

文档序号：14034017阅读：来源：国知局

技术特征：

技术总结
用于训练Q网络的方法、系统、和设备，包括编码在计算机存储介质上的计算机程序，所述Q网络用于选择待由与环境进行交互的代理执行的动作。所述方法中的一种方法包括：获取多个经验元组，并且通过使用Q网络和目标Q网络来对所述经验元组中的每个经验元组训练所述Q网络，所述目标Q网络与所述Q网络相同，但是所述目标Q网络的所述参数的所述当前值与所述Q网络的所述参数的所述当前值不同。

技术研发人员：豪多·菲利普·范哈塞尔特;亚瑟·克莱蒙特·格斯
受保护的技术使用者：谷歌有限责任公司
技术研发日：2016.09.09
技术公布日：2018.03.27