训练强化学习神经网络的制作方法

文档序号:14034017阅读:来源:国知局

技术特征:

技术总结
用于训练Q网络的方法、系统、和设备,包括编码在计算机存储介质上的计算机程序,所述Q网络用于选择待由与环境进行交互的代理执行的动作。所述方法中的一种方法包括:获取多个经验元组,并且通过使用Q网络和目标Q网络来对所述经验元组中的每个经验元组训练所述Q网络,所述目标Q网络与所述Q网络相同,但是所述目标Q网络的所述参数的所述当前值与所述Q网络的所述参数的所述当前值不同。

技术研发人员:豪多·菲利普·范哈塞尔特;亚瑟·克莱蒙特·格斯
受保护的技术使用者:谷歌有限责任公司
技术研发日:2016.09.09
技术公布日:2018.03.27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1