技术特征:
技术总结
用于训练Q网络的方法、系统、和设备,包括编码在计算机存储介质上的计算机程序,所述Q网络用于选择待由与环境进行交互的代理执行的动作。所述方法中的一种方法包括:获取多个经验元组,并且通过使用Q网络和目标Q网络来对所述经验元组中的每个经验元组训练所述Q网络,所述目标Q网络与所述Q网络相同,但是所述目标Q网络的所述参数的所述当前值与所述Q网络的所述参数的所述当前值不同。
技术研发人员:豪多·菲利普·范哈塞尔特;亚瑟·克莱蒙特·格斯
受保护的技术使用者:谷歌有限责任公司
技术研发日:2016.09.09
技术公布日:2018.03.27