技术编号:32005413
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。使用自举潜在的预测来学习针对代理控制的环境表示.相关申请的交叉引用.本申请要求年月日提交的美国临时申请第/,号的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分,并通过引用结合于此。背景技术.本说明书涉及强化学习。.在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境进行交互。.一些强化学习系统响应于接收到给定的观察,根据神经网络的输出来选择要由代理执行的动作。.神经网络是采用一层或多层非线性单元...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。