用于强化学习的方法和设备的制造方法

文档序号：9872470阅读：572来源：国知局

用于强化学习的方法和设备的制造方法
【专利说明】
[0001 ] 相关申请的交叉参考
[0002] 本申请基于并主张2013年10月8日提交的美国临时申请No. 61 /888，247的优先权，通过引用将其全部内容合并于此。
技术领域
[0003] 本发明涉及用于强化学习的改进技术，尤其是Q学习，并涉及数据处理器和处理器控制代码。
【背景技术】
[0004] -般而言，强化学习与监督学习的不同在于，不出现正确的输入输出对，而是机器 (软件代理)学习在某些环境中采取动作，将某些形式的奖励最大化或者将成本最小化。采取动作将环境/系统从一个状态移动到另一个状态，并且在Q学习的特定情况下，计算状态动作组合的质量，这描述可用于确定动作的期望效用的动作值函数。在"Q-learning" (Machine learning,voI 8,pages 279-292,1992,Watkins,Christopher JCH and Dayan, Peter，并且例如在Wikipedia?上方便地总结）中描述了 Q学习算法。
[0005] 尽管如此，学习直接根据高维度传感输入，诸如视觉和语言，来控制软件代理是强化学习（RL)的一个长期挑战。在这些领域中操作的大多数成功的RL应用依赖与线性政策函数组合的手工制作特征，并且这种系统的性能严重依赖特征表示的质量。另一方面，学习传感数据的表示已经成为深度学习方法的焦点，大多数深度学习方法依赖应用于深度卷积神经网络的大监督训练集合。
[0006] 可能使用神经网络的强化学习的最广为人知的成功是TD-Gammon( "Temporal difference learning and TD-Gammon"，Communications of the ACM,voI 38(3),pages 58-68，Tesauro，Gerald)。这是一个西洋双陆棋游戏程序，它通过强化学习和自我游戏来学习，并达到超人类的游戏水平。但是这种方法采用人体工程学特征以及无关于动作的状态值函数(总得分），而不是动作值函数。此外它不接受视觉输入。
[0007] 追随TD-Gammon的早期尝试不太成功，这种方法对于国际象棋、围棋和跳棋不太有效。这导致一个广泛的信念，即TD-Gammon是一个特例，并且神经网络只能在西洋双陆棋中近似值函数，原因是由于掷骰子的随机性，所以它很平滑。
[0008] 此外，已经表明，将无模型强化学习算法诸如Q-Iearning与非线性函数逼近器诸如神经网络组合会导致Q网络发散。因此，后来的工作集中在具有较好收敛保证的线性函数逼近器。除了关于发散的问题之外，通过强化学习提供的训练信号是否足以训练大型神经网络也不清楚。因此，虽然有卷积神经网络的很多成功应用得益于使用大型标记训练示例集合(监督学习），但是通过RL提供的奖励信号经常延迟、稀少且有噪声。
[0009] 尽管如此，在"Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method"（Machine Learning:ECML 2005, Springer 2005,pages 317-328,Riedmiller,Martin)中已经尝试使用多层感知器来逼近Q 值函数。所述技术基于存储并重新使用转移经验的原理，但是有一些显著的实际缺点：一般而言，基于存储的经验来训练神经网络，但是当用新的三元数组（初始状态-动作-结果状态)更新经验时，将先前的神经网络丢弃，并且在已更新的经验上训练全新的神经网络。这是因为，无监督训练会容易地导致发散行为。但是结果是，每次更新存在与数据集合的大小成比例的可计算成本，这使得将这种方法推广到大型数据集合不切实际。相同的方法已经应用于通过自动编码器预处理的视觉输入，但是这遭遇基本上相同的问题（"Deep Auto-Encoder Neural Networks in Reinforcement Learning"，Sascha Lange and Martin Riedmiller)〇
[0010] 因此，需要一种用于强化学习的改进技术，特别是在采用神经网络时。

【发明内容】

[0011] 根据本发明，因此提供一种强化学习的方法，所述方法包括:输入与主题系统有关的训练数据，所述主题系统具有多个状态，并且对于每个状态，所述主题系统具有从所述状态中的一个移动到下一个所述状态的动作集合;其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成，并且包括起始状态数据、动作数据以及下一个状态数据，其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态；以及利用所述训练数据以及从第一神经网络得出的用于第二神经网络的目标值，训练第二神经网络;所述方法进一步包括:根据所述第二神经网络生成或更新所述第一神经网络。
[0012] -般而言，在本发明该方案的实施例中，维持两个神经网络来避免否则在估计动作值参数时会出现的发散，特别是，否则将基于它自己的预测而被更新的神经网络的情况下。在实施例中，第一神经网络生成目标动作值参数，诸如目标Q值，而第二神经网络基于第一神经网络生成的目标而被更新。通过这种方式，目标保持基本上静态，但是每隔一段时间就根据第二神经网络重新生成或更新第一神经网络，例如通过将第二神经网络学习的权重集合中的一些或全部权重复制到第一神经网络。实际上，在实施例中，维持相同神经网络的两个实例，第一实例用于生成用于更新第二实例的目标值，不时更新第一实例，以匹配第二实例。潜在地，在本地连接的网络中，可以在不同的时间将网络的不同部分更新，但是这不太可取。在一个实施例中，在规定数目的动作（例如每IO 4个步骤)之后将第一神经网络更新。
[0013] 采用这种方法帮助推广到很大的数据集合，因为训练第二神经网络时涉及的计算减少一一在实施例中每次迭代例如采用随机梯度更新以低(恒定)计算成本，将这种第二神经网络有效地连续更新。这样进而促进使用很大数量的训练数据，并且特别是使用用于状态数据的传感数据，诸如图像数据或声音数据(波形）。本技术的实施例可以直接对视觉图像和/或声音进行训练，并且因此可以从该输入到输出动作"端到端"应用强化学习。这样能够实现可能与区分动作值直接相关的特征的学习，而不是所谓的必须尝试通过手动来识别它们。其他优点在于，因为有大数量的低级别数据可用，所以神经网络的前端可以实施通过无监督的强化学习技术来训练的（深度)卷积神经网络。通过这种方式，系统本身可以学习区分传感输入的与能够执行的可用动作相关的特征。
[0014] 上述系统的实施例的其他优点在于，它们可以在线操作，没有先前方法的问题一一在执行每个连续动作时可以更新第二神经网络，并且每个连续状态上的数据被捕捉。
[0015] 在实施例中，第二神经网络被供以用于每个连续动作的第一起始状态的表示，并且被用于提供用于从该起始状态可用的动作集合中的每个动作的已学习的动作值参数，在实施例中为Q值。然后该方法选择要执行的动作并输出用于控制主题系统的对应的动作数据。这进而被用于生成经验数据，该经验数据被存储并提供给第一神经网络，以生成用于训练第二神经网络的目标值。这种类型的方法的优点在于本身生成经验，程序（或数据处理器)通过该经验进行学习：实际上每个神经网络提供被其他神经网络使用的输出。但是这并非必要，并且用于通过第一神经网络处理的经验数据在原理上可以从一些其他源得出，例如通过观察其他实体、机器或人类与主题系统的交互。
[0016] 该方法选择的动作对应于来自第二神经网络的最佳已学习的动作值参数。一般而言，这是用于已经学习将(期望的）奖励最大化的网络的最大动作值参数，或者是用于已经学习将(期望的）成本最小化的网络的最小动作值参数。在一些优选实施例中，不是第二神经网络接收限定起始状态和动作的数据，而是训练神经网络为所限定的起始状态并行提供输出集合，每个输出提供用于对应的可用动作的估计的动作值参数。通过有效地并行处理动作，这样实际上加速了操作，允许耦接到神经网络的输出的后续选择器模块(或者是代码/软件，或者是硬件)选择最大/最小输出值，具有该值的节点限定要采取的对应的动作。
[0017] 如上所述，在本方法的优选实施例中，经验数据仓库记录用于采取的动作的一些或全部的经验数据。对于每个动作，经验数据包括限定起始状态、采取的动作以及系统的后续状态的数据。在实施例中，存储只与最后N个动作有关的经验数据，以降低存储器要求。但是附加性或替代性地，可以以一些其他方式选择动作的子集用于存储，例如只每隔一段时间存储动作，或者随机存储动作，或者基于或者同时确定或者在一些后来的阶段确定的某些显著性度量，例如基于测量的和/或期望的奖励/成本，来存储动作。
[0018] 在实施例中，经验数据包括从当前状态移动到后续状态时与动作的奖励(或成本）有关的奖励(或成本)数据。可以例如通过输入限定通过动作收集/引起的奖励或成本的数据来从系统测量奖励/成本。但是附加性或替代性地，可通过系统的参数或者要解决的工程问题来限定奖励/成本。因此应当认识到，存储奖励/成本并非必要，因为特别是在后一种情况下，可通过状态来限定或者与状态相关联:例如，对于所谓的回避控制任务、目标实现任务、或者状态空间位置调节任务(诸如杆平衡任务），可通过状态空间的目标区域来限定奖励/成本。
[0019] 在实施例中，结合用于训练第二神经网络的第一神经网络来使用经验数据。更具体而言，根据存储的经验数据对包括第一、起始状态、动作、以及下一个状态的转移采样。这用于根据第一神经网络(在实施例中，它在先制造第二神经网络的副本)生成目标动作值参数(Q值），用于训练第二神经网络。因此将由于动作所致的下一个状态输入第一神经网络，并识别最大(或最小)动作值参数(Q值），所述最大(或最小)动作值参数通过0和1之间

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：用于神经模拟器的共享存储器架构的制作方法
上一篇：用于修改神经动态的自动化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。