引导型策略搜索强化学习算法

文档序号:10594039阅读:488来源:国知局
引导型策略搜索强化学习算法
【专利摘要】本发明涉及一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索,从而避免情况较坏的局部最优。
【专利说明】
引导型策略搜索强化学习算法
技术领域
[0001] 本发明属于机器学习领域,主要设及到强化学习算法,尤其是一种面向连续状态 动作空间的策略捜索强化学习算法。
【背景技术】
[0002] 机器学习是人工智能的核屯、研究领域之一,其研究动机就是为了让计算机系统具 有人的学习能力W便实现人工智能。强化学习作为机器学习领域的重要学习方法,在游戏、 机器人、调度系统、智能对话系统、存储系统、智能发电量控制、智能交通系统、无人驾驶车 及航空航天系统等领域已得到广泛的应用。强化学习是一个连续做出决策的过程,它不需 要有先验知识,而是智能体通过不断与环境交互来获得知识,自主的进行动作选择,从而找 到一个最优的动作选择策略,使智能体在决策过程中整体的回报期望最优。
[0003] 在国内外已有的研究中,强化学习主要包括策略迭代与策略捜索两大主要算法。 策略迭代算法首先要对状态动作的价值函数进行估计,策略是建立在估计的价值函数基础 上。此类策略迭代算法能够有效地解决离散的状态动作空间问题,但是由于价值函数的极 度非凸性,难W在每一个时间步骤都通过最大化价值函数来选择动作,因此,此类方法不适 用于解决大规模连续动作空间问题。策略捜索方法是强化学习方法的另一类算法,此类算 法非常适用于大规模具有连续状态及动作空间的智能系统。
[0004] 然而,传统的策略捜索算法的一大问题便在于策略更新时策略梯度方差过大,使 得算法不稳定且收敛慢。为了解决梯度估计方差过大的实质性问题,基于参数探索的策略 梯度方法被提出来了,被称为PGPE算法。在
【申请人】的前期工作中已经实践性并理论性地验 证了 PGPE算法的稳定性。然而,策略捜索算法需要大量的学习样本才能得到准确稳定的策 略,即使是PGPE算法也不例外。而收集大量的学习样本则恰恰是强化学习在实际应用中的 一个瓶颈问题,因为收集样本往往非常耗时耗力耗材。为了解决运个实际存在的瓶颈问题, 有效利用学习样本的重要性便凸显出来。重要采样技术是能够重复利用已有样本的一种有 效方法,该技术允许我们利用来自不同于当前策略分布的采样样本进行梯度估计,从而能 重复利用已收集过的样本且能够保证估计子的一致性。但是,盲目地使用重要采样技术使 得梯度估计的方差变大,从而降低算法稳定性及收敛率。
[0005] 通过进一步地对重复利用学习样本的策略捜索方法深入研究发现,样本的选择对 算法的性能有直接影响。此外,通常强化学习解决的问题是极其复杂的非凸问题,因此,局 部最优解是强化学习领域不可避免的一个潜在问题,而高质量引导型样本的使用能够有效 地避免情况极差的局部最优解。本专利将利用积极学习的基本想法,寻找有助于找到更好 最优解的引导型学习样本,从而得到能够避免不好的局部最优解的引导型策略捜索算法。
[0006] 通过检索,尚未发现有与本申请相关的专利、文献报道。

【发明内容】

[0007] 本发明的目的在于克服现有技术的不足之处,提供一种引导型策略捜索强化学习 算法,该算法能够有效地重复使用学习样本,且能够选择高质量样本引导策略捜索,从而避 免情况较差的局部最优。
[0008] 本发明解决技术问题所采用的技术方案是:
[0009] 一种引导型策略捜索强化学习算法,首先选择引导型学习样本,然后利用所选样 本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的目标函数 为:
[0010]
[0011] JiW(P)为重要采样技术下的原始目标函数,即寻找最优超参数P使得期望回报最大 化。除此之外,该目标函数还包括两个正则项,第一个正则项^
其中使用 log函数是为了防止重要权值出现极值情况,w(0)为重要权重,w(0)=p(0|p)/p(0|p/),p' 为样本采样超参数,P为当前学习超参数,p(0 I P)为策略参数的概率分布函数;第二个正则 项3
庚中沪表示样本个数,Var(w(0i))表示重要权重的方差;Ai,A2表示正 则项参数,在算法中可W通过调整其大小来控制参数捜索范围。
[0012] 所述的引导型学习样本评价函数为:
[001引鶴翁-餐線為游Ii錢沒卡:然揀嫉满鷄),其中Tl表示采样样本分布,E表示期望,毅表示该 分布的赌,R化)表示路径样本的累积回报。
[0014] 而且,所述的引导型学习样本的选择步骤为:
[0015] ①在已收集样本中,准备K组采样样本分布:扔klLi;
[0016] ②在每个采样样本分布下,利用已收集的路径样本计算评价指标值巧(?)诺。;: [0017] ③选择引导型学习样本:rf: =argmaxkT(rik)。
[0018] 而且,每个路径样本h的采集过程为:在马尔科夫决策过程的框架下,智能体在当 前状态S,根据当前策略函数n(a|s,0)选择动作a,然后转移到状态并接收到一个立即回 报^3,曰,3/)。智能体通过与环境的反复交互收集状态、动作和回报样本,得到路径11=(31, 曰1,1'1,32,曰2,0,。',31',曰1',口),其中1'表不该路径的长度,该路径的累积回报表不为1?化)。
[0019] 发明的优点和积极效果是:
[0020] 1、本发明在目标函数中添加了重要权重方差的正则项
通过对重要 权重的方差进行控制,从而解决当重要权重较大时,算法稳定性及收敛性降低的问题。
[0021] 2、本发明在目标函数中添加另一个关于重要权限之和的正则项冷妃岩;W识,),使 其能够保证至少有一些样本在当前的策略下具有较大的概率密度,并且log函数的使用是 为了防止重要权值出现极值情况。从而满足所期望的最优解是能够给回报大的样本分配较 大的概率密度,并避免所有重要权重都很小,最优解将所有样本都分配很小的概率密度的 情况。
[0022] 3、本发明引入引导型学习样本的全新概念,在该类样本的协助下,能够更准确的 进行策略捜索,且有助于避免不好的局部最优。
[0023] 4、本发明采用强化学习算法中较灵活的离策略学习算法,降低了智能体在策略学 习过程中收集的样本数目,通过重复使用样本降低收集样本数,有效解决了样本需求量大 的瓶颈问题。
【附图说明】
[0024] 图1为本发明的算法流程图。
【具体实施方式】
[0025] 下面结合附图并通过具体实施例对本发明作进一步详述,W下实施例只是描述性 的,不是限定性的,不能W此限定本发明的保护范围。
[0026] 一种引导型策略捜索强化学习算法,首先根据引导型学习样本的定义选择高质量 的学习样本,然后利用选择样本对本发明中构建的目标函数进行梯度估计,根据策略更新 原则更新参数,直到收敛为止。具体步骤如下:
[0027] (1)样本收集:在马尔科夫决策过程的框架下,智能体在当前状态S,根据当前策略 函数n(a|s,目)选择动作日,然后转移到状态,并接收到一个立即回报八3,日,3/)。智能体通 过与环境的反复交互收集状态、动作和回报样本,得到路径h=(sl,al,rl,S2,a2,r2,…,ST, BTJT),其中T表示该路径的长度,该路径的累积回报表示为R化);
[002引间引导型样本弓陪型采样样本的衡量标准定义为嚇);:;:?絲操懿雜H默徐貌辩擁, 其中n表示采样样本分布,E表示期望,然表示该分布的赌,R化)表示路径样本的累积回报。
[0029] 间选择引导型样本:
[0030] ①在已收集样本中,准备K组采样样本分布:扔^}忘:;;
[0031] ②在每个采样样本分布下,利用已收集的路径样本计算评价指标值緣t絲舞;
[0032] ③选择引导型采样样本:rf: =argmaxkT (化)。
[0033] (4)目标函数的建立:在PGPE算法的基础上,假设有2个超参数,一个是用于样本采 样超参数p/,另一个是当前学习超参数P,策略参数采样于其概率分布函数P(e Ip),其中W (0)=p(0 p)/p(0 p/)被称为重要权重。在原目标函数Jiw(P)中加入第一个正则项
姜中N'表示样本个数。另一项正则项设定为汝《錢泌錢f漆其中使用log 函数是为了防止重要权值出现极值情况。最终,所得正则化目标函数为:
[0034]
[0035] 其中表示正则项参数,在算法中可W通过调整其大小来控制参数捜索范围。
[0036] 间策略更新:按照梯度上升的方向更新参数,直到收敛为止。
[0037] 本发明采用强化学习算法中较灵活的离策略学习算法,降低了智能体在策略学习 过程中收集的样本数目。收集大量的样本对于现实问题来说耗时耗力又耗材,尤其是复杂 的物理系统需要通过与环境的多次交互来完成数据的收集,运对于该系统是致命的。本发 明通过重复使用样本降低收集样本数,有效解决了样本需求量大的瓶颈问题;
[0038] 本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能 及收敛率的问题。在寻找最优策略的过程中,策略捜索算法的一大难题便在于策略更新时 策略梯度方差过大,使得算法不稳定且收敛慢,样本的重复使用则有可能是该问题更加严 重。本发明通过在目标函数中直接对重要采样率的方差及大小的控制,有效地缓解了因重 要采样技术的使用降低算法稳定性的问题;
[0039] 本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样 本的使用,能够更准确的进行策略捜索;此外,强化学习中的目标函数是极其复杂的非凸函 数,情况较坏的局部最优是该领域中的一大难题。本发明拟借助积极学习的帮助寻找高质 量引导型样本来改善该问题,从而避免情况较坏的局部最优。
[0040] W上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员 来说,在不脱离发明构思的前提下,还可W做出若干变形和改进,运些都属于本发明的保护 范围。
【主权项】
1. 一种引导型策略搜索强化学习算法,其特征在于:首先选择引导型学习样本,然后利 用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止,所述的 目标函数为:Jiw(p)为重要采样技术下的原始目标函数,即寻找最优超参数p使得期望回报最大化, 该目标函数还包括两个正则项,第一个正则项为为重要权重,w(0)=p (θ |ρ)/ρ(θ |ρ' ) ,ρ'为样本采样超参数,P为当前学习超参数,ρ(θ |p)为策略参数的概率分布 函数;第二个正则项):中Y表示样本个数,表示重要权重的 方差;λχ,λ2表示正则项参数,在算法中通过调整其大小来控制参数搜索范围。 所述的引导型学习样本评价指标为:,其中η表不米样样本分布,Ε表不期望,1C表不该分布 的熵,R(h)表示路径样本的累积回报。2. 根据权利要求1所述的引导型策略搜索强化学习算法,其特征在于:引导型学习样本 的选择步骤为: ① 在已收集样本中,准备K组采样样本分布:{^}fu ; ② 在每个采样样本分布下,利用已收集的路径样本计算评价指标值Wfglf#; ③ 选择引导型学习样本: =argmaxkT(nk)。3. 根据权利要求1所述的引导型策略搜索强化学习算法,其特征在于:每个路径样本h 的采集过程为:收集样本是在马尔科夫决策过程的框架下,智能体在当前状态s,根据当前 策略函数<a|s,0)选择动作 a,然后转移到状态V,并接收到一个立即回报^^"^智能 体通过与环境的反复交互收集状态、动作和回报样本,得到路径1ι=( 81,&1,η,82,&2,Γ2,···, ST,aT,rT),其中Τ表示该路径的长度,该路径的累积回报表示为R(h)。
【文档编号】G06N5/02GK105955930SQ201610299987
【公开日】2016年9月21日
【申请日】2016年5月6日
【发明人】赵婷婷, 杨巨成, 赵希, 陈亚瑞, 房珊珊
【申请人】天津科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1