一种深度强化学习网络设置合理性的判别方法

文档序号：26052120发布日期：2021-07-27 15:28阅读：350来源：国知局

本发明涉及机器学习领域，尤其是一种深度强化学习网络设置合理性的判别方法。

背景技术：

强化学习是一个经常被用于解决序列决策问题的方法，深度强化学习方法集成了深度学习强大的学习能力以及强化学习的决策能力，在很多复杂的实际场景下都得到了广泛应用，该方法通过与环境进行交互来学习并获得最优策略。强化学习主体每采取一次动作就会得到一个相应的奖励，这个奖励表示此次动作的好坏，通过最大化累计奖励，可以求解出最优策略。但传统的强化学习方法难以解决大状态空间和动作空间中的决策问题，现有的深度强化学习方法引入了深度网络来对给定状态下动作将带来的奖励进行预测，即状态动作值，解决了传统强化学习对于状态和动作空间维数的限制，使其可以在很多实际场景中得到应用。但在使用该方法时仍然存在一个普遍的问题，即必须对深度网络的参数设置(深度网络层数及节点数)进行精细的调整，才能取得良好的学习效果。而由于缺乏对环境的先验知识，我们通常反复多次的尝试才能选取出一组合适的参数，在不同参数的深度网络训练过程中，经常会出现在一段时间内强化学习智能体获得的奖励为负的现象。造成这种现象的原因可归纳为两个可能的因素：深度网络中层和节点的设置不正确，导致状态动作值估计偏差过大，或深度网络训练过程未完成。在正常情况下，我们倾向于将训练过程未完成作为主要原因，并浪费大量时间等待网络收敛，降低了深度强化学习智能体的实用性。

技术实现要素：

为了解决上述技术问题，本发明公开了一种深度强化学习网络设置合理性的判别方法，在深度网络收敛之前，根据观察到的奖励序列来对深度网络参数设置是否合理做出预判，有效节省在应用深度强化学习方法时需要付出的时间以及试错成本。

本发明的技术方案为：一种深度强化学习网络设置合理性的判别方法，在深度强化学习方法中深度网络收敛之前对参数设置的合理性进行预判，包括如下步骤：

步骤1:根据工程需要建立深度强化学习智能体，设定长度为n的观察窗口，定义该观察窗口内负奖励出现的次数为m，将其初始化为0；

步骤2:用事件a表示深度网络训练未完成，事件b表示深度网络设置不合理，根据经验分别设置深度网络设置是否合理的先验概率p(a)和p(b)，再根据大偏差定理计算使误判概率最小化的边界值m0；

步骤3:深度强化学习的智能体开始与环境进行交互并且获得奖励，每当奖励为负时计数加1；

步骤4:统计长度为n的观察窗口内负奖励出现的次数m；

步骤5:根据贝叶斯公式，判断m≥m0是否成立，若是，则导致负奖励出现的因素被视为深度强化学习中网络的层和节点的设置不合适，停止智能体与环境的交互，并且重新设置网络参数；若否，则负奖励出现的原因被认为是训练过程未完成，智能体与环境的交互继续进行；

步骤6:开启下一时间段的判断，直至观察窗口内的奖励变成正值，即完成深度网络的设置和训练。

进一步的，所述步骤2中，计算使误判概率最小化的边界值m0具体如下：

其中pmis表示总误判概率，p(a)和p(b)表示深度网络设置是否合理的先验概率，和是错误分类概率的收敛速度函数；表示高阶无穷小量；

所述步骤2中，计算判定边界值m0进一步包括：

用ξt(ω)，t＝1，2，…，n，表示训练过程完成时奖励的随机变量序列，ηt(ω)，t＝1，2，…，n表示训练过程未完成时的奖励随机变量序列，则ξ1(ω)+ξ2(ω)+…+ξn(ω)和η1(ω)+η2(ω)+…+ηn(ω)表示训练过程完成和未完成时出现非负奖励的次数；对于边界m0，深度网络设置是否合理分别所对应的事件a和事件b的误判概率表示为：

由此，总误判概率pmis的理论下界计算为：

进一步的，如下：

其中，pmis表示总误判概率，和是错误分类概率的收敛速度函数，n为观察窗口长度，p(a)和p(b)表示深度网络设置是否合理的先验概率。

有益效果：

本发明的方法能够根据观察到的奖励序列，在深度网络收敛前，对网络设置的合理性进行预判，以节省网络设置阶段所需训练时间和试错成本，使用本发明的方法可以对超参数选择过程进行加速，降低深度强化学习方法的应用成本。

附图说明

图1(a)贝叶斯方法示意图，(n1＜n2)，n＝n1；

图1(b)贝叶斯方法示意图，(n1＜n2)，n＝n2。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

深度强化学习方法目前在无人驾驶、医疗保健、智能客服等任务都实现了广泛的应用，但是在应用深度强化学习方法时不可避免地要面临超参数设置问题，深度网络超参数设置的好坏直接决定了深度强化学习方法在实际任务中的表现，为了选择一组有效的参数设置，往往需要耗费大量的时间和资源，使用本发明的方法可以对深度强化学习方法中深度网络的超参数选择过程进行加速，从而降低深度强化学习的应用成本。

根据本发明的实施例，采用深度强化学习方法来对复杂多变的救援现场进行学习和交互的智能机器人，或者是采用深度学习方法来对不同家居场景进行学习和交互的扫地机器人等，在变换服务场景时，为实现最优效果都需要对深度网络的结构(如网络层和节点数等)进行调整，然而每次尝试的神经网络超参数都必须等到网络训练完成后才能判断是否有效，这个过程将会浪费大量时间和资源，采用本发明的方法，可以在网络训练完成之前对神经网络超参数是否可行作出预判，从而节省超参数选择阶段所需的成本。具体如下，在应用时(以扫地机器人为例)，包括如下步骤：

首先，定义一个长度为n的窗口，用于观察奖励的时间序列，并用ξt(ω)，t＝1，2，…，n表示训练过程完成时奖励的随机变量序列，ηt(ω)，t＝1，2，…，n表示训练过程未完成时的奖励随机变量序列，其中ω表示概率空间中的基本事件或样本点。所述奖励是深度强化学习中环境对智能体所采取动作的反馈，奖励为正表示智能体采取的动作符合任务目标；奖励为负表示智能体采取的动作不符合任务目标，在扫地机器人中，通常来说奖励为负意味着扫地机器人发生碰撞。设网络设置不合理时奖励为负发生的概率为pe，训练过程未完成时奖励为负发生的概率为pd。假设随机变量序列ξt(ω)和ηt(ω)是独立同分布的，其分布为：

其中p′＝pd+pe-pdpe。这里0表示奖励为负，而1表示奖励为非负。

考虑到观察窗口的长度为n，令m表示奖励为负的次数。事件a和b分别表示训练过程未完成和已完成。由于奖励为负通常是由训练未完成和网络设置不合理这两个因素导致的，用事件b来表示由于深度网络中层和节点的设置不合理所导致的奖励为负的情况，由此，可以得到概率分布：

其中p(m|a)和p(m|b)表示在观察窗口中训练过程未完成或完成的情况下，负奖励出现次的概率分布。

根据贝叶斯公式，可得到以下条件概率公式：

使用最小偏差估计，则可以将训练过程未完成这一事实的条件定义为：

为了对上述等式有一个直观的了解，本发明绘制了条件概率的分布函数，如图1(a)、(b)所示。

判断负奖励出现的原因的主要方法就是判断等式(4)是否成立。如果等式成立，则负奖励出现的原因可大致判断为深度网络设置不合理。否则，可认为负奖励的出现是由网络的训练过程未完成导致的。在图1中，阴影部分ar1和ar2的面积表示pmis，也就是对导致负奖励出现的两个原因判断错误的可能性。

pmis＝p(a)ar1+p(b)ar2(5)

一般来说，该面积随着n的增加而减小。在理想情况下，p(b|m)和p(a|m)的交集应该被完全消除，以避免对负奖励出现的原因判断失误。但是，这几乎是不可能的，因为我们不能将观察窗口的长度设置为无穷大。对于给定的n，我们希望找到最优边界m0，从而使错误分类概率pmis最小化，并给出以下求解算法：

算法1:考虑观察窗口长度为n以及等式(5)给出的错误分类的概率，则使错误分类的概率最小的最佳边界m0可以通过以下公式进行计算：

其中，以及是错误分类概率的收敛速度函数。

具体为：

根据等式(1)，随机变量ξt(ω)和ηt(ω)，ω∈ω中的矩母函数可以分别表示为：

其中θ为矩母函数的参数。

根据legendre变换和大偏差理论中的克拉姆定理，有：

其中，并且

根据ξt(ω)和ηt(ω)的定义，ξ1(ω)+ξ2(ω)+…+ξn(ω)和η1(ω)+η2(ω)+…+ηn(ω)表示训练过程完成和未完成时出现非负奖励的次数。对于边界m0，图1的阴影部分的面积可以表示为：

由此，pmis的理论下界可以计算为：

其中，和是错误分类概率的收敛速度函数。

p(a)和p(b)表示深度网络设置是否合理的先验概率，ar1和ar2的面积表示pmis。

从式(10)可以看出，虽然先验概率p(a)和p(b)无法获得，但在求解m0时，并不需要p(a)和p(b)的确定取值，我们只需要知道它们之间的关系，即

具体而言，在观察窗口内统计负奖励的数量m并将其与m0进行比较，可以大致确定负奖励产生的原因。如果m＜m0，则导致负奖励的原因可以被认为是训练过程未完成；否则，如果m≥m0，则导致负奖励的因素可以被视为深度网络中层和节点的设置不合理。

综上，根据本发明的一个实施方式，上述方法具体为：

步骤1:设定长度为n的观察窗口，将负奖励出现的次数m初始化为0；

步骤2:根据经验将深度网络设置是否的先验概率分别设置为p(a)和p(b)，由此得到概率比值再根据公式(6)计算边界值m0；

步骤3:深度强化学习的智能体开始与环境进行交互并且获得奖励，每当奖励为负时m计数加1；

步骤4:经过时长为n的等待，得到观察窗口[t，t+n]内负奖励出现的总次数m；

步骤5:根据公式(4)，判断是否有m≥m0，若满足则导致负奖励出现的因素可以被视为深度强化学习中网络的层和节点的设置不合适，停止智能体与环境的交互，并且重新设置网络；若否，则负奖励出现的原因可以被认为是训练过程未完成，智能体与环境的交互继续进行。

步骤6:开启下一时间段的判断，t←t+n，直至观察窗口内的奖励变成正值，即完成深度网络的设置和训练。

根据大偏差理论，我们知道用定理1计算的m0可使错误分类的可能性最小。但是，如果想要进一步减少错误分类的可能性，我们需要增大观察窗口n，但这同时也将导致观察时间的增加。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明远离的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱进;魏俣童
技术所有人：中国科学技术大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。