调整决策网络的探索率的方法、装置、电子设备及介质与流程

文档序号：21653795发布日期：2020-07-29 03:07阅读：167来源：国知局

本申请涉及计算机技术领域，且更具体地，涉及一种调整决策网络的探索率的方法、装置、电子设备及存储介质。

背景技术：

随着技术的飞速发展，机器人在各行各业得到了广泛使用，机器人的使用往往离不开决策网络，决策网络例如可用于对道路中的各个物体进行分类。

其中，在训练决策网络中，例如，机器人会检测其所在环境的当前环境状态参数state，并根据当前环境状态参数state确定出一个需要执行的动作action，并执行动作action，执行了动作action之后会对环境产生影响，以得到一个新的环境状态参数nextstate，并根据新的环境状态参数nextstate按照特定的规则可以获取到用来评价动作action的参考分值reward，根据reward调整决策网络的参数，之后不断重复循环这个过程，直至决策网络中的参数收敛为止。

技术实现要素：

本申请示出了一种调整决策网络的探索率的方法、装置、电子设备及存储介质。

根据本申请的一个方面，提供了一种调整决策网络的探索率的方法，包括：

基于决策网络输出的预设数量个动作，确定量化参数；

确定所述量化参数与预设阈值之间的大小关系；

基于所述大小关系，调整所述决策网络的探索率。

根据本申请的另一个方面，提供了一种调整决策网络的探索率的装置，包括：

第一确定模块，用于基于决策网络输出的预设数量个动作，确定量化参数；

第二确定模块，用于确定所述量化参数与预设阈值之间的大小关系；

调整模块，用于基于所述大小关系，调整所述决策网络的探索率。

根据本申请的另一个方面，提供了一种电子设备，包括：处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的调整决策网络的探索率的方法。

根据本申请的另一个方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的调整决策网络的探索率的方法。

根据本申请的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的调整决策网络的探索率的方法。

与现有技术相比，本申请包括以下优点：

在本申请中，基于决策网络输出的预设数量个动作，确定量化参数，然后确定该量化参数与预设阈值之间的大小关系，再基于该大小关系，调整决策网络的探索率。通过本申请，可以实时根据输出的动作的量化参数来调整决策网络的探索率，以使终端基于决策网络的调整后的探索率能够实时输出有利于完成任务的动作，进而高效率地完成任务。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请的一种调整决策网络的探索率的方法的步骤流程图。

图2是本申请的一种场景示意图。

图3是本申请的一种场景示意图。

图4是本申请的一种降低决策网络的探索率的方法的步骤流程图。

图5是本申请的一种提高决策网络的探索率的方法的步骤流程图。

图6是本申请的一种调整决策网络的探索率的装置的结构框图。

图7是本申请的一种调整决策网络的探索率的装置的结构框图。

图8根据本申请实施例示出了一种电子设备的框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种调整决策网络的探索率的方法的步骤流程图，该方法应用于终端中，终端包括无人车或者无人机等智能体，该方法具体可以包括如下步骤：

在步骤s101中，基于决策网络输出的预设数量个动作，确定量化参数。

在本申请中，终端可以基于决策网络执行任务，在执行任务中，可以基于决策网络输出动作，例如，获取终端所在环境的第一环境状态参数，然后第一环境状态参数输入决策网络中，然后基于决策网络输出的输出参数输出动作，来完成任务。

决策网络基于第一环境状态参数输出一输出参数，终端根据该输出参数输出动作，根据输出的动作可以确定量化参数。

其中，任务包括终端需要安全前往某一目的地等，在终端前往该目的地的过程中，如果发现前方有障碍物，则可以输出左转避让或右转避让的动作来避开障碍物。

其中，在输出动作之后往往会给终端所在的环境带来变化，例如，动作是终端在道路中前行100米，若终端所在区域的诸如建筑物、道路以及车辆等物体数量、物体种类以及状态都发生了变化，之后终端还可以获取在输出动作之后的终端所在环境的第二环境状态参数，然后基于第二环境参数确定该动作的量化参数。其中，终端输出的动作为在道路中前行100米。

其中，终端可以通过传感器获取终端所在的环境的环境状态参数，其中，该传感器设置在终端中，环境状态参数包括终端所在区域的物体的位置、移动方向和移动速度等，该物体包括建筑物、道路以及其他车辆等等。

当量化参数越高时，说明该动作越有利于完成任务，或者说该动作越适应于终端所在的环境，如果为完成任务还需要继续输出动作，则可以继续基于决策网络来输入动作，以使终端可以高效率完成任务。

当量化参数越低时，说明该动作越不利于完成任务，或者说该动作越不适应于终端所在的环境。假设为完成任务还需要继续输出动作，如果继续基于决策网络来输入动作，则可能导致终端无法完成任务，因此需要避免继续基于决策网络来输入动作，而可以基于随机方式来输出动作，以使终端能够尽早找到能够完成任务的动作，进而高效率完成任务。

其中，基于决策网络输出一个动作就会得到一个量化参数，步骤s101中的量化参数可以包括在输出预设数量动作后每一个动作对应的量化参数之间的平均值等。

其中，预设数量包括10、20或50等，本申请对此不加以限定。

在步骤s102中，确定该量化参数与预设阈值之间的大小关系。

在步骤s103中，基于该大小关系，调整决策网络的探索率。

在本申请中，可以通过至少两种方式中的任意一种方式输出动作，至少两种方式包括基于决策网络输出动作和基于随机方式输出动作。

在任意时刻，至少两种方式中的每一种方式都具备被选择的概率，设备可以基于每一个方式的被选择的概率从至少两种方式中选择一种方式输出动作。

当一种方式的被选择的概率越高时，设备从至少两种方式中选择该种方式输出动作的可能性越高，当一种方式的被选择的概率越低时，设备从至少两种方式中选择该种方式输出动作的可能性越低。

在本申请中，决策网络的探索率包括基于随机方式输出动作的概率。

例如，参见图2，终端要执行的任务为：从a地前往b地，a地与b地之间包括3条路径，分别为路径1、2以及3。

路径1和路径3畅通，终端可以通过路径1或3从a地前往b地，路径2被封堵，终端无法通过路径2从a地前往b地。

假设终端基于决策网络确定出可以通过路径1或3前往b地，且在路径1或3上行驶的过程中，假设环境突然变化，例如参见图3，路径1和3被封堵，而路径2畅通，此时事实上只能通过路径2前往b地，终端在路径1或3上行驶时无法前往b地，而决策网络却仍旧会输出路径1或3的方式，如此导致终端一直无法前往b地，此时终端可以基于随机方式从路径1、2或3中选择一条路径，从而可能选择出路径2，进而使得终端可以经由路径2到达b地，从而完成任务。

进一步地，在调整探索率之后，终端可以基于决策网络的调整后的探索率输出动作。在输出动作之后，还可以基于该动作确定量化参数，如果该量化参数大于一个预定值，还可以使用输出该动作之前的终端所在的环境的环境状态参数、输出该动作之后的终端所在的环境的环境状态参数、该动作以及该量化参数继续对决策网络训练，以更新决策网络中的参数，以使更新后的决策网络更加有利于完成任务或适应终端所在的环境，进而使得终端基于更新后的决策网络能够更加高效率地完成任务。

在本申请一个示例中，如果在步骤s101中得到的该量化参数大于预设阈值，则说明基于决策网络输出的动作越有利于完成任务或越适应于终端所在的环境，从而可以降低决策网络的探索率，进而可以降低之后在输出动作时基于随机方式输出动作的概率，以保证之后尽可能地基于决策网络来输入有利于完成任务的动作，以使终端可以高效率完成任务。

在本申请另一示例中，如果在步骤s101中得到的该量化参数小于预设阈值，则说明基于决策网络输出的动作越不利于完成任务或越不适应于终端所在的环境，从而可以提高决策网络的探索率，进而可以降低之后在输出动作时基于决策网络来输入动作的概率，避免之后基于决策网络只输出不利于完成任务的动作，且保证之后尽可能地基于随机方式输出动作，以使终端可能输出有利于完成任务动作，并尽早确定出有利于完成任务动作，进而高效率完成任务。

例如，任务包括终端需要安全前往某一目的地等，在终端前往该目的地的过程中，如果发现前方有障碍物，则可以输出左转避让或右转避让的动作来避开障碍物。

如果终端在右转后的环境表示成功躲避障碍物，那么针对右转避让这个动作将会确定较高的量化参数，例如，大于预设阈值的量化参数，且右转避让的动作有利于安全前往该目的地，也就有利于完成任务。

相反，如果终端在右转后的环境表示与障碍物发生碰撞，那么针对右转避让这个动作将会确定较低的量化参数，例如，小于预设阈值的量化参数，且右转避让的动作不利于安全前往该目的地，也就不利于完成任务。

在本申请一个实施例中，参见图4，降低决策网络的探索率，包括：

在步骤s201中，计算该量化参数与预设阈值之间的第一差值。

在步骤s202中，根据第一差值获取降低步长。

在第一对应关系中，查找与第一差值相对应的降低步长。其中，第一对应关系用于记录差值与降低步长之间的对应关系。

第一对应关系中包括多条对应表项，每一条对应表项中都包括一差值和一降低步长，不同的对应表项中的差值不同，不同的差值对应的降低步长不全相同。

在一个示例中，差值越大对应的降低步长越大，差值越小对应的降低步长越小。

本申请在事先设置的第一对应关系中直接查找与第一差值相对应的降低步长来实现根据第一差值获取降低步长，可以提高获取降低步长的效率。

在步骤s203中，根据该降低步长降低决策网络的探索率。

在本申请中，计算决策网络的当前探索率与该降低步长之间的差值，并作为决策网络的目标探索率，之后就可以基于决策网络的目标探索率输出动作。

在本申请中，在该量化参数大于预设阈值的情况下，如果该量化参数与预设阈值之间的第一差值较大，则说明基于决策网络输出的动作更有利于完成任务或更适应于终端所在的环境，从而可以更大幅度降低决策网络的探索率，进而实现更大幅度地降低之后在输出动作时基于随机方式输出动作的概率，以保证之后更加可能地基于决策网络来输入有利于完成任务的动作，进而相比于前述实施例可以使终端能够更加高效率完成任务。

例如，任务包括终端需要尽快前往某一目的地等，且终端可以通过多条路径前往该目的地，终端通过不同路径前往该目的地所需行驶的路程长短不同。如果终端选择某一路径，并在该路径上行驶了一段路程，如果行驶后的环境表示终端与该目的地距离更近，那么针对在该路径上行驶了一段路程这个动作将会确定较高的量化参数，例如，大于预设阈值且与预设阈值之间的差值较大的量化参数，在该路径上行驶了该一段路程有利于尽快前往该目的地，也就有利于完成任务。

相应地，在该量化参数大于预设阈值的情况下，如果该量化参数与预设阈值之间的第一差值较小，则说明基于决策网络输出的动作并不是非常有利于完成任务或绝对适应于终端所在的环境，从而可以小幅度降低决策网络的探索率，进而实现小幅度地降低之后在输出动作时基于随机方式输出动作的概率，避免之后基于决策网络只输出并不是非常有利于完成任务的动作，且保证之后基于决策网络来输入并不是非常有利于完成任务的动作的概率较高的情况，仍旧能够可能基于随机方式输出动作，进而相比于前述实施例以使终端可能输出有利于完成任务动作，并尽早确定出有利于完成任务动作，进而高效率完成任务。

在本申请一个实施例中，参见图5，提高决策网络的探索率，包括：

在步骤s301中，计算预设阈值与该量化参数之间的第二差值。

在步骤s302中，根据第二差值获取提高步长。

在第二对应关系中，查找与第二差值相对应的提高步长。其中，第二对应关系用于记录差值与提高步长之间的对应关系。

第一对应关系中包括多条对应表项，每一条对应表项中都包括一差值和一提高步长，不同的对应表项中的差值不同，不同的差值对应的提高步长不全相同。

在一个示例中，差值越大对应的提高步长越大，差值越小对应的提高步长越小。

本申请在事先设置的第一对应关系中直接查找与第一差值相对应的提高步长来实现根据第二差值获取提高步长，可以提高获取提高步长的效率。

在步骤s303中，根据该提高步长提高决策网络的探索率。

在本申请中，计算决策网络的当前探索率与该提高步长之间的和值，并作为决策网络的目标探索率，之后就可以基于决策网络的目标探索率输出动作。

在本申请中，在该量化参数小于预设阈值的情况下，如果预设阈值与该量化参数之间的第二差值较大，则说明基于决策网络输出的动作更不利于完成任务或更适应于终端所在的环境，而基于随机方式输出的动作可能使得终端能够尽早找到能够完成任务的动作，从而可以更大幅度提高决策网络的探索率，进而实现更大幅度地提高之后在输出动作时基于随机方式输出动作的概率，以保证之后更加可能地基于随机方式来输入可能有利于完成任务动作，进而相比于前述实施例可以使终端能够更早地确定出有利于完成任务动作，进而更加高效率完成任务。

例如，任务包括终端需要尽快前往某一目的地等，且终端可以通过多条路径前往该目的地，终端通过不同路径前往该目的地所需行驶的路程长短不同。如果终端选择某一路径，并在该路径上行驶了一段路程，如果行驶后的环境表示终端与该目的地距离更远，那么针对在该路径上行驶了一段路程这个动作将会确定较低的量化参数，例如，预设阈值与该量化参数之间的差值较大，在该路径上行驶了该一段路程不利于尽快前往该目的地，也就不利于完成任务。

相应地，在该量化参数小于预设阈值的情况下，如果预设阈值与该量化参数之间的第二差值较小，则说明相比于基于决策网络输出的动作，基于随机方式输出的动作并不是非常有利于终端能够更早地确定出有利于完成任务动作，也即，相比于基于决策网络输出的动作，基于随机方式输出的动作并不是非常有利于完成任务或绝对适应于终端所在的环境，从而可以小幅度提高决策网络的探索率，进而实现小幅度地降低之后在输出动作时基于决策网络输出动作的概率，以保证之后基于随机方式来输入动作的概率较高的情况，仍旧能够可能基于决策网络输出有利于完成任务的动作，进而相比于前述实施例可以使终端能够尽早确定出有利于完成任务动作，进而高效率完成任务。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

参照图6，示出了本申请的一种调整决策网络的探索率的装置的结构框图，该装置具体可以包括如下模块：

第一确定模块401，用于基于决策网络输出的预设数量个动作，确定量化参数。

第二确定模块402，用于确定所述量化参数与预设阈值之间的大小关系。

调整模块403，用于基于所述大小关系，调整所述决策网络的探索率。

参见图7，在一个可选的实现方式中，所述调整模块403包括：

降低单元4031，用于如果所述量化参数大于所述预设阈值，则降低所述决策网络的探索率。

提高单元4032，用于如果所述量化参数小于所述预设阈值，则提高所述决策网络的探索率。

在一个可选的实现方式中，所述降低单元4031包括：

第一计算子单元，用于计算所述量化参数与所述预设阈值之间的第一差值。

第一获取子单元，用于根据所述第一差值获取降低步长。

降低子单元，用于根据所述降低步长降低所述决策网络的探索率。

在一个可选的实现方式中，所述第一子获取单元具体用于：在第一对应关系中，查找与所述第一差值相对应的降低步长。

其中，所述第一对应关系用于记录差值与降低步长之间的对应关系。

在一个可选的实现方式中，所述降低子单元具体用于：计算所述决策网络的当前探索率与所述降低步长之间的差值，并作为所述决策网络的目标探索率。

在一个可选的实现方式中，所述提高单元4032包括：

第二计算子单元，用于计算所述预设阈值与所述量化参数之间的第二差值。

第二获取子单元，用于根据所述第二差值获取提高步长。

提高子单元，用于根据所述提高步长提高所述决策网络的探索率。

在一个可选的实现方式中，所述第二获取子单元具体用于：在第二对应关系中，查找与所述第二差值相对应的提高步长。

其中，所述第二对应关系用于记录差值与提高步长之间的对应关系。

在一个可选的实现方式中，所述提高子单元具体用于：计算所述决策网络的当前探索率与所述提高步长之间的和值，并作为所述决策网络的目标探索率。

在一个可选的实现方式中，所述装置还包括：

输出模块404，用于基于所述决策网络的调整后的探索率输出动作。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的调整决策网络的探索率的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的调整决策网络的探索率的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的调整决策网络的探索率的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范坤;侯鹏飞;李江涛;洪迎祥
技术所有人：北京地平线信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。