本发明涉及序列决策领域,更具体的说,涉及一种状态的关键程度确定方法、装置及电子设备。
背景技术:
1、序列决策任务是一类常见的任务,智能体作为序列决策任务的执行主体,需要在动态变化的环境中做出一系列决策,这通常涉及到在不同状态下选择不同的动作,以达到某个目标。如,在一个迷宫中,智能体所处的不同位置代表一个不同的状态。智能体可以执行的动作包括向上、向下、向左、向右等移动。每个动作都会导致智能体在环境中的位置发生变化。智能体需要学会一个策略,即根据当前状态选择一个动作,以达到目标位置。
2、序列决策任务中存在着关键点(又称为关键状态)和非关键点(又称为非关键状态),这些关键状态和非关键状态对任务的影响程度不同。关键状态影响序列决策任务的走向,对是否能够达到目标影响较大,非关键状态对序列决策任务的走向影响不大,对是否能够达到目标影响较小。因此关键状态比非关键状态更为重要,值得决策者更多的注意。通过识别关键状态,决策者可以将更多的注意力放在关键状态上,这有利于决策任务目标的达成。那么,如何确定序列决策任务中的状态的关键程度,以基于关键程度筛选出关键状态,是本领域技术人员亟需解决的技术问题。
技术实现思路
1、有鉴于此,本发明提供一种状态的关键程度确定方法、装置及电子设备,以解决亟需确定序列决策任务中的状态的关键程度的问题。
2、为解决上述技术问题,本发明采用了如下技术方案:
3、一种状态的关键程度确定方法,包括:
4、对预先训练的智能体进行状态输入操作,以获取待进行关键程度确定的目标状态;
5、基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据;
6、根据所述动作概率分布数据,计算预设关键程度评价参数的参数值;
7、基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果。
8、可选地,对预先训练的智能体进行状态输入操作,以获取待进行关键程度确定的目标状态,包括:
9、获取预先训练的智能体;
10、利用模拟器输出指定状态至所述智能体,以使所述智能体执行与所述指定状态对应的动作;所述智能体在执行动作时,以第一预设数值的概率按照预设执行策略选择动作,以第二预设数值的概率随机选择动作;所述第二预设数值基于所述第一预设数值计算得到;
11、获取所述模拟器确定的与所述动作对应的状态,将所述状态作为新的指定状态,返回执行利用模拟器输出指定状态至所述智能体,以使所述智能体执行与所述指定状态对应的动作这一步骤,直至满足预设停止条件时停止;
12、将所述模拟器输出的所有指定状态中的每一状态分别作为一目标状态。
13、可选地,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
14、若在训练所述智能体时使用的模型为基于策略policy-based模型,将所述目标状态输入至所述智能体,以得到所述policy-based模型确定的所述目标状态对应的不同动作的动作概率分布数据。
15、可选地,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
16、若在训练所述智能体时使用的模型为基于价值value-based模型,将所述目标状态输入至所述智能体,以得到所述value-based模型确定的不同动作的动作价值数据;
17、利用所述不同动作的动作价值数据,计算得到不同动作的动作概率分布数据。
18、可选地,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
19、若在训练所述智能体时使用的模型为基于蒙特卡洛树搜索mcts-based模型,将所述目标状态作为一节点输入至所述智能体,以得到所述mcts-based模型确定的不同子节点的访问次数;
20、基于所述不同子节点的访问次数,计算得到不同动作的动作概率分布数据。
21、可选地,所述预设关键程度评价参数为所述动作概率分布数据的熵;
22、根据所述动作概率分布数据,计算预设关键程度评价参数的参数值,包括:
23、获取所述动作概率分布数据的熵的计算公式;
24、利用所述计算公式对所述动作概率分布数据进行计算操作,得到所述动作概率分布数据的熵的数值。
25、可选地,基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果,包括:
26、将所述预设关键程度评价参数的参数值,确定为所述目标状态的关键程度确定结果;
27、或者,
28、获取预设阈值,基于所述预设关键程度评价参数的参数值与所述预设阈值的大小比较结果,确定所述目标状态的关键程度确定结果。
29、可选地,在基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果之后,还包括:
30、基于所述目标状态的关键程度确定结果,从所述目标状态中筛选出关键状态。
31、一种状态的关键程度确定装置,包括:
32、状态获取模块,用于对预先训练的智能体进行状态输入操作,以获取待进行关键程度确定的目标状态;
33、数据确定模块,用于基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据;
34、参数计算模块,用于根据所述动作概率分布数据,计算预设关键程度评价参数的参数值;
35、关键程度确定模块,用于基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果。
36、一种电子设备,包括:存储器和处理器;
37、其中,所述存储器用于存储程序;
38、所述处理器调用程序并用于执行上述的状态的关键程度确定方法。
39、相较于现有技术,本发明具有以下有益效果:
40、本发明提供了一种状态的关键程度确定方法、装置及电子设备,本发明中,在需要对智能体的状态进行关键程度确定时,对预先训练的智能体进行状态输入操作,以获取待进行关键程度确定的目标状态,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,根据所述动作概率分布数据,计算预设关键程度评价参数的参数值,基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果,达到确定序列决策任务中的状态的关键程度的目的。另外,本发明中,在进行关键程度确定结果确定时,考虑了智能体不同动作的概率分布,概率分布能够表征动作分布情况,动作分布情况能够影响智能体最终执行的动作,进而影响该最终执行的动作对应的状态是否是关键状态,因此,使用不同动作的动作概率分布数据来确定目标状态的关键程度确定结果,能够提高状态的关键程度确定准确度。
1.一种状态的关键程度确定方法,其特征在于,包括:
2.根据权利要求1所述的状态的关键程度确定方法,其特征在于,对预先训练的智能体进行状态输入操作,以获取待进行关键程度确定的目标状态,包括:
3.根据权利要求1所述的状态的关键程度确定方法,其特征在于,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
4.根据权利要求1所述的状态的关键程度确定方法,其特征在于,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
5.根据权利要求1所述的状态的关键程度确定方法,其特征在于,基于所述智能体使用的模型,确定所述智能体在所述目标状态下不同动作的动作概率分布数据,包括:
6.根据权利要求1所述的状态的关键程度确定方法,其特征在于,所述预设关键程度评价参数为所述动作概率分布数据的熵;
7.根据权利要求1所述的状态的关键程度确定方法,其特征在于,基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果,包括:
8.根据权利要求1所述的状态的关键程度确定方法,其特征在于,在基于所述预设关键程度评价参数的参数值,确定所述目标状态的关键程度确定结果之后,还包括:
9.一种状态的关键程度确定装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:存储器和处理器;