本发明涉及深度学习法,尤其涉及基于dqn模型提取交通信号配时决策树的方法。
背景技术:
1、近年来,深度强化学习(drl)在交通信号控制领域取得了一系列可喜成果。然而,由于深度神经网络决策的复杂性,人们难以理解其决策背后的原理,解释和可视化强化学习(rl)智能体的策略是一个巨大的挑战。
2、随着交通量的增加和道路通行能力的限制,低效的交通信号配时会导致许多问题,虽然提出了许多解决交通拥堵的算法,但是,往往也存在如缺乏客观标准、由于高维问题的复杂性导致性能不足或者其内部的原理难以解释等问题。
3、造成性能和可解释性之间紧张关系的一个主要因素是机器学习模型越来越不透明,特别是由复杂结构和大量参数定义的神经网络。
4、因此,亟需一种比直接从训练数据中学习的决策树性能更好,同时具有深度强化学习算法的高性能和决策树的高可解释性的方案。
技术实现思路
1、本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于dqn模型提取交通信号配时决策树的方法。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种基于dqn模型提取交通信号配时决策树的方法,包括以下步骤:
4、s1:设计强化学习三要素,具体包括状态空间、动作空间和奖励函数;
5、s2:采用dqn算法获取专家策略π,并用于交通信号控制;
6、s3:通过智能体根据专家策略π与环境交互生成轨迹数据;
7、s4:利用生成的轨迹数据,使用伪代码算法从数据集中训练生成出决策树。
8、进一步地,在步骤s2中,获取专家策略π的方式为π:s*a→[0,1],其中:
9、s*a为智能体通过与环境的相互作用从状态空间s到动作空间a的映射。
10、进一步地,在步骤s3中,具体步骤流程为:
11、智能体观察状态st,在每个时间步通过查询专家策略采取动作at,得到一个状态-动作对(st,at),进行保存用于拟合决策树;
12、执行动作at,智能体将过渡到一个新的状态st+1,这个过程将一直重复直到结束;
13、将状态和动作的顺序记录为轨迹,轨迹数据的格式定义具体为:t={(s1,a1),(s2,a2),...,(st,at),s终点};
14、通过使用智能体根据专家策略与环境交互来获得一个状态-动作对的数据集,生成获得轨迹数据。
15、进一步地,在步骤s4中,决策树为二叉树,其中,每个内部节点表示一个属性的测试,每个分支表示测试的结果,每个叶节点表示一个类标签;
16、进一步地,使用的伪代码包括id3和cart两种算法。
17、对决策树进行训练时,使用预剪枝方法来防止不重要分支的产生相比于现有技术,本发明的有益效果在于:
18、所实现的决策树结构更简单,且与复杂的专家策略模型结构无关,更易于理解,同时性能与收敛后的dqn模型相近甚至更好;
19、利用所得到的决策树,可以很容易地知道,在某个状态st下,采取动作at的原因,并且比直接从训练数据中学习的决策树性能更好,同时具有深度强化学习算法的高性能和决策树的高可解释性。
1.一种基于dqn模型提取交通信号配时决策树的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于dqn模型提取交通信号配时决策树的方法,其特征在于,在步骤s2中,获取专家策略π的方式为π:s*a→[0,1],其中:
3.根据权利要求2所述的基于dqn模型提取交通信号配时决策树的方法,其特征在于,在步骤s3中,具体步骤流程为:
4.根据权利要求3所述的基于dqn模型提取交通信号配时决策树的方法,其特征在于,在步骤s4中,决策树为二叉树,其中,每个内部节点表示一个属性的测试,每个分支表示测试的结果,每个叶节点表示一个类标签。
5.根据权利要求4所述的基于dqn模型提取交通信号配时决策树的方法,其特征在于,使用的伪代码包括id3和cart两种算法;