一种基于DQN模型提取交通信号配时决策树的方法

文档序号：34252020发布日期：2023-05-25 02:40阅读：84来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及深度学习法，尤其涉及基于dqn模型提取交通信号配时决策树的方法。

背景技术：

1、近年来，深度强化学习(drl)在交通信号控制领域取得了一系列可喜成果。然而，由于深度神经网络决策的复杂性，人们难以理解其决策背后的原理，解释和可视化强化学习(rl)智能体的策略是一个巨大的挑战。

2、随着交通量的增加和道路通行能力的限制，低效的交通信号配时会导致许多问题，虽然提出了许多解决交通拥堵的算法，但是，往往也存在如缺乏客观标准、由于高维问题的复杂性导致性能不足或者其内部的原理难以解释等问题。

3、造成性能和可解释性之间紧张关系的一个主要因素是机器学习模型越来越不透明，特别是由复杂结构和大量参数定义的神经网络。

4、因此，亟需一种比直接从训练数据中学习的决策树性能更好，同时具有深度强化学习算法的高性能和决策树的高可解释性的方案。

技术实现思路

1、本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于dqn模型提取交通信号配时决策树的方法。

2、为了实现上述目的，本发明采用了如下技术方案：

3、一种基于dqn模型提取交通信号配时决策树的方法，包括以下步骤：

4、s1：设计强化学习三要素，具体包括状态空间、动作空间和奖励函数；

5、s2：采用dqn算法获取专家策略π，并用于交通信号控制；

6、s3：通过智能体根据专家策略π与环境交互生成轨迹数据；

7、s4：利用生成的轨迹数据，使用伪代码算法从数据集中训练生成出决策树。

8、进一步地，在步骤s2中，获取专家策略π的方式为π:s*a→[0,1]，其中：

9、s*a为智能体通过与环境的相互作用从状态空间s到动作空间a的映射。

10、进一步地，在步骤s3中，具体步骤流程为：

11、智能体观察状态st，在每个时间步通过查询专家策略采取动作at，得到一个状态-动作对(st,at)，进行保存用于拟合决策树；

12、执行动作at，智能体将过渡到一个新的状态st+1，这个过程将一直重复直到结束；

13、将状态和动作的顺序记录为轨迹，轨迹数据的格式定义具体为：t＝{(s1,a1),(s2,a2),...,(st,at),s终点}；

14、通过使用智能体根据专家策略与环境交互来获得一个状态-动作对的数据集，生成获得轨迹数据。

15、进一步地，在步骤s4中，决策树为二叉树，其中，每个内部节点表示一个属性的测试，每个分支表示测试的结果，每个叶节点表示一个类标签；

16、进一步地，使用的伪代码包括id3和cart两种算法。

17、对决策树进行训练时，使用预剪枝方法来防止不重要分支的产生相比于现有技术，本发明的有益效果在于：

18、所实现的决策树结构更简单，且与复杂的专家策略模型结构无关，更易于理解，同时性能与收敛后的dqn模型相近甚至更好；

19、利用所得到的决策树，可以很容易地知道，在某个状态st下，采取动作at的原因，并且比直接从训练数据中学习的决策树性能更好，同时具有深度强化学习算法的高性能和决策树的高可解释性。

技术特征：

1.一种基于dqn模型提取交通信号配时决策树的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于dqn模型提取交通信号配时决策树的方法，其特征在于，在步骤s2中，获取专家策略π的方式为π:s*a→[0,1]，其中：

3.根据权利要求2所述的基于dqn模型提取交通信号配时决策树的方法，其特征在于，在步骤s3中，具体步骤流程为：

4.根据权利要求3所述的基于dqn模型提取交通信号配时决策树的方法，其特征在于，在步骤s4中，决策树为二叉树，其中，每个内部节点表示一个属性的测试，每个分支表示测试的结果，每个叶节点表示一个类标签。

5.根据权利要求4所述的基于dqn模型提取交通信号配时决策树的方法，其特征在于，使用的伪代码包括id3和cart两种算法；

技术总结
本发明公开了一种基于DQN模型提取交通信号配时决策树的方法，包括以下步骤：S1：设计强化学习三要素，具体包括状态空间、动作空间和奖励函数；S2：采用DQN算法获取专家策略π，并用于交通信号控制；S3：通过智能体根据专家策略π与环境交互生成轨迹数据；S4：利用生成的轨迹数据，使用伪代码算法从数据集中训练生成出决策树。所实现的决策树结构更简单，且与复杂的专家策略模型结构无关，更易于理解，同时性能与收敛后的DQN模型相近甚至更好；利用所得到的决策树，可以很容易地知道，在某个状态s<subgt;t</subgt;下，采取动作a<subgt;t</subgt;的原因，并且比直接从训练数据中学习的决策树性能更好，同时具有深度强化学习算法的高性能和决策树的高可解释性。

技术研发人员：钟力文
受保护的技术使用者：西安电子科技大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟力文
技术所有人：西安电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。