交叉口交通信号控制方法和设备的制造方法

文档序号：9525006阅读：452来源：国知局

交叉口交通信号控制方法和设备的制造方法
【技术领域】
[0001] 本发明设及城市交通信号控制领域，具体设及一种交叉口交通信号控制方法和设备。
【背景技术】
[0002] 随着中国经济的高速增长W及城市化进程的加快，大量人口涌入城市，交通设施兴建和改善的速度远远赶不上人们日益增长的交通需求，交通拥堵问题日益突出。
[0003] 交通拥堵问题出现的原因是多方面的，除去交通设施不充足、交通规划不合理W 及公众交通意识淡薄等因素外，一个很重要的因素是现有的城市交通信号控制系统并未充分发挥作用。由于城市交通问题的特殊性，难W建立起精确的数学模型。简单的定时控制、感应控制方法很难适应越来越复杂的交通状况。
[0004] 自适应动态规划（AD巧理论融合了动态规划、强化学习W及函数逼近等方法，其利用在线或离线数据，采用函数近似结构来估计系统的性能指标函数，然后依据最优性原理来获得近似最优的控制测量。动作倚赖启发式动态规划（AD皿巧方法是一种典型的自适应动态规划方法，因其具有无模型自适应的特点，能够满足系统参数变化频繁，实时性要求较高，难W建立精确模型的城市交通系统的控制要求。

【发明内容】

[0005] 本发明的一个方面提供了一种用于交叉口交通信号控制的AD皿P控制器离线训练方法，该A畑DP控制器包括Action网络和Critic网络，该方法包括：在步骤S1，定义系统状态、回报函数、绿信比和系统控制参数；在步骤S2,建立Action网络和化itic网络，其中：Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为Mg，M。为经验值；化及化itic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为Mt，M。为经验值；在步骤S3,初始化AD皿P控制器，包括：初始化Action网络权值和初始化化itic 网络权值；在步骤S4,在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数U化)，将系统控制参数U化）输出至仿真软件W指导下一个周期的运行；在步骤S5,将系统状态S化）和系统控制参数U化）输入至化itic网络，输出性能指标J化）；在步骤S6,交替地根据性能指标和回报函数训练化itic网络W及根据性能指标训练Action 网络，W更新化itic网络的权值和Action网络的权值；化及在步骤S7,判断是否达到预期设定的目标：当达到预期设定的目标时，在步骤S8,离线训练结束，记录最终的Action网络的权值和化itic网络的权值；否则，返回步骤S6继续训练。
[0006] 本发明的另一个方面提供了一种使用根据W上方法训练的A畑DP控制器来在线控制交叉口交通信号的方法，包括：分别W最终的Action网络的权值和化itic网络的权值初始化Action网络和化itic网络；将在线系统的实时交通数据输入到A畑DP控制器；W及根据步骤S1中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action 网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。
[0007] 本发明的另一方面提供了一种用于交叉口交通信号控制的AD皿P控制器离线训练设备，该A畑DP控制器包括Action网络和化itic网络，该设备包括：第一装置，定义系统状态、回报函数、绿信比和系统控制参数；第二装置，建立Action网络和化itic网络，其中： Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M。，M。为经验值；化及化itic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为Mt，M。为经验值；第Ξ装置，初始化AD皿P控制器，包括：初始化Action网络权值和初始化化itic 网络权值；第四装置，在每个控制周期结束前，获取系统状态，输入至Action网络，输出相应系统控制参数U化)，将系统控制参数U化）输出至仿真软件W指导下一个周期的运行；第五装置，将系统状态S化）和系统控制参数U化）输入至化itic网络，输出性能指标J化）；第六装置，交替地根据性能指标和回报函数训练化itic网络W及根据性能指标训练Action 网络，W更新化itic网络的权值和Action网络的权值；W及第屯装置，判断是否达到预期设定的目标：当达到预期设定的目标时，离线训练结束，记录最终的Action网络的权值和化itic网络的权值；否则，使用第六装置继续训练。
[0008] 本发明的另一个方面提供了一种使用W上设备训练的AD皿P控制器来在线控制交叉口交通信号的设备，包括：第八装置，分别W最终的Action网络的权值和化itic网络的权值初始化Action网络和化itic网络；第九装置，将在线系统的实时交通数据输入到 AD皿P控制器；W及第十装置，根据第一装置中的定义，从在线系统的实时交通数据得到系统状态，将系统状态输入Action网络，将Action网络的输出作为系统控制参数，用于控制路口交通信号。
[0009] 本发明有效地克服了现有技术中的不足。本发明的交叉口交通信号控制方法具有在线学习能力，能在交通流量发生变化、非机动车流比例较大等实际工程应用的复杂环境中，通过对环境反馈的学习，计算出交叉口的配时参数，实现对交通流多变的交叉口的有效控制。该方法不需要建立交通模型，能够根据交通状态，模拟人脑通过环境反馈进行学习，从而实现对交通信号的自适应控制。
【附图说明】
[0010] 图1示意性示出了本发明的离线训练方法流程图。
[0011] 图2示意性示出了AD皿P结构和训练示意图。
[0012] 图3示意性示出了Action网络和化itic网络结构示意图。
【具体实施方式】
[0013] W下结合附图和实施例对本发明的技术方案作进一步详细说明。W下实施例在W 本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。
[0014] 参考图1和图2说明本发明的实施例。图1示意性示出了本发明的AD皿P控制器离线训练方法流程图。图2示意性示出了AD皿P结构和训练示意图。在下文中，W-个两相位的交叉口为例进行说明。
[0015] 如图1所示，该方法开始于步骤SO。
[0016] 在步骤S1，定义系统状态、回报函数、绿信比和系统控制参数。
[0017]W如下方式定义系统状态。假设每个控制周期内有P个相位，相位时间长度为 Ti，每个相位有Li个车道获得通行权限，各车道最大排队长度为h1，相位排队长度Hi= max化i}，相位平均排队长度
各车道的流量为q，，相位流量为Qi=max{q,}，定义相位饱和度天
其中1《i《P，1《j《Li，ε为归一化常数。
[001引定义系统状态为S(k) =(si化)}，1《i《Ρ，其中k为仿真步数，步长为第k个控制周期的时间长度Ck，周期长度可根据历史流量用Webster方法确定，取值通常在30秒到 120秒之间。
[0019] 定义回报函数为
，其中N=P-1，P>2。
[0020] 定义绿信比为曰1，其中1《i《P-1。最后一个相位的绿信比
[0021] 系统控制参数为U似=咕似}，1《i《P。
[0022] 在两相位的示例中，系统状态为S(k) = {Si(k)}，其中i= 1，2。第一个相位的绿信比为曰1，则有第二个相位绿信比为曰2= 1-曰1。
[0023] 在步骤S2,建立Action网络和化itic网络。如图3所示，Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为P，输出层神经元个数为P-1，隐层的神经元个数为M。，隐层神经元个数M。为经验值，通常在5~20之间。化itic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2P-1，输出层神经元个数为1，隐层的神经元个数为M。，隐层神经元个数M。为经验值，通常在5~20之间。
[0024] 在两相位的示例中，Action网络为具有一个隐层的BP神经网络，其中输入层神经元个数为2,输出层神经元个数为2,隐层的神经元个数为8。化itic网络为具有一个隐层的BP神经网络，其中输入层神经元个数为3,输出层神经元个数为1，隐层的神经元个数为 8。
[0025] 在步骤S3,初始化控制器，包括初始化Action网络权值和化itic网络权值。可W 将Action网络的学习率设置为1。，学习率1。通常为0~1之间的常数，每一步训练次数设置为N。，训练次数N。为经验值，通常在5~50之间。可W将化itic网络的学习率设置为1。，学习率1。通常为0~1之间的常数，每一步训练次数设置为N。，训

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王飞跃;刘裕良;段艳杰;吕宜生;朱凤华;苟超;
技术所有人：青岛智能产业技术研究院;青岛慧城智能科技有限公司;
我是此专利的发明人

上一篇：基于跟踪车道上车辆位置的可变车道行驶方向切换方法
上一篇：拉伸路口及信号警示系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.机器人 2.嵌入式控制系统开发
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、袁老师：1.计算机视觉 2.无线网络及物联网
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。