基于深度增强网络的路网信号控制方法及装置与流程

文档序号:13737440阅读:263来源:国知局
基于深度增强网络的路网信号控制方法及装置与流程

本发明涉及智能交通技术领域,特别涉及一种基于深度增强网络的路网信号控制方法及装置。



背景技术:

城市化进程快速发展,人口激增,交通需求急剧膨胀,对城市交通系统和服务提出前所未有的挑战。城市交通拥堵问题日趋严峻。一旦发生拥堵将使道路通行能力下降、车速降低、通行延误增大、而且随着油耗的增加,还会进一步造成严重的空气污染。交通拥塞己成为困扰全球主要发达城市的焦点问题,能否采取措施对交通拥塞问题进行有效治理,密切关系着经济和社会的发展。

在固有路网条件下,对信号的优化控制是缓解拥堵、提高交通效率、确保交通安全的有效手段。通过控制城市交通路口的交通信号状态,对交通信号重新配时并协调城市各个路口的交通信号,可以大幅度减少出行延误,节省能源,有效提高交通通行效率。

随着物联网与计算机控制技术的发展,信号控制系统经历了由孤立的单一路口控制向主干线路口控制、区域控制正在向大规模网络控制的方向发展、控制方式的设计也从固定配时、自适应、集中控制演化为分散式协同、智能化控制。

最初信号控制器针对的是单路口的固定配时,即将信号变换的时间间隔信息预先输入给控制器,但这种方式过于单一固化,不适用于各种大量随机因素汇集的动态路网,一种改进的方案是多时段信号控制,即根据早晚高峰交流变化的不同时段对信号控制器设置不同的相位、绿信比等参数。另外,还出现了感应式信号控制,该方式利用检测器数据结合一些算法对相位的信号时间进行预测,后来又发展出了自适应的信号控制方法改善了感应式控制在路口流量饱和状态下延误过大的问题,但这些方法割裂了路口间的时空关系,时常出现在一个范围较小的局部网络流量达到优化,却导致在更大范围的区域通行能力下降的问题。

然而,空间相近的路口交通流往往具有较强关联性,孤立的考虑单点控制容易引起节点间的冲突,从而导致全局性能下降。因此,专家学者提出了线控方案进一步提高信号优化效率,即采取组合优化策略对位于主要线路的路口进行协同控制,相继提出了相容控制策略、启发式分层控制策略和结合遗传算法的协同优化算法等,达到了一定程度的性能提升,但线控方案并没有摆脱单点控制模式的局限,其可能制约其他非主干线的通行能力,甚至导致这些线路的频繁拥塞,整个路网的吞吐量也随之下降。为此,研究者进一步将控制范围扩展到区域层面或大规模网络。

相关技术中,应用于大范围城市路网中的区域协同信号控制系统有transyt(trafficnetworkstudytool,交通网络研究工具),但其采用的固定配时方案,在饱和流量的情况下,容易出现网络延误较大的问题,基于自适应策略的区域信号控制系统有sc00t、scats(sydneycoordinatedadaptivetrafficsystem,悉尼自适应交通控制系统),但其依赖于集中式的控制方式,其数据采集、通信与计算代价都随着网络规模增大成指数增长。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于深度增强网络的路网信号控制方法,该方法可以全面提高路网的吞吐量,缩短出行者的平均旅行时间,而且节约了交通信号控制的人工成本,实现城市路网调度的全智能化升级。

本发明的另一个目的在于提出一种基于深度增强网络的路网信号控制装置。

为达到上述目的,本发明一方面实施例提出了一种基于深度增强网络的路网信号控制方法,包括以下步骤:建立流量通道和智能体通道作为深度神经网络的模型输入,其中,所述流量通道包括三模式张量模型,其中,所述三模式张量模型中包含空间维度模式、时间维度模式和流量及速度维度模式;在所述流量通道输入路网流量状态信息;在所述智能体通道输入当前路口的信号灯相位设置信息,以及距离所述当前路口预设跳数范围内的相邻路口的信号灯相位设置信息;控制所述深度神经网络模型以预设频率输出所述当前路口的信号的切换动作,并以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略。

本发明实施例的基于深度增强网络的路网信号控制方法,可以将流量通道和智能体通道中当前路口和相邻路口的信号灯相位设置信息作为输入,并控制深度神经网络模型以一定频率输出当前路口的信号的切换动作,进而通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数实现优化控制策略,以对路网信号进行全局优化控制,全面提高路网的吞吐量,缩短出行者的平均旅行时间,而且节约了交通信号控制的人工成本,实现城市路网交通组织的智能化升级。

另外,根据本发明上述实施例的基于深度增强网络的路网信号控制方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略包括:利用交通仿真软件flowsim对待控的路网区域进行建模;控制所述深度神经网络模型与所述flowsim进行交互实现策略预学习,以根据学习结果将所述深度神经网络模型收敛;根据所述路段状态信息对路网中各路口信号灯相位设置;读取路网中路段延误信息;根据所述路段延误信息优化所述信号控制策略函数。

进一步地,在本发明的一个实施例中,所述以迭代的方式逼近动作-值函数以实现优化控制策略包括:通过公式(1)获取所述深度网络模型的网络q值函数预测值和所述目标网络q值函数的误差值:其中,所述公式(1)包括:

其中,s'和a'为下一个时刻的状态和动作,s和a为当前时刻的状态和动作,r为当前动作的回报,为目标网络q值函数,q(s,a,θ)为网络q值函数;根据公式(2)得到的样例值更新所述网络q值函数,其中,所述公式(2)包括:

进一步地,在本发明的一个实施例中,还包括:通过公式(3)获取所述当前时刻t的当前动作的回报r:

ci为路口路段的设计通行能力,li为流量大小,为路口排队长度额定值设计时延,di为路口实际排队长度,τ、β和η为常数。

进一步地,在本发明的一个实施例中,所述模型应用在智能体中,其中,路网的每一个路口设置有所述智能体,每个智能体由一个深度神经网络模型构成,还包括:向所述智能体输入所述路网的交通流状态信息;输入路网中每个路口的信号灯相位设置信息;通过所述深度神经网络模型的前馈计算结果设置信息控制路网信号。

为达到上述目的,本发明另一方面实施例提出了一种基于深度增强网络的路网信号控制装置,包括:建立模块,用于建立包含流量通道和智能体通道的深度神经网络模型,其中,所述流量通道包括三模式张量模型,其中,所述三模式张量模型中包含空间维度模式、时间维度模式和流量及速度维度模式;第一输入模块,用于在所述流量通道输入路网流量状态信息;第二输入模块,用于在所述智能体通道输入当前路口的信号灯相位设置信息,以及距离所述当前路口预设跳数范围内的相邻路口的信号灯相位设置信息;训练模块,用于控制所述深度神经网络模型以预设频率输出所述当前路口的信号的切换动作,并以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略。

本发明实施例的基于深度增强网络的路网信号控制装置,可以将流量通道和智能体通道中当前路口和相邻路口的信号灯相位设置信息作为输入,并控制深度神经网络模型以一定频率输出当前路口的信号的切换动作,进而通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数实现优化控制策略,以对路网信号进行全局优化控制,全面提高路网的吞吐量,缩短出行者的平均旅行时间,而且节约了交通信号控制的人工成本,实现城市路网交通组织的智能化升级。

另外,根据本发明上述实施例的基于深度增强网络的路网信号控制装置还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述训练模块包括:建模单元,用于利用交通仿真软件flowsim对待控的路网区域进行建模;训练单元,用于控制所述深度神经网络模型与所述flowsim进行交互实现策略预学习,以根据学习结果将所述深度神经网络模型收敛;设置单元,用于根据所述路段状态信息对路网中各路口相位设置;读取单元,用于读取路网中路段延误信息;优化单元,用于根据所述路段延误信息优化控制策略。

进一步地,在本发明的一个实施例中,所述训练模块还用于通过公式(1)获取所述深度神经网络模型的网络q值函数预测值和目标网络q值函数的误差值:

其中,所述公式(1)包括:

其中,s'和a'为下一个时刻的状态和动作,s和a为当前时刻的状态和动作,r为当前动作的回报,为目标网络q值函数,q(s,a,θ)为网络q值函数;

根据公式(2)得到的样例值更新所述网络q值函数,其中,所述公式(2)包括:

进一步地,在本发明的一个实施例中,所述训练模块还用于:通过公式(3)获取所述当前时刻t的当前动作的回报r:

其中,ci为路口i的设计通行能力,li为流量大小,为路口排队长度额定值,di为路口实际排队长度,τ、β和η为常数。

进一步地,在本发明的一个实施例中,所述模型应用在智能体中,其中,路网的每一个路口设置有所述智能体每个智能体由一个深度神经网络模型构成,所述训练模块还用于向所述智能体输入所述路网的交通流状态信息,并得到路网中每个路口的信号灯相位设置信息,以及通过所述深度神经网络模型的前馈计算结果设置信息控制路网信号。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明实施例的基于深度增强网络的路网信号控制方法的流程图;

图2为根据本发明一个实施例的流量通道张量模型示意图;

图3为根据本发明一个实施例的深度增强网络训练流程图;

图4为根据本发明一个实施例的基于深度增强网络的路网信号控制示意图;

图5为根据本发明实施例的基于深度增强网络的路网信号控制装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

在根据描述本发明实施例的基于深度增强网络的路网信号控制方法及装置之前,为了使得本领域的技术人员对本发明实施例的基于深度增强网络的路网信号控制方法,所解决的技术问题和实现的技术效果具有更加清楚的认识,简单描述一下研发高效可靠的实时交通信号控制系统所面临诸多挑战,主要包括以下几个方面:

(1)信号相位转换空间是一个离散的高维空间,计算一个优化的方案属于np(non-deterministicpolynomial,非确定性多项式)难问题;

(2)城市交通系统是高度复杂的巨系统,路口、路段的交通流具有较强的时空相关性,因此,空间相近的路口需要考虑协同控制,才能近似达到全局最优;

(3)交通流蕴含着大量的不确定性,包括各种无法预知的干扰因素(如肇事,违章停靠,等);

(4)通过设备采集的数据一般仅仅反映了局部交通流特征,而且容易受到噪声干扰,质量较差;

(5)信号控制必须满足高实时性需求,即一般响应时间控制在3秒之内。

除此之外,随着感知、通讯和计算技术的蓬勃发展与相互渗透促进,广泛部署于城市中的传感器持续不断地收集着各种城市动态数据,以交通领域为例,大城市的车辆普遍安装有gps(globalpositioningsystem,全球定位系统)设备,能够实时记录其地理位置,并以一定间隔上传到管理部门的数据中心,结合安装于道路上的感应线圈检测器、雷达检测器、光电检测器、超声波检测器、红外线检测器、磁性检测器以及电接触检测器等各式各样的数据采集设备,整个城市路网已形成一个巨大的数据源。在人工智能领域,通过深度q网络模拟人类玩家进行游戏的过程,直接将游戏画面作为信息输入,游戏得分作为学习的强化信号,对训练收敛后的算法进行测试,发现其在49个视频游戏中的得分均超过人类的高级玩家,计算机围棋算法通过将深度强化学习方法和蒙特卡罗树搜索结合,可以极大减少搜索过程的计算量,提升了对棋局估计的准确度,这也标志着深度强化学习作为一种全新的机器学习算法,已经能够在复杂的棋类博弈游戏中达到匹敌人类的水平。这些在机器学习和大数据领域的成果为由来已久的路网信号控制难题提供了新的解决思路和途径,因此,研究发展基于机器学习与数据驱动的控制方法是路网这类大规模复杂网络系统优化控制的必然要求。

本发明正是基于上述问题而提出一种基于深度增强网络的路网信号控制方法及装置。

下面参照附图描述根据本发明实施例提出的基于深度增强网络的路网信号控制方法及装置,首先将参照附图描述根据本发明实施例提出的基于深度增强网络的路网信号控制方法。

图1是本发明一个实施例的基于深度增强网络的路网信号控制方法的流程图。

如图1所示,该基于深度增强网络的路网信号控制方法包括以下步骤:

在步骤s101中,建立包含流量通道和智能体通道的深度神经网络模型,其中,流量通道包括三模式张量模型,其中,三模式张量模型中包含空间维度模式、时间维度模式和流量及速度维度模式。

在步骤s102中,在流量通道输入路网流量状态信息。

在步骤s103中,在智能体通道输入当前路口的信号灯相位设置信息,以及距离当前路口预设跳数范围内的相邻路口的信号灯相位设置信息。

可以理解的是,由于路网是一个高度复杂的系统,每个路段每个时段的流量大小、速度既符合一定周期规律性,同时又伴有很高的不确定性,各种异常突发事件频发(如大规模群体事件、交通事故、施工等),全路网的交通流难以用模型刻画,所以本发明实施例通过信号控制策略函数实现由状态到动作的映射。但是,状态、动作都属于高维空间,不能利用查表式函数,本发明实施例可以通过深度学习技术对状态空间进行抽象,同时提出了分布式多智能的模式,即每个路口由一个智能体控制,每个智能体即一个独立的深度增强学习模型的实例,从而可以观察到整个路网的状态。

具体的,每个智能体输出空间定义可以为a={nsg,ewg,nslg,ewlg},其中,nsg表示南北向绿,ewg表示东西向绿,nslg表示南北左转绿,ewlg表示东西左转绿。同时,每个智能体输入包括2个通道:流量通道和智能体通道。

如图2所示,流量通道由一个三模式张量x组成,模式一是空间维度,代表n个路段;模式二是时间维度,代表k个时刻,本发明实施例建议k的值为4;模式三是特征维,本发明实施例包括2个特征,即流量和速度。张量中一个元素表示某个路段在某一时刻时某个特征的取值,例如x132=7表示路段1在前1个时刻的平均速度为7,通过流量通道,可以提供模型路网整体的流量状态特征及变化趋势。

智能体通道包含本路口的相位设置,以及距离当前路口预设跳数范围(例如,w跳)内的相邻路口的相位设置信息。

在步骤s104中,控制深度神经网络模型以预设频率输出当前路口的信号的切换动作,并以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略。

可以理解的是,本发明实施例是融合了增强学习技术而实现了模型的自学习能力,可以在与路网交互的过程中,逐步达到最优策略,而最优控制的目标是实现路网运行车辆的平均延误最小。

举例而言,假设网络权值向量θ,那么值函数可以表示为q(s,a,θ),同时,将更新q值的目标函数设置为q学习中更新的差值的均方差,网络值函数和目标网络值函数的误差函数l(θ)为

其中,s'和a'为下一个状态和动作,r为当前动作的回报,实际上为目标q值,即让深度q网络的值函数q(s,a,θ)去逼近目标q值。

可以理解的是,本发明实施例的方法通过将深度学习和分布式多智能体增强学习的结合来实现对信号控制策略函数进行最优逼近,并通过与交通仿真软件的交互完成模型的训练,从而达到对大规模路网信号的全局优化控制的目的。

进一步地,在本发明的一个实施例中,以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略包括:利用交通仿真软件flowsim对待控的路网区域进行建模;控制深度神经网络模型与flowsim进行交互实现策略预学习,以根据学习结果将深度神经网络模型收敛;根据路段状态信息对路网中各路口相位设置;读取路网中路段延误信息;根据路段延误信息优化控制策略。

举例而言,通过信号控制策略函数与交通仿真flowsim的交互模型训练方法,最终得到的深度增强网络模型完全可以应用于实际大规模的城市路网。深度q网络与flowsim交互主要包括以下步骤:

(1)启动flowsim的仿真episode;

(2)实时读取路网的路段流量、平均速度等参数,获取各个信号的相位状态;

(3)对路网各路口信号相位进行设置;

(4)读取路段延误等。

具体的,为了解决多智能体执行动作时会互相影响导致不收敛的问题,本发明实施例规定每次只训练一个智能体,并且在这个过程中,保持其它所有智能体的策略固定不变,训练顺序可以根据路口节点的关键度排序结果来指定,其中,每个路口智能体的训练方法如图3所示。

进一步地,在本发明的一个实施例中,以迭代的方式逼近动作-值函数以实现优化控制策略包括:通过公式(1)获取深度神经网络q值函数预测值和目标q值函数的误差值:其中,公式(1)包括:

其中,s'和a'为下一个时刻的状态和动作,s和a为当前时刻的状态和动作,r为当前动作的回报,为目标q值函数,q(s,a,θ)为深度神经网络的q值函数预测值;根据公式(2)得到的样例值更新网络q值函数,其中,公式(2)包括:

进一步地,在本发明的一个实施例中,本发明实施例的方法还包括:通过公式(3)获取当前时刻t的当前动作的回报r:

其中,ci为路口i的设计通行能力,li为流量大小,为路口排队长度额定值,di为路口实际排队长度,τ、β和η为常数。

可以理解的是,具体的深度网络类型有很多种,例如可以采用deepstackedauto-encoders(sae)、dbn(deepbeliefnetwork,深度信念网络)或lstm(longshorttermsmemory,长短期记忆网络)等,在此不做具体限定。本发明实施例的方法通过确定网络权值来逼近值函数,以得到信号控制策略函数。

具体的,可以将更新q值的目标函数设置为q学习中更新的差值的均方差,上述公式(1)即为误差函数,其中,s'和a'为下一个状态和动作,r为当前动作的回报,实际上为目标q值,即让深度q网络的值函数q(s,a,θ)去逼近目标q值。然后使用梯度下降进行求解,根据上述公式(2)得到的样例值更新网络值函数。

举例而言,参照q学习,每一步就用了一个样例来更新q值,在计算梯度的时,可以只用一个样例,也可以使用mini-batch的方式来进行更新。由于数据是序列产生的,并不满足通常的独立同分布的性质,而且每执行一个动作后,产生数据的分布也在变化,所以训练出来的控制策略无法收敛,随机梯度下降效果很差,本发明实施例的方法通过集成经验回放来解决这个问题,也就是说,利用重复采样历史数据,增加了数据的使用效率,同时减少了数据之间的相关性,这样经过深度神经网络,输出状态动作q函数,实现了端到端的学习控制。在t时刻执行完动作(相位设置)后将收到路网回报,本发明实施例的方法结合了拥堵造成的路段时延与信号等待时延两方面因素设计了路网回报,获取当前时刻t的当前动作的回报r如上述公式(3)所示。

进一步地,在本发明的一个实施例中,模型应用在智能体中,其中,路网的每一个路口设置有智能体,每个智能体由一个深度神经网络模型构成,还包括:向智能体输入路网的交通流状态信息;输入得到路网中每个路口的信号灯相位设置信息;通过深度神经网络模型的前馈计算结果设置信息控制路网信号。

综上,由于近年来我国城市化、机动化发展速度飞快,在城市交通管理中,利用先进的机器学习、人工智能和大数据技术解决实际交通问题有着非常重要的意义。目前,本发明已经应用于交通仿真网络的信号控制,通过仿真结果表明,与传统信号配时方法相比,运用本发明能够提高网络整体通行效率18%以上,对保证城市交通运行通畅、减少交通尾气污染等具有很明显的效果,同时,节约了大量的人工成本和资源,全面提升城市交通管理、交通组织和优化的水平。

如图4所示,本发明实施例的方法适用于整个城市路网信号优化控制——分布式多智能体深度增强学习模型。该模型通过物联网实时获取整个路网的交通流状态作为输入,并在很短的时间内(例如,间隔5s种)完成计算,将所有路口的相位设置作为输出,即完成对路网信号的实时控制。本发明实施例的方法最初采用随机策略进行输出,通过与交通仿真软件的交互运行实现策略的优化,即不断通过利用当前最优策略和探索新策略的方式,最终收敛于最优策略,达到最优控制的目的,即路网整体出行延误最小。

同时,本发明实施例的部署安装也非常灵活方便,通过与flowsim交互训练得到的模型已经可以达到较好的效果,可以直接应用于实际路网的信号控制,而在实际运行过程中,本发明实施例的方法通过自学习的模式持续不断的对模型进行优化,经过长时间的运行,不仅可以用于日常流量的调度,早晚高峰的负载均衡,而且还可以应对各种突发紧急事件的紧急诱导,即越用越优。本发明实施例的模型软件可以统一部署在交通管理部门的云数据中心,也可以分布式部署在各级下属部门。

举例而言,交通管理部门首先划定待控路网区域,采购安装部署交通物联网相关硬件设备,包括道路数据采集传感器,摄像头、线圈等,云信号灯控制器;其次利用flowsim对受控路网区域进行建模,同时接入实时数据,完成在线仿真;再次利用本发明公布的技术方案构建深度增强网络,同时与flowsim交互,完成模型的训练;最后将训练好的模型部署到交通管理部门的云数据中心,同时将模型对接到待控信号灯

根据本发明实施例提出的基于深度增强网络的路网信号控制方法,可以将流量通道和智能体通道中当前路口和相邻路口的信号灯相位设置信息作为输入,并控制深度神经网络模型以一定频率输出当前路口的信号的切换动作,进而通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数实现优化控制策略,以对路网信号进行全局优化控制,全面提高路网的吞吐量,缩短出行者的平均旅行时间,而且节约了交通信号控制的人工成本,实现城市路网交通组织的智能化升级。

其次参照附图描述根据本发明实施例提出的基于深度增强网络的路网信号控制装置。

图5是本发明一个实施例的基于深度增强网络的路网信号控制装置的结构示意图。

如图5所示,该基于深度增强网络的路网信号控制装置10包括:建立模块100、第一输入模块200、第二输入模块300和训练模块400。

其中,建立模块100用于建立包含流量通道和智能体通道的深度神经网络模型,其中,流量通道包括三模式张量模型,其中,三模式张量模型中包含空间维度模式、时间维度模式和流量及速度维度模式。第一输入模块200用于在流量通道输入路网流量状态信息。第二输入模块300用于在智能体通道输入当前路口的相位设置信息,以及距离当前路口预设跳数范围内的相邻路口的相位设置信息。训练模块400用于控制深度神经网络模型以预设频率输出当前路口的信号的切换动作,并以路网运行车辆的平均延误作为回报,通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数以实现优化控制策略。本发明实施例的装置10通过迭代方式逼近动作-值函数,实现优化控制策略,对路网信号全局优化控制,提高路网吞吐量,缩短用户出行的平均旅行时间,节约控制成本,实现城市路网交通组织的智能化升级。

可以理解的是,训练模块400以固定频率读取第一输入模块与第二输入模块的数据st,并经过前馈计算得到q函数的预测值,通过训练模块400将信号动作at输出到仿真软件,读取根据公式(3)计算的路网回报rt信息,从而产生训练样本方法<st,at,rt,st+1>,根据公式(2)计算的梯度信息来更新模型参数直到收敛,进而根据深度神经网络输出的q函数预测值以ε-greedy方式对路网信号进行全局优化控制。

进一步地,在本发明的一个实施例中,训练模块400包括:建模单元、收敛单元、设置单元、读取单元和优化单元。

其中,建模单元用于利用交通仿真软件flowsim对待控的路网区域进行建模。训练单元用于控制深度神经网络模型与flowsim进行交互实现策略预学习,以根据学习结果将深度神经网络模型收敛。设置单元用于根据路段状态信息对路网中各路口相位设置。读取单元用于读取路网中路段延误信息。优化单元用于根据路段延误信息优化控制策略。

进一步地,在本发明的一个实施例中,训练模块400还用于通过公式(1)获取深度神经网络模型的网络q值函数预测值和目标网络q值函数的误差值:

其中,公式(1)包括:

其中,s'和a'为下一个时刻的状态和动作,s和a为当前时刻的状态和动作,r为当前动作的回报,为目标网络q值函数,q(s,a,θ)为网络q值函数;

根据公式(2)得到的样例值更新网络q值函数,其中,公式(2)包括:

进一步地,在本发明的一个实施例中,训练模块400还用于:通过公式(3)获取当前时刻t的当前动作的回报r:

其中,ci为路口i的设计通行能力,li为流量大小,为路口排队长度额定值,di为路口实际排队长度,τ、β和η为常数。

进一步地,在本发明的一个实施例中,模型应用在智能体中,其中,路网的每一个路口设置有智能体,每个智能体由一个深度神经网络模型构成,训练模块400还用于向智能体输入路网的交通流状态信息,并得到路网中每个路口的信号灯相位设置信息,以及通过深度神经网络模型的前馈计算结果设置信息控制路网信号。

需要说明的是,前述对基于深度增强网络的路网信号控制方法实施例的解释说明也适用于该实施例的基于深度增强网络的路网信号控制装置,此处不再赘述。

根据本发明实施例提出的基于深度增强网络的路网信号控制装置,可以将流量通道和智能体通道中当前路口和相邻路口的信号灯相位设置信息作为输入,并控制深度神经网络模型以一定频率输出当前路口的信号的切换动作,进而通过与交通仿真软件实时在线交互,以迭代的方式逼近动作-值函数实现优化控制策略,以对路网信号进行全局优化控制,全面提高路网的吞吐量,缩短出行者的平均旅行时间,而且节约了交通信号控制的人工成本,实现城市路网交通组织的智能化升级。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1