一种基于ic卡数据的公交串车预测方法

文档序号:9453991阅读:526来源:国知局
一种基于ic卡数据的公交串车预测方法
【技术领域】
[0001] 本发明涉及公共交通信息处理技术领域,具体地说是一种基于1C卡数据的公交 串车预测方法。
【背景技术】
[0002] 在实际的公交运营过程中,由于交通拥堵、站点停靠时间和上下车人数的变化等 因素影响,公交车辆的到站并不规律。特别是高峰时段,乘客常常在公交站台等上十分钟或 者更久都不见有一辆公交车来,而一旦来车了却发现来的不止是一辆车,而是若干辆车同 时到达,并且车辆的载客量往往不均匀。降低了公交的服务水平,引发安全危害。
[0003] 事实上,某辆公交车在某个站点的延误,可能会导致其到下一个站点的时间增加, 同时造成下一个站点乘客量和等待时间的增加,进一步增加了该次公交车的延误时间。另 一方面,下一车次的公交车承载的乘客量将会减少,同时减少了站点延误时间,缩短了与前 车的时间间隔,这如同滚雪球效应,在之后的同一路线行走中,这两个公交车有很大可能在 某一站点相遇。这种现象是公交串车现象。因此预测公交串车可以减少乘客等待时间,提 高公交的服务水平,提升公交分担率。
[0004] 近年来,在一些大城市(如江苏南京、浙江杭州等)的公交站点,已经出现对公交 车辆到站的预测,而针对公交串车情况进行预测的文献非常少。但是目前的公交车辆到站 预测均是结合车载GPS系统,而且只针对于一辆车,给出其距离站点的距离及预计到站时 间。这虽然能给予公交乘客一定的参考,但是实际上,在高峰时段,道路拥堵情况严重,导致 公交串车现象,造成后续车辆先于前车进站,使得预测出的公交到站时间与乘客实际等待 时间不符,且车载GPS系统要求大的存储空间,定位精度低,我们需要探寻更好的方法来解 决上述问题。

【发明内容】

[0005] 针对上述问题,本发明提供一种充分考虑某一车次到达下游站点的各相关因素、 具有实时动态性能的基于1C卡数据的公交串车高精度预测方法。本发明基于公交1C卡 数据,从乘客角度出发,预测相邻两车的到站间隔及公交串车,能够更好地了解公交运行情 况,合理调控出行时间,提高出行效率;同时对于公交运营部门来说,也能够及时调整公交 发车间隔,避免公交串车情况发生,更好提升公交服务水平。
[0006] 所述的一种基于1C卡数据的公交串车高精度预测方法,对同一个公交线路的两 个相邻站点的多辆车次提取车次标识、线路标识、站点标识、到站时间和上下车客流量等信 息。首先剔除两个站点的车次标识不对应的异常点,得到车次标识完全对应一致的数据,计 算第二个站点按照第一个站点的车次顺序排列得到的车头时距,通过分析车头时距的正负 来检测到达第二个站点实际的公交串车情况。若为正,说明没有发生串车,相反,若为负, 说明发生了串车。然后要预测某一个车次到达第二个站点的公交串车情况,根据上述提取 的线路标识、车次标识、到站时间和上下车客流量等数据,提取训练学习中每一天的小样本 数据,包括两个站点的旅行时间、某一个车次在第一个站点的车头时距、某一车次和相邻上 一车次分别在第一站点的上下车人数,以及相邻上一车次在第二个站点的上下车人数等信 息,这些每一天的小样本数据组成一个大样本数据,根据所述的大样本数据建立预测模型, 结合最小二乘支持向量机算法预测某一车次到达第二个站点的公交串车情况。
[0007] 本发明的优点在于:
[0008] 1、本发明结合公交1C卡数据,针对多辆车次,提取大量的乘客信息,不需要车载 GPS系统,方便快捷,降低了数据处理成本;
[0009] 2、本发明采用最小二乘支持向量机方法能够更好更快更有效地实现公交串车预 测,使乘客能够更好地了解公交运行情况,合理调控出行时间;同时使公交运营部门也能够 及时调整公交发车间隔,提升公交服务水平;
[0010] 3、本发明考虑了上下车人数、到站时间、两站点间的旅行时间、两个相邻车次的车 头时距等多个因素,处理数据简单,成本低,且有较高预测精度。
【附图说明】
[0011] 图1为本发明所述的基于1C卡数据的公交串车预测方法的原理图;
[0012] 图2为本发明所述的基于1C卡数据的公交串车预测方法的流程图。
【具体实施方式】
[0013] 下面结合附图和实施例对本发明做进一步的详细说明,以令本领域技术人员参照 说明书文字能够据以实施。
[0014] 本发明提供一种基于1C卡数据的公交串车预测方法,包括以下步骤:
[0015] 第一步,公交车1C卡数据采集:通过3G传输网络实时获取公交车1C卡刷卡信息, 建立公交运行线路和车辆运行信息数据库。所述的公交车1C卡数据包括车次标识、线路标 识、站点标识、到站时间、日期和上下车客流量等信息。从上述采集到的全网1C卡数据中获 取一条易发生串车的公交线路,在此条公交线路的基础上找寻相邻两个目标站点,并进一 步提取每天经过上述两个目标站点的公交车车次以及每个车次到达这两个目标站点的到 站时间、上下车人数。
[0016] 由于每天交通状况不一,所以公交公司发放的公交车次数不尽相同,可根据不同 车辆号或车次间隔,提取每天的车次标识。
[0017] 第二步,数据处理:由于每天公交站点上下车人数具有随机性且不均匀,而且乘客 刷卡信息也存在异常,需要进行车次标识匹配,将两个目标站点车次标识不对应的数据作 为错误数据剔除,同时与车次标识对应的站点标识、到站时间和上下车客流量等信息也相 应剔除,只保留两个目标站点具有相同车次标识的数据。
[0018] 第三步,实际公交串车情况检测:本发明将公交站点的公交串车情况分为二元状 态,有串车情况的是1,没有串车情况的是〇。根据第二步,在两个目标站点具有相同车次标 识的情况下,第二个目标站点按照第一个目标站点的车次顺序排列得到的两相邻车次的车 头时距(即Headway),可以得到实际的公交串车情况,若求得的车头时距为正,则说明没有 串车情况,记为〇 ;若求得的车头时距为负或者为〇,则说明发生了串车情况,记为1。
[0019] 所述的第一个目标站点定义为两个相邻的目标站点中先到达的站点,所述的第二 个目标站点定义为两个相邻的目标站点中后到达的站点。
[0020]所述的两相邻车次的车头时距(即Headway),就是当前车次在某一个目标站点的 到站时间与相邻上一车次在同一个目标站点的到站时间的差值。
[0021] 第四步,训练学习数据:要实时的预测当前车次到达第二个目标站点的公交串车 情况,相关因素就包括相邻的上一个车次在第一个目标站点的到站时间和上下车人数、在 第二个目标站点的到站时间和上下车人数,以及当前车次在第一个目标站点的到站时间和 上下车人数。作为训练学习中的输入因素包括两个目标站点的旅行时间、两相邻车次在第 一个目标站点之间的车头时距、相邻上一个车次和当前车次分别在第一个目标站点的上下 车人数、以及相邻上一个车次在第二个目标站点的上下车人数。作为输出变量的因素只有 1个,即公交串车情况。本发明中先提取每一天的小样本数据,然后按时间顺序组成一个大 样本数据,按照训练集和测试集3:1的样本数据比例选出训练集。
[0022] 所述的两个目标站点的旅行时间,在车次标识对应的情况下,两个目标站点的旅 行时间就是当前车次在第二个目标站点的到站时间和第一个目标站点的到站时间的差值。 由于两个目标站点是存在站间距的,根据国家规定的公交车最高车速,两个目标站点间的 旅行时间是一个正值并且大于某一个定值,所以要剔除不符合规定的旅行时间数据,同时 对应的车次标识、站点标识、到站时间和上下车客流量等信息也相应剔除。
[0023] 第五步,公交串车预测:本发明采用最小二乘支持向量机算法预测公交串车情况, 根据第四步中选取的训练集建立预测模型对当前车次到达第二个目标站点的公交串车情 况进行预测,得到预测值。
[0024] 所述的最小二乘支持向量机(LS-SVM)算法是一种遵循结构风险最小化原则的核 函数学习机器,LS-SVM应用于公交串车预测主要是运用它的回归算法。利用相邻历史数据 建立LS-SVM模型,训练好模型后,得到一个回归函数,将预测输入向量带入回归函数,得到 的输出值即为待预测的数据。
[0025] 采用所述的LS-SVM应用于公交串车预测,包括训练建模和预测评估两个过程。
[0026] 其中^丨练过程中^寸于训练样本^^丨^^以以一^^^"丨^求方程
[0027]
[0028] 的解,方程中y为1维列向量,由训练样本的输出yi(i =卜1)构成;KU…,I]7' 为1维列向量,1的个数为1个;y为已经确定的超参数,b和a是需要求解的未知数,b为 实数,a为1维列向量(称为Lagrange乘子),求解b和a的过程就是建模过程,Q为核 函数矩阵,有输入样本的输入Xl通过核函数计算获得,公式为
[0029]Q;j=K(xXj),
[0030] 公式中选择径向基(RBF)函数作为核函数,表示为
每一 个径向基函数的中心对应于一个支持向量,此时得到的支持向量机是径向基函数分类器;
[0031] 解方程⑴的关键是求A的逆矩阵,A=Q+Y :1,获得A的逆矩阵后,既可获得参 数b为:
[0032]
[0033] 还可获得参数a为:
[0034]
[0035] 获得b和a后,训练过程结束,获得模型如下:
[0036]
[0037] 根据式(3)描述的模型,对新的输入X来计算其输出f(X),这个过程称为预测过 程。
[0038] 在具体应用中,训练过程的计算量更大,将上述计算过程进行细化,获得下述过 程:
[0039] 核函数矩阵的形成过程:
[0040] 核函数矩阵的形成主要是计算不同输入向量的核函数,核函数采用RBF函数,其 具体形式为:
[0041]
[0042] 其中参数〇为训练前确定的超参数,采取K交叉验证方式来确定,具体过程为:
[0043] 步骤a,选定〇初值,〇 = 0.01;
[0044] 步骤b,将训练集分成k份相等的子集,每次将其中k_l份数据作为训练数据,而将 另外一份数据作为测试数据。这样重复k次,根据k次迭代后得到的MSE平均值来估计期 望泛化误差,最后选择一组最优的参数,并作为核函数K(x,Xi)的参数〇。
[0045]RBF函数的计算涉及向量的2范数计算和指数函数的计算,按照QK(x;,xj的 定义,对于1个训练样本,Qu为1X1维矩阵,即1个样本中任意两个进行核函数计算而获 得核函数矩阵。
[0046] 核函数矩阵求逆过程:
[0047] 获得Q后,即可构成矩阵A,从Q^的计算过程可知,A为对称正定阵。如果获 得矩阵A的逆矩阵A\则根据式(2)即可获得b和a。求矩阵A的逆矩阵的过程即为训练 过程的关键环节。
[0048]实施例
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1