一种公交车服务水平可靠性预测方法与流程

文档序号:14715358发布日期:2018-06-16 01:14阅读:158来源:国知局

本发明涉及一种公交车服务水平可靠性预测方法。特别是涉及一种基于随机森林的公交车服务水平可靠性预测方法。



背景技术:

在智慧城市快速发展的背景下,智慧交通也受到越来越多的关注,公交到达时间预测已成为近年来研究热点。准确、实时的预测线路运行状态不仅能帮助乘客更好的选择出行路线,也为交通部门科学管理提供科学依据、制定合理的安排。

在中国的大中城市,公共交通的发展并不尽如人意。例如:公交车的正点率较低、公交车辆运行的间隔不一致等。随着生活节奏的加快,出行者越来越希望快速准时的到达目的地,研究公共交通服务水平的可靠性有助于公交到站时刻表的确定,提高运输服务。

可靠性理论在交通领域最早应用于城市道路交通网络,用于评价道路网达到某种服务水平的可靠程度。近年来可靠性理论研究迅速发展,在路网连通可靠性行程时间可靠性、运行准点可靠性等方面均取得了比较成熟的理论成果。公共交通服务的可靠性既是公交企业提高公交运营状况、提高公交服务质量、提高企业服务竞争力的保障,也是增强乘客公交出行便利性的有力保障。

随机森林是一种机器学习算法,在2001由Leo Breiman首次提出。该方法将集成学习理论和随机子空间方法相结合。同支持向量机类似,随机森林也是一种基于学习的预测算法。随机森林方法相比于传统的Logit模型和支持向量机的预测能力,预测的精度总是最优的。此外,随机森林方法已经成功的应用于全基因组关联分析领域。

随机森林,是利用多棵树对样本进行训练并预测的一种分类器。该算法已成功地解决如:语音识别,图像识别,三维物体识别等领域的难题。其在当前的很多数据集上,相对其它算法有着很大的优势,并在训练完后它能够给出哪些特征比较重要,



技术实现要素:

本发明所要解决的技术问题是,提供一种准确率更高、处理高维度数据的公交车服务水平可靠性预测方法。

本发明所采用的技术方案是:一种公交车服务水平可靠性预测方法,包括如下步骤:

1)选择影响公交车服务水平的因素,包括:道路交通状况、交叉口数量、天气状况、停靠站数量、公交专用道长度、港湾车站数量、公交线路运行长度、是否在高峰时段以及是否在休息日/节假日,并将所述影响公交车服务水平的因素所对应的属性值作为输入的特性向量;

2)构建公交车可靠性预测值Rj,j为当前时间段;

3)将输入的特性向量数据生成数据集X,对数据集X进行归一化预处理,从而把样本数据转化为0~1之间的数据;

4)对于有S个样本数据点的样本,每次采用随机有放回抽取样本数据的方法采样S次,得到包含S个样本的训练集;剩下未被选择的样本作为测试数据,得到新数据集X*,新数据集X*包含S*个样本数据;

5)对于新数据集X*中包含的Z个特征向量,训练时随机选择其中的m个特征向量作为输入;m=Z/3,m为整数,且只进不舍;

6)生成一个分类决策树t;

7)将最下层各子节点包含的训练样本值的平均值作为该节点的输出值;

8)重复步骤5)~步骤7),生长出一片森林,森林中所有树的分裂结果所得的最优赋值,就是样本的预测结果;

9)对样本的预测结果进行基尼重要性值计算;

10)计算影响公交车服务水平因素的置换重要性值;

11)将得到的置换重要性值进行排序,将置换重要性值小于1的因素剔除;

12)采用下式预测未来公交车线路的可靠性:

Rj+1=f(Rj,Rj-1,Rj-2,...,Rj-w+1)

式中,Rj+1是当前时间段j公交车可靠性预测值,Rj,Rj-1,Rj-2,...,Rj-w+1是前w个时段的公交车可靠性实际值,f(·)是可靠性预测函数;

13)计算公交车可靠性预测值的精度,公交车可靠性预测值是指拟合的好坏程度,即由公交车可靠性预测值与历史实际值拟合程度的优劣,公交车可靠性预测值的精度评价公式如下:

其中,Yi是历史实际值,Yi*是预测值。

步骤2)包括:

(1)构建公交服务水平可靠性评估模型,考虑公交运行间隔可靠性指标Dj、公交准点率可靠性指标Tj和公交满载率可靠性指标Sj三个因素作为评估指标,β1、β2、β3是对应三个评估指标的权重,公交服务水平可靠性评估模型如下公式

Rj=β1Dj+β2Tj+β3Sj

β1+β2+β3=1

(2)构建公交运行间隔可靠性指标Dj如下:

式中,N是在当前时间段j内总的公交车数量;pi是第i辆公交车的位置;是第i辆公交车和第i+1辆公交车的平均间距;

(3)构建公交准点率可靠性指标Tj如下:

式中,M是一条公交线路在一个运营周期内公交站点的数量;A′i,k和Ai,k分别是第i辆公交车到达公交站点k的预定时刻表和实际到达时刻;tk-1,k是公交车从公交站点k运营至公交站点k+1的理论运行时间;

(4)构建公交满载率可靠性指标Sj如下:

式中,Qi,k是第i辆公交车离开公交站点k时车内的乘客数量,其中始发站车内乘客人数为始发站上车人数,终点站车内乘客数量为0;Ci是第i辆公交车最大核定载客数量;是公交车离开公交站点k时的理论满载率;和分别是第i辆公交车在公交站点k的上车和下车人数。

步骤3)所述的数据集X包含有S个样本,每个样本的属性由影响公交车服务水平的因素所对应的属性值组成。

步骤3)所述的归一化预处理是采用下式:

其中p是欲归一化的样本数据,Pn是归一化后的值,pmax和pmin是样本数据中的最大和最小值,从而把样本数据转化为0~1之间的数据。

步骤6)所述的生成一个分类决策树t,包括:

(1)对新数据集X*的数据递归分割成不同子类,即一个父节点分裂为两个子节点,分别将每子节点作为父节点继续各分裂为两个子节点,依次进行,在分裂的过程中对每个分裂出来的子节点进行赋值,赋值准则为:该子节点的分裂值为新数据集X*样本数据的数值的中位数;

(2)当一个父节点分裂完成后,对其它节点按照第(1)步的分裂原则继续进行分裂,直到:当前节点中的样本点同属一类无法继续划分或当前节点只包含一个样本点,裂完成,生成分类决策树t。

步骤9)包括:

(1)计算基尼重要性值,在节点分裂过程中,用基尼系数来衡量各节点的样本纯度,基尼系数定义如下式:

;=1-∑cp(c)2

其中,p(c)为该节点中属于类别c的样本所占的比例;

(2)选择最优分裂节点的特征向量属性,使子节点的样本纯度高于父节点的样本纯度,样本的不纯度的下降值由如下公式得到:

△i=iparent-(pleft·ileft+pright·iright)

其中,pleft和pright分别为一个父节点分裂成的两个子节点中新数据集X*包含的样本所占的比例,iparent、ileft和iright分别为父节点和分裂成的两个子节点的基尼系数;

(3)任取一个特征向量属性Xi,对森林中的所有选择该特征向量属性Xi为分裂变量的节点,计算不纯度降低量的总合,获得特征向量属性Xi的基尼重要性值△I,如下公:

△I=∑e△ie

E表示选择特征向量属性Xi为分裂变量节点的个数。

步骤10)包括:所述的计算置换重要性值,包括:

(1)通过随机森林T中的每棵分类决策树t对样本计算预测准确率At,

At=Nr/N

其中,N为样本预测总数,Nr为记录样本被正确预测的个数,设定预测误差在±5%均为预测正确;

(2)将需要计算的变量的属性值打乱随机赋值,再次利用样本计算预测准确率

其中,N'r为本次记录样本被正确预测的个数;

(3)将预测准确率的特征向量属性Xi对随机森林T取算术平均,获得该特征向量属性Xi的置换重要性值如下式,

本发明的一种公交车服务水平可靠性预测方法,采用随机森林的预测方法,在评估可靠性的同时保证了预测的精准性。本发明的方法准确率更高,能够处理高维度数据;训练速度快,容易做成并行化方法;在预测完成后既能能给出各输入特征向量属性的重要程度,又能检测各输入特征向量属性的相关程度,为进一步选取特征向量属性进行预测提供了参考依据;并且随机森林的预测方法泛化能力强,即使很大一部分的特征遗失,仍可以维持准确度。

具体实施方式

下面结合实施例对本发明的一种公交车服务水平可靠性预测方法做出详细说明。

本发明的一种公交车服务水平可靠性预测方法,包括如下步骤:

1)选择影响公交车服务水平的因素,包括:道路交通状况、交叉口数量、天气状况、停靠站数量、公交专用道长度、港湾车站数量、公交线路运行长度、是否在高峰时段以及是否在休息日/节假日,并将所述影响公交车服务水平的因素所对应的属性值作为输入的特性向量;

2)构建公交车可靠性预测值Rj,j为当前时间段;包括:

(1)构建公交服务水平可靠性评估模型,考虑公交运行间隔可靠性指标Dj、公交准点率可靠性指标Tj和公交满载率可靠性指标Sj三个因素作为评估指标,β1、β2、β3是对应三个评估指标的权重,公交服务水平可靠性评估模型如下公式

Rj=β1Dj+β2Tj+β3Sj (1)

β1+β2+β3=1 (2)

(2)构建公交运行间隔可靠性指标Dj如下:

式中,N是在当前时间段j内总的公交车数量;pi是第i辆公交车的位置;是第i辆公交车和第i+1辆公交车的平均间距;

(3)构建公交准点率可靠性指标Tj如下:

式中,M是一条公交线路在一个运营周期内公交站点的数量;A′i,k和Ai,k分别是第i辆公交车到达公交站点k的预定时刻表和实际到达时刻;tk-1,k是公交车从公交站点k运营至公交站点k+1的理论运行时间;

(4)构建公交满载率可靠性指标Sj如下:

式中,Qi,k是第i辆公交车离开公交站点k时车内的乘客数量,其中始发站车内乘客人数为始发站上车人数,终点站车内乘客数量为0;Ci是第i辆公交车最大核定载客数量;是公交车离开公交站点k时的理论满载率;和分别是第i辆公交车在公交站点k的上车和下车人数。

3)由于衡量的指标各不相同,原始样本各个分量数值的数量级有很大的差异,所以有必要对原始样本进行适度的规范化处理,对其输入幅值重新进行合理的调整,使其变化范围大致均匀分布在某一区间。所以要将输入的特性向量数据生成数据集X,对数据集X进行归一化预处理,从而把样本数据转化为0~1之间的数据;其中,

所述的数据集X包含有S个样本,每个样本的属性由影响公交车服务水平的因素所对应的属性值组成。

所述的归一化预处理是采用下式:

其中p是欲归一化的样本数据,Pn是归一化后的值,pmax和pmin是样本数据中的最大和最小值,从而把样本数据转化为0~1之间的数据。

4)对于有S个样本数据点的样本,每次采用随机有放回抽取样本数据的方法采样S次,得到包含S个样本的训练集;剩下未被选择的样本作为测试数据,得到新数据集X*,新数据集X*包含S*个样本数据;

5)对于新数据集X*中包含的Z个特征向量,训练时随机选择其中的m个特征向量作为输入;m=Z/3,m为整数,且只进不舍;本发明实施例中,m=9/3=3。

6)生成一个分类决策树t;包括:

(1)对新数据集X*的数据递归分割成不同子类,即一个父节点分裂为两个子节点,分别将每子节点作为父节点继续各分裂为两个子节点,依次进行,在分裂的过程中对每个分裂出来的子节点进行赋值,赋值准则为:该子节点的分裂值为新数据集X*样本数据的数值的中位数;

(2)当一个父节点分裂完成后,对其它节点按照第(1)步的分裂原则继续进行分裂,直到:当前节点中的样本点同属一类无法继续划分或当前节点只包含一个样本点,裂完成,生成分类决策树t。

7)将最下层各子节点包含的训练样本值的平均值作为该节点的输出值;

8)重复步骤5)~步骤7),生长出一片森林,森林中所有树的分裂结果所得的最优赋值,就是样本的预测结果;

9)对样本的预测结果进行基尼重要性值计算;包括:

(1)计算基尼重要性值,在节点分裂过程中,用基尼系数来衡量各节点的样本纯度,基尼系数定义如下式:

i=1-∑cp(c)2 (8)

其中,p(c)为该节点中属于类别c的样本所占的比例;

(2)选择最优分裂节点的特征向量属性,使子节点的样本纯度高于父节点的样本纯度,样本的不纯度的下降值由如下公式得到:

△i=iparent-(pleft·ileft+pright·iright) (9)

其中,pleft和pright分别为一个父节点分裂成的两个子节点中新数据集X*包含的样本所占的比例,iparent、ileft和iright分别为父节点和分裂成的两个子节点的基尼系数;

(3)任取一个特征向量属性Xi,对森林中的所有选择该特征向量属性Xi为分裂变量的节点,计算不纯度降低量的总合,获得特征向量属性Xi的基尼重要性值△I,如下公:

△I=∑e△ie (10)

E表示选择特征向量属性Xi为分裂变量节点的个数。

10)计算影响公交车服务水平因素的置换重要性值;包括:

(1)通过随机森林T中的每棵分类决策树t对样本计算预测准确率At,

At=Nr/N (11)

其中,N为样本预测总数,Nr为记录样本被正确预测的个数,设定预测误差在±5%均为预测正确;

(2)将需要计算的变量的属性值打乱随机赋值,再次利用样本计算预测准确率

其中,N'r为本次记录样本被正确预测的个数;

(3)将预测准确率的特征向量属性Xi对随机森林T取算术平均,获得该特征向量属性Xi的置换重要性值如下式,

11)将得到的置换重要性值进行排序,将置换重要性值小于1的因素剔除;

12)采用下式预测未来公交车线路的可靠性:

Rj+1=f(Rj,Rj-1,Rj-2,...,Rj-w+1) (14)

式中,Rj+1是当前时间段j公交车可靠性预测值,Rj,Rj-1,Rj-2,...,Rj-w+1是前w个时段的公交车可靠性实际值,f(·)是可靠性预测函数;

13)计算公交车可靠性预测值的精度,公交车可靠性预测值是指拟合的好坏程度,即由公交车可靠性预测值与历史实际值拟合程度的优劣,公交车可靠性预测值的精度评价公式如下:

其中,Yi是历史实际值,Yi*是预测值。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1