基于近邻回归的实时公交客流预测方法与流程

文档序号:15198510发布日期:2018-08-19 02:29阅读:172来源:国知局

本发明涉及公交系统客流预测技术领域,具体地指一种基于近邻回归的实时公交客流预测方法。



背景技术:

在交通领域,大数据一直被视作缓解交通压力的技术利器。随着手机网络、全球定位系统/北斗车载导航、车联网、交通物联网的发展,交通要素的人、车、路等的信息都能够实时采集,城市交通大数据来源日益丰富。公交客流量作为一个能体现人们出行规律以及公交负载量的重要数据指标,准确有效的公交客流预测不仅为公交调度合理排班提供有力依据。

公交客流数据的显著特点是具有高度的非线性和不确定性,这种不确定性指的是客流不仅会受到天气状况、季节变化等自然条件的影响,还会受上下班高峰期和节假日等时间因素的影响,这些因素的存在都是客流预测的难点。

对于公交客流预测问题,目前的主要研究方法主要分为统计学预测方法和机器学习预测方法。主要分为如下几类:时间序列模型,历史平均模型,统计预测,神经网络和支持向量机等。传统的统计学方法如时间序列模型依赖于历史数据的质量,不能够充分考虑客流数据的不确定性,此类预测方法精度不高,可靠性低。神经网络和支持向量机等机器学习预测方法能够提高预测精度,但是模型复杂度过高,训练时间过长,参数选取困难。



技术实现要素:

本发明就是针对上述技术问题,提供提出一种基于近邻回归的实时公交客流预测方法,该方法模型简便、预测精度高以及具有良好的普适性。

为实现上述目的,本发明所设计的一种基于近邻回归的实时公交客流预测方法,其特征在于,它包括如下步骤:

步骤1:从现有的公交业务信息数据库中提取待预测公交线路的历史客流数据和实时客流数据;

步骤2:按如下方式对提取的历史客流数据和实时客流数据进行预处理;

首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据;

然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺;

最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则(3σ),对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据;

步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,该距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:

其中,dn(i)表示当前时间段i的客流量与历史时间段n的客流量的欧氏距离;

xit表示当前时间段i的客流量xi的第t个采样点的客流量,p表示当前时间段i中采样点的个数;xnt表示历史时间段n的客流量xn的第t个采样点的客流量;

步骤4:将上述步骤求出的欧氏距离从小到大进行排序,选取最小的k个欧氏距离以及所对应的时间段,根据欧氏距离大小按以下公式构建权重系数,表达式为:

其中,ωj(i)为客流量预测权重因子,j表示最小的k个欧氏距离的次序,j=1,2,…,k;

dj(i)表示当前时间段i的客流量与j所对应时间段的客流量的欧氏距离;

步骤5:对最小的k个欧氏距离所对应的历史时间段中每时间段的下一时间段的客流量xj(i)进行加权求和,得到时间段i+1的预测客流量,其预测公式为:

其中,表示对i+1时间段的预测值,即完成公交客流预测。

本发明提供一个能实时预测未来时间段内的公交客流的方法,预测结果能够为公交运营合理调度提供有力的参考依据。

本发明利用现实世界中的事物和现象都具有规律性和重现性,在相似的条件下往往会产生相似的结果的特点,首先,利用了拥有大量的历史公交客流数据的数据库,对数据进行数据预处理,利用近邻回归算法,设定模型的距离度量方式、近邻个数k以及预测公式,提出了一种基于近邻回归的实时公交客流预测方法,能够对实时客流进行准确预测。与传统方法相比,该方法是一种类似范例推理的启发式预测技术,它的模型隐含在大量历史数据中,且认为这些历史数据之前存在着潜在的关系,预测精度高,能够解决公交客流的非线性和复杂性问题,操作简便,参数依赖性小,具有良好的普适性等优点。

附图说明

图1为本发明的预测算法流程图;

图2为实例中不同k值下的模型预测误差;

图3为实例中客流原始数据与预测值的对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

本发明的一种基于近邻回归的实时公交客流预测方法,该方法应用于公交系统的短期客流预测。为了预测下一个时间段的客流,利用历史客流数据,根据设定的距离度量方式,计算匹配出历史各个时间段客流与当前时间段客流最相近的k个近邻,利用距离的倒数构建加权因子,将k个近邻的下一时间段的客流进行加权求和,得到预测的下一时间段的客流,具体详细的步骤如下:

步骤1:现有公交业务信息数据库由刷卡设备传输乘客刷卡乘车的数据信息记录,可以从数据库中提取待预测公交线路(或站点)的历史客流数据和实时客流数据;

步骤2:为了保证样本数据的质量,精准的预测模型打下基础,按如下方式对提取的历史客流数据和实时客流数据进行预处理;

首先,剔除历史客流数据和实时客流数据中乘客实际打卡一次,而公交业务信息数据库记录了多次的重复打卡记录数据(刷卡机器故障、设备传输等原因);

然后,对历史客流数据和实时客流数据中缺失的某一时间段的客流量数据,利用对应时间段的历史客流量平均值进行补缺(刷卡机器故障、设备传输等原因);

最后,将历史客流数据和实时客流数据中每个时间段的客流量数据与预设的对应时间段正常客流数据阈值范围进行对比,利用拉依达准则,对于超出正常客流数据阈值范围的时间段,采用对应时间段的客流量数据历史均值替换历史客流数据和实时客流数据中该时段的客流量数据(不正常的点可能是真实值也可能不是真实值);

步骤3:从预处理后历史客流数据中找到与当前时间段的客流数据最相近的历史时间段,当前时间段的客流数据从预处理后的实时客流数据里获取,具体方法为:采用欧式距离作为度量指标,求出当前时间段的客流量与历史客流数据中各个历史时间段客流量的距离,其中,距离最短时所对应的历史时间段为历史客流数据中与当前时间段的客流数据最相近的历史时间段,其表达式为:

其中,dn(i)表示当前时间段i的客流量与历史时间段n的客流量的欧氏距离(为了表征两向量之间的相似度,引入度量距离的方式,用于计算匹配与当前时间段最相近的历史时间段。两向量之间的距离可以反映他们之间的相似程度,距离越近相似程度越高);

xit表示当前时间段i的客流量xi的第t个采样点的客流量,p表示当前时间段i中采样点的个数;xnt表示历史时间段n的客流量xn的第t个采样点的客流量;

步骤4:将上述步骤求出的欧氏距离从小到大进行排序,选取最小的k个欧氏距离以及所对应的时间段,根据欧氏距离大小按以下公式构建权重系数,表达式为:

其中,ωj(i)为客流量预测权重因子(对于当前时间段i,赋予时间段j的权重系数),j表示最小的k个欧氏距离的次序,j=1,2,…,k;距离近的赋予大的权重因子,距离小的赋予小的权重因子;dj(i)表示当前时间段i的客流量与j所对应时间段的客流量的欧氏距离;

步骤5:对最小的k个欧氏距离所对应的历史时间段中每时间段的下一时间段的客流量xj(i)进行加权求和,得到时间段i+1的预测客流量,其预测公式为:

其中,表示对i+1时间段的预测值,即完成公交客流预测。

上述技术方案的步骤2中对应时间段正常客流数据阈值范围为[μ-3σ,μ+3σ],其中,μ表示该时间段的客流量均值,σ表示该时间段的客流量标准差。

上述技术方案的步骤4中,k值的选取,利用客流量验证集的平均绝对误差(mae)进行网格搜索,确定平均绝对误差最小时所对应的k值。

上述技术方案中,所述客流量验证集为当天实际的客流量数据。

为了验证本发明提出的算法的操作性和精确性,选取邯郸市12路公交车2017年9月10日至2017年9月21日每天5:50至20:00每十分钟的线路客流统计数据,将9月10日至9月19日的数据作为历史数据库,9月20日作为当前时间段,对9月21日的客流进行预测。

利用本发明的步骤,首先将9月10日至9月20日的数据进行预处理。总共11天的数据,每天具有85个客流数据,总共935个数据,由于没有重复和缺失数据,只需进行异常值检测,求出所有数据的均值μ为43.85,标准差σ为19.04,根据3σ原则,正常数据范围为[μ-3σ,μ+3σ],即[0,101],经过分析将其中的异常数据进行等时刻平均值替换,结果如下表:

表1历史数据的异常值及替换值

在表1中第一行,9月10日的7:10时刻的客流为102,不在[0,101]之内,因此求出9月10日至9月20日期间每天7:10时刻正常客流值的均值为75,因此用75替换102,之后的异常数据替换类推。

进行异常值的检测和替换后,所得到的数据更加可靠,利用9月20日的数据作为当前时间段,分别计算9月10日至9月19日与9月20日的欧氏距离,并从小到大进行排序,结果如下表:

表2历史数据与9月20日数据的欧氏距离及排序结果

对于k值得选取,不同的数据集选取的范围不尽相同,我们对k分别取[1,9]中的每个值,利用前k个近邻的距离构造加权因子,对k个近邻的下一时刻的客流进行加权求和,即得到9月21日的客流进行预测,利用平均绝对误差(meanabsoluteerror,mae)来分析预测的准确性,其公式为:

其中,表示对i+1时间段的第t个采样点的客流量的预测值;

xi+1t表示i+1时间段的第t个采样点的客流量的真实值;

p为采样点个数。

此处,p=85,将9月21日的预测值和真实值进行误差分析,结果见图2,由图2可知,k取4以后,误差相对稳定,因此可以取k值为大于等于4的整数。为了进一步分析预测效果,我们取k=5,对9月21日的客流进行预测,图3展示了预测值与真实值的对比效果。

从误差分析以及图3可以看出,本发明的预测算法能够准确预测9月21日的客流,对于11:50时刻的预测效果并不突出,原因是该时刻客流数据较大,容易出现异常点,在其他时刻都预测良好。

综上所述,经过理论以及实例表面,本发明提出的一种基于近邻回归的实时公交客流预测方法,能够克服传统方法对数据质量较强的依赖性以及模型复杂、参数优化困难等不足,具有简便的操作性以及普适性,能够实施预测未来时间段的公交客流。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1