基于AP-TI聚类的共享单车流量预测方法及装置与流程

文档序号:16211942发布日期:2018-12-08 07:51阅读:1124来源:国知局
基于AP-TI聚类的共享单车流量预测方法及装置与流程

本发明涉及城市计算领域,涉及一种基于近邻传播-趋势迭代聚类的共享单车流量预测方法及装置。

背景技术

共享单车是近几年新兴起的一种出行交通工具,国内外越来越多的人会选择共享单车出行。共享单车系统(bike-sharingsystem)为公众提供了使用共享单车的服务,这类服务已经在许多大城市推出,例如芝加哥,纽约,旧金山,华盛顿,巴黎,在中国也是应用广泛,例如北京、杭州。共享单车其实质是一种新型的交通工具租赁业务——单车租赁业务,与公交、地铁、出租车等公共交通一脉相承。共享单车业务主要载体为单车,由于社会节奏加快,导致私家自行车出行萎靡,越来越多的人选择出租和地铁等远距离高效的交通工具出行。基于出行的距离和人们绿色出行的心理,共享单车最大化的利用了公共交通道路的通过率,使得道路上出现的车辆拥堵问题得到一定的缓解。在单车共享系统中,人们可以非常方便地在共享单车服务区的任何站点租借或返还自行车,因此,共享单车作为私家车或出租车短途的补充,具有长远的使用价值和应用前景。

在我们方便地使用共享单车的同时,共享单车系统也存在着不利的因素影响客户的骑行体验。其中比较明显的不利因素是共享单车在服务区的各站点分布不均导致的使用不平衡问题。共享单车分配不平衡表现为一些车站车辆数过于饱和,即供大于求;一些车站车辆数过少而导致客户不能完成正常的使用步骤,即供不应求。初始的共享单车站点车辆数是相同的,但是由于共享单车服务在运营过程中,单车根据人们的需求不断地被租用、返还,导致一些车站的共享单车大都停靠在站点不被使用(单车租用<单车返还),而一些车站的车辆大都被客户借用导致存在借不到共享单车的客户(单车租用>单车返还)。为了解决这一问题,共享单车运营公司使用大型卡车运载共享单车,不断地对共享单车系统更新和恢复平衡。但是这一工作是极其繁琐的,需要做大量的工作来确定哪些车站缺少单车或哪些地方单车过多。因此解决共享单车不平衡问题,预测车站未来时间的租用车辆数和归还车辆数是非常必要的,这属于城市交通流预测问题。

城市交通出行预测问题属于城市计算问题,欧洲共享自行车系统的研究已经被广泛研究。demaio和shaheen等人引用总结这一历史,全面介绍自行车共享系统的规划和未来。midgley提供了一个骑自行车共享的完整概述。城市计算已成为研究热点。郑宇等人也做了很多工作。自行车共享系统是城市计算的重要组成部分。自行车共享系统和其他运输系统的设计已经完成了,负载均衡和循环交通预测。lin等人介绍了一个自行车共享策略设计问题,其中包括一个自行车车库存储系统和一个基于库存中心的模型。涉及设计工作的各个方面,如共享自行车系统的车站的数量和位置,自行车道的创建以及自行车出行路线的创建,而最大化是基于城市交通吞吐量和平衡和重新平衡政策发展找到了一个更好的解决方案。y.li,郑宇等人提出了一个分层预测模型来预测在未来的时间里自行车将被租用或退还的数量,这与分享自行车系统分析和出行预测的研究方法共享极其重要的参考价值,它更侧重于在自行车共享系统中的宏观交通流量而不是微型旅行目的地和持续时间。其文献中提出的预测模型首先将自行车站点采用gc和k-means进行双层聚类,然后利用基于多重相似性的推理模型来预测租借和返回的自行车数量。新的预测模型相比于不采用聚类方式的预测,在预测的准确率上有所提高。而gc或k-means聚类需要预先设置聚类的个数即k值,且聚类的效果依赖于初始中心值的选取,而初始中心值的设置具有一定的随机性,因此每次预测结果具有一定的偏差,结果不稳定。

如何解决共享单车不平衡的问题,提高共享单车系统交通流量预测精度,是本领域技术人员目前迫切解决的技术问题。



技术实现要素:

为克服上述现有技术的不足,本发明提供了一种基于近邻传播-趋势迭代聚类的共享单车流量预测方法及装置,提出了一种近邻传播-趋势迭代(ap-ti)的聚类预测模型,在基于近邻传播-趋势迭代聚类对车站进行聚类后,基于历史数据对的车辆租用情况和车站归还情况进行预测,本发明对共享单车流量的预测更为精确,解决了共享单车不平衡的问题。

为实现上述目的,本发明采用如下技术方案:

一种基于近邻传播-趋势迭代聚类的共享单车流量预测方法,包括以下步骤:

获取城市的共享单车车站信息、历史行程信息和历史气象信息;

基于近邻传播聚类方法和单车迁移趋势,对车站进行聚类;

根据历史行程信息,计算每个类簇的单车租用迁移趋势;

根据各类簇的单车租用迁移趋势和历史气象信息,基于多相似参考模型预测每个类簇未来一段时间内的共享单车租用情况。

进一步地,所述对车站进行聚类具体包括:

根据地理位置对共享单车车站信息采用近邻传播进行聚类,得到多个初始类簇;

根据历史行程数据,计算多个类簇两两之间的单车租出比例,得到迁移趋势矩阵;

基于迁移趋势矩阵和地理位置采用近邻传播进行聚类,得到新的类簇,重复计算迁移趋势矩阵,直至新的聚类结果与上一次聚类结果相同。

进一步地,所述方法还包括根据历史气象信息获取气象特征矩阵,所述矩阵行表示时间段,列表示天气。

进一步地,所述方法还包括获取时间特征矩阵,所述矩阵行表示时间,列表示工作日或休息日。

进一步地,所述方法还包括预测单车归还情况:

根据历史行程信息和聚类结果,计算每个类簇的单车归还迁移趋势;

根据各类簇的单车归还迁移趋势和历史气象信息,基于多相似参考模型预测每个类簇未来一段时间内的共享单车归还情况。

进一步地,所述多相似参考模型为:

其中,1,2,...,h表示连续的时间段;pi表示某个类簇时间段i内的租出/归还比例w(fi,ft)=λ1(i,t)×λ2(ωi,ωt)×k((pi,pt),(vi,vt)),λ1(i,t)表示时间特征,λ2(ωi,ωt)表示时间i至t之间的天气特征,k表示时间i至t之间的温度和风速特征。

进一步地,所述预测单车归还情况还包括:

根据历史行程信息和聚类结果,计算每个类簇之间的行程持续时间矩阵;

根据行程持续时间矩阵和归还迁移趋势,使用梯度提升回归树预测单车潜在归还比例。

进一步地,基于迁移趋势矩阵进行预测时,对所述矩阵采用frobenius范式进行处理。

根据本发明的第二目的,本发明还提供了一种基于近邻传播-趋势迭代聚类的共享单车流量预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。

根据本发明的第三目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的方法。

本发明的有益效果

本发明提出了近邻传播-趋势迭代(ap-ti)的聚类预测模型,基于历史数据对的车辆租用情况和车站归还情况进行预测。其核心的ap聚类与传统聚类方法相比,聚类的精度有所提高,因为gc聚类根据地理位置绘制网格,但是需要设置单元的大小和数量;k-means聚类需要设置初始聚类中心并设置k值,ap聚类不需要设置这些参数,ap聚类比gc聚类和k均值聚类更加稳定。在ap聚类的基础上,本发明还结合了历史租用趋势数据进行迭代聚类,既考虑了车站的地理位置,又考虑了历史的租用情况,在此聚类的基础上预测的车辆流动数据更符合实际,极大地提高了预测精度,有利于更加精确的实现共享单车系统的再分配问题,以解决共享单车在时间和空间上的分布不均。

并且,本发明在对单车流量进行预测时,不仅采用了历史的单车流量数据,还引入了天气因素、是否工作日的因素;并且在进行归还车辆预测时,还考虑了正在使用中的车辆潜在的归还情况,提高了预测精度,有助于辅助决策单车的投放数量。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明共享单车系统预测框架图;

图2为共享单车系统不同站点之间的车辆流入流出示意图;

图3为部分统计时段内不同时间和不同日期的平均流量;

图4为统计时段内的天气分布;

图5为统计时段内的温度和风速分布;

图6为ap-ti过程示意图;

图7为在实际数据集上对站点进行聚类的效果图;

图8为本发明的方法与其它预测方法在预测的错误率和均方根误差上的对比结果。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

名词解释:

近邻传播(affinitypropagation,简称ap)聚类是一种半监督聚类方法,ap是在数据点的相似度矩阵的基础上进行的聚类。ap聚类是发表在《science》上的一篇文章中提出来的,与以往聚类方法相比,此方法不需要预先设置聚类个数、初始类中心等参数,可以应用于大规模数据集,ap聚类对数据形成的相似矩阵的对称性没有任何要求,因此扩大了ap聚类的应用范围,但是基于一些数据信息所含的内容比较复杂,ap聚类仅仅是根据相似矩阵很难得到合理的聚类效果,因此需要一些约束条件,把ap聚类中去掉的信息重拾回来。ap聚类方法是基于数据点间的"信息传递"的一种聚类方法。ap方法是一种根据数据对象之间的相似度自动进行聚类的方法,隶属于划分聚类方法的一种。数据对象之间的相似度根据不同的场景选择不同的衡量准则,如欧式距离,随相似准则的不同,数据对象之间的相似度可能是对称的,也可能是非对称的。这些相似度组成n*n(n为数据对象的数目)的相似矩阵s,利用该矩阵进行自动迭代计算。

近邻传播聚类(ap):

ap方法在两个消息步骤之间交替以更新两个矩阵:吸引矩阵r:r(i,k)描述数据对象k适合作为数据对象i的聚类中心的程度,表示来自内部的消息;可用性矩阵a:a(i,k)描述了数据对象i对于选择数据对象k作为其聚类中心的适合性,表示从k到i的消息。所有这两个矩阵r,a被初始化为0.它可以被看作是一个对数概率表。该方法迭代通过以下步骤:首先,根据公式1迭代rt+1(i,k)如下:

然后根据公式2和公式3的迭代得到可用性信息at+1(i,k):

上述步骤是迭代的,如果这些决策在多次迭代之后保持不变,或者如果方法的执行超过设定的迭代次数,或者在几次迭代之后关于小区域中的采样点的确定保持不变,则聚类结束。

ap方法引入衰减系数λ来避免更新信息时的振荡。每条信息被设置为λ倍,其前一次迭代的更新值加上这个信息的更新值的1-λ倍。其中,衰减系数λ是0到1之间的实数。也就是第t+1,r(i,k),a(i,k),如公式4和公式5所示:

rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)(4)

at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)(5)

本实施例公开了一种基于近邻传播-趋势迭代的聚类预测共享单车系统交通流量的方法,包括以下步骤:

步骤1:获取城市的共享单车车站信息和历史行程信息;

所述车站信息包括:车站的经纬度信息。

所述历史行程信息包括:每次出行的行程持续时间,出发时间,结束时间,出发车站id,出发车站名称,出发车站纬度、经度,结束车站id,结束车站名称,结束车站纬度、经度,单车id,用户类型、单车生产日期和用户性别。提取共享单车信息:每次出行的行程持续时间,出发时间,结束时间,出发车站纬度、经度,结束车站纬度、经度。

步骤2:基于近邻传播聚类方法和单车迁移趋势,对车站进行聚类;

具体地,所述步骤2具体包括:

步骤2.1:根据地理位置对共享单车车站信息采用近邻传播进行聚类,得到多个初始类簇;

步骤2.2:根据历史行程数据,计算各类簇两两之间的租出比例,得到租出迁移趋势矩阵,对所述迁移趋势矩阵进行范数处理;

步骤2.3:基于租出迁移趋势矩阵的范数和地理位置采用近邻传播进行聚类,得到新的类簇,重复执行步骤2.2-2.3,直至新的聚类结果与上一次聚类结果相同。

近邻传播-趋势迭代(ap-ti)聚类:

(1)在ap聚类中,根据地理位置聚类,初始聚类数k0,迭代t次,通过趋势计算更新,即将自行车共享系统的所有站,使每个车站聚类在一个集群中;(2)产生趋势矩阵,其中每一个是基于每个站点的每个类别的自行车的数量的自行车租出比例;(3)趋势聚类后,根据ap聚类对趋势矩阵进行迭代,得到最终的聚类结果。具体描述如下:

①输入站点和共享单车历史行程迭代次数为t,预测时间t=0;

②聚类初始化:这里是根据车站{si}i=1地理位置使用ap聚类;

③聚类迭代:根据计算/更新

④更新聚类:利用趋势更新聚类;

⑤如果则结束,否则返回④;

⑥输出聚类

其中,范数处理采用frobenius范数、核范数、1阶范式矩阵、2阶范式矩阵、矩阵的无穷范数或其他范式。本实施例中采用frobenius范式。

矩阵a的frobenius范数定义如公式6所示:

范式处理方式还有很多种,比如:假设ai是站点i的检出趋势矩阵,例如i=1,a1是第一站点的检出趋势矩阵,每小时每班租用车辆。bi=||ai||是租用的趋势标准。

核范数:a凸级替代,如下面的等式7所示:

这里σ()函数表示非0数字。

1阶范式矩阵:m-n矩阵a的1-范数定义如公式8所示:

2阶范式矩阵:m-n矩阵a的2-范数定义如公式9所示:

2-范数也被称为矩阵的谱范数。这里eigenvalueof(aha)计算aha的特征值。

矩阵的无穷范数:m-n矩阵a的无穷范数定义如公式10所示:

步骤3:根据历史行程信息和聚类结果,获取每个类簇每个小时的单车租用和归还情况,得到每个类簇的租用迁移趋势矩阵和归还迁移趋势矩阵;

根据聚类结果可以得到每个车站的经度、纬度以及车站所属类簇;然后依据历史行程信息,可以得知每个类簇每小时的租用车辆数,以及所有类簇每个小时的租用车辆总数。用行表示时间,列表示租用车辆数量,得到每个类簇的租用迁移矩阵。

步骤4:对气象数据集进行预处理,获取该城市气象特征矩阵;

所述气象特征矩阵包括:天气,温度和风速,提取每小时天气特征值,使用0-1矩阵描述,定义四类天气(常见):晴天、雨天、雪天、雾天。矩阵行表示每小时的气象特征,矩阵列分为7列:小时戳(记录所属的小时)、晴天、雨天、雪天、雾天、温度值、风速值,如果这一小时发生这类天气则标注为1,否则为0。温度和风速我们使用数值描述,单位分别为摄氏度和英里(mph)。

步骤5:根据各类簇租出迁移趋势矩阵和气象特征矩阵,基于多相似参考模型预测每个类簇未来一段时间内的共享单车租用车辆数和租用比例;

假设1,2,...,h表示连续的时间段(本实施例时间段间隔为1小时),所述多相似参考模型所涉及的输入数据如下:

时间特征:时间特征矩阵用0-1矩阵描述,行表示时间,列分为三列:小时戳、工作日和休息日。所述时间段属于工作日时,对应的数据标注为1,否则为0。

气象特征:某个类簇各时间段内的气象特征,气象特征对于共享单车的预测具有指导意义,气象会影响到共享单车的使用情况。

租出迁移特征:p1,p2,...,ph和pt为租出迁移趋势矩阵的行,表示某个类簇各时间段内的租出比例。

多相似参考预测模型如下:

多相似函数可以用下面的公式表示:

这里w表示多相似函数,t表示历史数据的样本量,et×pt和分别表示集群间真实和预测迁出值,l是用来测量预测误差的损失函数。

多相似函数特点包括时间相似性,气候相似性和温度,风速相似性,相似函数的相似度函数等式13如下:

w(fi,ft)=λ1(i,t)×λ2(ωi,ωt)×k((pi,pt),(vi,vt))(13)

这里,i表示单车迁移起始时间戳,t表示单车迁移结束时间戳,λ1(i,t)表示时间特征,λ2(ωi,ωt)表示时间i至t之间的天气特征,k表示时间i至t之间的温度和风速特征。ω表示天气特征,我们定义四类天气特征:晴天,雨天,雪天,雾天。p表示温度特征值,v表示风速特征值。

以上步骤3-4为预测共享单车租用(checkout)的步骤。

为了预测共享单车归还,所述方法还包括:

步骤6:根据历史行程信息,获取各类簇之间的行程持续时间矩阵。

根据步骤2的聚类结果,计算每一对簇之间的行程持续时间矩阵、共享单车归还迁移趋势矩阵。所述行程持续时间矩阵,行表示每次行程记录,共四列,第一列表示该行程出发时间,第二列表示该行程结束时间,第三列表示该行程出发车站所在的类,第四列表示该行程结束车站所在的类,这里的出发时间结束时间信息包括日期(几号就用几表示)、小时、分钟。所述归还迁移趋势矩阵由若干块排列组成,每块代表一个小时内类簇之间的归还车辆数,若类簇个数为k,则每块为一个k行乘k列的矩阵,代表当前小时内类簇间的归还车辆个数,而块数由要预测的时间段决定,一块代表一个小时。

步骤7:根据行程持续时间矩阵和归还迁移趋势矩阵,使用梯度提升回归树预测单车潜在归还比例。

使用gbrt预测各类簇的单车潜在归还量,所述模型的输出是多个矩阵(每个类簇对应一个矩阵)。所述模型通过训练集来预测,测试集用来做评估。

gbrt即梯度提升回归树(gradientboostingregressiontree,gbrt)预测方法。整体交通流量用gbrt预测,gbrt的一般思想是计算一个简单的回归树序列{g1(x),g2(x),...,gr(x)},其中每个连续的树被建立来预测前面树的残差,由下列公式(15),(16)表示:

这里l是损失函数,是训练数据集。预测是通过结合决策{g1(x),g2(x),...,gr(x)}进行的,预测函数如下公式(17)所示。

g(x)=g1(x)+g2(x)+...+gr(x)(16)

在整个交通预测中,g是预测值,变量xt是对应于t时间的每个簇的归还共享单车数,这对整个共享单车预测具有重要的影响;yt是真实值,表示t时刻的整个共享单车流量。

步骤8:根据归还迁移趋势矩阵和气象特征矩阵,基于多相似参考模型预测每个类簇未来一段时间内的共享单车归还车辆数和归还比例。

此时,模型中所涉及的参数p1,p2,...,ph和pt为租出迁移趋势矩阵的行,表示某个类簇各时间段内的租出比例。

步骤6-8为预测共享单车归还(checkin)的步骤。

归还过程分为两个阶段:阶段1为根据共享单车迁移和行程间隔预测的归还,即潜在的会到达的单车车辆数(即步骤7);阶段2为根据共享单车归还历史数据预测的共享单车归还车辆(即步骤8),那么总的归还预测为两个过程的预测总和。其中,步骤7和8的顺序可以互换。

实施例二

本实施例的目的是提供一种计算装置。

一种基于近邻传播-趋势迭代聚类的共享单车流量预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的方法步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,用于指纹图谱相似度计算,该程序被处理器执行时实现实施例一中的方法步骤。

以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

实例:

下面结合附图对本发明进行详细说明:

本发明提出了一种基于近邻传播-趋势迭代的聚类预测共享单车系统的方法,应用到城市计算领域中,该方法极大程度提高了共享单车预测精度,以具体的共享单车系统数据集为例进行说明该方法。

1.)我们采用纽约2014年4月1日至9月30日的共享单车数据集。对共享单车数据集和所用到的气象特征数据集进行预处理,数据集如表1所示。

表1.数据集信息

单车数据集包含:每次出行的行程持续时间,出发时间,结束时间,出发车站id,出发车站名称,出发车站纬度、经度,结束车站id,结束车站名称,结束车站纬度、经度,单车id,用户类型、单车生产日期和用户性别。气象数据集包含:纽约天气状况,温度和风速,该天属于工作日或者休息日。我们把工作分为两个部分,租用(checkout)和归还(checkin),在预测checkout车辆比例的时候,我们提出了双层预测模型,使用ap-ti聚类方法,进行迭代,根据气象特征预测租用的车辆比例。其次,我们使用租用车辆比例,根据车辆行程持续时间和类簇之间的迁移趋势,预测潜在的归还车辆比例,然后根据归还的历史数据预测归还的车辆比例,根据气象特征预测最终的归还的车辆比例,框架图如图1。图2为共享单车系统不同站点之间的车辆流入流出示意图。气象数据和单车数据分析如下:

共享单车趋势特征:图3显示了2014年8月,不同时间和不同日期的平均整个流量。正如我们所看到的,平日的所有交通情况类似,包括早高峰时段,白天时段,晚上高峰时段和晚上时段,而周末/工作时段的情况类似,平日的整个交通量比周末/假日的交通量要大得多,而在高峰时间/旅行时间内的交通量要比其他时间段的要大得多。因此,一天中的小时和一周中的一天是整个流量预测的重要特征。

天气特征:该模型可以处理不平衡的气象分布问题。图4显示出了纽约市从4月1日至9月30日(4392小时)的天气分布,其中大部分是阳光明媚的时间,而只有2小时是雪的。如果我们在每个特殊天气类别下对数据进行分区并学习预测模型,那么会出现数据稀疏问题。天气会影响到共享单车使用,人们会选择在天气晴朗的时候骑共享单车,而雨天尤其是雪天,人们选择其他交通工具会增多,而使用共享单车会减少。

温度&风速特征:如图5所示,从4月1日到9月30日纽约市的历史温度和风速情景,许多情景在历史上并未出现,但未来可能会发生。对于那些'缺少'气象情景,我们无法单独通过分区数据来预测。温度过高或者温度过低,风速过大都会影响人们使用共享单车的行为,也会影响到我们共享单车趋势预测。

1)租用比例预测

(1)气象特征提取:假设1,2,...,h是期间t,预测跨集群的租出比例,相关租出利率p1,p2,...,ph和pt,特征f1,f2,...,fh和fh,预测模型公式19如下:

多相似函数如下面的等式20所示:

其特点包括时间相似性,气候相似性和温度,风速相似性,相似函数的相似度函数等式21如下:

w(fi,ft)=λ1(i,t)×λ2(ωi,ωt)×k((pi,vi),(pt,vt))(21)

这里,λ1(i,t)表示时间特征,λ2(ωi,ωt)表示天气特征,k表示特征:温度和风速。

2)ap-ti聚类方法

①在ap聚类中,根据物理聚类聚类,初始聚类数k0,迭代t次,通过趋势计算更新,即将自行车共享系统的所有站,使每个车站聚类在一个集群中。②产生趋势矩阵,其中每一个是基于每个站点的每个类别的自行车的数量的自行车租出比例。③趋势聚类后,根据ap聚类对趋势矩阵进行迭代,得到最终的聚类结果。图6为简单的ap-ti过程示意图,图7为在实际数据集上对站点进行聚类的效果图。

3)趋势范化

矩阵的frobenius范数:m×t矩阵a的frobenius范数定义如公式22所示:

4)整体交通流量用gbrt预测,gbrt的一般思想是计算一个简单的回归树序列{g1(x),g2(x),...,gr(x)},其中每个连续的树被建立来预测前面树的残差,由下列公式23,24表示:

这里l是损失函数,是训练数据集。预测是通过结合决策{g1(x),g2(x),...,gr(x)}进行的,预测函数如下公式25所示。

g(x)=g1(x)+g2(x)+...+gr(x)(25)

再次使用基于多相似参考模型预测两个阶段的归还单车比例,阶段一为根据共享单车迁移和行程间隔预测的归还,即潜在的会到达的单车车辆数;阶段二为根据共享单车归还历史数据预测的共享单车归还车辆数。那么总的归还预测为两个阶段总和。我们预测的未来时间段内的租用和归还比例,验证预测,并与其它预测方法比较。图8为与其它预测方法在预测的错误率和均方根误差上的简要比较结果,显示了本专利保护的预测方法的有效性。

验证度量标准:用来度量结果的度量标准是均方根对数误差(rmlse)和误差率(er)。

这里,是ci类中在t时间段的真实的租用和返还单车数,是相关的预测值。本发明的有益效果

本发明提出了近邻传播-趋势迭代(ap-ti)的聚类预测模型,基于历史数据对的车辆租用情况和车站归还情况进行预测。其核心的ap聚类与传统聚类方法相比,聚类的精度有所提高,因为gc聚类根据地理位置绘制网格,但是需要设置单元的大小和数量;k-means聚类需要设置初始聚类中心并设置k值,ap聚类不需要设置这些参数,ap聚类比gc聚类和k均值聚类更加稳定。在ap聚类的基础上,本发明还结合了历史租用趋势数据进行迭代聚类,既考虑了车站的地理位置,又考虑了历史的租用情况,在此聚类的基础上预测的车辆流动数据更符合实际,极大地提高了预测精度,有利于更加精确的实现共享单车系统的再分配问题,以解决共享单车在时间和空间上的分布不均。

并且,本发明在对单车流量进行预测时,不仅考虑了历史的单车流量数据,还考虑了天气因素、是否工作日的因素;并且在进行归还车辆预测时,还考虑了正在使用中的车辆潜在的归还情况,也有助于预测精度的提高。

本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1