一种打车需求量预测方法及装置与流程

文档序号:16001337发布日期:2018-11-20 19:29阅读:324来源:国知局

本发明涉及统计技术领域,更具体的涉及一种打车需求量预测方法及装置。



背景技术:

随着城市交通的发展,打车已经成为很多人出行的首选,很多出行服务提供商都在研究特定地点未来时间段下的打车需求量预测。

目前越来越多的出行软件支持打车需求量预测,司机通过打车需求量预测的服务,提前感知附近区域哪些地点将会有打车需求,有选择性地进行载客服务;同时出行软件在获得预测结果之后,还可以自动调配司机满足周边不同地点的打车需求。这种打车需求量预测方法,可以解决乘客在需求高峰期难打车,司机却在路上空车跑寻找乘客的问题,将给乘客和司机提供实时有效的信息,帮助司机更好地及时响应乘客的需求,缩短司机空载时间,提升乘客的出行效率。

打车需求量预测是一个关于时间序列预测的问题,当前的需求量由过去的需求量所决定,自变量和因变量是同一个变量,因此现有的技术中大多采用自回归模型。传统的自回归模型有自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)以及差分自回归移动平均模型(ARIMA),这些模型对质量良好的时间序列有比较高的预测精度。而近年来,传统的机器学习方法也越来越多地应用到打车需求量预测的算法设计中来,例如线性回归,不需要太多人工干预,能够快速建立模型并进行训练,大大提高了自动化程度。虽然自回归模型对质量良好的时间序列有比较高的预测精度,但模型有着严格的理论基础,讲究时间的平稳性,需要对时间序列进行充分分析才能判断是否适合使用此类模型,一旦数据的时间序列特性不够,模型的预测精度将明显降低。



技术实现要素:

本发明实施例提供一种打车需求量预测方法及装置,用以解决现有技术中存在打车需求量预测精度不高的问题。

本发明实施例提供一种打车需求量预测方法,包括:

将地理空间根据经度和纬度划分为设定尺寸的网格,根据通过出行软件获取待乘车的订单数据包括经度和纬度信息,确定地理空间内每个网格在设定时间内的打车需求数据;

将所述打车需求数据内包括任意一个订单数据的计时时间转换为以日期为单位的特征值;根据所述设定时间的打车需求数据,所述设定时间的前N个时间的所述打车需求数据以及所述特征值,确定所述设定时间的后一个时间的N+1个时间序列特征值;

将所述N+1个时间序列特征值输入到预测模型内,得到所述设定时间的后一个时间的打车需求数量。

优选地,所述预测模型通过下列公式确定:

其中,λ用来降低分支的收益的灵敏度,当收益小于一个阈值则剪枝,从而达到防止过拟合的目的;γ是正则化项,表示每分裂一次就减去一个视为惩罚的常数;G表示叶子结点中所有一阶导数的和;H表示叶子结点中所有二阶导数的和;GL表示左叶子结点中所有一阶导数的和;GR表示右叶子结点中所有一阶导数的和;HL表示左叶子结点中所有二阶导数的和;HR表示右叶子结点中所有二阶导数的和。

优选地,所述预测模型通过下列公式确定:

其中,x表示特征,θ表示参数,n表示特征数量,xi表示第i个特征,θi表示第i个参数,hθ(x)表示预测值。

优选地,所述设定时间的周期介于0~60分钟之间;所述N为大于零且小于10的整数。

优选地,所述以日期为单位的特征值包括周末,周内以及法定节假日。

本发明实施例还提供了一种打车需求量预测装置,包括:

第一确定单元,用于将地理空间根据经度和纬度划分为设定尺寸的网格,根据通过出行软件获取待乘车的订单数据包括经度和纬度信息,确定地理空间内每个网格在设定时间内的打车需求数据;

第二确定单元,用于将所述打车需求数据内包括任意一个订单数据的计时时间转换为以日期为单位的特征值;根据所述设定时间的打车需求数据,所述设定时间的前N个时间的所述打车需求数据以及所述特征值,确定所述设定时间的后一个时间的N+1个时间序列特征值;

得到单元,用于将所述N+1个时间序列特征值输入到预测模型内,得到所述设定时间的后一个时间的打车需求数量。

优选地,所述预测模型通过下列公式确定:

其中,λ用来降低分支的收益的灵敏度,当收益小于一个阈值则剪枝,从而达到防止过拟合的目的;γ是正则化项,表示每分裂一次就减去一个视为惩罚的常数;G表示叶子结点中所有一阶导数的和;H表示叶子结点中所有二阶导数的和;GL表示左叶子结点中所有一阶导数的和;GR表示右叶子结点中所有一阶导数的和;HL表示左叶子结点中所有二阶导数的和;HR表示右叶子结点中所有二阶导数的和。

优选地,所述预测模型通过下列公式确定:

其中,x表示特征,θ表示参数,n表示特征数量,xi表示第i个特征,θi表示第i个参数,hθ(x)表示预测值。

优选地,所述设定时间的周期介于0~60分钟之间;所述N为大于零且小于10的整数。

优选地,所述以日期为单位的特征值包括周末,周内以及法定节假日。

本发明实施例提供一种打车需求量预测方法及装置,该方法包括:将地理空间根据经度和纬度划分为设定尺寸的网格,根据通过出行软件获取待乘车的订单数据包括经度和纬度信息,确定地理空间内每个网格在设定时间内的打车需求数据;将所述打车需求数据内包括任意一个订单数据的计时时间转换为以日期为单位的特征值;根据所述设定时间的打车需求数据,所述设定时间的前N个时间的所述打车需求数据以及所述特征值,确定所述设定时间的后一个时间的N+1个时间序列特征值;将所述N+1个时间序列特征值输入到预测模型内,得到所述设定时间的后一个时间的打车需求数量。该方法通过对设定时间的打车需求数据的挖掘,得到时间序列特征值,同时将时间序列特征值结合具有高准确率的预测模型,从而可以预测到准确率比较高的打车需求量;再者,该方法中虽然打车需求量的变化看似比较复杂,但是其变化具有内在的规律,只要根据历史采集数据,进行预处理并结合具有高准确率的预测模型,则可以预测出具有高准确率的预测数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种打车需求量预测方法流程示意图;

图2为本发明实施例提供的一种打车需求量预测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示例性的示出了为本发明实施例提供的一种打车需求量预测方法流程示意图,如图1所示,该方法主要包括以下步骤。

步骤101,将地理空间根据经度和纬度划分为设定尺寸的网格,根据通过出行软件获取待乘车的订单数据包括经度和纬度信息,确定地理空间内每个网格在设定时间内的打车需求数据;

步骤102,将所述打车需求数据内包括任意一个订单数据的计时时间转换为以日期为单位的特征值;根据所述设定时间的打车需求数据,所述设定时间的前N个时间的所述打车需求数据以及所述特征值,确定所述设定时间的后一个时间的N+1个时间序列特征值;

步骤103,将所述N+1个时间序列特征值输入到预测模型内,得到所述设定时间的后一个时间的打车需求数量。

在步骤101之前,需要先进行数据采集,在实际应用中,由于设置在移动终端上的出现软件,可以记录通过移动终端订阅的打车的订单数据,因此,在本发明实施例中,通过与移动终端联接的服务器可以获取到多个移动终端上的打车订单数据。具体地,通过服务器,可以获取到设定时间段内的乘客打车的订单数据,且获取到的订单数据内包括有订单ID,乘客上车时间,乘客下次时间,上车时的位置信息,下车时的位置信息,其中,位置信息可以通过经度和纬度来确定。

需要说明的是,上述设定的时间段可以是一天,一周,甚至是一个月,在本发明实施例中,对获取乘客打车的订单数据的设定时间段不做具体的限定。

在步骤101中,由于对获取到的乘客打车的订单数据的时间不做限定,同时,由于与服务器联接的移动终端的位置并不固定,因此,获取到的乘客打车的订单数据的位置信息也没有任何限定。在本发明实施例中,为了能够提高预测打车数量的准确率,因此,需要对获取到的订单数据进行预处理。

具体地,先对获取到的订单数据进行去重处理,即将订单数据中存在具有相同订单信息的订单数据删除掉,需要说明的是,具有相同订单信息的订单数据可以根据订单数据包括的乘客上车时间,乘客下车时间,上车时的位置信息,下车时的位置信息来确定。在本发明实施例中,对确定具有相同订单信息的订单数据的确定方法不做具体的限定。

进一步地,当具有相同订单信息的订单数据删除掉之后,按照地理位置空间根据经度和纬度划分为若干个设定尺寸的网格,然后将每个网格内的订单数据以设定时间为单位进行统计,然后得到每个网格在设定时间内的打车需求数据。

需要说明的是,在上述步骤中,地理位置空间根据经度和纬度划分成的网格的尺寸可以是1km*1km,可以是2km*2km,还可以是1.5km*1.5km,在本发明实施例中,对网格的尺寸不做具体的限定;再者,设定每个网格内的订单数据以设定时间为单位进行统计,这里的设定时间介于0~60分钟之间,比如15分钟,20分钟或30分钟等,在本发明实施例中,对设定时间的具体数值不做限定。

在步骤102中,在确定每个网格在设定时间的打车需求数据之后,需要将打车需求数据内包括的订单数据,转换为需要的特征值。在本发明实施例中,需要将订单数据内的计时时间转换为以日期为单位的特征值,需要说明的是,这里的计时时间来源于订单数据内包括的乘客上车时间,乘客下车时间。由于本发明所要解决的问题是打车量预测精确度不高的问题,因此,这里的计时时间选择的乘客上车时间,通过对这个时间的确定,可以确定某个地点在某个时间段内的的乘客打车需求量信息。

举例来说,表1为多个订单数据中一条订单数据,根据上述将计时时间转换为以日期为单位的特征值的方法,从表1中选择一个计时时间,然后将该计时时间转换为特征值。

表1订单数据

表1中的计时时间都以以时间戳的格式展示,将时间戳格式的数据转换成“年-月-日时:分:秒”的格式显示。比如,开始计时时间1478263225经过格式转换之后变成2016-11-04 20:40:25;转换格式之后的时间显示格式还只是数据,由于其并不包括任何特征,因此,需要从转换成格式为2016-11-0420:40:25的数据中提取出day、hour、minute三个特征,且这三个特征的值分别为04、20、40。

具体的,有了上述时间显示格式之后,可以将上述时间显示格式与当前日历相结合,确定day的值对应的日期是否为工作日、周末、或者节假日。由于2016年11月1日到2016年11月30日,这期间并没有节假日,因此在该例子中,只做工作日与周末的区分,由此得到vacation这个特征,值分别为1(表示周末),0(表示工作日)。

当确定了以日期为单位的特征值之后,则需要根据步骤101中确定的设定时间的打车需求数据,来确定设定时间的后一个时间的时间序列特征。具体地,若步骤101中确定的是第一个设定时间的打车需求数据时,同时,也可以确定第一个设定时间之前的N个打车需求数据时,则可以根据上述N+1个打车需求数据,来确定第一个设定时间的后一个时间的N+1个时间序列特征值。比如,当前可以确定2016年11月1日0点45分钟的打车需求数据时,同时也可以确定2016年11月1日0点30分钟,2016年11月1日0点15分钟和2016年11月1日0点0分钟的打车需求数据时,可以根据上述确定的4组打车需求数据,来确定2016年11月1日1点0分的4个时间序列特征值。

需要说明的是,在本发明实施中,还包括有以小时为单元的特征值和以分钟为单位的特征值。其中,以小时为单位的特征值可以区分高峰与平峰时段,例如上班高峰期、下班高峰期,打车的需求量明显要高于平峰期;以分钟为单位的特征值可以区分是属于哪个时段的数据,可以说,当预测的粒度是分钟时,那分钟这个特征还是很重要的。例如,比如以15分钟为间隔,那分钟这个特征一能区分数据属于哪个时间段,二能体现需求量在一个小时内每隔十五分钟的变化。如果以1个小时为间隔,则不需要分钟这个特征,只需要小时这个特征。

举例来说,表2为构建的四个时间序列特征,如表2所示,序号为4的数据的时间序列特征值分别对应序号为3的数据,序号为2的数据,序号为1和序号为0的数据。具体地,序号为4的数据的第一个时间序列特征的值为2,第二个时间序列特征的值为1,第三个时间序列特征值和第四个时间序列特征值也都为1。

在实际应用中,序号为4的数据的时间序列特征有四个,而序号为3的数据的时间序列特征只有3个,依次类推,序号为1的数据的时间序列特征只有1个。在本发明实施例中,在训练时会将上述缺少的数值直接去掉,这样对训练结果影响不大。

表2四个时间序列特征数据

在步骤103中,将步骤102确定的N+1个时间序列特征值和以日期为单位的特征值输入到确定的预测模型内,则可以得到设定时间的后一个时间的打车需求数量。

需要说明的是,在本发明实施例中,提供了两个预测模型,分别为基于极端梯度提升(XGBoost)方法确定的预测模型和基于线性回归(Linear Regression)方法确定的预测模型。

其中,基于极端梯度提升方法确定的预测模型通过下列公式(1)表示:

公式(1)中,λ用来降低分支的收益的灵敏度,当收益小于一个阈值则剪枝,从而达到防止过拟合的目的;γ是正则化项,表示每分裂一次就减去一个视为惩罚的常数;G表示叶子结点中所有一阶导数的和;H表示叶子结点中所有二阶导数的和;GL表示左叶子结点中所有一阶导数的和;GR表示右叶子结点中所有一阶导数的和;HL表示左叶子结点中所有二阶导数的和;HR表示右叶子结点中所有二阶导数的和。

基于线性回归方法确定的预测模型通过下列公式(2)表示:

公式(2)中,x表示特征,θ表示参数,n表示特征数量,xi表示第i个特征,θi表示第i个参数,hθ(x)表示预测值。

综上所述,本发明实施例提供一种打车需求量预测方法及装置,该方法通过对设定时间的打车需求数据的挖掘,得到时间序列特征值,同时将时间序列特征值结合具有高准确率的预测模型,从而可以预测到准确率比较高的打车需求量;再者,该方法中虽然打车需求量的变化看似比较复杂,但是其变化具有内在的规律,只要根据历史采集数据,进行预处理并结合具有高准确率的预测模型,则可以预测出具有高准确率的预测数据。

本发明实施例中,利用真实数据测试了预测性能,其中,数据来自滴滴出行平台成都区域的全样本轨迹和订单数据,下载网址:https://outreach.didichuxing.com/research/opendata。实验设置如下:训练数据的经度范围从104.12267到104.13317,维度范围从30.65708到30.64808,时间范围从2016年11月1日到2016年11月29日总共29天,测试数据的经纬度范围与训练数据一致,时间范围从2016年11月30日8时开始,分别预测15分钟、30分钟、45分钟、60分钟后的打车需求量并计算均方根误差(RMSE)。

表1为XGBoost与LinearRegression的实验均方根误差(RMSE)对照表:

基于同一发明构思,本发明实施例提供了一种打车需求量预测装置,由于该装置解决技术问题的原理与一种打车需求量预测方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。

图2为本发明实施例提供的一种打车需求量预测装置结构示意图,如图2所示,该装置主要包括第一确定单元201,第二确定单元202和得到单元203。

第一确定单元201,用于将地理空间根据经度和纬度划分为设定尺寸的网格,根据通过出行软件获取待乘车的订单数据包括经度和纬度信息,确定地理空间内每个网格在设定时间内的打车需求数据;

第二确定单元202,用于将所述打车需求数据内包括任意一个订单数据的计时时间转换为以日期为单位的特征值;根据所述设定时间的打车需求数据,所述设定时间的前N个时间的所述打车需求数据以及所述特征值,确定所述设定时间的后一个时间的N+1个时间序列特征值;

得到单元203,用于将所述N+1个时间序列特征值输入到预测模型内,得到所述设定时间的后一个时间的打车需求数量。

进一步地,所述预测模型通过下列公式确定:

其中,λ用来降低分支的收益的灵敏度,当收益小于一个阈值则剪枝,从而达到防止过拟合的目的;γ是正则化项,表示每分裂一次就减去一个视为惩罚的常数;G表示叶子结点中所有一阶导数的和;H表示叶子结点中所有二阶导数的和;GL表示左叶子结点中所有一阶导数的和;GR表示右叶子结点中所有一阶导数的和;HL表示左叶子结点中所有二阶导数的和;HR表示右叶子结点中所有二阶导数的和。

进一步地,所述预测模型通过下列公式确定:

其中,x表示特征,θ表示参数,n表示特征数量,xi表示第i个特征,θi表示第i个参数,hθ(x)表示预测值。

进一步地,所述设定时间的周期介于0~60分钟之间;所述N为大于零且小于10的整数。

进一步地,所述以日期为单位的特征值包括周末,周内以及法定节假日。

应当理解,以上一种打车需求量预测装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种打车需求量预测装置所实现的功能与上述实施例提供的一种打车需求量预测方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1