基于大数据机器学习的出行方式辨识方法与流程

文档序号:16976283发布日期:2019-02-26 19:01阅读:306来源:国知局
基于大数据机器学习的出行方式辨识方法与流程

本发明属于交通信息工程及控制领域,特别是一种基于大数据机器学习的出行方式辨识方法。



背景技术:

出行方式分布预测是城市道路交通规划的一个重要环节,其目的是预测规划年限内城市居民出行对各种交通方式的利用情况。城市交通参与者的出行方式选择,在整个城市的层面上反映出不同交通方式承担的客流运送的比例。传统的交通调查常采用od调查得到,以问卷调查为主的od调查,具有工作量大,调查范围受到工作能力的限制的问题。od调查数据获取周期长,数据分析较为复杂且调查结果可重复性不高,因给出行方式数据获取带来了诸多的不便。

交通需求预测的基础是对规划区域的各种交通方式的分担率进行调查。城市交通主要包括公共交通出行方式如常规公交、快速公交、城市轨道交通、城市公共自行车和共享单车等,私人交通出行方式主要包括私家车、自行车等。传统的交通调查仅限于对出行方式和起讫点的调查,调查数据较为粗糙,且无法评价居民出行所占用的公共资源和环境污染等问题。

城市交通规划需要对目标年限的城市居民选择各种出行方式的出行量进行预测,既是现行交通规划“四阶段”法中的第三个步骤,交通方式划分预测。传统交通方式预测是以交通小区或者个人为单位,通过数学模型推算出城市未来各种交通出行方式的分担率,然后将各个交通小区的交通量按照不同出行方式分配至道路网。基于分担率的交通量分配,受到调查数据分布的影响,无法准确的描述道路上实际交通量。

当前的出行方式辨识主要有集计模型和非集计模型,最近有学者提出了以效用函数或者神经网络的方法进行交通方式划分,但是这些方法都依赖于大量的数据调查工作,从交通特性,用户群体特征或者城市交通结构组成、城市交通方式组成等方面,建立组合模型;仅适用于宏观的出行方式分担率分析,在对个人为单位进行分析时,并不适用。



技术实现要素:

本发明的目的在于提供一种基于大数据机器学习的出行方式辨识方法。

实现本发明目的的技术解决方案为:一种基于大数据机器学习的出行方式辨识方法,其特征在于,包括如下步骤:

步骤1,数据收集准备:在调查区域内按照3‰-10‰的抽样率随机抽取训练样本调查对象,对每个调查对象分别发放加速度检测装置,登记个人信息并进行匿名处理;

步骤2,出行特征数据采集:数据采集包含手机信令数据和加速度检测装置检测数据,出行特征数据包括gps定位、速度、时间、加速度和出行方式,其中,gps数据、时间数据均来自手机信令数据,速度、加速度和出行方式数据来自加速度检测装置检测数据;

步骤3,数据预处理:对步骤2所获取的速度和加速度数据分别进行速度和加速度的波动特性分析,得到描述数据波动的特征参数,包括时间周期t内速度数据完整波动次数和加速度数据完整波动次数n,对应于第i个速度数据波动内的速度峰值、谷值、波长、平均值和对应于第i个加速度数据波动内的加速度峰值、谷值、波长、平均值共计10个参数集,作为机器学习算法输入参数集,对步骤2中的出行方式进行分类,建立出行方式集;

步骤4,机器学习算法训练:采用支持向量机、bp神经网络和随机森林三种算法分别进行出行方式辨识设计,步骤3中的输入参数集中抽取80%数据作为输入数据集,其对应的出行方式集作为输出集,训练机器学习算法,用剩余20%数据检测各个算法预测精度;

步骤5,机器学习算法应用:若步骤4中的算法训练达到80%以上的预测精度,则利用该算法进行出行方式划分,所述步骤4中的输入数据集设置为所述步骤3速度加速度特征数据集,算法输出值即为出行方式。

进一步的,步骤1中在调查区域内按照5‰的抽样率随机抽取训练样本调查对象。

进一步的,所述支持向量机选用多项式核函数,bp神经网络选取10-p-1网络,p≥10,随机森林在训练层次上构建多个决策树,并使用每棵树预测该类出行方式,并将最终的出行方式作为单独预测类的模式。

进一步的,步骤4中bp神经网络选取10-21-1网络。

本发明与现有技术相比,其显著优点为:

(1)本发明根据交通规划过程中所需的数据,以手机通信所产生的gps数据为基础,针对od调查周期长、成本高的缺点,提出基于机器学习的出行方式预测算法,解决了数据手机和处理困难的问题;

(2)本发明根据gps数据分析居民出行特征数据的算法,不受交通小区的限制,且可以分析居民出行完整出行链,可更好的考量道路资源的利用率;

(3)本发明提出的基于大数据机器学习算法的城市居民出行方式预测方法,突破了传统交通小区为单位进行预测的理念,新的算法具有数据量大,根据实际需求可调整量大等的优点;

(4)本发明为严格的非集计模型,以个人为单位对出行特征进行分析,充分考虑了路网组成的复杂性,且对出行方式分类更加细致,训练机器学习算法是一个一次性过程,一次性调查数据量大,后续数据处理工作量小,数据手机可重复性强。

附图说明

图1为本发明基于大数据机器学习的出行方式辨识方法流程图。

图2为加速度数据与手机信令数据对比图。

图3为数据波动特征主要参数说明图。

图4为基于机器学习的出行方式辨识主要步骤示意图。

图5为出行方式辨识方法误差曲线图。

具体实施方式

如图1所示,本发明基于大数据机器学习的出行方式辨识方法,包括如下步骤:

步骤1,数据收集准备:为完成对出行方式的辨识,在调查区域内按照5‰的抽样率随机抽取训练样本调查对象,对每个调查对象分别发放加速度检测装置并登记个人信息并进行匿名处理;

所述调查对象是指被调查区域内居民和常住人口按照5‰抽样率抽样所得的居民总称,所述加速度检测装置是可以检测加速度方向和手动输入出行方式的装置;

进行数据收集准备,利用加速度检测器代替现有的od问卷调查,可获得更长时间维度的出行数据,保障交通规划基础数据准确性。

步骤2,出行特征数据采集:数据采集主要包含两个部分,手机信令数据和加速度检测器检测数据,出行特征数据包括gps定位、速度、时间、加速度和出行方式5个组成部分,其中,gps数据、时间数据均来自手机信令数据,速度、加速度和出行方式数据来自加速度检测装置数据;

所述手机信令数据是通信运营商提供的手机使用者手机gps及通讯操作的加密数据;

提出基于手机信令数据和加速度检测装置所获取数据融合分析的方法,扩展了数据的来源,有利于相互验证所获取的数据的准确性。

步骤3,数据预处理:对步骤2所获取的速度和加速度数据分别进行波动特性分析,波动特性分析目的在于找出描述数据波动的特征参数,包括时间周期t内速度数据完整波动次数n,对应于第i个速度数据波动内的速度峰值、谷值、波长、平均值和对应于第i个加速度数据波动内的加速度峰值、谷值、波长、平均值共计10个参数集,作为机器学习算法输入参数集,对步骤2中的出行方式进行分类,建立出行方式集;

步骤4,机器学习算法训练:本发明采用支持向量机、bp神经网络和随机森林三种算法分别进行出行方式辨识设计,所述支持向量机选用多项式核函数,bp神经网络选取10-21-1网络,随机森林在训练层次上构建了多个决策树,并使用每棵树预测了该类,并将最终的类作为单独预测类的模式,所述步骤3中的输入参数集中抽取80%数据作为输入数据集,其对应的出行方式集作为输出集,训练机器学习算法,用剩余20%数据检测各个算法预测精度;

运用多种机器学习算法可以预测精度,并对所述步骤3中按照波动特征描述速度和加速度数据的可靠性。

步骤5,机器学习算法应用:若步骤4中的算法训练达到80%以上的预测精度,则利用该算法进行出行方式划分,即进行出行方式预测,步骤4中的输入数据集设置为步骤3速度加速度特征数据集,算法输出值即为出行方式。

通过训练精度达到80%的机器学习算法进行出行方式预测,使用通信运营商提供的手机信令数据即可,减少数据调查工作量,提高交通方式划分的精度。

下面结合具体实施例对本发明进行详细说明。

实施例

步骤1,以城市常驻人口为65万的区县计算分析,根据本发明的要求抽取本区内3250常住人口为研究对象,则该城市内方法加速度检测装置3250个,连续采集15天的数据作为本区县的交通方式划分基础数据,登记此3250人的信息,进行匿名加密处理,并结合通信运营商提供的15天内的手机信令数据,累计共采集百万组数据,采用等深分箱法选取数据,实现数据的一致性,所获取数据如图2所示。

步骤2,数据采集主要包括手机信令数据和加速度检测器检测数据,手机信令数据如表1所示。

表1手机信令数据表

步骤3,分析手机信令数据中,通过基站编号和小区数据分析出行者的od信息;通过事件信息分析出行目的。利用手机信令数据和加速度装置数据进行出行方式划分,主要步骤如下:

通过地理信息数据计算统计数据点速度,如下式所示:

式中:lngt1为t1时刻位置的经度数值;latt1为t1时刻位置纬度数值;lt为t1时刻至t2时刻空间距离变化数值;vt为t1时刻至t2时刻速度数值。

通过速度信息计算出行者加速度变化,公式如式(3)所示:

式中:at为t1时刻至t2时刻加速度数值;

基于波动特性的速度加速度时间序列特性计算,各种交通方式的速度、加速度数据具有连续波动特性,速度加速度序列由多个起伏的波动构成,将每一个由局部极小值增大到极大值,再由极大值减小到下一个局部极小值的过程定义为一个波动过程。计算第i个波动过程中的平均速度时间ti、平均加速度速度最大值vmax,速度最小值vmin,加速度最大值amax,加速度最小值amin,整个波动过程中的速度平均值波动特征分析如图3所示。

计算出行数据矩阵d如式4所示。

步骤4,基于支持向量机和人工神经网络模型预测出行方式分布预测。支持向量机是一种线性的两类分类器算法,对于一类只有两个结果(记为+1和-1),案例yk是分类标签,向量x是参数xk的集合,支持向量机分类器算法点积函数由下列函数定义,如式(6)(7)所示。

f(x)=wtx+b(6)

向量w为权重向量,b为偏置。对于案例中给定的点xk,f(xk)=0构成一个超平面。该超平面将空间分成两个区域,以将数据分离成两个类。最接近超平面的点被称为“支持向量”。将间隔定义为m/||w||,其中m为决策面沿w方向到与其最近的训练样本距离。可以看出,将间隔最大化等价于最小化||w||,这样目标便可归结为求解如下的有约束二次规划问题。

借助于核函数,线性分类可扩展到非线性分类问题。出行分布预测是典型非线性分类问题,本发明采用“一对多”(one-against-all)方法非线性分类。“一对多”法每个分类过程仍然解两类分类问题,本发明共有私家车、地铁、公交车和自行车4种出行方式,第一次就把类别私家车的样本定为正样本,其余3类样本合并定为负样本,得到两类分类器,直接得出第一类分类问题结果。依次循环,最终实现非线性多分类的目的。“一对多”优点是优化问题的规模比较小,针对该4类问题分类速度较快。

出行路径分布预测原始数据集每条数据有10个特征,分别为速度、速度峰值、速度谷值、平均速度、加速度、加速度峰值、谷值和平均加速度。其中有速度是连续值,剩余9个值是离散值。本发明首先处理数据集,将连续值特征离散化,将有9个类别的离散特征转化为9个二进制特征。原始数据采用one-hot方式,以10位梯度,将9个特征值扩展为10个维度,具体标准为:特征值落在0-10之间为第一维度,依次类推,90-100为第10维度。

bp神经网络是一种通过输入输出变量的学习,找出其之间的对应映射关系方法。bp网络一般采取最速下降法作为其学习规则,通过误差的反向传播不断调整该网络中的权值或者限值,最终目的是最小化误差的平方和。本发明选用3层bp神经网络出行方式分布预测,将跟踪调查的3250名用户的数据作为测试集,随机抽取数据作为训练集,剩余数据做预测集,训练并验证bp神经网络预测精度。

调查数据中采用不同交通方式出行人群数目不一致,采用等比抽样和等数目抽样两种抽样方式抽取学习样本,剩余的数据作为检验数据集。相等数目的选择确保所有的交通出行方式都在训练数据集同样表示,该算法缺乏对在测试数据集中的最频繁出现的模式足够的培训。相反,相等比例的选择确定进行训练的测试数据集成比例地进行,但该模式没有在训练数据集同样表示。这种变异可能会影响预测结果。数据集建立过程如下图4所示。

步骤5,机器学习算法应用:步骤4中的算法训练达到80%以上的预测精度,如图5所示,可利用该算法进行出行方式划分,即进行出行方式预测,步骤4中的输入数据集设置为步骤3速度加速度特征数据集,算法输出值即为出行方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1