大数据方法驱动的停车需求预测方法与流程

文档序号:19636268发布日期:2020-01-07 12:02阅读:439来源:国知局
大数据方法驱动的停车需求预测方法与流程

本发明涉及城市交通和停车规划技术领域,尤其涉及一种大数据方法驱动的停车需求预测方法。



背景技术:

随着人民生活水平的提高,国内私家车保有量迅速增长,而与之配套建设的停车服务设施发展规划水平尚未同步,当前各个城市的停车规划方案仍有许多不足,进而导致城市中在部分时段和部分区域出现“停车难”的问题,极大的影响了机动车出行者的出行便利性,同时随着停车难度的提高,“停车乱”现象也逐渐发展为当前道路交通的一大安全隐患。

在停车规划方案的制定中,精准停车需求预测是重要的参考依据,合理的停车规划策略有利于规避城市内各区域停车资源配置中的停车资源短缺或浪费的现象发生,进而有利于促进城市道路交通系统的良性建设,对于城市综合发展具有重要意义。

传统停车调查工作需要投入大量的人力、物力和财力资源成本,同时存在着人工记录数据的操作误差。而随着计算机技术和数据采集存储技术等在交通领域的应用和发展,在交通实际运营管理中产生的大量多源异构的交通大数据尚未得到充分合理的挖掘和分析,因此,如何合理的运用多源异构交通大数据,减少传统停车调查的成本,以及快捷准确地进行城市停车需求的预测是一个亟待解决的问题。



技术实现要素:

本发明提供了一种大数据方法驱动的停车需求预测方法,以准确预测停车需求。

为了实现上述目的,本发明采取了如下技术方案。

本发明提供了一种大数据方法驱动的停车需求预测方法,包括:

采集并处理区域范围内的实际用地属性信息、浮动车od数据和停车数据;

根据统计信息网格集计数据,基于多密度聚类算法识别出区域范围内的有效停车小区和待预测停车小区;

根据有效停车小区用地及交通数据建立贝叶斯分类器,计算待预测停车小区的高峰停车小时;

通过数据融合关联方法将有效停车小区中实际用地属性、停车数据和高峰停车小时对应的浮动车od数据输入到机器学习的支持向量机模型中建立停车需求预测模型并验证,而后对待预测停车小区进行停车需求预测。

优选地,采集并处理区域范围内的实际用地属性信息、浮动车od数据和停车数据,包括:

所述的实际用地属性信息包括:根据土地实际利用功能和特征的区别得到的用地类别;

所述的浮动车od数据包括:浮动车编号、浮动车出行起点o的经纬度、浮动车出行终点d的经纬度、浮动车出行开始时间、浮动车出行结束时间以及浮动车行程距离;

所述的停车数据包括:所有公共用地上的停车设施上的每个停车场的停车场id、经纬度坐标、高峰停车小时以及高峰停车数信息。

优选地,处理区域范围内的实际用地属性信息、浮动车od数据和停车数据,包括:

整合所述浮动车od数据和停车数据,筛除所述区域经纬度区间范围以外的数据,并删除数据格式不正确或为空值的数据,将整合所述浮动车od数据得到的再生数据中实际行程时间小于零和行程速度大于一定阈值的数据进行删除。

优选地,实际用地属性信息包括:居民区用地、行政办公用地、教育科研用地、商业娱乐用地和其他用地。

优选地,根据统计信息网格集计数据,基于多密度聚类算法识别出区域范围内的有效停车小区和待预测停车小区,包括:

根据均匀统计信息网格剖分技术对所述区域进行划分,统计每个网格内的od数据及高峰停车数;

分别计算不同网格模型边长条件下,高峰停车数与o点数目、高峰停车数与d点数目的相关系数ro和rd;

设置均匀网格边长,作为停车小区识别网格的单元搜索边长;

根据多密度聚类算法将所述区域内空间位置相邻且交通出行强度在相同阈值区间的网格聚合成同一停车小区;

集计各停车小区内浮动车od数据、停车调查数据,将数据缺失或不足的小区作为待预测停车小区,数据完整的小区作为有效停车小区。

优选地,根据有效停车小区用地及交通数据建立贝叶斯分类器,计算待预测停车小区的高峰停车小时,包括:

基于有效停车小区样本中的用地属性信息及高峰停车小时信息建立贝叶斯分类器,根据待预测停车小区用地属性对高峰停车小时进行预测。

优选地,通过数据融合关联方法将有效停车小区中实际用地属性、停车数据和高峰停车小时对应的浮动车od数据输入到机器学习的支持向量机模型中建立停车需求预测模型并验证,而后对待预测停车小区进行停车需求预测,包括:

依据停车调查数据、用地属性信息和浮动车od数据的空间分布特征进行多源数据融合关联,按照实际用地属性信息确定每个有效停车小区不同类别用地上的高峰停车数、o点数目和d点数目;

根据所述有效停车小区对应高峰停车小时的高峰停车数、o点数目和d点数目,通过机器学习的支持向量机模型方法建立有效停车小区内od数据与停车需求之间的关联,通过交叉检验的方法计算得到模型惩罚参数和核函数参数,经验证得到停车需求预测模型,包括:将有效停车小区样本随机分为训练集和检验集,通过训练集数据建立待验证停车需求预测模型,用于对检验集的停车需求进行计算,将计算结果与实际的停车需求进行对比,当相对误差低于一定阈值,则将所述待验证停车需求预测模型作为验证好的停车需求预测模型,进而完成对待预测停车小区停车需求的预测。

由上述本发明提供的技术方案可以看出,本发明实施例的大数据方法驱动的停车需求预测方法,基于od数据与停车需求间的强相关性,通过多密度聚类的方法确定停车小区,基于贝叶斯分类器模型确定待预测停车小区对应的高峰停车小时,基于支持向量机模型得到停车需求预测模型,计算各待预测停车小区的停车需求,对停车规划方案的提出具有指导价值;该方法降低了传统停车调查的所需要的大规模覆盖全域的要求,既节省了人力、物力和财力,也在一定程度上减少了人工记录数据所造成的误差;具有计算迅速快捷和预测结果准确的优点,为停车规划、停车资源配置等停车问题的解决提供了参考和技术支持。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种大数据方法驱动的停车需求预测方法流程图;

图2为根据沧州市区的实际用地属性信息对研究区域内的用地进行类别划分示意图;

图3为根据停车规划区内土地类型集计od数据的概念示意图;

图4为通过多尺度均匀网格模型下高峰停车需求与o点数目和d点数目的相关性分析图;

图5为基于多密度聚类划分的所有待预测或有效停车小区空间分布图;

图6为本发明提出的停车需求预测模型与其他预测方法计算结果准确性对比柱形图;

图7为对区域范围内待预测停车小区高峰停车小时及停车需求预测图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明。

实施例

图1为本实施例的一种大数据方法驱动的停车需求预测方法流程图,参照图1,该方法包括:

s1采集并处理区域范围内的实际用地属性信息、浮动车od数据和停车数据。

实际用地属性信息包括:根据土地实际利用功能和特征的区别得到的用地类别,示意性地,图2为根据沧州市区的实际用地属性信息对研究区域内的用地进行类别划分示意图,参照图2,实际用地属性信息包括:居民区用地、行政办公用地、教育科研用地、商业娱乐用地和其他用地五类进行划分。

浮动车od数据包括:浮动车编号、浮动车出行起点o的经纬度、浮动车出行终点d的经纬度、浮动车出行开始时间、浮动车出行结束时间以及浮动车行程距离;

停车数据包括:所有公共用地上的停车设施上每个停车场的停车场id、经纬度坐标以及高峰停车数信息。示意性地,此处所述的高峰停车数指停车场全天内的最大停车数,高峰停车时刻指停车场全天内达到最大停车数对应的时刻。

调查该区域内所有公共用地上的停车设施,包括占道停车设施、独立公共停车设施和配建公共停车设施。

整合浮动车od数据和停车数据,筛除区域经纬度区间范围以外的数据,并删除数据格式不正确或为空值的数据。

对浮动车od数据进行数据整理及挖掘,将整合所述浮动车od数据得到的再生数据中实际行程时间小于零和行程速度大于一定阈值的数据进行删除。

统计浮动车ci数据中的开始时间toi、结束时间tdi以及行程距离li可以计算行程时间和行程速度,假设行程时间为ti、行程速度为vi,则ti=tdi-toi,vi=li/ti。

根据上述步骤中计算出的再生数据,将实际行程时间小于零或行程速度过大的数据定义为异常值,删除行程时间ti≤0min的数据;删除行程速度vi≥100km/h的数据。

本领域技术人员应能理解上述行程时间ti、行程速度vi的阈值数值仅为举例,其他现有的或今后可能出现的行程时间ti、行程速度vi的阈值数值如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

s2根据统计信息网格集计数据,基于多密度聚类算法识别出区域范围内的有效停车小区和待预测停车小区。

具体包括:

s21根据统计信息网格模型划分研究区域,统计每个网格内的od数据及高峰停车数;

s22分别计算不同网格模型边长条件下,高峰停车数与o点数目、高峰停车数与d点数目的相关系数ro和rd,图4为通过多尺度均匀网格模型下高峰停车需求与o点数目和d点数目的相关性分析图;

s23设置均匀网格模型的边长,作为停车小区识别网格模型的单元搜索边长。由于通过相关文献得知,1/2的停车场服务半径在100m以内,而大约3/4的停车场服务半径在200m以内。为保证停车场及其服务范围的完整性,所划分的停车小区边长不宜小于200m,考虑到停车小区由多个空间相邻且出行强度相近的网格聚合而成,优选设置均匀网格模型边长为100m作为停车小区识别网格模型的单元搜索边长。

根据多密度聚类算法识别出该区域内不同停车需求强度的各小区作为该区域范围内的停车小区m。基于改进的可设置多密度阈值条件的密度聚类算法(density-basedspatialclusteringofapplicationswithnoise,dbscan)作为划分停车小区的指导原则。示意性地,图5为基于多密度聚类所识别的停车小区空间分布图,参照图5,圆圈代表分布在研究区域中的停车场信息,圆心代表停车场坐标,半径的相对大小表示停车场规模情况。

多密度聚类算法中涉及的变量定义以及算法的具体描述如下:

ε邻域:基于给定对象搜索半径为ε内的区域称为该点的ε邻域;

minpts:给定对象在ε邻域内成为核心对象的最小阈值;

核心对象p:如果对象o的ε邻域内密度值不小于minpts,则该对象是核心对象p,相邻且满足同一密度阈值条件的核心对象聚合成一个簇;

边界点q:如果对象o的ε邻域内密度值小于minpts,且该对象与某一核心对象p相邻,则将其纳入簇中并定义为边界点q;

密度连通:同一个密度可达的数据集合中的所有数据对象,称作是相互密度连通;

噪声对象:不属于任何直接密度可达的类的数据对象称为噪声对象;

与初始的密度聚类中所设置的数据对象为空间中的点不同,本实施例应用的密度聚类结合了网格聚类算法统计信息网格模型(statisticalinformationgrid,sting)的数据对象形式,将输入对象的空间区域划分成等边距的矩形单元,以保证识别停车小区目标可行性和计算效率。具体聚类算法步骤如下:

step1:将该区域按照一定边长的网格模型进行分割,将输入对象设置为矩形单元格式,统计每个对象o的ε邻域内密度值并按密度由大到小排序得到对象集合

step2:i=0,设置初始密度阈值minptsi,根据集合顺序依次进行聚类,对聚合形成的簇组设置编号,将簇内的对象移出对象集合更新集合为

step3:i=i+1,根据密度阈值迭代公式更新阈值条件,在不同的密度条件下聚合得到数个簇内密度等级相同,簇间密度等级不同的簇组集合直至区域范围内均聚合完成。

集计各停车小区内浮动车od数据、停车调查数据,将数据缺失或不足的小区作为待预测停车小区,数据完整的小区作为有效停车小区。

本领域技术人员应能理解上述m、ro和rd的有效样本数的阈值数值仅为举例,其他现有的或今后可能出现的有效样本数的阈值数值如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

s3根据有效停车小区用地及交通数据建立贝叶斯分类器,计算待预测停车小区的高峰停车小时

根据停车调查数据完整的有效停车小区的交通数据信息通过贝叶斯分类器确定各待预测停车小区对应的高峰停车小时,将已建立并验证后的停车需求预测模型应用于预测待预测停车小区的停车需求;

当车辆行驶到某一停车场发现没有停车位时,往往会前往相邻有空余的停车场完成停车,这个现象在高峰停车时段会更频繁发生。本发明识别划分的停车小区空间范围较小,相邻停车场在满足高峰时段的停车需求时互为补充,停车小区内各停车场的高峰停车时段存在强相关性。因此,根据有效停车小区内各个停车场的高峰停车时刻数据求平均值,计算得到该小区的高峰停车小时。选择每个停车小区各个用地类型上高峰停车小时期间的od数据用于建立停车需求预测模型.

用建立的停车需求预测模型对待预测停车小区高峰停车需求进行预测。但因为缺少待预测停车小区内完整准确的停车调查数据,难以确定小区的高峰停车小时。因此需要根据具有完整停车调查数据的有效停车小区,对待预测停车小区的高峰停车小时进行预测。不同停车小区的高峰停车时段具体在一天中的上午、中午或晚上的不同分布取决于该小区在城市中的功能定位及其用地特征。不同类型的用地所生成或吸引的交通,其出行目的存在差异性,而不同出行目的的交通需求在出行时间分布上则存在显著差别。因此本文根据每个停车小区中五类不同用地所占面积比,通过朴素贝叶斯分类器预测小区对应的高峰停车小时。

具体包括:

朴素贝叶斯分类器(thenaivebayesclassifier)是一系列以假设特征之间强相互独立下运用贝叶斯定理为基础的概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。贝叶斯分类器具体公式表示如下:

其中xi,(i=1,2,…,n)表示n个变量,即用地类型变量,每个用地类型变量在停车小区中所占面积比为特征值x1,x2,…,xn。在不同用地类型变量特征值组合条件下,计算该停车小区对应最大概率的高峰停车小时,最大概率为vmap,vj表示一个根据有限集合选取的各特征值表示的类,即高峰停车小时。根据给定的一系列具有特定类别的训练实例通过贝叶斯分类器确定具有最大概率的特征值得到对应的类别,通过构建的贝叶斯分类器可以估计类别未知的实例所属类别分布。

朴素贝叶斯分类器不但能保证良好的运算效率,也能根据新的训练数据实时更新分类器不同类别的概率值。随着城市发展,当用地强度,用地类别等条件与高峰停车小时的关系发生变化时,更新的每一组训练数据都有可能在不借助任何旧有训练数据的前提下引起分类概率值的变化。可更新的分类器保证了对规划停车小区高峰停车小时的预测能够更加贴近城市发展规律,预测结果可靠性更高。所谓“朴素”就是指样本各维特征对分类结果的影响是相互独立的,朴素贝叶斯分类器具体公式如下:

其中vnb是对应高峰停车小时类别得到的最大概率,xi(i=1,2,…,n)表示n个用地类别在停车小区所占面积比的特征值变量,vj表示一个根据有限集合选取的各特征值表示的高峰停车小时类别。根据有效停车小区建立nb分类器,预测待预测停车小区的高峰停车小时,进而选取各待预测停车小区所对应高峰停车小时的od数据,通过s4建立并检验的svm停车需求预测模型对各待预测停车小区高峰停车需求进行预测计算。

s4通过数据融合关联方法将有效停车小区中实际用地属性、停车数据和高峰停车小时对应的浮动车od数据输入到机器学习的支持向量机模型(supportvectormachine,svm)中建立停车需求预测模型并验证,而后对待预测停车小区进行停车需求预测

基于本发明中的数据融合关联方法实现用地属性信息、各停车小区内高峰停车小时对应浮动车od数据及停车数据的融合与关联,具体方法步骤如下:以多密度聚类所识别出的停车小区为研究对象,如图3所示,分别按照小区内实际用地类型进行分割,将每个停车小区分割成多个子模块,每个子模块具有用地类型相同的属性,通过从用地类型层面集计每种用地类型的od数据总和,从而得到每个停车小区内od总量以及具体分布在各类型用地上的od总和,将用地属性信息与浮动车od数据融合关联后的多维数据集合作为预测模型的解释变量结合,各个停车小区高峰停车数作为模型被解释变量,实现停车需求预测阶段前多维数据融合与关联。

根据所述的停车小区的高峰停车数、o点数目和d点数目,通过机器学习的支持向量机模型建立停车小区内解释变量集合与被解释变量之间的关联,通过交叉检验的方法计算得到模型惩罚参数和核函数参数,进而得到待验证停车需求预测模型。

具体的计算步骤包括:

基于线性分类假设初步说明训练支持向量回归(supportvectorregression,svr)的广义回归问题(thetrainingstepinageneralizedregressionproblem)建立f(x)=<ω,xi>+b,其中ω∈rn,b∈r。

支持向量机中的目标函数是最大化分类间隔,根据点到线的距离公式计算分类间隔推导得到目标函数,将其写为凸优化问题。同时考虑到训练集数据线性不可分的情况,通过引入松弛变量来求解优化问题,此时线性可分即为松弛变量均等于零的特殊情况,得到优化问题如下式(1)所示:

其中,(xi,yi)表示空间特征向量,是由停车小区总od数量、各类用地上的od数量及用地面积比对应的高峰停车需求所组成的高维度空间特征向量集合,ω是一个n维的权重向量,即{ω1,ω2,…,ωn};b是一个称为偏差的单一的数字;c是成本参数,是松弛变量;

将f(x)预测误差都小于ε设为优化问题的约束条件。基于训练集数据均线性可分的潜在假设下所实现的凸优化问题。在实际应用过程中,所面对的训练集样本更多情况下是线性不可分的,此时通过引入松弛变量来求解优化问题,此时线性可分即为松弛变量均等于零的特殊情况。

其中c是误差成本的权重参数,通过引入拉格朗日函数处理约束条件,推导出该优化问题的对偶问题,进而得到下式(2):

其中,是拉格朗日乘子,xi,x是原始特征函数,<xi,x>表示特征空间内两个函数的内积,其内积空间是一个赋范向量空间。

当训练集在原有低维度空间无法实现样本划分时,支持向量机能够通过定义核函数k(xi,xj)=φ(xi)tφ(xj)代替公式(x)中的<xi,x>,进而实现将低维度数据映射到高维度空间实现样本划分的目标,本实施例采用径向基函数(radialbasisfunction,rbf)作为核函数的形式进行计算,如下式(3)所示:

其中,σ>0,σ是rbf核函数的控制参数,k为核函数。

根据停车小区内浮动车od数据与停车需求间的映射关系构建停车需求预测模型,通过交叉检验的方法计算得到模型惩罚参数c和核函数参数,并检验模型预测准确性。

通过svm模型计算考虑用地类型条件的停车小区停车需求预测结果平均相对误差为18.06%;与其他传统停车需求预测模型结果进行对比,通过各停车小区内d点数据与高峰停车数建立一元线性回归模型和二次多项式回归模型,得到的回归结果中,利用一元线性回归模型对高峰停车数与o点数目进行拟合,r方为0.80,平均相对误差为50.65%;利用二次多项式回归模型对高峰停车数与o点数目进行拟合,r方为0.82,平均相对误差是36.37%。

图6为三种不同停车需求预测模型在检验集的各个有效停车小区中预测结果相对误差柱状分布图,通过二次多项式模型预测、未考虑用地的朴素svm模型预测与svm模型预测结果相对误差相对比,由图6可知svm模型预测的准确度更高,在预测集总共20个有效停车小区中的大部分小区预测结果相对误差均为最小。同时不考虑用地类型的朴素svm模型预测结果整体上优于二次多项式模型预测结果,但在个别的有效停车小区中的预测结果并不十分理想。综合比较来看,考虑用地类型因素的svm模型预测结果在检验集中的各个有效停车小区中表现出更高的精度,预测结果可靠性更强。

同时用地类型是影响停车需求的重要因素,按照停车小区内不同用地类型分别集计浮动车od数据可以大幅地提高预测结果的准确性。

将所述研究区域对应的高峰停车数和根据用地类型集计的高峰停车小时内的o点数目、d点数目训练得到的svm模型作为停车需求预测模型。

通过多密度聚类算法对停车小区进行识别划分,停车小区由浮动车od数据驱动基于密度聚类进行识别划分,将在同一密度阈值区间并空间相邻的网格聚合为一个停车小区。根据数据融合关联方法计算各训练集中有效停车小区内高峰停车数、高峰停车小时内的od数据以及五类型用地(居住用地、行政办公、商业娱乐、科研教育、其他用地)上的od总量作为输入数据矩阵,将建立的待验证停车需求预测模型对检验集中有效停车小区的停车需求进行预测,并与实际的停车需求结果进行对比,通过调整模型参数,当平均相对误差低于一定阈值,则将所述模型作为验证好的停车需求预测模型对待预测停车小区的停车需求进行预测。

综上所述,本发明实施例在浮动车od数据驱动下,在统计信息网格的基础上通过改进的密度聚类算法识别出停车小区,集计交通要素数据,通过贝叶斯分类器计算待预测停车小区的高峰停车小时,通过机器学习svm模型建立浮动车od数据与停车需求间的关系,而后将停车需求预测模型应用于待预测停车小区的停车需求预测(如图7所示,柱状图长度代表停车需求大小,时间为该停车小区对应的高峰停车时间)。在保证了更高的预测精度的同时,减少了传统大规模停车调查所带来的人力物力资源过度消耗,减少了数据采集成本;而通过计算机记录采集的浮动车od数据信息,也在一定程度上摒除了人工记录误差,模型具有简捷准确的特点;与该小区内实际停车设施供给情况进行比较,对当前停车资源配置不足或浪费等情况展开评估分析,停车需求预测结果可为停车规划、停车资源配置、停车问题解决提供参考和技术支持。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1