基于网约车出行的轨迹数据分析与可视化方法及系统与流程

文档序号:19745049发布日期:2020-01-21 18:13阅读:1498来源:国知局
基于网约车出行的轨迹数据分析与可视化方法及系统与流程

本发明涉及到交通工具轨迹数据可视化技术领域,具体涉及一种基于网约车出行的轨迹数据分析与可视化方法及系统。



背景技术:

随着移动互联网、lbs定位、云计算的快速发展,带有定位功能的移动设备和应用程序被广泛使用,大量轨迹数据随之产生。轨迹数据可分为人类轨迹数据、动物轨迹数据、交通工具轨迹数据和自然规律轨迹数据,除具有大数据量大、实时和多样的3v特征之外,还具有时空序列性、异频采样性、数据质量较差的特征,这些特征对用于数据挖掘的软硬件设施、方法技术要求高,增加了数据的应用难度。轨迹数据表征个体或群体的移动和行为历史,为人类活动和迁移规律的挖掘提供了新的思路,被广泛应用于交通拥堵、路况预测、大众化经验路径推荐等领域,对归纳居民出行规律、优化资源配置等具有重要价值。

巨大的应用价值促进了大量与轨迹数据存储和挖掘技术相关的理论和技术研究的开展。存储、管理和快速检索大量的轨迹数据,是轨迹数据挖掘分析的关键。但轨迹数据包含个人出行轨迹,存在隐私泄露的隐患,政策法、扭曲法和加密法是当前轨迹数据隐私保护的主要策略。政策法操作简单,且容易实现,但对隐私的保护度不高;扭曲法也容易实现,隐私保护度较高,但数据有失真、存在隐私泄露的风险;加密法隐私保护度高,但对通信和计算要求高,部署复杂。

可视化技术的应用使数据挖掘结果的展示更加直观,方便对挖掘结果的归纳和总结,可视化方法分为直接可视化、聚集可视化和特征可视化。直接可视化将每条轨迹直接绘制出来,是最基础的可视化方法;聚集可视化则先将数据聚类后对所保留的重要数据进行可视化;特征聚类则需要先计算除轨迹的特征。

随着大数据技术的发展,以mapreduce模型的hadoop、spark为代表的分布式并行处理架构为大量的轨迹数据挖掘提供了新的思路,与传统挖掘技术相比,分布式并行处理架构方法具有运算速度快、处理效率高的优势。但不足之处在于,mapreduce属于底层基础技术,实施难度大,不易上手,并且对于小规模数据处理速度提升效果并不明显。对于海量数据的处理,传统数据挖掘技术的确与大数据处理技术在处理效能方面存在差距,但在中小规模数据的处理分析上,传统分析技术无论在实施难易度、技术成熟度上均具有一定优势,并且通过一定的技术方法也可满足数据处理速度的要求。

基于此,需要构建一套简单、可操作、易上手的多技术集成下的轨迹数据可视化方法,在综合考虑数据量、处理速度和挖掘技术的易用性和适用性的基础上,为中小规模轨迹数据的挖掘提供一种解决方案。



技术实现要素:

针对现有技术的不足,本发明的目的是提供一种基于网约车出行的轨迹数据分析与可视化方法及系统,该方法首先通过轨迹压缩、构建时空索引、分表存储等方式实现中等规模数据的快速检索;其次利用高级空间分析和互联网数据获取等技术实现轨迹数据的挖掘分析;再次采用可视化技术实现数据挖掘成果的直观、多样、高效展示。

为达到上述目的,本发明采用的技术方案如下:

一种基于网约车出行的轨迹数据分析与可视化方法,其关键在于包括以下步骤:

步骤1:对原始网约车轨迹数据进行数据预处理;

所述数据预处理包括数据脱敏处理过程、数据纠偏处理过程、数据压缩处理过程;

步骤2:将预处理后的网约车轨迹数据采用按天分表的方式存入对象-关系数据库,并构建时空索引;

步骤3:对存储的网约车轨迹数据采用数据分析方法进行数据挖掘,实现网约车轨迹数据的od分析、车速分析和车流量分析;

步骤4:对步骤3所得的数据挖掘结果进行可视化展示。

进一步的,所述网约车轨迹数据包括订单数据与轨迹点数据,所述订单数据包括用户id、乘客发出用车请求的位置、乘客上车位置、乘客下车位置、订单中出发点的位置坐标和地址信息、订单中到达点的位置坐标和地址信息、订单发起时间、订单结束时间;所述轨迹点数据包括用户id、位置纬度、位置经度、位置点时间、方向、水平精度因子、用户数据来源。

进一步的,所述数据纠偏处理过程的具体步骤如下:

步骤a1:数据处理,即按每间隔一定距离以及相互连通的道路交叉口处打断现状路网数据;

步骤a2:确定待确定偏移轨迹点和可确定偏移轨迹点,即以最大误差距离加道路宽度作为轨迹点缓冲区的半径,若缓冲区范围内存在多条道路,且无法通过拓扑关系确定所在路段的点为待确定偏移轨迹点,记为ei;若缓冲区范围内仅存在一条道路,或存在多条道路但通过拓扑关系可以判断归属的轨迹点为可确定偏移轨迹点,记为pi;

步骤a3:可确定偏移轨迹点pi的纠偏,即以获取的可确定偏移轨迹点pi为中心点进行缓冲区分析,缓冲区范围内如果只有一条道路,则此道路为该轨迹点所对应的实际道路;如果存在多条道路,则通过拓扑邻接关系确定该轨迹所属道路;

步骤a4:待确定偏移点ei的纠偏,即循环获取待确定偏移点ei缓冲区范围内与ei-1轨迹点所对应的路段集合ri,结合未偏移轨迹点点或步骤三确定对应道路的轨迹点pi+n对应的路段,根据拓扑关系反推得到轨迹点pi所对应道路,实现偏移轨迹点的纠正。

进一步的,所述数据压缩处理过程选用dp算法进行网约车轨迹数据的压缩,具体步骤如下:

步骤b1:直线连接一条轨迹的起点和终点,该直线作为轨迹的近似轨迹;

步骤b2:计算各轨迹点到近似轨迹的垂直欧式距离di;

步骤b3:从di中筛选出欧式距离最大的轨迹点i,若轨迹点i的欧式距离大于预先设定的阈值t,则以轨迹点i作为分割点,把整条轨迹分为两段子轨迹;

步骤b4:重复步骤b2与b3对两段子轨迹进行处理,直到各子轨迹里面的最大垂直欧式距离小于设定的距离阈值t,或各子轨迹里面仅有两个轨迹点为止;

步骤b5:由轨迹起点、终点以及分割点,构建压缩后的网约车轨迹。

进一步的,步骤2中对预处理后的网约车轨迹数据进行存储时,采用分类型存储、分表存储与按网格存储的方式,其中:

分类型存储,根据数据类型和应用的功能需求分别建立订单数据、轨迹数据和业务相关数据表;

分表存储,以天为时间间隔,采取按天分表来分散数据;

按网格存储,按一定大小的格网预先划分订单出发点和目的点,并且按天进行数据分割和存储。

进一步的,步骤2所述索引包括普通索引与空间索引,其中所述普通索引采用b-tree索引结构,所述空间索引采用gist索引结构。

进一步的,步骤3中所述数据分析方法包括核密度分析法、聚类分析法与关联分析法,其中:

所述核密度分析法的数学模型如下:

式中,f(x)表示x处的核密度估计值;r为搜索半径;n为邻域范围内的样本点数;dix为要素i与x间的距离;k为空间权重函数。

进一步的,步骤4中所述可视化展示为,在mapbox底图基础上,利用mapv可视化开源库展示空间数据。

进一步的,基于上述的网约车轨迹数据分析与可视化方法,本申请还提出了一种基于网约车出行的轨迹数据分析与可视化系统,包括数据层与系统层,所述数据层用于提供支撑系统运行所需的各种数据,所述系统层用于提供系统运行的操作界面、处理系统用户请求和系统的响应、实现系统中各种数据的操作、基于各种数据模型对数据进行基础时空统计计算以及分析结果的可视化展示;具体的:

包括数据层与系统层,所述数据层用于提供支撑系统运行所需的各种数据,所述系统层用于提供系统运行的操作界面、处理系统用户请求和系统的响应、实现系统中各种数据的操作、基于各种数据模型对数据进行基础时空统计计算以及分析结果的可视化展示;具体的:

所述数据层包括原始数据预处理模块、数据库存储模块以及检索模块,所述原始数据预处理模块用于对网约车轨迹数据进行包括数据脱敏处理过程、数据纠偏处理过程、数据压缩处理过程的数据预处理;所述数据库存储模块用于将预处理后的网约车轨迹数据采用按天分表的方式存入对象-关系数据库;所述检索模块用于构建数据索引。

进一步的,所述系统层包括数据挖掘模块与可视化模块,所述数据挖掘模块用于对存储的网约车轨迹数据采用数据分析方法进行数据挖掘,实现网约车轨迹数据的od分析、车速分析和车流量分析;所述可视化模块用于对数据挖掘结果进行可视化展示。

本发明的显著效果是:

1、方法流程简单、可靠、易操作,综合考虑了时空数据库、web前端可视化、高级空间分析、网络数据获取等多种技术,充分利用了数据压缩、时空索引、分表存储和数据清洗等手段,克服了中小规模数据挖掘中存在的数据处理效能、交互式响应时间的需求及庞杂数据的预处理等问题,为中小规模轨迹数据的挖掘提供了一套从数据预处理到最终挖掘成果可视化提供全流程处理方案;

2、相较于新型大数据技术存在的架构实施困难、功能开发难度大、硬件成本高等缺陷,本发明所述方法在实施难易度、技术成熟度上具有明显优势,且硬件成本消耗低;

3、相较于传统方法中利用数据库和arcgis等工具的时空数据挖掘技术,有效避免了单表存储记录条数过多会导致性能急剧下降,且arcgis对百万级的时空数据处理性能和可视化效率也会降低的缺陷;

4、本方法在数据库上利用开源数据库postgresql,采用分表存储机制,建立了高效时空索引;同时利用ssm(spring+springmvc+mybatis)开发框架开发后台处理功能,支持并行进程,有效提高了数据处理效率;还采用了基于mapv时空数据可视化开源库,该开源库支持大量的点、线、面等数据的高效、多样化展示,使得整套技术方案在满足存储、分析和可视化性能的基础上,大大降低了开发难度,更有利于数据挖掘的开展。

附图说明

图1是本发明的方法流程图;

图2是本发明的系统结构框图;

图3是本发明中网约车订单的热力图;

图4是本发明中网约车订单od连线示意图;

图5是本发明中网约车瞬时车速分析示意图;

图6是本发明中网约车平均车数分析示意图;

图7是本发明中网约车累积拥堵时长示意图;

图8是本发明中网约车车流量分析示意图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示,一种基于网约车出行的轨迹数据分析与可视化方法,具体步骤如下:

进入步骤1:对原始网约车轨迹数据进行数据预处理;

本实施例以2018年3月至5月网约车轨迹数据为例进行说明。所述网约车轨迹数据包括订单数据与轨迹点数据,详情如表1所示。

表1网约车轨迹数据详情表

由表1可知,网约车轨迹数据具有量大、多样、时空序列性、数据质量差、路网相关性的特征,这些特征决定了轨迹数据在挖掘过程中对软件性能、数据预处理、挖掘方法选择等方面的要求更高。

所述数据预处理包括数据脱敏处理过程、数据纠偏处理过程、数据压缩处理过程;

对于数据脱敏处理过程:

由于网约车轨迹数据隐含了用户名称、手机号码等敏感信息,为保护用户隐私,数据需利用多种隐私保护技术做脱敏处理。脱敏后的数据每个订单之间相互独立,无法定位到同一用户的所有订单数据,轨迹点数据与订单数据无法建立关联。

对于数据纠偏处理过程:

受gps传感器噪声等软硬件设备和物体遮挡等定位物理环境的影响,导致基础数据存在出发地、目的地和轨迹点与实际位置偏差的问题。本例中,把由于轨迹偏差导致轨迹超出道路范围的轨迹点称为轨迹偏差点,忽视同一条道路内的轨迹点偏差,既轨迹点偏差小,偏移后的点未超出道路宽度范围。当网约车行驶在道路上时,以某时刻产生的轨迹点为中心,以最大误差范围和道路宽度之和作为半径做缓冲区分析,在缓冲区范围内必定可以找到一条或多条道路,其中一条必定是网约车所行驶的道路。并且同一网约车相邻两轨迹点所在路段必定存在拓扑关系。

基于此,本实施例使用现状路网数据和轨迹点数据,利用缓冲区和拓扑分析,构建偏移轨迹点纠偏算法,以实现偏移轨迹点的纠正。

其具体步骤如下:

步骤a1:数据处理,按每50m间隔以及相互连通的道路交叉口(部分立体交叉口虽交叉,但未连通)处打断现状路网数据,方便后续轨迹点对应路段的识别;

步骤a2:确定待确定偏移轨迹点和可确定偏移轨迹点,即以最大误差距离加道路宽度作为轨迹点缓冲区的半径,如果此缓冲区范围内存在多条道路,并且无法通过拓扑关系确定所在路段的点为待确定偏移轨迹点,此类偏移点的集合记为ei;可确定偏移点是在缓冲区范围内仅存在一条道路,或存在多条道路但通过拓扑关系可以判断归属的轨迹点,此类轨迹点集合记为pi;

步骤a3:可确定偏移轨迹点的纠偏,即以获取的可确定偏移轨迹点pi为中心点进行缓冲区分析,缓冲区范围内如果只有一条道路,则此道路就为该轨迹点所对应的实际道路;如果存在多条道路,则通过拓扑邻接关系确定该轨迹所属道路;

步骤a4:待确定偏移点的纠偏,即循环获取待确定偏移点ei缓冲区范围内与ei-1轨迹点所对应的路段集合ri,结合未偏移轨迹点点或步骤三确定对应道路的轨迹点pi+n对应的路段,根据拓扑关系反推得到轨迹点pi所对应道路,实现偏移轨迹点的纠正。

对于所述数据压缩处理过程:

网约车的一条行程轨迹数据由大量按一定时间间隔获取的轨迹点组成,原始数据时间间隔采用秒级记录,使得源数据的数据量巨大。受限于软硬件设备和挖掘方法技术的制约,海量的轨迹数据给数据存储、数据分析和数据可视化带来挑战。如何对海量轨迹数据进行科学合理的压缩,使压缩后的数据仍保留源数据的时空特征、几何形态和运动特征就显得格外重要。

本实施例在综合考虑dp(douglaspeucker)算法、滑动窗口算法(slidewindow)、开放窗口算法(openingwindow)和语义压缩算法的压缩率、全局性、轨迹特征保留度和方法难易度基础上,选用dp算法进行网约车轨迹数据的压缩,具体步骤如下:

步骤b1:直线连接一条轨迹的起点和终点,该直线作为轨迹的近似轨迹;

步骤b2:计算各轨迹点到近似轨迹的垂直欧式距离,记位di;

步骤b3:从di中筛选出欧式距离最大的轨迹点i,若轨迹点i的欧式距离大于预先设定的阈值t,则以轨迹点i作为分割点,把整条轨迹分为两段子轨迹;

步骤b4:重复步骤b2与b3对两段子轨迹进行处理,直到各子轨迹里面的最大垂直欧式距离小于设定的距离阈值t,或各子轨迹里面仅有两个轨迹点为止;

步骤b5:由轨迹起点、终点以及分割点,构建压缩后的网约车轨迹。

步骤2:将预处理后的网约车轨迹数据采用按天分表的方式存入对象-关系数据库,并构建时空索引;

对于数据存储:

采用对象-关系数据库postgresql进行存储,主要基于以下原因:首先,postgresql支持海量数据处理,且表结构和内容易于扩展。其次,支持对空间数据的存储与管理(postgis),对于空间数据的扩展应用postgis能起到很好的业务支撑作用。最后,支持面向对象的表结构继承关系,方便大量数据的统一管理。

另外,由于网约车订单和轨迹数据量巨大,既要考虑存储结构合同,又要考虑到对数据访问效率,还要满足方便数据离线,因此本实施例采用分层降维的思路进行数据存储。也即是,进行存储时,采用分类型存储、分表存储与按网格存储的方式,其中:

分类型存储,根据数据类型和应用的功能需求分别建立订单数据、轨迹数据和业务相关数据表;

分表存储,以天为时间间隔,采取按天分表来分散数据;

按网格存储,按一定大小的格网预先划分订单出发点和目的点,并且按天进行数据分割和存储。

对于构建时空索引:

研究所用网约车轨迹数据的数据量大,势必会减缓数据库的存储和检索效率。通过分表检索、按网格检索的方式虽然一定程度的也提高了数据的检索速度,但此处通过构建时空索引的方式将更大限度的提高数据库处理能力和检索效率。

在各种索引结构中,b-tree索引结构具有定位高效、利用率高、自我平衡的优势,适用于高基数字段,定位单条或小范围数据非常高效。gist索引结构既通用搜索树(generalizedsearchtree),是postgis中推荐的地理数据索引,适用于空间数据的检索。针对普通数据字段和空间数据字段,本实施例选用b-tree索引结构和gist索引结构来快速、有目的性地存取数据库中数据对象。

步骤3:对存储的网约车轨迹数据采用数据分析方法进行数据挖掘,实现网约车轨迹数据的id分析、车速分析和车流量分析;

本例中,为挖掘订单数据、行程轨迹点数据的潜在信息和关联信息,使用核密度分析、统计分析等分析方法进行挖掘,实现了网约车轨迹数据的od分析、车速分析和车流量分析。

核密度分析将空间中任意空间点、线要素周围邻域范围作为密度计算范围,计算该要素在周围邻域中的密度,并对密度分布进行连续化模拟,以每个栅格像元的密度值反映空间要素的分布特征。核密度函数公式如下:

式中,f(x)表示x处的核密度估计值;r为搜索半径;n为邻域范围内的样本点数;dix为要素i与x间的距离;k为空间权重函数。

对于od分析:

城市资源的空间分布差异使得居民在空间上出现大量有目的流动,热门出发地和目的地一定程度上反映了居民的这种惯常性交通行为,识别居民热门来源地和目的地,分析归纳出行规律,能为路网建设、公交线路优化和运营维护提供有效的支撑。

对于车速分析:

车速是道路交通状况评价、路况改善情况评价等研究的重要参考指标,基于网约车轨迹数据对路网车速分析具有重要意义。包括瞬时车速分析、平均车速分析、累积拥堵时长分析。由于网约车出行是一种点到点的出行服务方式,以网约车作为对象分析支路的网约车拥堵时长,可在一定程度上揭示支路这种交通末梢的通行压力问题,可辅助交通网络毛细血管的精细化治理。已有研究按不同时速划分不同拥堵等级,非常畅通(大于37km/h)、畅通(30至37km/h)、轻度拥堵(23至25km/h)、中度拥堵(19至23km/h)和严重拥堵(小于19km/h)。把道路网整体平均车速小于等于25km/h定义为拥堵时段。

对于车流量分析:

所述车流量是在一定时间段内,某空间范围内通过的网约车辆总数。

步骤4:对步骤3所得的数据挖掘结果进行可视化展示。

网约车轨迹数据具有时间、坐标、速度、方向等时空属性和业务属性,可视化技术将数据的一种或多种属性转换成直观的图形或图像,便于挖掘数据中所隐含的时空规律。本实施例采用mapbox高清矢量瓦片地图作为底图,解决了本地地图向线上地图转换中数据量大,加载缓慢等技术性问题。在mapbox底图基础上,利用mapv可视化开源库来展示订单点、轨迹线、行政区划等空间数据,并且支持点密度、线数据热力图、线高亮叠加、按颜色区间展示自定义面等形式,还支持各种动画效果,适合用于大量具有时空属性的网约车轨迹数据的可视化。在可视化后,还可结合echarts技术,进行订单变化趋势、热门区域等的统计分析与展示。

在od连线的可视化时,大量的od连线导致可视化卡顿,美感度降低。为此,对落在特定区域的出发点和目的点间的连线进行聚合显示,在提高展示速度、增加展示效果美感的同时,也便于从庞杂的od连线中发现规律,从而总结出行特征。

参见附图2,根据上述的基于上述的网约车轨迹数据分析与可视化方法,本实施例还提出了一种基于网约车出行的轨迹数据分析与可视化系统,包括数据层与系统层,所述数据层用于提供支撑系统运行所需的各种数据,所述系统层用于提供系统运行的操作界面、处理系统用户请求和系统的响应、实现系统中各种数据的操作、基于各种数据模型对数据进行基础时空统计计算以及分析结果的可视化展示;具体的:

所述数据层包括原始数据预处理模块、数据库存储模块以及检索模块,所述数据预处理模块用于对网约车轨迹数据进行包括数据脱敏处理过程、数据纠偏处理过程、数据压缩处理过程的数据预处理;所述数据库存储模块用于将预处理后的网约车轨迹数据采用按天分表的方式存入对象-关系数据库;所述检索模块用于构建数据索引;

所述系统层包括数据挖掘模块与可视化模块,所述数据挖掘模块用于对存储的网约车轨迹数据采用数据分析方法进行数据挖掘,实现网约车轨迹数据的id分析、车速分析和车流量分析;所述可视化模块用于对数据挖掘结果进行可视化展示。

本系统实现了任意空间和时段的网约车订单的热力图分析和od连线分析。

(1)任意空间确定有三种方式:

方式一:根据需要选择预先设置好的区域。基于常用区域的考虑,此系统设置了各级行政区划范围为备选区域,可根据实际需要选择特定区县、街镇乡或社区村。

方式二:手绘空间范围。支持空间范围的绘制,可根据需要绘制分析所需空间范围。

方式三:本地数据上传。支持本地shp数据上传。

(2)任意时间选择。可选择任意时间点,精确到分钟,例如:时间设置为9:20-9:30,展示“订单发起时间”字段值中包含9:20-9:30的所有订单的起点分布。

(3)可视化。

方式一:热力图。借鉴纳米立方体图中大比例尺展示点位,小比例尺展示热力图,颜色亮暗代表集聚的点的多少,可用渐变色也可用不同色带,如图3所示,通过调整图例,可自定义设置分级。

方式二:od连线图。通过订单出发点和目的地的连线图来展示选定区域的客流量来源地或者目的地,如图4所示。

(二)车速分析:

车速是道路交通状况评价、路况改善情况评价等研究的重要参考指标,基于网约车轨迹数据对路网车速分析具有重要意义。实现功能如下:

(1)瞬时车速分析。实现了按热力图的形式展示各路段瞬时车速,以柱状图形式罗列出前20名车速较高的热点区,如图5所示,点击柱状图可将对应的区域缩放至地图中心,并且支持按每分钟自动播放全域的瞬时车速。

(2)平均车速分析,如图6所示。支持任意空间和时段选择,分析此空间范围内该时间段的平均车速,可进行分级设色,添加图例。

(3)累积拥堵时长,如图7所示。和其它分析一样,此处也支持区域、时间和图层色彩的自定义设置。

(三)车流量分析:

如图8所示。支持任意空间和时间,以及分级和色彩设置。

本发明首先通过轨迹压缩、构建时空索引、分表存储等方式实现中等规模数据的快速检索;其次利用高级空间分析和互联网数据获取等技术实现轨迹数据的挖掘分析;再次采用当前主流的可视化技术实现成果的直观、多样、高效展示。以获取的网约车轨迹数据作为数据源,采用构建的轨迹数据挖掘方案挖掘除了市民出行规律和特征,并能够识别热门出发点和到达点、分析轨道站点之间的联系和支路使用度等。克服了数据挖掘中存在的海量数据、数据处理效能、交互式响应时间的需求及庞杂数据的预处理等问题,为中小规模轨迹数据的挖掘提供了一套从数据预处理到最终挖掘成果可视化提供全流程处理方案。

以上对本发明所提供的技术方案进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1