一种基于出租车GPS数据的路段中寻客状态车辆识别方法

文档序号:28556539发布日期:2022-01-19 16:14阅读:81来源:国知局
一种基于出租车GPS数据的路段中寻客状态车辆识别方法
一种基于出租车gps数据的路段中寻客状态车辆识别方法
技术领域
1.本发明属于数据挖据技术领域,具体涉及一种基于出租车gps数据区分出路段中寻客状态的车辆,并提高车速样本质量的方法。


背景技术:

2.近年来,基于浮动车数据的智能交通成为广大关注者们的研究热点之一,期间涌现出了非常多的新技术并被研究者们运用在交通系统当中,均体现了其实际运用的价值。
3.路段速度作为众多智能交通系统的关键参数,其准确性对于智能交通系统是举足轻重的。影响到利用浮动车gps数据估算路段平均速度准确性主要关键因素之一是:路段上车辆的行驶模式有多样性,如车辆在路段中可能存在着寻客模式的车辆,即在路段中在一定时期内以低速行驶以便寻找客户的车辆。但事实上,寻客模式下的车辆速度是驾驶员有意控制的,并不能反映路段上车辆的真实速度,因此在部分应用场景下需要对寻客模式下的车辆进行剔除,仅统计正常驾驶车辆的速度。因此,为了准确的估算出包含寻客模式和不包含寻客模式的路段速度,则需要先把车辆的驾驶行为进行筛选出来。出租车的gps数据会由于硬件等因素的影响而导致数据不够准确,针对此问题,部分现有技术使用出租车轨迹点的空间距离和时间差来计算车辆速度来替代gps的车辆速度。基于车辆时速信息,可以挖掘出一些潜在的有价值的信息。但是如何筛选出路段中的寻客行为的车辆,并在样本中舍去该模式的车辆的数据,为估算出路段车速提供更高质量的样本,是目前亟待解决的技术问题。


技术实现要素:

4.本发明的目的在于解决现有技术中无法识别寻客状态车辆的技术问题,并提供一种基于出租车gps数据的路段中寻客状态车辆识别方法。
5.本发明所采用的具体技术方案如下:
6.一种基于出租车gps数据的路段中寻客状态车辆识别方法,其步骤如下:
7.s1、获取在目标区域中运行的出租车的历史行驶数据集,所述历史行驶数据集由目标区域中不同路段各自对应的路段车速子集组成,每一条路段的路段车速子集中包含不同出租车在该路段上行驶过程中的车速列表,所述车速列表由车辆的车载终端设备定时上传的瞬时车速采样点组成,且每一个瞬时车速采样点由车载终端设备同步记录有对应的车辆编号以及记录该瞬时车速采样点时的gps定位坐标和载客状态;
8.s2、对所述历史行驶数据集中的每一个路段车速子集进行预处理,剔除由车载终端设备上传异常导致的瞬时车速异常样本;
9.s3、针对每一个经s2处理后的路段车速子集,统计在该路段上行驶过程中载客状态出现由空车向有客变换的出租车辆数量,将该数量不高于设定的数量阈值的路段车速子集进行剔除;
10.s4、针对经s3处理后保留的每一个路段车速子集,计算其中每一个瞬时车速采样
点所对应的gps定位坐标与该路段中车辆前方最近一个红绿灯之间的间距,并剔除位于红绿灯前减速区间内的所有瞬时车速异常样本;
11.s5、针对经s4处理后的每一个路段车速子集,计算其中所有载客状态为空车的瞬时车速采样点平均值与所有载客状态为有客的瞬时车速采样点平均值之间的比例,将所有路段车速子集按照该比例排序后选择排序靠前的若干个作为候选路段车速子集;
12.s6、将所有候选路段车速子集中有载客状态为空车的所有瞬时车速采样点进行类簇数目为2的聚类,聚类得到的两个聚类中心进行加权求和后作为速度阈值;
13.s7、针对目标区域中每一个路段上运行的出租车,将每辆出租车在设定时间间隔内的瞬时速度与所述速度阈值进行对比,若一辆位于红绿灯前减速区间之外的出租车的载客状态为空车且瞬时速度持续小于所述速度阈值,同时在同一路段以及同一时间段内不存在其他载客状态为有客的出租车的瞬时速度持续小于所述速度阈值,则将该出租车判别为寻客车辆。
14.作为优选,所述s2中,路段车速子集中由车载终端设备上传异常导致的瞬时车速异常样本的识别方法如下:
15.s21、对于路段车速子集中每一辆出租车对应的车速列表进行遍历,若存在一个车速列表中第i个瞬时车速采样点vi为0且该采样点之后还存在连续的z-1 个0,而v
i+z
≠0,则计算该车速列表中的车速突变阈值v
gps_e
为:
[0016][0017]
式中:r
t-1
表示在瞬时车速采样点v1的前一个时刻采集的同一辆出租车的瞬时车速,z≥1;
[0018]
s22、判断v
i+z
≥v
gps_e
是否成立,若成立则将vi、v
i+z
以及两者之间的瞬时车速采样点均判定为由车载终端设备上传异常导致的瞬时车速异常样本。
[0019]
作为优选,所述的红绿灯前减速区间为红绿灯之前30~50m范围内的路段。
[0020]
作为优选,所述聚类采用k-means聚类算法。
[0021]
作为优选,所述速度阈值的计算公式为:
[0022][0023]
式中:表示第i次聚类后加权求和得到的速度阈值,和分别表示第i 次聚类后得到的两个聚类中心,其中其中和分别为和所对应的聚类类簇中的样本数量。
[0024]
作为优选,所述s6中,重复进行多次类簇数目均为2但初始聚类中心随机的聚类,每一次聚类得到的两个聚类中心进行加权求和后作为一个速度阈值,取多次聚类得到的速度阈值的均值作为最终的速度阈值。
[0025]
作为优选,所述数量阈值为0。
[0026]
作为优选,所述历史行驶数据集由安装于出租车上的车载终端设备的记录数据以
及路网地图数据融合得到。
[0027]
本发明相对于现有技术而言,具有以下有益效果:
[0028]
本发明使用出租车的车速、gps数据以及地图道路数据,通过计算出速度阈值来筛选出寻客行为的车辆和正常行驶车辆。本发明通过筛选出路段中的寻客行为的车辆,并在样本中舍去该模式的车辆的数据,为估算出路段车速提供更高质量的样本,在一定程度上可以帮助车辆行为识别的相关工作。
附图说明
[0029]
图1为寻客行为异常速度样本示例图;
[0030]
图2为历史行驶数据集的数据结构表;
[0031]
图3为两个路段上的不同车辆速度折线图。
具体实施方式
[0032]
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
[0033]
在本发明的一个较佳实施例中,提供了一种基于出租车gps数据的路段中寻客状态车辆识别方法,该方法的主要目的是从大量运行的出租车通过车载终端设备上传的行驶数据集中识别出车辆在寻客状态下的车速特点,并给予识别出的车速特点从中找出寻客状态的车辆,避免此类车辆对整条路段中车速的统计造成影响,为估算出路段车速提供更高质量的样本。
[0034]
如图1所示,为一个典型的出租车存在寻客行为时产生的异常速度样本,在非寻客状态下车辆在路段中的行驶速度往往较快,而在寻客状态下其行驶速度往往会在一段时间内被驾驶员有意控制在较低的区间。本发明正是基于这一速度特征来对出租车的寻客行为进行自动识别的。
[0035]
下面对本实施例中基于出租车gps数据的路段中寻客状态车辆识别方法的具体实现过程进行详细描述。
[0036]
s1、获取在目标区域中运行的出租车的历史行驶数据集,其中历史行驶数据集由目标区域中不同路段各自对应的路段车速子集组成,每一条路段的路段车速子集中包含不同出租车在该路段上行驶过程中的车速列表,而所谓的车速列表由车辆的车载终端设备定时上传的瞬时车速采样点组成,且每一个瞬时车速采样点由车载终端设备同步记录有对应的车辆编号以及记录该瞬时车速采样点时的 gps定位坐标和载客状态。
[0037]
在本实施例中,该历史行驶数据集是由安装于出租车上的车载终端设备的记录数据以及路网地图数据融合得到的。所谓出租车的车载终端设备是指安装于出租车上,用于向远程监控中心实时发送车辆状态信息的终端设备,其具体型号不限,需要具备gps定位功能和车辆自身方向、载客状态的监控功能。在本实施例中,出租车的车载终端设备所记录并上传的数据包含了出租车辆的编号id、经纬度坐标、上传时间等,而根据相邻经纬度坐标以及上传时间的时间差可以确定其瞬时速度。每一辆出租车的编号id是唯一的,可根据该编号id确认其对应的车牌号。对于每一辆出租车而言,其记录的轨迹点数据在时间上是连续的,一个轨迹点表示浮动车数据的一条记录,可记为tp。轨迹点对应了不同时刻的经纬度坐
标、数据上传时间、瞬时车速、载客状态,表示为:tp
data
表示该条记录的时间,tp
gps
表示记录的车辆经纬度坐标,即其经纬度信息,tp
status
表示记录车辆的载客状态,值为1表示有客,值为0表示空车,tpv表示记录车辆的瞬时速度。根据车辆记录的连续轨迹点数据,进一步结合其运行区域的路网地图数据以及每一条路段的起始点信息,可以将所有车辆的轨迹点数据按照路段进行划分。城市道路中的一段道路记为路段r,则可以按照不同车辆的轨迹点中的定位信息,确定其行驶过程中所经过的路段。出租车在经过一个路段过程中会按照固定的间隔定期上传其瞬时速度,将每一个上传的瞬时速度记为瞬时速度采样点。一辆出租车在经过一个路段ri的过程中,所上传的所有瞬时速度采样点可称为该车辆在路段ri上的车速列表。一个路段中会存在一系列的经过该路段的出租车,因此将某个路段ri中所有经过的出租车的车速列表称为路段车速子集i为路段编号。整个历史行驶数据集可以表示为所有路段的路段车速子集的集合vr,如图2所示。该历史行驶数据集的数据结构中,主键是用路段id来表示的,每一个路段id对应于一个路段车速子集,一个路段车速子集中进一步以车牌号码为次键,每一个次键下含有一个车速列表 {v1,v2,v3,...},车速列表由车辆在行驶经过该路段过程中通过车载终端设备定时上传的瞬时车速采样点vj组成。
[0038]
由于出租车的车载终端设备在上传gps等数据时,会由于硬件或者网络等因素的影响而出现数据延迟、漏报等现象,而车辆的瞬时速度实际是通过相邻两个经纬度坐标以及记录时间差计算的,因此若gps定位数据上传出现延迟,则会导致其在延迟阶段的车速被记为0,而数据延迟过程中的车辆移动路程则被叠加到了数据延迟发生后上传的第一个数据对应的瞬时车速中,导致该车速值也会出现一个异常的过大值。因此,在这种通过轨迹距离和时间差来计算瞬时速度的基础上,我们需要先对存在gps异常上传产生的瞬时速度样本进行筛选。
[0039]
s2、对上述历史行驶数据集中的每一个路段车速子集进行预处理,剔除由车载终端设备上传异常导致的瞬时车速异常样本。
[0040]
在本实施例中,路段车速子集中由车载终端设备上传异常导致的瞬时车速异常样本的识别方法如下:
[0041]
s21、对于路段车速子集中每一辆出租车对应的车速列表{v1,v2,v3,...}进行遍历,若存在一个车速列表中第i个瞬时车速采样点vi为0且该采样点之后还存在连续的z-1个0,而v
i+z
≠0,则这一串采样点可能符合因出租车gps数据上传异常所导致的故障异常,需要计算该车速列表中的车速突变阈值v
gps_e
用于后续的逻辑判断。由于出租车gps数据上传异常持续的时间不会很长,往往仅相隔几个采样点,因此车速突变阈值v
gps_e
的计算逻辑是利用车辆行驶过程中速度在短时间内的相对稳定性,进而用出现0值之前的车速来评估0值数据串之后出现的非0值车速的合理性。其中,加入车速列表第一个速度值为0时,即v1=0,速度阈值取在瞬时车速采样点v1的前一个时刻采集的同一辆出租车的瞬时车速;而当vi=0且i》=2时,车速阈值为第一个速度值为0之前的瞬时车速采样点的平均,具体计算公式为:
[0042]
[0043]
式中:r
t-1
表示在瞬时车速采样点v1的前一个时刻采集的同一辆出租车的瞬时车速,z≥1。
[0044]
s22、由于异常过大值一般为连续0值之后的第一个非0值,因此可以用该速度值来判定这一串0值后的第一个非0值v
i+z
是否为gps上传异常造成的突变值,即判断v
i+z
≥v
gps_e
是否成立,若成立则将vi、v
i+z
以及两者之间的瞬时车速采样点均判定为由车载终端设备上传异常导致的瞬时车速异常样本。
[0045]
举例而言,如下表1中的速度列表所示,其中第3条瞬时车速采样点出现了 0值,而且后续还有一个0值,而第5个瞬时车速采样点为非0值。因此,可根据公式(1)可进行计算,
[0046]vgps_e
=(32.52+31.29)/2*3=95.715《127.37,那么127.37这个速度即可判定为速度突变值,那么相应的第3~5个采样点数据都需要进行剔除。
[0047]
表1部分gps上传异常数据样本表
[0048]
车辆编号时间车辆速度(km/h)101102015-08-28 09:55:2832.52101112015-08-28 09:55:5831.29101122015-08-28 09:56:280101132015-08-28 09:56:580101142015-08-28 09:57:28127.37101152015-08-28 09:57:5833.58
[0049]
处理完历史行驶数据集中的每一个路段车速子集的每一个速度列表后,即可得到没有gps上传异常产生的样本数据的路段车速子集。
[0050]
s3、针对每一个经s2处理后的路段车速子集,统计在该路段上行驶过程中载客状态出现由空车(tp
status
=0)向有客(tp
status
=1)变换的出租车辆数量。本实施例中,对路段集合ra={r1,r2,......,rn},其对应统计得到的出现状态变化的出租车辆数量分别为基于上述统计结果m,假如某一路段中出现载客状态变化的出租车辆数量过少,则其样本没有太大的代表意义,因此可以实现设定一个数量阈值,将出现载客状态变化的出租车辆数量不高于设定的数量阈值的路段车速子集进行剔除,不参与后续的统计过程。其中,数量阈值可以根据实际情况进行选择,本实施例中可以设置数量阈值为0,即仅将完全没有出现载客状态变化的出租车的路段进行剔除,而其余路段均保留。
[0051]
当完成上述过程初步剔除后,保留了一部分存在载客状态变化车辆的路段车速子集,这些路段车速子集中含有载客状态变化的出租车样本,而这些样本可以用于寻找出租车在寻客状态下的车速特点。但是需要注意的是,出租车在行驶过程中当接近红绿灯时本身也会出现减速行为,假如这些车速样本也被纳入后续统计范围,会对统计结果造成影响,因此需要通过s4进行进一步剔除。
[0052]
s4、针对经s3处理后保留的每一个路段车速子集,计算其中每一个瞬时车速采样点所对应的gps定位坐标与该路段中车辆前方最近一个红绿灯之间的间距,并剔除位于红绿灯前减速区间内的所有瞬时车速异常样本,即剔除间距小于一个距离阈值的所有瞬时车
速异常样本。距离阈值代表了红绿灯前减速区间的范围,具体取值可以根据实际情况调整。在本实施例中,设置距离阈值为50m,即综合考虑到路口区域红绿灯等情况的影响,把车辆距离前方红绿灯路口中心点 50m以内的区域都作为红绿灯前减速区间,将车速列表中gps定位坐标位于该红绿灯前减速区间内的瞬时车速采样点数据都进行了剔除。需注意,此处的50m 以内区域需要结合路段上车辆行驶方向,车辆行驶过程中距离行驶方向的下一个红绿灯距离不足50m的才视为进入红绿灯前减速区间。
[0053]
s5、针对经s4处理后的每一个路段车速子集,计算其中所有载客状态为空车(tp
status
=0)的瞬时车速采样点平均值v
avg1
,同时计算所有载客状态为有客 (tp
status
=1)的瞬时车速采样点平均值v
avg0
,然后计算两个平均值之间的比例 sp:
[0054][0055]
sp的值越大,说明在该路段大概率出现具有寻客状态下的出租车。因此可将所有路段车速子集按照该比例排序后选择排序靠前的k个作为候选路段车速子集。k的具体取值可根据实际需要调整,一般可以选择靠前的一定百分比的路段车速子集。所有候选路段车速子集可以合并为一个集合v0中。
[0056]
s6、将所有候选路段车速子集即集合v0中有载客状态为空车的所有瞬时车速采样点进行聚类,本实施例中的聚类采用k-means聚类算法。通常来说,速度样本集合v0中包含两个部分,一部分为正常行驶的数据样本,其速度值较高,另一部分为寻客状态行驶的数据样本,其速度值较低。因此,k-means聚类算法将集合v0中的所有瞬时车速采样点分为两个类别,即设簇类数目k=2,并采用欧式距离进行计算。聚类得到的两个聚类中心即代表了上述正常行驶速度和寻客状态行驶速度。正常行驶的聚类中心和寻客状态行驶的聚类中心分别用v1和v2表示,则v1》v2。两个聚类中心进行加权求和后,即可得到一个介于v1和v2之间的速度阈值。该速度阈值表示了寻客状态下的车辆应当具有的速度,可以用于识别寻客状态的车辆。
[0057]
由于在聚类过程中,初始选择的聚类中心位置会一定程度上影响最终的聚类中心位置,因此本实施例中需重复进行多次类簇数目均为2但初始聚类中心随机的聚类,每一次聚类得到的两个聚类中心进行加权求和后作为一个速度阈值。和分别表示第i次聚类后得到的两个聚类中心,其中其中和分别为和所对应的聚类类簇中的样本数量,则第i次聚类后加权求和得到的速度阈值的计算公式为:
[0058][0059]
最终,可取多次聚类得到的速度阈值的均值作为最终的速度阈值v
fp
,进行后续的寻客车辆识别。寻客车辆识别的基本逻辑是:基于车辆实时定位的gps数据计算得到车辆实时车速样本,并从中获取一段时间间隔内的样本数据,如果车辆处于空载(tp
status
=0),且车速在长时间内持续小于v
fp
,那么可以判断空载的车辆处于寻客状态。但是,考虑到真实场景中可能存在道路拥堵等状况导致车辆即使不是处于寻客状态也会处于长期低速行驶的状态,故本发明中还需要加入了一个判断车辆长期处于低速是集体行为和个体行为的判断
条件,具体的判断识别方法如s7所示。
[0060]
s7、针对目标区域中每一个路段上运行的出租车,将每辆出租车在设定时间间隔内的瞬时速度与速度阈值v
fp
进行对比,若一辆位于红绿灯前减速区间之外的出租车的载客状态为空车且瞬时速度持续小于速度阈值v
fp
,同时在同一路段以及同一时间段内不存在其他载客状态为有客的出租车的瞬时速度持续小于速度阈值v
fp
,则将该出租车判别为寻客车辆。
[0061]
需注意的是,在本发明中,“瞬时速度持续小于速度阈值v
fp”的判断条件需要保证该车辆位于红绿灯前减速区间之外,避免车辆在红绿灯处的减速造成误判。红绿灯前减速区间的定义如前所述,本实施例中把距离前方红绿灯路口中心点 50m以内的区域作为红绿灯前减速区间。
[0062]
另外,判断条件中的“瞬时速度持续小于速度阈值v
fp”可通过预先设定一段持续的时间间隔来辅助,在该设定的时间间隔内所有瞬时速度均小于速度阈值 v
fp
,才可以作为是寻客车辆的特征,以避免因车辆短时间减速造成的误判。该持续时间间隔可以根据需要设定,一般可设置在10秒到30秒之间。
[0063]
另外,本发明中,还需要结合同一路段以及同一时间段内其他载客状态为有客的出租车进行进一步筛选,其目的是为了防止因道路拥堵导致的误判。因为在道路拥堵时,不论出租车是否存在寻客行为,其车速都很低,特别是载客状态为有客的出租车。因此,虽然位于红绿灯前减速区间之外的出租车的载客状态为空车且瞬时速度持续小于速度阈值v
fp
,但是假如这个时候在相同路段有一辆载客状态为有客的出租车的瞬时速度也持续小于速度阈值v
fp
,那么其大概率可能是因为路况拥堵导致的车辆集体减速。如图3所示,为两个路段中部分实际出租车辆的车速情况,其中(a)中的车辆速度都很低,因此其大概率为路况拥堵导致的群体低速行为,不将其视为是寻客车辆,而(b)中仅有编号69695的车辆瞬时速度持续小于速度阈值v
fp
,因此将其视为寻客车辆。
[0064]
本发明可通过上述寻客车辆识别方法从大量的出租车数据中识别出寻客状态的车辆,并将其车速样本从数据中剔除,使得剩余的车速样本能够反映车辆在道路上的实际车速情况。本实施例选取连续两天的车辆历史gps数据进行有效性验证,同样进行路段选取和路口区域数据剔除等操作,之后利用上述寻客车辆识别方法识别寻客车辆并将其对应的数据剔除掉。表2展示剔除寻客车辆数据前后的车辆道路速度平均值的对比结果,可以得出处理之后的车辆时速更接近与路段真实速度,一定程度上提高了速度样本的质量。
[0065]
表2:寻客车辆处理前后结果表
[0066]
样本数据状态样本数量处理样本量(百分比)车辆平均时速(km/h)数据处理前12531032022.63数据处理后117653866.1125.58
[0067]
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1