本发明属于交通工程领域,适用于城市道路中的车辆分类。车辆分类信息对于交通规划、道路设施的设计与使用起到非常重要的作用。
背景技术:
现在已经有许多技术应用于车辆分类。除了人工分类外,最近的车辆分类方法主要依靠固定传感器例如气动导管传感器、感应线圈传感器、压电式传感器等。这些方法被称为是侵入式分类方法,不仅需要在现场操作,还会干扰交通流。另外一种非侵入式分类方法所依靠的传感器有雷达传感器、红外线传感器、声波传感器、视觉成像等,这种方法不会干扰交通但是运行和维护费用较高。
但是这些分类方法并不是在所有的情况下都适用。要么是传感器运用的成本太贵,或是在一些特定情况下,它们的检测数据会出现错误。例如在流量大,车速较快的路段,气动导管传感器的检测效果不理想;在拥堵的情况下,感应线去传感器的检测效果也不理想;视觉成像的效果会受天气的影响。
所以,现有的车辆分类方法主要存在两个问题(i)严重依赖固定传感器和检测技术,侵入式设备影响交通,且成本较高(ii)现有的方法只能在固定地点采集交通检测数据,对大范围的地区的数据采集比较昂贵。
技术实现要素:
鉴于以上陈述的已有方案的不足,本发明旨在提供高效、简单的方法,并使之克服现有技术上的缺点。
为了实现上述目的,本发明提出的方法是:
一种基于GPS数据的多类型车辆分类方法,采用车载位置的G PS数据,基于三类车辆:小汽车、小型货车和大型货车加减速特征,用机器学习支持向量机建立车辆分类器,运用支持向量机模型对三类车辆进行自动分类;其具体处理包含如下的手段:
(1)首先对采集的GPS数据进行清洗,剔除奇异点;
(2)对清洗后的数据进行数据挖掘,对整理后的GPS数据进行特征提取,提取的特征包括车辆的最大加速度、加速度的标准差、加减速累积频率;在特征提取过程中获得多组数据样本;
(3)基于以上车辆的加减速特征,运用支持向量机模型建立针对三种车型的分类器,其中支持向量机模型表达式为:
ξi≥0
其中:
xi∈Rd(i=1,2,...,N)是训练样本i的提取特征;
N是总的训练样本;
ti{1,-1}是样本i的实际车辆种类(1表示小汽车,-1表示货车);
w和b是将样本分为两种类型的分隔线的参数;
表示一个固定的特征空间,该空间可以将矢量xi从初始的d-维度空间转换到更高的维度空间;
ξi是一个松弛变量用来处理错误分类的样本;
C是一个控制变量用来平衡最大的效益和错误分类的误差;
确定分类器的方法如下式:
其中:
xt是实验样本t的特征,该样本的车辆种类是确定的;
αi是拉格朗日乘子,它是通过求解二元支持向量机模型的对偶问题得到的;
k(xt,xi)是Kernel方程,它是和的点积;
(4)将车辆加减速变化情况作为有效的特征,通过交叉验证的数据挖掘方法和forward-selection选择方法得到车型分类的最有效特征,对车辆进行自动分类。
本发明采用GPS数据,运用支持向量机模型对三类车辆进行分类,对三种车辆进行分类准确率达到75%。通过对不同GPS数据的采样频率的计算结果进行对比,发现采样频率越高对三种车辆的分类越准确。
附图说明
图1:GPS数据图。
图2:为采样频率为5秒的提取特征图。其中:
图A以最大加/减速度为特征的提取特征图;
图B以加/减速度标准差为特征的提取特征图;
图C以最大加速度超过1mpss的车辆比例为特征的提取特征图;
图D以最大加速度超过0.5mpss的车辆比例为特征的提取特征图。
图3:提取特征的箱线图。其中:
图A为小汽车的提取特征箱线图;
图B为小型货车的提取特征箱线图;
图C为大型货车的提取特征箱线图。
图4:交叉验证的计算过程。
图5:Forward-selection方法提取最有效特征。
图6:、模型1与模型4对比图。
图7:不同采样频率对应的分类精度对照。
为了更好的建立车辆分类模型,首先需要对采集来的数据进行清洗,剔除奇异点。剔除的规则1)GPS数据中两个连续点之间的时间大于数据采集时间间隔;2)GPS数据中两个连续点之间的加/减速度大于6m/s2。然后将清洗后的数据以20分钟为间隔获得车辆的时间-速度记录。最后通过数据挖掘技术,对整理后的GPS数据进行车辆特征提取,提取的特征包括车辆的最大加减速度、加减速的标准差、加减速累积频率。在车辆特征提取过程中可获得多组数据样本。
将清洗后的GPS数据,通过数据挖掘技术,提取出车辆的特征如图2所示。图A表明小汽车的最大加速度比小型货车的大,而小型货车的最大加速度比大型货车的大。图B、C、D表明小汽车的加减速变化比小型货车和大型货车的大,同时也表明货车出现大幅度加减速频率的次数较少。
本发明方法共提取了车辆的30个特征。三个箱线图呈现出来的规律和图2是类似的,即货车较于小汽车的加速度更小,并且出现大幅度加减速的频率更少。图3中小汽车的箱线图中,特征1即最大加速度的箱线图表明提取特征的样本数据中25%的小汽车最大加速度小于1.8m/s2,75%的车辆最大加速度大于1.4m/s2,最大的加速度为2.5m/s2,最小的加速度为1.1m/s2,箱体以外的数据为异常值,其余箱线图的含义类似。
基于以上车辆加减速特征,运用支持向量机模型建立针对三种车型的分类器,其中支持向量机模型表达式为:
ξi≥0
其中:
xi∈Rd(i=1,2,...,N)是训练样本i的提取特征;
N是总的训练样本;
ti{1,-1}是样本i的实际车辆种类(1表示小汽车,-1表示货车);
w和b是将样本分为两种类型的分隔线的参数;
表示一个固定的特征空间,该空间可以将矢量xi从初始的d-维度空间转换到更高的维度空间;
ξi是一个松弛变量用来处理错误分类的样本;
C是一个控制变量用来平衡最大的效益和错误分类的误差;
确定分类器的方法如下式:
其中:
xt是实验样本t的特征,该样本的车辆种类是确定的;
αi是拉格朗日乘子,它是通过求解二元支持向量机模型的对偶问题得到的;
k(xt,xi)是Kernel方程,它是和的点积。
如果y(xt)≥0即样本t所得的指标为1,则表示该样本为小汽车;如果y(xt)≤0即样本t所得的指标为-1,则表示该样本为货车。
将车辆加减速变化情况作为有效的特征,通过交叉验证的数据挖掘办法和forward-selection选择方法得到车型分类的最有效特征,计算过程如图4所示:
通过交叉验证的数据挖掘的办法得到车型分类的最有效特征。图5中模型四表明,在使用减速度超过0.8m/s2的数据比例,减速度超过0.6m/s2的数据比例,加速度超过0.5m/s2的数据比例以及加速度超过1.4m/s2的数据比例时,对三类车辆的分类精度最高。
如图6所示,通过forward-selection方法的选择,得出最有效的特征为特征23、21、7、16,即减速度超过0.8m/s2的数据比例,减速度超过0.6m/s2的数据比例,加速度超过0.5m/s2的数据比例以及加速度超过1.4m/s2的数据比例。
由于本发明方法是对三种类型的车辆进行分类,所以建立三个分类器,分类器采用一对一相比较的形式来确定样本的类型。然后,将样本数据导入分类器中进行训练。
在实验阶段,将同一个样本数据导入3个分类器中,3个分类器会得到3种标签,样本数据获得的某个标签数量越多,这个样本数据就是相应标签所指代的车辆类型,如三个分类器得出的分类结果是小汽车、小汽车、小型货车,那么这个数据样本所对应的车辆类型就是小汽车。如果两种或多种类型车辆得到的标签数量一样多,就会采用K-最邻近算法来确定样本的车辆类型。即当实验样本与训练样本之前距离最近时,那么训练样本的车辆类型就是实验样本的分类结果。实验样本与每个训练样本的欧式距离用下式计算,本文设定的K值为7。
针对GPS数据的不同采样频率得到的分类精确度。发现采样频率在低于5秒一次时分类精度明显降低,如图7所示。
通过该种方法建立多类型车辆分类器,对车辆进行自动分类。实例分析,其数据结果显示该分类器对三种车辆的分类准确度达75%,并且数据采样频率越高,分类精度越准确。