基于在途数据的车辆用途识别方法与流程

文档序号:14716229发布日期:2018-06-16 01:24阅读:630来源:国知局
基于在途数据的车辆用途识别方法与流程

本发明涉及运动轨迹研究计算领域,具体涉及一种基于在途数据的车辆用途识别方法。



背景技术:

混乱程度:一个用户停车时由一定规律性的,即有几个固定的停车点,在规定的一天中,如果用户的停车点位置越多,即停车的混乱程度越大。

信息熵:是消除不确定性所需信息量的度量。

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。

DTW(Dynamic Time Warping,动态时间归整)算法:该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别及时间序列中数据波形与起始时间的相似性度量。

相似度度量:综合评定两个事物之间相近程度的一种度量,两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。相似性度量的给法种类繁多,一般根据实际问题进行选用。常用的相似性度是有:相关系数(衡量变量之间接近程度),相似系数(衡量样品之间接近程度),若样品给出的是定性数据,这时衡量样品之间接近程度,可用样本的匹配系数、一致度等。

欧式距离:欧几里得度量(euclidean metric),也称欧氏距离,是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

聚类方法X-means:一种新型的K-means算法来选择更加科学的数据分类模型。通过适应和扩展来提高K-means,用这个算法可以免除用户用不同的K值来测试哪个结果更加科学,X-means算法只需要运行一次。它使用了统计学的标准来最大化样本的最大似然函数。是化验结果表明,本算法比K-means算法更快更好。

聚类方法K-means:K-MEANS算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。

国内对于车辆用途的识别一般通过车型识别来完成,而车型识别方法通常是利用数字图像、视频图像序列进行车型检测,如《武汉船舶职业技术学院学报》2013年第1期中37页“简易车辆类型识别系统设计”一文中提出的解决方案,该方案由四个模块组成:视频文件读取与帧分解模块、车辆运动检测模块、数字图像处理模块和机车型识别模块,然而通过图像采集和分析外形轮廓的方式进行车型识别进而确定车辆用途的方法存在很多不确定的因素,首先,车型与用途的对应并非一个确定的量,其次,即使同一个车辆在不同的时刻也会有不同的行驶轨迹,因此直接对分析车辆本身并不能对车辆的真实用途进行识别。

现有技术中申请号为CN201310290226.5的中国发明提出了“基于公用车智能安全终端的管理系统及方法”,该申请说明书中指出“利用本智能安全终端集成北斗功能的测速、测距、定位、来确定区域位置、轨迹绘制、防盗等”使得利用公用车的行驶轨迹绘制、定位等技术成为常规技术手段,然而现有技术中并未出现通过行驶轨迹和定位来实现公用车的用途或类型识别的解决方案。

聚类就是一种寻找数据之间一种内在结构的技术,目前在存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和具体应用,这使得利用聚类分析来进行车辆用途识别成为一种可能。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于在途数据的车辆用途识别方法,利用车辆运行产生的数据真实反映每个车辆用途。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于在途数据的车辆用途识别方法,包括如下步骤:

S1、每个车辆每天的行驶轨迹描述:根据汽车上传感器获取的在途数据,形成一个可以表示车辆运行时间、车辆活动地理位置混乱程度、车辆里程需求的多维向量drij;如果出行,该里程向量值为相应时间段的里程数,如果不出行,则该向量值为0,根据向量值来判断是否出行;

S2、针对每个车辆每天的行驶轨迹,进行时间序列聚类,并根据聚类结果找出该类型车辆的主要行驶轨迹:每个车辆的主要行驶轨迹是指在车辆使用的一段时间内,主要行驶轨迹,可能包含多个每天的行驶轨迹,例如,一个车辆在他一周的行驶轨迹中,有5天是A类每天行驶轨迹,有2天是B类每天行驶轨迹,那么,他的主要行驶轨迹就是5/7A类+2/7B类;

S3、计算每个车辆在不同轨迹类中的数量占自身所有轨迹的比重,依次从大到小累加排序后的比重,将累加值大于且最靠近阈值的轨迹认为是该车辆的主要行驶轨迹;

S4、根据主要行驶轨迹定义车辆用途:统计不同车辆的主要行驶轨迹给出车辆用途规则表。

较为优选的,所述步骤S1包括以下三个步骤:

a.传感器每T分钟采取一次车辆目前行驶里程数据,利用每个车每天的行驶里程形成一个n维向量dij,n=60×24/T;

b.传感器提取一个车辆一天停车点所有位置信息,并利用信息熵计算每个车辆一天停车点的混乱程度H(ij);

c.将H(ij)作为之前向量dij的定n+1个向量值,形成一个可以表示车辆运行时间、车辆活动地理位置混乱程度、车辆里程需求的n+1维向量drij。

较为优选的,所述车辆活动地理位置混乱程度通过地理位置角度来表示,用信息熵的大小来表示混乱程度,信息熵越大,越混乱。

较为优选的,所述步骤a中

dij={trij1,trij2,trij3...tr1400/T}

dij:第i辆车第j天的车辆驾驶轨迹情况;

trij1:第i辆车第j天的第1个时间段行驶里程情况。

较为优选的,所述步骤b中

第i辆车第j天的第n次停车点位置;

H(ij):第i量车第j天的信息熵;

i车第j天停车位置为的次数;

Nij:i车j天停车位置总数量。

较为优选的,所述步骤c中

drij={trij1,trij2,trij3...tr1400/T,H(ij)}

trij1:第i辆车第j天的第1个时间段行驶里程情况;

H(ij):第i量车第j天的信息熵。

较为优选的,所述步骤S3中聚类是指以DTW为相似度度量,采用时间序列聚类的方式对每个车辆每天的行驶轨迹进行聚类,形成(C1,C2...Cm),m类,即为该型号车辆的主要轨迹情况。

较为优选的,所述步骤S3中计算每个车辆轨迹在不同轨迹类中数占自身轨迹的比重的公式为:

i车在Cm类中出现的轨迹占i车所有轨迹的比重;

N(cm/i):i车在Cm类中出现的轨迹数量;

ti:i车中所有轨迹数量。

较为优选的:步骤S3中,主要行驶轨迹公式为:pδ+1Cδ+1+pδCδ+pδ-1Cδ-1,其中pδ+1>pδ;pδ+1+pδ<ε;pδ+1+pδ+pδ-1>ε;

ε:阈值;

pδ+1,pδ,pδ-1所对应的Cm类为i车的主要轨迹。

较为优选的:步骤S4中的统计分析可由二次聚类代替:根据据用户在每一类中的占比,进行二次聚类,将用户进行聚类,每一类用户即为一种用途,用户是指车辆,每一类即CM,每一类用户是指聚类出新的类别S1,S2,…S秒每一个S即为一个类别。

(三)有益效果

本发明实施例提供了一种基于在途数据的车辆用途识别方法。具备以下有益效果:

本发明关键点在于从车辆的运行轨迹中分析车辆用途;以车辆每日行驶规律为中间变量进行聚类,结合统计知识分析车辆主要行驶规律,并非对车辆本身直接聚类;

行驶的轨迹主要从时间和空间上来描述,结合用户用车的偏好,因此从时间、地理位置、里程三个纬度描述车辆运动轨迹相对于现有技术直接对车辆本身进行聚类更能贴切实际用车的真实情况;

通过对车辆的每日行驶规律为中间变量进行聚类,可以清楚每一个车辆在不同时间段上的主要行驶规律,从而提高识别不同车辆的用途的效率;

车辆的行驶轨迹存在相似性,越相似的轨迹越可以反应车辆的用途,因此定义相似度强的轨迹为车辆的主要行驶轨迹,用聚类的方法获取相似的轨迹,相对于现有技术具有更高的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为基于在途数据的车辆用途识别方法的步骤示意图,

图2为步骤S1的三个步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:

结合附图1至2,一种基于在途数据的车辆用途识别方法,包括如下步骤:

S1、每个车辆每天的行驶轨迹描述:根据汽车上传感器获取的在途数据,形成一个可以表示车辆运行时间、车辆活动地理位置混乱程度、车辆里程需求的多维向量drij;如果出行,该里程向量值为相应时间段的里程数,如果不出行,则该向量值为0,根据向量值来判断是否出行;

S2、针对每个车辆每天的行驶轨迹,进行时间序列聚类,并根据聚类结果找出该类型车辆的主要行驶轨迹:每个车辆的主要行驶轨迹是指在车辆使用的一段时间内,主要行驶轨迹,可能包含多个每天的行驶轨迹,例如,一个车辆在他一周的行驶轨迹中,有5天是A类每天行驶轨迹,有2天是B类每天行驶轨迹,那么,他的主要行驶轨迹就是5/7A类+2/7B类;

S3、计算每个车辆在不同轨迹类中的数量占自身所有轨迹的比重,依次从大到小累加排序后的比重,将累加值大于且最靠近阈值的轨迹认为是该车辆的主要行驶轨迹;

S4、根据主要行驶轨迹定义车辆用途:统计不同车辆的主要行驶轨迹给出车辆用途规则表。

较为优选的,所述步骤S1包括以下三个步骤:

a.传感器每T分钟采取一次车辆目前行驶里程数据,利用每个车每天的行驶里程形成一个n维向量dij,n=60×24/T;

b.传感器提取一个车辆一天停车点所有位置信息,并利用信息熵计算每个车辆一天停车点的混乱程度H(ij);

c.将H(ij)作为之前向量dij的定n+1个向量值,形成一个可以表示车辆运行时间、车辆活动地理位置混乱程度、车辆里程需求的n+1维向量drij。

较为优选的,所述车辆活动地理位置混乱程度通过地理位置角度来表示,用信息熵的大小来表示混乱程度,信息熵越大,越混乱。

较为优选的,所述步骤a中

dij={trij1,thij2,trij3…tr1400/T}

dij:第i辆车第j天的车辆驾驶轨迹情况;

trij1:第i辆车第j天的第1个时间段行驶里程情况。

较为优选的,所述步骤b中

第i辆车第j天的第n次停车点位置;

H(ij):第i量车第j天的信息熵;

i车第j天停车位置为的次数;

Nij:i车j天停车位置总数量。

较为优选的,所述步骤c中

drij={trij1,trij2,trij3...tr1400/TH(ij)}

trij1:第i辆车第j天的第1个时间段行驶里程情况;

H(ij):第i量车第j天的信息熵。

较为优选的,所述步骤S3中聚类是指以DTW为相似度度量,采用时间序列聚类的方式对每个车辆每天的行驶轨迹进行聚类,形成(C1,C2…Cm),m类,即为该型号车辆的主要轨迹情况。

较为优选的,所述步骤S3中计算每个车辆轨迹在不同轨迹类中数占自身轨迹的比重的公式为:

i车在Cm类中出现的轨迹占i车所有轨迹的比重;

N(cm/i):i车在Cm类中出现的轨迹数量;

ti:i车中所有轨迹数量。

较为优选的:步骤S3中,主要行驶轨迹公式为:pδ+1Cδ+1+pδCδ+pδ-1Cδ-1,其中pδ+1>pδ;pδ+1+pδ<ε;pδ+1+pδ+pδ-1>ε;

ε:阈值;

pδ+1,pδ,pδ-1所对应的Cm类为i车的主要轨迹。

较为优选的:步骤S4中的统计分析可由二次聚类代替:根据据用户在每一类中的占比,进行二次聚类,将用户进行聚类,每一类用户即为一种用途,用户是指车辆,每一类即CM,每一类用户是指聚类出新的类别S1,S2,…S秒每一个S即为一个类别。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1