一种基于出行时间特征的机动车聚类方法

文档序号:8430831阅读:612来源:国知局
一种基于出行时间特征的机动车聚类方法
【技术领域】
[0001] 本发明涉及城市交通卡口管理技术领域,尤其是一种基于出行时间特征的机动车 聚类方法。
【背景技术】
[0002] 随着计算机存储和传感器技术的发展,交通智能卡口已经被广泛应用,对城市交 通管理起着重要的作用。卡口所采集的数据与日俱增,如何充分地利用卡口大数据资源成 为研宄的热点问题。
[0003] 传统的卡口的应用主要用于公安布控,违章告警等,可实现违章抓拍,并对违章车 辆进行自动识别,提高工作效率,避免因交警现场执法可能对交通造成的影响。在卡口大数 据应用方面目前,还没有公开基于出行时间特征的机动车分类的卡口应用,无法快速地获 取车辆信息,数据处理效率较低。

【发明内容】

[0004] 本发明的目的在于提供一种根据车辆出行的时间特征对车辆分类,更加科学地为 交通规划提供参考;大大提高了数据处理的效率,为卡口大数据的广泛应用创造可能性的 基于出行时间特征的机动车聚类方法。
[0005] 为实现上述目的,本发明采用了以下技术方案:一种基于出行时间特征的机动车 聚类方法,该方法包括下列顺序的步骤: (1) 从智能化交通卡口的分布式数据库中提取车辆的卡口通行信息; (2) 统计每辆车在一天中的每个小时段的过卡口的次数,得到车辆的时间特征向量; (3) 采用最大最小距离准则确定最佳聚类中心个数k ; (4) 通过1&^1^(111〇6算法编写1^6&118聚类算法,将最佳聚类中心个数1^代入1^6&118聚 类算法中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果; (5) 根据聚类结果进行车辆行为分析。
[0006] 利用Apache Pheonix中间件提取智能化交通卡口的分布式数据库中的数据,对数 据进行结构化,对结构化以后的数据建立索引。
[0007] 根据MapReduce算法统计车辆在一天中每个小时段过卡口次数,得到车辆的时间 特征向量,即24维向量V t。
[0008] 所述最大最小距离准则包括以下步骤: (1) 先令聚类中心个数为3,对车辆的时间特征向量进行聚类,得到3组聚类,对每组聚 类求平均值,该平均值即为该组聚类的聚类中心,计算三组聚类的聚类中心之间的距离,并 取其中最小距离作为聚类中心个数为3时的MMD值;同理,求得聚类中心个数为4、5、6、7、 8、9、10所对应MMD值; (2) 取MMD值最大的聚类中心个数为最佳聚类中心个数k。
[0009] 所述聚类中心之间的距离为24维空间中两点之间的欧氏距离。
[0010] 由上述技术方案可知,本发明从交通智能卡口收集的海量过车信息中提取出本方 法关注的车牌号、卡口编号、通过卡口时间等信息,利用MapReduce技术和集群强大的分布 式计算的能力,计算出所有车辆的时间特征向量,并对海量的车辆样本进行聚类,通过对车 辆的出行特征分析,将具有相似特征的车辆聚类。同时,本方法具有有效性和准确性,通过 对车辆的划分,可以有效了解机动车的行为特征,按照出行规律对车辆进行聚类能够快速 获取车辆信息,为本地区机动车交通量进行科学的评估,以及对未来道路交通通行情况的 预测提供参考依据,同时也为公安交警部门排查嫌疑车辆提供参考依据。
【附图说明】
[0011] 图1为KMeans聚类算法的串行计算流程图。
[0012] 图2为MapReduce运行机制示意图。
[0013] 图3为利用最大最小距离准则检测最佳聚类中心个数的示意图。
[0014] 图4为KMeans聚类算法MapReduce并行化的示意图。
[0015] 图5为Kmeans聚类结果聚类中心点示意图。
【具体实施方式】
[0016] 如图1所示,KMeans聚类算法是一种基于样本间相似性度量的间接聚类方法, 其算法步骤为:首先从n个数据对象中任意选择k个对象作为初始聚类中心;对于所剩下 的其他对象,根据它们与这些聚类中心的相似度一一距离,分别将它们分配给与其最相似 的一一聚类中心所代表的一一聚类;然后再计算每个所获新聚类的聚类中心一一该聚类中 所有对象的均值;不断重复这一过程直至标准测度函数开始收敛为止。
[0017] 如图2所示,MapReduce算法步骤为:将大数据集分解为成百上千的小数据集 splist,每个或若干个数据集分别由集群中的1个节点,一般就是一台普通的计算机,并 行执行Map计算任务,指定了映射规则并生成中间结果,然后这些中间结果又由大量的 节点并行执行Reduce计算任务一一指定了归约规则,形成最终结果。在数据输入阶段, JobTracker获得待计算数据片在NameNode上的存储元信息;在Map阶段,JobTracker指 派多个TaskTracker完成Map运算任务并生成中间结果;Shuffle阶段完成中间计算结 果的混排交换;JobTracker指派TaskTracker完成Reduce任务;Reduce任务完成后通知 JobTracker与NameNode以产生最后的输出结果。
[0018] 如图4所示,KMeans聚类算法进行MapReduce的方法:对串行算法中每1次迭代 启动对应的1次MapReduce计算过程,完成数据记录到聚类中心的距离计算以及新的聚类 中心的计算,图4描述了 KMeans聚类算法MapReduce并行化实现方法,为了适合MapReduce 计算模型处理,须将待处理数据记录以行形式存储,使待处理数据能按行分片,且片间数据 无相关性,分片过程由Map - Reduce运行的环境完成,不需要编写代码。在Reduce任务 开始前,可对Map任务执行节点本地的中间结果以key值为索引进行分组和排序,以提高 Reduce任务的执行效率。
[0019] a? Map函数的设计 Map函数的任务是完成每个记录到中心点距离的计算并重新标记其属于的新聚类类 另IJ,其输入为待聚类所有记录数据和上一轮迭代(或初始聚类)的聚类中心,输入数据记 录(key, value)对的形式为〈行号,记录行〉;每个Map函数都读入聚类中心描述文件,Map 函数对输入的每个记录点计算出距离其最近的类中心,并做新类别的标记;输出中间结果 (key, value)对的形式为〈聚类类别ID,记录属性向量〉。
[0020] b . Reduce函数的设计 Reduce函数的任务是根据Map函数得到的中间结果计算出新的聚类中心,供下一轮 Map - Reducejob使用.输入数据(key, value)对的形式为〈聚类类别ID,{记录属性向 量集}〉;所有key相同的记录(即有相同类别ID的记录)送给一个Reduce任务--累加 key相同的点个数和各记录分量的和,求各分量的均值,得到新的聚类中心描述文件;输出 结果(key,value)对的形式为〈聚类类别ID,均值向量〉判断该聚类是否已收敛:比较上一 轮Map-Reduce Job得到的聚类中心与本轮MapReduce Job聚类中心距离,若变化小于给定 阈值,则算法结束;反之,则用本轮的聚类中心文件替换上一轮的中心文件,并启动新一轮 的 MapReduce Job。
[0021] 一种基于出行时间特征的机动车聚类方法,包括:(1)从智能化交通卡口的分布 式数据库中提取车辆的卡口通行信息;(2)统计每辆车在一天中的每个小时段的过卡口的 次数,得到车辆的时间特征向量;(3)采用最大最小距离准则确定最佳聚类中心个数k ; (4) 通过MapReduce算法编写KMeans聚类算法,将最佳聚类中心个数k代入KMeans聚类算法 中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果;(5)根据聚 类结果进行车辆行为分析。
[0022] 利用Apache Pheonix中间件提取智能化交通卡口的分布式数据库中的数据,对数 据进行结构化,对结构化以后的数据建立索引,加快查询效率。根据MapReduce算法统计车 辆在一天中每个小时段过卡口次数,得到车辆的时间特征向量,即24维向量V t。所述聚类 中心之间的距离为24维空间中两点之间的欧氏距离。
[0023] 如图3所示,所述最大最小距离准则包括以下步骤:(1)先令聚类中心个数为3,对 车辆的时间特征向量进行聚类,得到3组聚类,对每组聚类求平均值,该平均值即为该组聚 类的聚类中心,计算三组聚类的聚类中心之间的距离,并取其中最小距离作为聚类中心个 数为3时的MMD值;同理,求得聚类中心个数为4、5、6、7、8、9、10所对应MMD值;(2)取MMD 值最大的聚类中心个数为最佳聚类中心个数k。最大最小距离准则通过比较采用不同聚类 中心个数的聚类结果中各类中心点之间距离最小值来获取最佳聚类中心个数,中心点之间 距离的最小值越大则说明各聚类中心的离散程度越高,则聚类的效果越好。
[0024] 实施例一 确定聚类中心个数:先以聚类中心个数为3至10分别进行7次聚类,得到7组聚类中 心组,如下所示: (1)分3类的结果: 0 [1. 0, 0. 68, 0. 53, 0. 42, 0. 46, 1. 15, 2. 69, 4. 26, 8. 48, 7. 03, 6. 09, 5. 64, 4.56, 5.19, 6.05, 5.93, 6.23, 7.29, 6.1, 3.77, 3.21, 2.97, 2.21, 1.45] 1 [0.43, 0.22, 0.14, 0.13, 0.22, 0.65, 5.06, 36.89, 11.94, 3.95, 3.45, 4.09, 3.24, 3.82, 4.32, 3.8, 5.91, 15.72, 10.92, 4.31, 3.2, 2.65, 1.48, 0.73] 2 [6.31, 4.54, 3.5, 2.81, 2.72, 5.03, 10.52, 15.33, 23.08, 21.56, 19.74, 18.76, 16.0, 17.82, 19.72, 19.61, 20.07, 21.11, 16.83, 12.34, 11.03, 11.62, 10. 77, 8. 57] (2) 分4类的结果: 0 [5.81, 4.14, 3.16, 2.5, 2.3, 3.82, 7.46, 10.93, 17.58, 17.48, 16.08, 15.03, 13.06, 14.38, 15.89, 15.79, 15.31, 15.51, 13.25, 10.09, 9.5
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1