一种针对行人行为模式的分布集中式交通大数据聚类方法

文档序号:8258513阅读:224来源:国知局
一种针对行人行为模式的分布集中式交通大数据聚类方法
【技术领域】
[0001] 本发明属于大数据挖掘方法领域,具体涉及一种分布集中式大数据模式发现方法
【背景技术】
[0002] 随着大数据时代的来临,越来越多的应用情景下,人们需要处理的数据规模扩展 到TB甚至PB级别,并且希望从中快速有效地挖掘出可靠、有用的隐藏信息。因此,如何快 速准确地从大数据中挖掘价值信息在当前具有重要意义。聚类分析作为一种数据挖掘领域 的核心技术之一,常常可以作为其他数据挖掘算法的前期处理。然而面对如此庞大的数据 规模,传统的聚类方法在数据存储、计算复杂性等方面不能满足现实需要。
[0003] 例如我们要对北京、上海、广州的数据进行挖掘,直观的想法是把数据集中起来再 进行处理,比如说可以将上海和广州的数据直接拷贝到北京来。但是当数据量达到一定的 规模之后这种拷贝就显得不是那么现实,也就是在我们所说的大数据背景下,拷贝或者集 中的成本可能是无法接受的,如时间、设备、金钱等。这样就要求我们必须对传统本地式的 数据挖掘方法进行改进甚至是颠覆式地改变。
[0004] 本发明提出一种针对分布式大数据的模式发现方法,首先对不同地点的数据分别 进行特征点提取,数据规模大幅度下降到可以传输的量级,然后将不同地区的数据特征点 进行集中处理,挖掘出全体数据的模式。例如对于北京、上海、广州三个地区的某行业的数 据,我们先对单个地区的数据提取一些有代表性的特征点,然后将三个地区的数据特征点 汇总到北京,在北京的机器上进行全体数据的挖掘,最终挖掘出该行业数据的整体模式。
[0005] 在具体的应用方面,本发明主要针对的是行人行为模式的分布集中式交通大数据 的聚类问题。更进一步地,当下交通事故频发,占相当比例是由于行人闯红灯引起的,如果 能对路面行人尤其是过马路的行人的行为模式进行发现并相应地制定应对方案,就可以有 效地控制行人闯红灯事件的发生从而相应减少交通事故的出现。
[0006] 闯红灯的行人数据可以通过监控录像发现,同时通过图像处理技术还可以获得当 时路面同时等待过马路的行人数量等信息,而实时的路段平均车速数据以及路面宽度和红 灯时长等信息也为已知。每一个闯红灯的行人都对应着这些维度的信息,每一个地区都存 在着大量的闯红灯的行人的数据,然而从全国的角度出发,想要挖掘全国闯红灯行人的行 为模式却需要面对大数据迁移集中的问题,一个行之有效的分布集中式交通大数据聚类方 法的发明显得十分有必要。

【发明内容】

[0007] 本发明的对象是分布式大数据,首先提出一种对于单个地点的数据特征点提取方 法,然后将不同地点的特征点信息汇总到一处,再进行整体数据的挖掘,利用基于密度的算 法进行聚类。
[0008] 1?单个地点数据特征点信息提取
[0009] 对于单个地点的数据,我们用若干个特征点及每个特征点对应的权重代表。
[0010] 1. 1确定每个地点的数据平均密度
[0011] 根据数据的范围,将数据规范到一个区域中,如二维的数据是一个能覆盖所有数 据点的最小矩形,三维数据是一个能覆盖所有数据点的最小立方体,以此类推。
[0012] 数据的平均密度D定义为数据点的个数N与规范化区域测度S的比值,即D= |。
[0013] 1. 2确定特征点覆盖区域的半径
[0014] 首先,我们定义单个地点所能承受的传输数据点的个数为M,所以最后该地点向数 据处理中心传输的特征点的个数同样也是M个,这里传输的内容同时包括特征点的坐标以 及权重,且权重之和为该地区的数据点总和。
[0015] 在最理想的情况下,每个特征点所表示的区域应该是没有交集的,所以我们定义 平均每个特征点所代表的测度
[0016]
【主权项】
1. 获取闯红灯行人的多个维度的信息,本发明分别选择2个(红灯时长、该路段实时平 均车速)和4个维度(红灯时长、等待人数、马路宽度、该路段实时平均车速)作为影响行 人闯红灯行为的因素,即一个闯红灯行人数据点的维度由选择的维度决定。
2. 定义单个地区数据点的个数除W该地区每个维度上数据的最大值减去最小值的差 相乘的积作为该地区数据的平均密度。
3. 定义特征点表示的区域的测度(二维是圆的面积、H维是球的体积W此类推)乘W 所能承受传输点的个数的最大值为该地区每个维度上数据的最大值减去最小值的差相乘 的积,由此确定特征点表示区域的半径。
4. 对于单个地点的数据,按照如下算法提取单个地点的特征点,包括特征点坐标、特征 点权重、特征点表示范围的半径: (1) 在所有数据点中,随机选择一个没有被打上标记的点,将W该个点为圆也,R为半 径的区域作为该点可W表示的区域,如果该区域的数据点密度大于平均密度的K倍(本发 明取10),则将该个点作为一个特征点,其所表示区域内的点的个数作为该特征点的权重, 并且将该个特征点所表示区域内的数据点全部打上标记,在下次搜索特征点的过程中将不 再考虑该些点。如果搜索到的特征点的个数达到该地区所能承受的传输的点的最大值M,则 停止搜索,传送所有特征点的坐标及权重; (2) 如果遍历所有未被打上标签的数据点仍然没有找到新的特征点,则将K(本发明取 10)值减1,进入(1),直至K(本发明取10)值小于或等于1停止搜索,传送所有特征点的坐 标及权重。
5. 将多个地点的特征点坐标、特征点权重、特征点表示范围的半径W可承受的代价汇 总到一处,对于汇总之后的数据,按照如下算法聚类: 随机选取一个没有被标记的特征点作为一棵树的根节点,按照广度优先的原则进行树 的生成过程,其中树的每一个节点即为一个特征点,一棵树的所有节点属于一个聚簇,每一 个新生成的子节点满足W下两个条件: (a)子节点与父节点的距离不超过对应特征点所代表区域的半径的和(即相切); 化)子节点所对应特征点的密度大于根节点对应特征点的密度; 每增加一个子节点都对其是否有标记做判断,如果没有标记,则将该节点对应的特征 点归入当前聚簇并打上标记,如果已经有了标记,则将当前生成的树所对应的聚类与该新 增加的节点所对应的聚簇合并为一个聚簇,并开始一个新的树的搜索过程; 直至;所有的特征点都被归为一个聚簇当中。
【专利摘要】在本发明中,我们对分布式的行人闯红灯数据进行了特征点提取,汇总多个地点的特征点坐标、权重以及表示范围的半径等信息到一处,再利用基于密度的聚类算法对全局数据进行聚类,获取了全局数据的模式,并将全局聚类结果返回至单个地点。对于分布式数据的聚类,当数据量较大时候拷贝、传输数据代价往往无法承受,本发明根据能够根据实际的数据点传输能力,用特征点代表单个区域的数据,之后通过对集中的各个地区的特征点的聚类来代替大数据集中的聚类,从而有效解决了大数据迁移所带来的问题。闯红灯现象是造成交通事故发生的一个很重要的因素,本发明提供一种全新的聚类方法,专门针对行人行为模式分布集中式交通大数据,具有很强的现实意义和实践性。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104572639
【申请号】CN201310468804
【发明人】马超, 梁循, 马跃峰, 李晓菲, 王媛媛
【申请人】中国人民大学
【公开日】2015年4月29日
【申请日】2013年10月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1