基于Hadoop的海量交通数据处理方法与流程

文档序号:12127443阅读:来源:国知局

技术特征:

1.基于Hadoop的海量交通数据处理方法,包括以下步骤:

1)分布式道路匹配:将数据传输到Hadoop平台的HDFS数据存储系统,方便进行分布式处理数据,道路匹配的目的是将有效的GPS点匹配到所在道路,进行准确的流量统计。具体包括:

(1.1)多节点数据处理及计算:将包含出租车信息的数据文件传输到HDFS的数据存储系统,命令多台电脑作为独立的节点同时对数据进行处理,包括出租车数据的清理、矢量地图的修正,全方位剔除逻辑错误的GPS点数据,具体包括时间错乱以及速度不符合常理的数据;在道路修正上主要解决道路单双向以及道路行驶方向的纠正。由于多台主机同时作为节点处理数据大大提高工作效率,进行快速的流量统计及速度计算;

(1.2)搭建Mapreduce道路匹配的框架:通过Hadoop平台的MapReduce框架读取数据与实际路网的杭州市道路路网信息进行路网匹配,进一步提高该系统的高效性。使用dom4j文件处理方式处理数据文件中的路网信息,将文件中路网的边界、节点以及路段信息通过Mapreduce框架进行读取和解析,进行多服务器同时处理数据的路网匹配工作;

(1.3)车辆轨迹解析:对已经读取的车辆轨迹进行解析。首先将轨迹解析成有联系的一系列的GPS点数据,解析后的数据符合Mapreduce框架的处理格式。将文件对应的数据行所代表的GPS点整理为包含经纬度信息、时间信息、和车辆ID的文本文件,为了便于Mapreduce任务的进行,每一个数据行的偏移量作为Map任务的Key值便于数据索引,行内的内容作为当前Key值对应的Value,利用Mapreduce进行快速的Key-Value读取与处理,完成路网中每一条轨迹的解析;

(1.4)创建扩展路网:利用每一个GPS点的位置对路网进行扩建,以候选GPS为矩形中心,建立边长为M的的最小矩形,M为可修改的矩形边长,所建立的最小矩形称为最小限定矩形MBR,使用prtree算法中的find方法查找当前点的MBR与所有路段的MBR进行比较,凡是有共同面积的每一个MBR作为候选匹配路段。计算GPS候选点和每一条候选匹配路段的距离,得到的最短距离所对应路段的ID信息取出来,则该路段作为候选GPS点的最佳匹配路段。由此利用Hadoop平台完成所有GPS点与路网信息的快速匹配,作为后续道路流量计算和分流数据来源;

2)道路流量及车辆速度的计算:通过匹配成功的路网索引路段ID得到对应车辆的行驶轨迹,将路段流量看做车辆当前时间经过当前路段的次数,根据路段当前所匹配到的轨迹数量确定当前车流量,一条道路所对应的路段流量总和作为该道路流量。另外利用路段序列中当前路段与下一路段在空间中的相对位置,计算两个路段向量的夹角和外积的模,若夹角小于30度则视为直行,若大于150度则为掉头,根据外积的模可以判断转向为左转还是右转,模为正数为左转,负数为右转;对于道路车辆行驶速度v,首先计算三种平均速度,三种平均速度分别为上个路段尾点到当前点的平均速度v1、当前点到下个路段起始点的平均速度v2和当前道路的瞬时速度v3

v=ω1v12v23v3

其中ωi(i=1,2,3)为每种速度的加权值,且∑ωi(i=1,2,3)=1;

然后把出租车轨迹的每一个GPS点匹配到的路段信息导出,作为下一个分流工程的输入文件,所述的路段信息包括速度,流量,下一条路的ID;

3)道路分流统计:首先判断道路方向,利用每条路的两个节点nodeID判断道路的流向,假设当前路段Way1的两个节点nodeID1和nodeID2,下一条路段Way2的两个节点nodeID3和nodeID4。分流统计则包含以下步骤:

(3.1)若nodeID2和nodeID3相同,则规定这两条路的方向为nodeID1指向nodeID2,nodeID2指向nodeID4;

(3.2)然后通过两条路的空间位置来计算分流的方向,这里定义两条路的夹角大150度的情况为掉头,把夹角介于150度到30度之间以及路段矢量差积来确定左转或者右转,夹角小于30度视为直行;

(3.3)若nodeID1-nodeID4均无任何一个相同ID,则定义两个连续GPS点匹配到的路段之间还包含其他的路段,首先找到当前路Way1所有相邻的路段,然后查找到所有相邻路段对应的相邻路段集合,判断集合中所有路段中是否存在和Way2相同的路段ID,若存在则表示Way1和Way2之间存在一条连接路段,若不存在则继续按照上述方法多次迭代,即可找到当前路段和下一条路段之间的所有连接路段;

(3.4)对每两条相邻路段重复步骤(3.2)判断分流的具体情况。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1