基于Hadoop的海量交通数据处理方法与流程

文档序号：12127443阅读：来源：国知局

技术特征：

1.基于Hadoop的海量交通数据处理方法，包括以下步骤：

1)分布式道路匹配：将数据传输到Hadoop平台的HDFS数据存储系统，方便进行分布式处理数据，道路匹配的目的是将有效的GPS点匹配到所在道路，进行准确的流量统计。具体包括：

(1.1)多节点数据处理及计算：将包含出租车信息的数据文件传输到HDFS的数据存储系统，命令多台电脑作为独立的节点同时对数据进行处理，包括出租车数据的清理、矢量地图的修正，全方位剔除逻辑错误的GPS点数据，具体包括时间错乱以及速度不符合常理的数据；在道路修正上主要解决道路单双向以及道路行驶方向的纠正。由于多台主机同时作为节点处理数据大大提高工作效率，进行快速的流量统计及速度计算；

(1.2)搭建Mapreduce道路匹配的框架：通过Hadoop平台的MapReduce框架读取数据与实际路网的杭州市道路路网信息进行路网匹配，进一步提高该系统的高效性。使用dom4j文件处理方式处理数据文件中的路网信息，将文件中路网的边界、节点以及路段信息通过Mapreduce框架进行读取和解析，进行多服务器同时处理数据的路网匹配工作；

(1.3)车辆轨迹解析：对已经读取的车辆轨迹进行解析。首先将轨迹解析成有联系的一系列的GPS点数据，解析后的数据符合Mapreduce框架的处理格式。将文件对应的数据行所代表的GPS点整理为包含经纬度信息、时间信息、和车辆ID的文本文件，为了便于Mapreduce任务的进行，每一个数据行的偏移量作为Map任务的Key值便于数据索引，行内的内容作为当前Key值对应的Value，利用Mapreduce进行快速的Key-Value读取与处理，完成路网中每一条轨迹的解析；

(1.4)创建扩展路网：利用每一个GPS点的位置对路网进行扩建，以候选GPS为矩形中心，建立边长为M的的最小矩形，M为可修改的矩形边长，所建立的最小矩形称为最小限定矩形MBR，使用prtree算法中的find方法查找当前点的MBR与所有路段的MBR进行比较，凡是有共同面积的每一个MBR作为候选匹配路段。计算GPS候选点和每一条候选匹配路段的距离，得到的最短距离所对应路段的ID信息取出来，则该路段作为候选GPS点的最佳匹配路段。由此利用Hadoop平台完成所有GPS点与路网信息的快速匹配，作为后续道路流量计算和分流数据来源；

2)道路流量及车辆速度的计算：通过匹配成功的路网索引路段ID得到对应车辆的行驶轨迹，将路段流量看做车辆当前时间经过当前路段的次数，根据路段当前所匹配到的轨迹数量确定当前车流量，一条道路所对应的路段流量总和作为该道路流量。另外利用路段序列中当前路段与下一路段在空间中的相对位置，计算两个路段向量的夹角和外积的模，若夹角小于30度则视为直行，若大于150度则为掉头，根据外积的模可以判断转向为左转还是右转，模为正数为左转，负数为右转；对于道路车辆行驶速度v，首先计算三种平均速度，三种平均速度分别为上个路段尾点到当前点的平均速度v₁、当前点到下个路段起始点的平均速度v₂和当前道路的瞬时速度v₃：

v＝ω₁v₁+ω₂v₂+ω₃v₃

其中ω_i(i＝1,2,3)为每种速度的加权值，且∑ω_i(i＝1,2,3)＝1；

然后把出租车轨迹的每一个GPS点匹配到的路段信息导出，作为下一个分流工程的输入文件，所述的路段信息包括速度，流量，下一条路的ID；

3)道路分流统计：首先判断道路方向，利用每条路的两个节点nodeID判断道路的流向，假设当前路段Way1的两个节点nodeID1和nodeID2,下一条路段Way2的两个节点nodeID3和nodeID4。分流统计则包含以下步骤：

(3.1)若nodeID2和nodeID3相同，则规定这两条路的方向为nodeID1指向nodeID2，nodeID2指向nodeID4；

(3.2)然后通过两条路的空间位置来计算分流的方向，这里定义两条路的夹角大150度的情况为掉头，把夹角介于150度到30度之间以及路段矢量差积来确定左转或者右转，夹角小于30度视为直行；

(3.3)若nodeID1-nodeID4均无任何一个相同ID，则定义两个连续GPS点匹配到的路段之间还包含其他的路段，首先找到当前路Way1所有相邻的路段，然后查找到所有相邻路段对应的相邻路段集合，判断集合中所有路段中是否存在和Way2相同的路段ID，若存在则表示Way1和Way2之间存在一条连接路段，若不存在则继续按照上述方法多次迭代，即可找到当前路段和下一条路段之间的所有连接路段；

(3.4)对每两条相邻路段重复步骤(3.2)判断分流的具体情况。

完整全部详细技术资料下载

当前第2页1 2 3