一种基于Spark平台的短时交通流量预测方法与流程

文档序号:11866254阅读:来源:国知局

技术特征:

1.一种基于Spark平台的短时交通流量预测方法,其特征在于包括如下步骤:

(1)数据预处理:处理源交通流量数据,剔除与交通流量预测无关的数据字段;

(2)基于时空关系的特征向量:利用与待测路段在时间和空间相关联路段的交通流量共同生成KNN算法的交通流特征向量;

(3) 实时流处理:利用Spark 流计算解决了交通流量预测的实时性问题;

(4)并行化KNN算法实现:对传统KNN算法进行并行化实现,使得KNN算法能够在Spark分布式集群上运行;

(5)数据分析:利用并行化KNN算法,对基于时空关系生成的交通流特征向量进行处理,得到待测路段下一时刻交通流量的预测结果。

2.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法,其特征在于:

所述的数据预处理是对由道路传感器收集到的源交通流数据进行处理,得到与预测路段相关的字段数据以及与待测路段在时间和空间相关联路段的交通流数据,包括如下步骤:

(1)将传感器收集到的交通流量数据存储到Hadoop的HDFS文件系统中;

(2)利用Spark中的textFile()函数将存储到HDFS文件系统中的交通流量数据读入到Spark中,并生成一个Spark中特有的数据类型MappedRDD;

(3)利用Spark中的map()函数,读取MappedRDD中每一行交通流量数据,并利用Spark中的split()函数对每一行数据按照分隔符进行分割,最后将需要的交通流字段数据进行提取。

3.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法,其特征在于:

所述的基于时空关系的特征向量是对交通流数据进行时空特性分析,确定最佳的时间和空间维度,以此形成最佳的交通流输入向量;预测时间间隔为5分钟,该特征向量的时间维度为2,空间维度为4,即取待测路段当前时刻和前一时刻的交通数据,以及待测路段的两个上游和一个下游路段的交通流量数据组成基于时空关系的特征向量。

4.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法,其特征在于:

所述的实时流处理是利用Spark Streaming时刻检测输入数据是否有更新;我们将Spark Streaming的窗口时间设置为5分钟,在5分钟内一旦输入数据有所改变,系统便会自动进行下一次的交通流量预测。

5.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法,其特征在于:

所述的并行化KNN算法实现是对传统的基于单机运行的KNN算法重新进行实现,使KNN算法能够在由多台物理机组成的Spark分布式集群上并行运行,主要包括如下步骤:

(1) 利用mapPartitions()函数将已经处理好的交通流量数据分成若干分区,其中每个分区的数据在Spark集群中会在一个物理机上进行计算;

(2) 定义一个函数,这个函数的功能是获得待测路段及与待测路段在时间和空间相关联路段的交通流量所组成的特征向量;

(3) 将定义的这个函数作为mapPartitions()函数的输入参数。

6.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法,其特征在于:

所述的数据分析是指在Spark集群上运行并行化实现的KNN算法,得到待测路段下一时刻的预测流量,主要包括如下步骤:

(1) 从历史数据库中根据欧式距离匹配到与当前待测路段交通流量最接近的K个交通流量向量;

(2) 取当前该K个交通流量向量的下一时刻交通流量的加权平均值作为预测路段下一时刻的交通流量。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1