一种数据驱动的城市交通流速模式识别与实时预测预警方法

文档序号:26009634发布日期:2021-07-23 21:29阅读:178来源:国知局
一种数据驱动的城市交通流速模式识别与实时预测预警方法

本发明提供了一种数据驱动的城市交通流速模式识别与实时预测预警方法,利用城市路段交通流速历史数据集,通过聚类算法挖掘潜在的交通流速历史模式,识别交通流速历史规律;综合利用交通流速历史数据和实时数据,训练预测模型,进行实时预测,并结合交通流速历史模式对交通流速实时预警,属于城市交通流短期预测预警技术领域。



背景技术:

在城市快速发展的过程中,城市交通是不可或缺的一部分。当某一路段的交通流量超过路段的规定通行能力时,该路段就会发生交通拥堵[1]。交通拥堵会增加居民的出行时间和出行成本[2],加大交通管理部门的管理难度,容易引发交通事故。因此,掌握城市路网中路段交通流速的历史变化规律和实时发展趋势对城市的交通治理、路段规划和路网建设具有重要意义。

城市路段传感器设备的大量安装和大数据技术的日渐成熟使收集和存储海量城市交通数据成为可能。收集和储存的大数据在经过有效的处理和分析之后,可以揭示一些潜在的规律,提供有效的数据信息,实现大数据的真正价值[3]。当前相关技术的发展中,对于路段拥堵的智能判断以及在数据处理和实时交通状态识别的方面还存在一些问题[4]。本发明综合考虑了城市路段交通管理中的两方面重要问题,即历史演变规律和实时预测预警,并运用改进后的分析技术使之前存在的一些问题得到改善,能为路段交通情况的实时掌握和缓堵措施的及时制定提供有效信息,在实际操作过程中具有很大的使用价值。

[1]ayeshaatta,sagheerabbas,m.adnankhan,gulzarahmed,umerfarooq.anadaptiveapproach:smarttrafficcongestioncontrolsystem.anadaptiveapproach:smarttrafficcongestioncontrolsystem,2020,32(9):1012-1019.

[2]jintaoke,haiyang,zhengfeizheng.onride-poolingandtrafficcongestion.transportationresearchpartb:methodological,2020,142:213-231.

[3]furhtborko,villanustreflavio.bigdatatechnologiesandapplications.london:springer,2016.

[4]ruiqiluo,xianzhong,luozhong,linli.researchontheintelligentjudgmentoftrafficcongestioninintelligenttrafficbasedonpatternrecognitiontechnology.clustercomputing,2019,22:12581-12588.



技术实现要素:

本发明技术解决问题:针对目前城市路段交通拥堵问题严重,而现有实时交通情况分析系统仍存在数据处理和拥堵识别效果不佳的问题,提供一种数据驱动的城市交通流速模式识别与实时预测预警方法,将城市交通流速历史数据和实时数据有效结合,在实现城市路段交通管理方面具有明显的优越性。

本发明技术解决方案:一种数据驱动的城市交通流速模式识别与实时预测预警方法。对路段交通流速历史数据进行处理,填补缺失值,筛选并修正异常值;基于处理后的路段交通流速历史数据,采用轮廓系数确定最佳聚类数目,使用改进的k-means聚类算法,得到不同日期特征下的路段交通流速历史模式;利用路段交通流速实时数据,采用holt指数平滑预测模型预测该路段未来一段时间的交通流速;基于当前日期特征与路段交通流速历史模式进行匹配,计算路段交通流速预测结果与历史模式之间的下半偏差,当下半偏差大于一定阈值时进行预警。

本发明的一种数据驱动的城市交通流速模式识别与实时预测预警方法,包括以下步骤:

第一步,数据预处理:将城市路段的交通流速历史数据作为初始数据集,所述初始数据集包括若干不同路段id、不同时间的样本数据;对所述初始数据集进行预处理,得到已预处理数据集,所述预处理包括缺失值处理、异常值处理与标准化处理;

第二步,流速模式分析:按照改进版的k-mans聚类算法,对第一步中所述已预处理数据集进行聚类分析,得到不同路段id和不同日期特征下的交通流速模式数据集和交通流速模式图。所述日期特征是指该日所属一周内的星期几,所述交通流速模式数据集包括不同类别的一天24小时下的路段交通流速数据,所述交通流速模式图是所述交通流速模式数据集的折线图表示;

第三步,历史模式匹配:使用第二步中所述交通流速模式数据集和交通流速模式图,结合不同路段id与当前日期特征,匹配符合当日的交通流速模式数据集和交通流速模式图,即形成其交通流速历史模式;

第四步,实时流速预测:使用第一步中已预处理数据集作为预测模型的训练集,得到预测模型中的最优模型参数,导入城市路段的交通流速实时数据,基于训练好的预测模型实现对交通流速的实时预测,得到实时预测结果;

第五步,实时流速预警:对于同一路段id,使用第四步中实时预测结果与第三步中的交通流速历史模式进行比较,如果二者的下半偏差——前者数据减去后者数据为负值时的偏差,大于设定阈值时进行路段的交通流速预警,即结合交通流速历史模式与实时预测结果进行实时预警,以便及时采取路段交通缓堵措施。

所述第一步中,

预处理中的缺失值处理的实现为,针对连续缺失数据为两个及以下的缺失数据,取值为前一个最近的值;针对连续缺失数据为两个以上的缺失数据,若为周六日,则填补为周六日的该路段id该时间下的均值,若为工作日,则填补为工作日该路段id该时间下的均值;

预处理中的异常值处理的实现为,采用二倍标准差分解法,首先筛选缺失值处理后的数据集中每个路段id的每个时间点下的样本数据中与该样本数据的均值之差大于两倍该样本数据的标准差的异常值,调整为该样本数据的均值与两倍该样本数据的标准差之和;然后筛选缺失值处理后的数据集中每个路段id的每个时间点下的样本数据中与该样本数据的均值之差小于两倍该样本数据的标准差的异常值,调整为该样本数据的均值与两倍该样本数据的标准差之差,其中所述缺失值处理后的数据集中第j个路段id的第i个时间点下的样本数据经过异常值处理后的数值y(i,j)表示为:

式中,yij表示所述缺失值处理后的数据集中第j个路段id的第i个时间点下的原始数据;μi表示所述缺失值处理后的数据集中第i个时间点下的样本数据的均值;表示所述缺失值处理后的数据集中第i个时间点下的样本数据的标准差;

预处理中的标准化处理的实现为,令vt表示为t时刻的交通流速,其中l表示数据字段中的路段长度;t表示数据字段中的路段通行时间;t表示数据字段中的数据记录时间。

所述第二步中,通过改进版的k-means聚类算法进行交通流速模式的识别,具体如下:

(1)聚类指标的确定:根据路段流速数据的特征,选取一天内不同t时刻的路段流速时间序列数据作为聚类指标;

(2)指标权重的选取:对于不同日期之间差别大小不同的指标,应赋予不同的权重,使区分更加充分,所以使用反映数据间离散程度大小的变异系数作为权重赋值给每个日期下的聚类指标,某个指标对应的变异系数计算如下:

式中,cv表示该指标对应的变异系数;σ(v)表示所有日期的该指标值的总体标准差;e(v)表示所有日期的该指标值的均值;vi表示第i个日期该指标的值;m表示待聚类的日期数;

(3)最佳聚类数目的确定:轮廓系数sli(a)是衡量样本点聚类结果类内紧密性和类间分离性的测度量,用来确定最佳聚类数目;sli(a)∈[-1,1],取值越大说明聚类效果质量越好,计算方法如下:

式中,sli(a)表示样本aa的轮廓系数;aa表示样本aa到其它类内样本平均距离的最小值;ba表示样本aa与其所属类内其它样本的平均距离;aa表示所取样本;ab表示与aa所属同一类的样本;ac表示与aa所属不同类的样本;k(a)表示样本aa所属的类;k′表示与k(a)不同的类;

以上计算过程得到一个样本点的轮廓系数,将所有点的轮廓系数测度值取平均值,得到轮廓系数测度的平均值计算公式如下:

式中,m表示样本点的数量;n表示聚类数目,对于来说,其值最大时,对应的聚类数n即为最佳聚类数目;

(4)k-means聚类识别交通流速模式:用确定最佳聚类数目后,对所述聚类指标使用k-means聚类算法实现路段的交通流速模式识别,k-means聚类算法的基本思路是选出若干个初始点作为初始聚类中心,将除初始点以外的点按照最近距离的原则归入各中心,得到第一次迭代结果,然后将每一类的中心点作为下一次迭代的中心,进行重复迭代,最终结果逐渐收敛、逼近最优解,具体操作步骤如下:

①随机选取k个点,作为聚类中心;

②计算每个点分别到k个聚类中心的距离,将该点分到最近的聚类中心,这样可形成k个簇;

③重新计算每个簇的质心,即均值;

④重复以上②-④步,直到每个簇的质心的位置不再发生变化或达到设定的迭代次数。

其中,第(2)步指标权重的选取为改进版k-means聚类算法的体现,此指标权重的选取能体现不同指标对于聚类的影响能力不同,优化聚类的效果。

所述第四步中,预测模型采用holt指数平滑预测模型对城市路段的交通流速进行实时预测,具体如下:

(1)使用路段交通流速历史数据集作为预测模型的训练集来训练预测模型,以确定预测效果最好的模型参数,holt指数平滑预测是将历史数据进行加权平均作为未来时刻的预测结果,其预测方程和平滑方程为:

式中,表示第t+k期的预测值;k表示预测期数;lt表示水平平滑方程,是第t期一次指数平滑值;bt表示趋势平滑方程,是第t期二次指数平滑值;表示阻尼系数,用来防止预测在未来无限增加或减少,α表示水平平滑参数,α∈[0,1];β表示趋势平滑参数,β∈[0,1];

(2)交通流速的实时预测:通过训练好的预测模型,结合路段交通流速实时数据,可对路段的交通流速进行短期实时预测,预测结果作为路段交通流速预警的重要参考信息。

所述第五步中,结合交通流速历史模式与实时预测结果进行实时预警,具体如下:

对于同一路段id,通过已得到的交通流速实时预测结果,匹配所述当天日期特征下的交通流速历史模式,采用前述二倍标准差分解法实现对交通流速异常的实时预警,若实时时刻交通流速实时预测值小于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之差,则视为流速异常并进行流速预警;若实时时刻交通流速实时预测值大于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之和,或者实时时刻交通流速实时预测值介于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之差和实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之和之间,则视为流速正常。

本发明与现有技术相比具有如下有益效果:

(1)对于城市路段的交通流速历史模式的挖掘和实时流速的预测,有利于掌握城市路段的交通拥堵情况,提前预警路段拥堵事件的发生,以便能及时制定合理有效的路段缓堵措施和交通疏散决策,对城市的交通管理具有现实意义。

(2)本发明将城市路段的交通流速历史数据与实时数据相结合,既能得到城市路段的交通流速的历史规律,又能进行准确的城市路段交通流速实时预测,避免了只考虑历史规律而忽略实时情况或者只注重实时情况而不参考历史规律的片面性分析,能更加充分地挖掘数据中的潜在信息和价值。

(3)本发明提供了一种数据驱动的城市交通流速模式识别与实时预测预警方法,利用城市路段交通流速历史数据集,通过聚类算法挖掘潜在的交通流速历史模式,识别交通流速历史规律;综合利用城市路段的交通流速历史数据和实时数据,训练预测模型,进行实时预测,并结合城市路段的交通流速历史模式对交通流速实时预警,拥堵识别效果较好。

附图说明

图1是本发明方法的实现流程图;

图2是计算轮廓系数的示意图;

图3是k-means聚类算法示意图;

图4是使用轮廓系数确定最佳聚类数目示意图;

图5是交通流速历史模式示意图;

图6是交通流速实时预测示意图。

具体实施方式

以下结合具体实例对本发明内容作详细说明。需要说明的是,该部分内容的具体实施例子仅用于解释本发明,并不限定于本发明,并且实施例子中各部分相互组合形成的技术方案均在本发明的保护范围之内。

如图1所示,本发明方法通过以下步骤实现:

(1)数据预处理:将城市路段的交通流速历史数据作为初始数据集,所述初始数据集包括若干不同路段id、不同时间的样本数据。对所述初始数据集进行预处理,得到已预处理数据集,所述预处理包括缺失值处理、异常值处理与标准化处理。

预处理中的缺失值处理的实现为,针对连续缺失数据为两个及以下的缺失数据,取值为前一个最近的值;针对连续缺失数据为两个以上的缺失数据,若为周六日,则填补为周六日的该路段id该时间下的均值,若为工作日,则填补为工作日该路段id该时间下的均值;

预处理中的异常值处理的实现为,采用二倍标准差分解法,首先筛选缺失值处理后的数据集中每个路段id的每个时间点下的样本数据中与该样本数据的均值之差大于两倍该样本数据的标准差的异常值,调整为该样本数据的均值与两倍该样本数据的标准差之和;然后筛选缺失值处理后的数据集中每个路段id的每个时间点下的样本数据中与该样本数据的均值之差小于两倍该样本数据的标准差的异常值,调整为该样本数据的均值与两倍该样本数据的标准差之差,其中所述缺失值处理后的数据集中第j个路段id的第i个时间点下的样本数据经过异常值处理后的数值y(i,j)表示为:

式中,yij表示所述缺失值处理后的数据集中第j个路段id的第i个时间点下的原始数据;μi表示所述缺失值处理后的数据集中第i个时间点下的样本数据的均值;表示所述缺失值处理后的数据集中第i个时间点下的样本数据的标准差;

预处理中的标准化处理的实现为,令vt表示为t时刻的交通流速,其中l表示数据字段中的路段长度;t表示数据字段中的路段通行时间;t表示数据字段中的数据记录时间。

(2)流速模式分析:按照一种改进版的k-mans聚类算法,对第(1)步中所述已预处理数据集进行聚类分析,得到不同路段id和不同日期特征下的交通流速模式数据集和交通流速模式图。所述日期特征是指该日所属一周内的星期几,所述交通流速模式数据集包括不同类别的一天24小时下的路段交通流速数据,所述交通流速模式图是所述交通流速模式数据集的折线图表示。

步骤1:聚类指标的确定:根据路段流速数据的特征,选取一天内不同t时刻的路段流速时间序列数据作为聚类指标;

步骤2:指标权重的选取:对于不同日期之间差别大小不同的指标,应赋予不同的权重,使区分更加充分,所以使用反映数据间离散程度大小的变异系数作为权重赋值给每个日期下的聚类指标,某个指标对应的变异系数计算如下:

式中,cv表示该指标对应的变异系数;σ(v)表示所有日期的该指标值的总体标准差;e(v)表示所有日期的该指标值的均值;vi表示第i个日期该指标的值;m表示待聚类的日期数。

步骤3:最佳聚类数目的确定:轮廓系数(sli(a))是衡量样本点聚类结果类内紧密性和类间分离性的测度量,可用来确定最佳聚类数目。sli(a)∈[-1,1],取值越大说明聚类效果质量越好。计算方法如下:

式中,sli(a)表示样本aa的轮廓系数;aa表示样本aa到其它类内样本平均距离的最小值;ba表示样本aa与其所属类内其它样本的平均距离;aa表示所取样本;ab表示与aa所属同一类的样本;ac表示与aa所属不同类的样本;k(a)表示样本aa所属的类;k′表示与k(a)不同的类。

以上计算过程得到一个样本点的轮廓系数,将所有点的轮廓系数测度值取平均值,可以得到轮廓系数测度的平均值计算公式如下:

式中,m表示样本点的数量;n表示聚类数目。对于来说,其值最大时,对应的聚类数n即为最佳聚类数目。

此步骤中指标权重的选取为改进版k-means聚类算法的体现,此指标权重的选取能体现不同指标对于聚类的影响能力不同,优化聚类的效果。

步骤4:k-means聚类识别交通流速模式:用步骤3中的方式确定最佳聚类数目后,对所述聚类指标使用k-means聚类算法实现路段的交通流速模式识别,k-means聚类算法的基本思路是选出若干个初始点作为初始聚类中心,将除初始点以外的点按照最近距离的原则归入各中心,得到第一次迭代结果,然后将每一类的中心点作为下一次迭代的中心,进行重复迭代,最终结果逐渐收敛、逼近最优解,具体操作步骤如下:

①随机选取k个点,作为聚类中心;

②计算每个点分别到k个聚类中心的距离,将该点分到最近的聚类中心,这样可形成k个簇;

③重新计算每个簇的质心,即均值;

④重复以上②-④步,直到每个簇的质心的位置不再发生变化或达到设定的迭代次数。

(3)历史模式匹配:使用第二步中所述交通流速模式数据集和交通流速模式图,结合不同路段id与当前日期特征,匹配符合当日的交通流速模式数据集和交通流速模式图,即形成其交通流速历史模式。

(4)实时流速预测:使用第(1)步中所述已预处理数据集作为预测模型的训练集,得到预测模型中的最优模型参数,导入城市路段的交通流速实时数据,基于训练好的预测模型实现对交通流速的实时预测,得到实时预测结果。

步骤1:流速预测模型的训练:使用路段的交通流速历史数据集作为预测模型的训练集来训练预测模型,以确定预测效果最好的模型参数。所述预测模型是holt指数平滑预测模型。holt指数平滑预测实质上是将历史数据进行加权平均作为未来时刻的预测结果,其预测方程和平滑方程为:

式中,表示第t+k期的预测值;k表示预测期数;lt表示水平平滑方程,是第t期一次指数平滑值;bt表示趋势平滑方程,是第t期二次指数平滑值;表示阻尼系数,用来防止预测在未来无限增加或减少,α表示水平平滑参数,α∈[0,1];β表示趋势平滑参数,β∈[0,1]。

步骤2:交通流速的实时预测:通过上述步骤训练好的预测模型,结合路段交通流速实时数据,可对路段的交通流速进行短期实时预测,其预测结果可作为路段交通流速预警的重要参考信息。

(5)实时流速预警:对于同一路段id,使用第(4)步中实时预测结果与第(3)步中的交通流速历史模式进行比较,如果二者的下半偏差——前者数据减去后者数据为负值时的偏差,大于设定阈值时进行路段的交通流速预警,即结合交通流速历史模式与实时预测结果进行实时预警,以便及时采取路段交通缓堵措施。

对于同一路段id,通过已得到的交通流速实时预测结果,匹配所述当天日期特征下的交通流速历史模式,采用前述二倍标准差分解法实现对交通流速异常的实时预警,若实时时刻交通流速实时预测值小于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之差,则视为流速异常并进行流速预警;若实时时刻交通流速实时预测值大于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之和,或者实时时刻交通流速实时预测值介于实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之差和实时时刻当天日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之和之间,则视为流速正常。

随着科技水平的发展进步,我国的一些大型城市路段上均布设了交通拥堵数据采集设备,如环形线圈检测设备、视频检测设备与出租车上安装的浮动车监测设备等。目前,北京市在快速路、主干路、次干路和支路构成的路网系统中安装一定数量的微波、线圈检测器,随着在路段交通中大量布设交通拥堵数据采集设备,获取海量的交通数据对其进行分析成为了可能。具体考虑一条编号为60561100057的北京市高速公路,现有其从2020年4月3日至202年5月20日的路段交通情况数据,具体涉及到的数据字段有城市路段编号、路段长度、路段通行时间、数据记录时间。

针对此高速公路,本发明对其路段的交通流速进行了模式识别和实时预测预警。具体步骤如下:

(1)数据预处理:使用编号为60561100057的北京市高速公路从2020年4月3日至202年5月20日的路段交通情况数据作为初始数据集,对所述初始数据集进行预处理,得到已预处理数据集。所述预处理包括缺失值处理、异常值处理与标准化处理。已预处理数据集如表1所示。

表1已预处理交通流速数据表

(2)流速模式分析:按照一种改进版的k-mans聚类算法,对第(1)步中所述已预处理数据集进行聚类分析,得到不同路段id和不同日期特征下的城市路段的交通流速模式数据集和交通流速模式图。如图3所示,具体如下:

步骤1:聚类指标的确定。根据路段的交通流速数据的特征,以数据记录时间5min为时间间隔,选取一天内不同时刻的路段交通流速时间序列数据,共288个数据点,作为288个聚类指标;

步骤2:指标权重的选取。使用每个聚类指标从2020年4月3日至202年5月20日的变异系数作为权重赋值给每个日期下的聚类指标。

步骤3:最佳聚类数目的确定。使用轮廓系数来确定最佳聚类数目。从图4中可以得到,当聚类数目为2时,轮廓系数最大,即最佳聚类数目为2类。

步骤4:k-means聚类识别交通流速模式。交通流速模式图如图5所示,路段编号为60561100057的高速公路交通流速模式可分为两类:模式1为周六日模式(此类模式所包含的日期大多数为周六和周日);模式2为工作日模式(此类模式所包含的日期大多数为周一到周五)。

(3)历史模式匹配:使用第(2)步中所述交通流速模式数据集和交通流速模式图,结合此路段的不同日期特征,可匹配当日的交通流速历史模式,如2020年1月21日(星期四),此路段的交通流速历史模式为模式2。

(4)实时流速预测:使用第(1)步中所述已预处理数据集作为预测模型的训练集,得到适合的模型参数和预测模型,导入路段的交通流速实时数据,基于训练好的预测模型实现对路段流速的实时预测。

步骤1:流速预测模型的训练:使用路段的交通流速历史数据集作为预测模型的训练集来训练预测模型,以确定预测效果最好的holt指数平滑预测模型参数为:α=0.9,β=0.5。

步骤2:交通流速的实时预测:通过上述步骤训练好的预测模型,结合路段的交通流速实时数据,可对路段的交通流速进行短期实时预测。实时预测图如图6所示,假设当前需要实时预测2020年1月21日9:50-10:20这一时间段路段编号为60561100057的北京市高速公路的交通流速,使用本发明中的预测方法可以实现快速预测。

(5)实时流速预警:通过已实现的路段交通流速实时预测值,匹配该路段2021年1月21日的日期特征下的交通流速历史模式,可采用二倍标准差分解法实现对路段的交通流速异常的实时预警。对于该路段来说,若实时时刻交通流速实时预测值小于该时刻该日期特征下交通流速历史模式值与该时刻该日期特征下历史数据的两倍标准差之差,则视为交通流速异常。

以上应用实例说明了本发明的有效性和优越性,得出本发明所提出的一种数据驱动的城市交通流速模式识别与实时预测预警方法可以为路段交通情况的实时掌握和缓堵措施的及时制定提供有效信息,对于城市路段的交通管理具有实用价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1