高速公路事件检测的数据清洗方法

文档序号:9201143阅读:387来源:国知局
高速公路事件检测的数据清洗方法
【技术领域】
[0001] 本发明属于道路交通检测技术领域,具体涉及一种高速公路事件检测的数据清洗 方法。
【背景技术】
[0002] 近年来,高速公路频频出现交通拥挤、交通事故等问题,影响着高速公路路网运行 效率,随着智能交通技术的发展,高速公路事件检测系统正在陆续投入的应用研发,为解决 高速公路事件管理带来机遇。
[0003] 高速公路事件检测系统依赖着大量从传感器获取的数据,这些数据的可靠程度 会直接影响高速公路事件检测的可信性和可靠性,但由于技术水平和工程条件的限制,当 前数据可靠程度不能满足实际工程需求。由于我国智能交通系统起步相对较晚,配套设施 (交通信息采集系统、传输系统、硬件设施等)建设并不完善,上传到高速公路事件检测系 统的交通检测数据可靠性还存在很大的不足。工程实践表明,种种数据不可靠因素导致高 速公路事件检测系统的检测效果并不理想。
[0004] 因此,数据清洗工作是提高高速公路事件检测系统可靠性的必要工作。数据清洗 工作主要有两个内容:第一,筛选导致系统不能正常工作的数据(包括数据缺失、数据异常 等);第二,对这些不正常的数据进行修复。
[0005] 现有数据筛选方法主要分为基于统计学和基于交通流理论两类方法。基于统计 学的数据筛选方法(如时间序列法、指数平滑法等),其优点是可以通过数据的历史信息来 评价当前数据,并且每个周期数据的历史数据都不尽相同,因此具有动态性,可以适应不同 流量特点变化,缺点是没有考虑交通流理论的基本三参数关系;基于交通流理论的交通数 据筛选方法(如基于交通流三参数关系方法、流量守恒方法等),其优点是考虑了交通流机 理,对于评价数据的标准一定是满足交通流机理的,缺点是缺乏动态性。
[0006] 数据修复方面的相关解决方法主要是基于统计学的方法,包括时间序列、回归模 型等,主要利用历史数据进行预测和修复。
[0007] 从现有的数据清洗方法来看,一方面,两类数据筛选方法各有优缺点,尚未有较好 的方法结合二者优点并规避二者缺点;另一方面,数据修复方法仅通过历史数据进行修复, 忽略了当前周期数据所保留的部分真实信息。因此,如何结合两类数据筛选方法的优点,避 开缺点,并在修复阶段有效地把握当前周期数据保留的真实交通流信息,对于提高高速公 路事件检测系统的数据可靠性有着重要意义。

【发明内容】

[0008] 有鉴于此,本发明的目的在于提供一种高速公路事件检测的数据清洗方法,以减 少数据缺失及数据异常现象导致对高速公路事件检测系统工作的影响,以提升系统的工作 可信性。
[0009] 为达到上述目的,本发明提供如下技术方案:
[0010] 高速公路事件检测的数据清洗方法,包括以下步骤:
[0011] 1)采用带延迟时间容忍度ta的条件判断高速公路事件检测的数据是否缺失;采 用条件筛选方法判断高速公路事件检测的数据是否异常,所述条件包括非凌晨时间数据全 为〇、速度或占有率高于阈值、部分交通参数为〇 ;
[0012] 2)对缺失数据和异常数据进行修复,对于数据缺失和异常数据中非凌晨时间数据 全为〇的情况,采用移动平均方法进行修复,对于异常数据中占有率和平均车速同时较高、 部分交通参数为0的两种情况,采用反比例法进行修复。
[0013] 进一步,所述步骤1)具体采用如下步骤:
[0014] 101)设置数据延迟时间的容忍度ta;
[0015] 102)延迟ta时间读取当前周期数据;
[0016] 103)读取当前周期数据;
[0017] 104)如果当前周期有数据则执行步骤105),如果当前周期没有数据,则标记为数 据缺失,并结束数据缺失的筛选流程;
[0018] 105)判断读取的数据是否全为0,如果是,则跳转执行步骤106),如果不是,则跳 转执行步骤107);
[0019] 106)判断是否是凌晨,如果是凌晨,则为正常数据,如果非凌晨,则为异常数据,结 束筛选,标志非凌晨数据全为0并跳转执行步骤2);
[0020] 107)读取当前周期之前η个周期数据并计算前η个周期的5值:
[0022] 其中q(t)表示当前周期之前η个周期数据流量值,o(t)表示当前周期之前η个 周期占有率值,V (t)表示当前周期之前η个周期平均车速值,同时从小到大排列3值;
[0023] 108)计算指数 pi:
[0024] Pi= (i/n)*100
[0025] 其中i为前η个周期数据由小到大的排列序号;
[0026] 109)如果Pi>25,则第i个数据的S值则为第一个四分位数Q1,并且如果?,75,则 第i个数据3值则为第三个四分位数Q3 ;
[0027] 110)计算四分位距IQR,IQR的计算公式为IQR = Q3-Q1 ;
[0028] 111):计算0的取值范围
其中己_min和 i_maX分别为5的取值上限和取值下限;
[0029] 112)计算 q(t)的取值范围[q(t)_min, q(t)_max],
,其中q(t)_min为流量的取 值下限,q(t)_max为流量的取值上限,q(t)表示当前周期数据流量值,o(t)表示当前周期 占有率值,v(t)表示当前周期平均车速值;
[0030] 113)判断q(t)是否小于q(t)_min或大于q(t)_max,如果是,则认为是异常数据。
[0031] 进一步,所述步骤2)具体包括如下步骤:
[0032] 201)判断当前数据是否属于数据缺失情况,如果不是则进入202),如果是,则采 用加权的移动平均方法进行数据修复并结束修复过程;
[0033] 202)判断当前数据是否是非凌晨时间数据全为0的情况,如果不是则直接结束修 复过程,如果是,则采用加权的移动平均方法进行数据修复并结束修复过程;
[0034] 203)判断是否属于数据异常并需要修复,如果不是则结束修复过程,如果是,则执 行步骤204);
[0035] 204)计算 β 值:
[0036] 判断流量是否高于阈值,如果是,贝U β = q(t)_q(t)_max,如果不是,则 β = Q_ min-q(t),其中q(t)为当前周期流量值,Q_min和Q_max分别为数据筛选过程中的流量取 值下限和取值上限;
[0037] 205)进行数据修复,修复公式如下:
[0039] 其中,SKt)为修复后的交通流量、平均车速或占有率,y(t-l)和y(t_2)分别为前一 个周期和前两个周期的流量、平均车速或占有率,l/β称为反比例系数,α为加权系数,一 般取 0.4-0. 8。
[0040] 进一步,所述加权的移动平均方法进行数据修复的公式如下:
[0042] 其中Kt) %修复后的交通流量、平均车速或占有率,y(t-l)和y(t_2)分别为前一 个周期和前两个周期的流量、平均车速或占有率,α为加权系数,取0.4-0. 8。
[0043] 本发明相对于现有技术具有如下优点:本发明适用于高速公路事件检测系统实际 工程应用,筛选方法可以动态适应不同流量变化,并满足交通流机理,修复算法能够保留当 前周期异常数据的部分真实信息,修复结果更接近于真实数据,并且运算量更低,系统开销 小。
【附图说明】
[0044] 图1示出了高速公路事件检测的数据清洗方法中数据筛选的流程示意图;
[0045] 图2示出了高速公路事件检测的数据清洗方法中数据修复的流程示意图。
【具体实施方式】
[0046] 为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方 式作进一步的详细描述。
[0047] 本实施例的高速公路事件检测的数据清洗方法,包括如下步骤:
[0048] 1)采用带延迟时间容忍度^的条件判断高速公路事件检测的数据是否缺失,所述 高速公路事件检测的数据包括交通流量、平均车速和占有率;采用条件筛选方法判断高速 公路事件检测的数据是否异常;所述条件包括非凌晨时间数据全为0、速度或占有率高于 阈值、部分交通参数为0 ;由于高速公路事件检测系统是"实时"检测系统,由于各种因素的 存在(各系统时钟不同步、传输延迟、计算延迟等),数据传输和检测系统不可能达到绝对 的实时,因此,对于缺失的数据筛选,首先要确定对于数据延迟时间的容忍程度t a,即延迟 时间在ta范围内是可以接受的,一般而言,延迟时间的容忍度根据检测周期T进行设置,一 般可取范围为T/2~2*T,可根据高速公路事件检测系统的用户自行设定。
[0049] 参见图1,步骤1)具体包括如下步骤:
[0050] 101)设置数据延迟时间的容忍度ta;
[0051] 102)延迟ta时间读取当前周期数据;
[0052] 103)读取当前周期数据;
[0053] 104)如果当前周期有数据则执行步骤105),如果当前周期没有数据,则标记为数 据缺失,并结束数据缺失的筛选流程;
[0054] 105)判断读取的数据是否全为0,如果是,则跳转执行步骤106),如果不是,则跳 转执行步骤107);
[0055] 106)判断是否是凌晨,如果是凌晨,则为正常数据,如果非凌晨,则为异常数据,结 束筛选,标志非凌晨数据全为0并跳转执行步骤2);
[0056] 107)读取当前周期之前η个周期数据并计算前η个周期的3值:
[0058] 其中q(t)表示当前周期之前η个周期数据流量值,o(t)表示当前周期之前η个
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1