填补缺失浮动车数据的方法及系统的制作方法

文档序号:9472316阅读:423来源:国知局
填补缺失浮动车数据的方法及系统的制作方法
【技术领域】
[0001] 本发明设及数据处理技术领域,尤其设及填补缺失浮动车数据的方法及系统。
【背景技术】
[0002] GPS(Global化sitioningSystem)浮动车信息采集技术作为一项新兴的交通信 息动态采集技术,具有全天候、实时性强、检测成本小、数据精度高、采集范围广等诸多优 点,并得到了国内外ITS专家和企业的一致重视,取得了一定的理论成果和应用实施。 1991年,美国提出了基于浮动车的实时路况发布系统ADVANCE,成为动态车辆导航系统的 主要试验项目,试验的目的是为了客观地分析驾驶员是否需要实时信息来避免拥堵从而 提高通行能力。德国的交通数据系统DDG使用了 4000个路面交通传感器和25000辆来自宝 马和大众的采集车,分别对每个原始设备制造商(OEM)提供服务.英国的Trafficmaster 从1998年私营公司开始收集和处理交通数据,并提供一系列的交通信息服务,数据主要 来自于固定的传感器,并由FCD补充。我国的智能交通建设相对而言起步较晚。各大院校、 科研机构和企事业单位先后开展了浮动车交通信息采集与处理技术的合作与自主研发工 作。目前,北京、上海、广州、杭州、宁波等城市,已经拥有了一定规模的浮动车采集终端。
[0003] 车速是浮动车数据中重要的数据之一,也是交通流理论研究中的重要参数和交通 运行情况的基本量度。国内外现有的关于浮动车采集系统的技术研究较多,大致都集中在 成本、浮动车规模、系统结构和精度等方面,但由于浮动车数据特有的流动性W及浮动车 规模的限制,实时浮动车数据不能完全覆盖路网,适当的推估拟合方法可W弥补数据缺失 引起的路网状态表达的不完整性,提高应用效率.因此,探讨浮动车数据缺失时的信息插 补方法具有实际意义,运也是本发明所要解决的主要问题。

【发明内容】

[0004]为了解决现有技术中的问题,本发明提供了 一种填补缺失浮动车数据的方法。
[0005] 本发明提供了一种填补缺失浮动车数据的方法,包括如下步骤:
[0006]A.数据筛选步骤,根据筛选规则对数据进行筛选;
[0007]B.地图匹配步骤,将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目前 所处路段;
[000引C.划分网格步骤,使用网格对路网进行划分;
[0009]化确定插补区域及时间段步骤,根据划分后的路网,通过固定同一时间段并对比 多天数据分布的情况确定需要插补的路段;
[0010]E.插补缺失数据步骤,利用多元线性回归模型,选取空间及时间信息作为变量,用 训练数据计算出偏回归系数。
[0011] 作为本发明的进一步改进,在所述步骤C中,从水平和垂直方向将整个地图数据 分成nXn的网格,如果设地图区域的长度为L高为H,划分为nXn份,每个网格长为1 = L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为:P。:(X。,y。),当得 到一GPS点落在网格内坐标为p(X,y),那么p所属的网格索引号ID的计算公式为:
[001 引ID=floor(n(y0-y)A)+floor((X-X。)/!) +1
[0013] 其中,floor0为取整函数,使用该公式能够从GI^S点坐标快速定位到所属网格。
[0014] 作为本发明的进一步改进,在所述步骤E中,多元线性回归的形式为:yi= 曰0+曰1X11+曰2枯+…+曰iAi+eli= 1,2,…,n,其中k为解释变量的数目,曰0,曰1,…ak为 待定参数,El为随机变量,如果be,bi,…,bk分别为a。,a1,…a,的拟合值,则回归方程 为:
[001引耗=斬+ 6,而+ 6^2,. + …+ 6八
[001引式中:b。为常数,bi,…A为偏回归系数,其意义是,当其他自变量x,(j声U都固 定时,自变量Xi每变化一个单位而使因变量yi平均改变的数值。
[0017] 作为本发明的进一步改进,该方法还包括如下步骤:
[0018]F.处理步骤,设0为随机参数向量,决定决策树的生长,对应的决策树记为 T( 0 ),记B为X的域,即:WSegp,其中^^£成是自变量的缔度,决策树的每一个叶 节点1 = 1,…,L都对应一个B的矩形空间,记每一个XGB,当且仅当一个叶节点1满足XG而,记决策树T(目)的叶节点为1 (X,0 )。
[0019] 作为本发明的进一步改进,在所述步骤F中,
[0020] 利用bootstrap方法重采样,随机产生k个训练集01,02,…,0k,利用每个训练 集生成对应的决策树{T(X,目1)},{T(X,0 2)},…,{T(X,目k)};
[0021] 假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并 W运m个特征中最好的分裂方式对该节点进行分裂;
[0022] 每个决策树都得到最大限度的生长,而不进行剪枝;
[0023] 对于一个新的数据X=x,单棵决策树T(0)的预测可W通过叶节点l(x,0) 的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,0)且不为0,令权重向量 Wi(x,9)为
.,:式中Wi(X,0 )权重之和等于1;
[0024] 在给定自变量X=X下,单棵决策树的预测通过因变量的观测值Yi(i= 1,2,…,n)的加权平均得到,单棵决策树的预测值可由
通过决策树权 重《i(x,0)(i= 1,2,…,k)取平均,得到每个观测值iG(1,2,…,n)的权重《i(x):
[0025] 对于所有y,随机森林的预测可记为:
[0026] 因此,在给定X=X的条件下,Y的条件均值的估计等于所有因变量观测值的加权 和,权重随自变量X=x的变化而变化,且在给定X=Xi(iG(1,2,…,n})下Y的条件分 布与X=X下Y的条件分布越相似,其权重越大。
[0027] 本发明还公开了一种填补缺失浮动车数据的系统,包括:
[0028] 数据筛选模块,用于根据筛选规则对数据进行筛选;
[0029] 地图匹配模块,用于将FCD记录的GPS点匹配到电子地图数据上,从而得到车辆目 前所处路段;
[0030] 划分网格模块,用于使用网格对路网进行划分;
[0031] 确定插补区域及时间段模块,用于根据划分后的路网,通过固定同一时间段并对 比多天数据分布的情况确定需要插补的路段;
[0032] 插补缺失数据模块,用于利用多元线性回归模型,选取空间及时间信息作为变量, 用训练数据计算出偏回归系数。
[0033] 作为本发明的进一步改进,在所述划分网格模块中,从水平和垂直方向将整个 地图数据分成nXn的网格,如果设地图区域的长度为L高为H,划分为nXn份,每个网 格长为1 =L/n,高为h=H/n,给每个网格标示索引值后,设路网左上角顶点坐标为: P。:(X。,y。),当得到一GPS点落在网格内坐标为p(x,y),那么P所属的网格索引号ID的计算 公式为:
[0034] ID=floor(n(y〇-y)A)+floor((X-X。)/!) +1
[003引其中,floor0为取整函数,使用该公式能够从GPS点坐标快速定位到所属网格。
[0036] 作为本发明的进一步改进,在所述插补缺失数据模块中,多元线性回归的形式为: yi= °。+°iXii+a2枯+'''+akXki+eii= 1,2,…,n,其中k为解释变量的数目,a。,a1,… ak为待定参数,e1为随机变量,如果b。,bi,…,bk分别为a。,a1,…ak的拟合值,则回归 方程为:
[0037] 鳥=女g+马骑.+4% +... + 4 策妨
[00測式中:b。为常数,bi,…A为偏回归系数,其意义是,当其他自变量X,(j声U都固 定时,自变量每变化一个单位而使因变量y1平均改变的数值。
[0039] 作为本发明的进一步改进,该系统还包括:
[0040] 处理模块,用于设0为随机参数向量,决定决策树的生长,对应的决策树记为 T(0),记B为X的域,即:A':n一 5、二/?'",其中PG成是自变量的缔度,决策树的每一个叶 节点1 = 1,…,L都对应一个B的矩形空间,记每一个XGB,当且仅当一个叶节点1满足XG而,记决策树T(目)的叶节点为1 (X,0 )。
[0041] 作为本发明的进一步改进,在所述处理模块中,
[0042] 利用bootstrap方法重采样,随机产生k个训练集01,02,…,0k,利用每个训练 集生成对应的决策树{T(X,目1)},{T(X,0 2)},…,{T(X,目k)};
[0043] 假设特征有M维,从M维特征中随机抽取m个特征作为当前节点的分裂特征集,并 W运m个特征中最好的分裂方式对该节点进行分裂;
[0044] 每个决策树都得到最大限度的生长,而不进行剪枝;
[0045] 对于一个新的数据X=x,单棵决策树T(0)的预测可W通过叶节点l(x,0) 的观测值取平均值获得,假如一个观测值Xi属于叶节点l(x,0)且不为0,令权重向量 Wi(X,0)
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1