一种基于耦合信息的公交缺失行车数据恢复方法与流程

文档序号:16530897发布日期:2019-01-05 10:44阅读:150来源:国知局
一种基于耦合信息的公交缺失行车数据恢复方法与流程
本发明涉及智能交通
技术领域
及数据恢复
技术领域
,尤其涉及一种公交缺失行车数据恢复的方法。
背景技术
:近年来,国内多数城市均在城市公交上安装了定位系统,并能将实时定位信息回传至数据中心,为乘客的实时公交查询和公交运营管理提供数据服务。随着运营公司管理服务水平的提升,需要对各线路的公交轨迹进行数据分析,挖掘其内在特点,进而为运营优化提供依据。然而,在实际公交系统中,受gps定位漂移、信号中断或网络传输错误等因素的影响,公交行驶轨迹数据存在一定比例的缺失(在某些场合甚至超过20%以上的数据缺失),从而在一定程度上影响了公交轨迹的数据分析,尤其是在计算相邻班次公交的到站间隔并进行动态建模等场合,每缺失一个到站数据就会影响前后站点和相邻班次的到站间隔时序数据,使得系统无法充分建模。因此,在许多公交轨迹数据挖掘应用中,需要对所缺失的到站数据进行恢复。一方面,公交轨迹有明显的时变动态性和波动性,常用的线性插值和平均值插值等传统方法对公交缺失数据恢复存在较大误差。另一方面,各公交线路在正常运行时,遵循固定的道路行驶,而多数路段上往往存在多条线路的公交,其在同一路段相近时间内的其它公交行驶信息为缺失的公交行驶数据提供了耦合特征信息。此外,缺失的数据往往与同一班次轨迹中的其他数据具有强关联,亦可作为恢复数据的重要耦合信息。技术实现要素:本发明实施例所要解决的技术问题在于,提供一种公交缺失行车数据恢复的方法,基于同班次公交前后关联的行驶数据和相同路段相近时间的其它线路公交行驶数据构造耦合信息的数据恢复模型,实现公交行驶缺失数据的高精度恢复,为公交数据挖掘建立数据基础。为了解决上述技术问题,本发明提出一种公交缺失行车数据恢复的方法,包括以下步骤:步骤s1、建立待恢复公交线路l的主信息并在所述主信息中,选定待恢复的缺失数据其中,为线路l某班次公交抵达站i的到站时刻;为该班次公交抵达后续站点k的到站时刻,k>=i+2;和均为非缺失数据;为缺失数据,具体为该班次公交抵达i站点下一站点j的到站时刻,j=i+1;步骤s2、建立同线路耦合信息的恢复模型数据集x(0)和y(0);取线路l对站点i,j,k均非缺失的历史数据构成耦合信息并通过公式(1),由h(0)构造对应信息矩阵x(0)和y(0):其中,n表示符合条件的数据样本数,h(0)一行的数据对应该线路某班次在站点i,j,k均非缺失的到站时刻;x(0)为h(0)第3列h(0)(:,3)减去第1列h(0)(:,1)所得值;y(0)为h(0)第2列h(0)(:,2)减去第1列h(0)(:,1)所得值;步骤s3、建立从站点i至站点j的同路段其它线路耦合信息的恢复模型数据集x(m)和y(m),m=1,2,…,m;取线路l在站i到站时刻的前后s分钟为时间窗,构造第m条耦合公交的历史数据集并通过公式(2),由h(m)构造对应信息矩阵x(m)和y(m):其中,m表示共有m条线路在站点i至站点j所构成的路段上行驶;具有相同的数据维度,表示第m条线路对线路l所构成的耦合信息集;nm为数据集中第m条线路产生的耦合信息数目;x(m)为h(m)第4列h(m)(:,4)减去第3列h(m)(:,3)所得值;y(m)为h(m)第2列h(m)(:,2)减去第1列h(m)(:,1)所得值;s的常用取值为2分钟;步骤s4、采用极限学习机elm建立耦合数据拟合模型,并将模型参数存入数据库中;在elm中,神经元个数设为t个,t的取值一般为10,激活函数采用sigmoid函数,输入权重采用区间在[-1,1]的随机数,输入偏置采用区间在[0,1]的随机数,对训练数据x(m)和y(m),m=0,1,2,…,m,则模型参数由公式(3)确定:进一步,根据模型参数,由公式(4)计算训练数据的拟合均方根误差ermse:当m=0,以(l,i,k,0)为组合索引字段,将模型参数(win,bin,β,ermse)存入数据库中;当m>0,以(lm,i,j,1)为组合索引字段,将模型参数(win,bin,β,ermse)存入数据库中;步骤s5、取同线路耦合公交主信息构造m=0的模型输入变量并以(l,i,k,0)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),根据输入变量x(0)和模型参数(win,bin,β,ermse),由公式(5)计算对应输出变量和输出权重w(0):其中,ymin为容许输出的最小值,ymax为容许输出的最大值,当输出值不在容许范围内时直接对输出权重触发置零;kw为控制拟合均方根误差ermse对模型预报权重的影响参数,取值为正实数;kw取值越大,拟合误差小的模型对应输出权重越大;步骤s6、取同路段相近时间其它线路耦合公交信息m=1,2,…m,并以(lm,i,j,1)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),且进一步根据模型参数(win,bin,β,ermse),由公式(6)计算对应输出变量和输出权重w(m):其中,相近时间的定义为线路lm到达站点i的时刻在区间内,s为时间窗口控制参数,与步骤3的s值相等,一般情况下s取值2分钟;步骤s7、对各模型输出进行权重累加归一处理,由公式(7)计算出线路l从站点i至站点j的加权输出估计值并进一步根据公式(8),计算出待恢复的缺失数据其中,所述方法进一步包括:当出现连续站点的缺失数据时,则可通过j=i+1恢复后,再令i=j,j=i+1的递进方式按s1至s7步骤方式恢复下一个缺失值,直至站点i至站点k之间的所有缺失数据恢复完毕。实施本发明实施例,具有如下有益效果:1、相比传统的线性插值,本发明能充分利用同线路关联站点的耦合行车信息以及同路段其它线路的耦合行车信息,建立数据拟合模型,并根据模型拟合误差计算对应模型的权重,实现多模型加权计算相邻站点的行驶时间,进而实现相应缺失数据的恢复,从而充分利用了同线路关联耦合信息和同路段不同线路的耦合信息,能取得更低的数据恢复误差,提高数据的可靠性;2、本发明的数据拟合训练和数据恢复计算分离,并利用组合索引字段存储和获取模型参数,提高实时恢复数据的速度;3、本发明的模型输出权重由输出值异常触发置零,当某个模型的输出值不在预设范围内时,对应权重为0,使得该模型临时失效,避免了个别模型异常时对恢复数据产生不良影响;4、本发明的模型输出权重由拟合误差控制,使得拟合误差小的模型输出权重大,提高了数据恢复模型的鲁棒性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴;图1为本发明实施例提供的公交缺失行车数据恢复的方法的流程图;图2为本发明实施例提供的公交缺失行车数据恢复的方法中步骤s5、步骤s6和步骤s7模型应用的流程图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。如图1所示,为本发明实施例中,提出的一种公交缺失行车数据恢复的方法,包括以下步骤:步骤s1、建立待恢复公交线路l的主信息并在所述主信息中,选定待恢复的缺失数据其中,为线路l某班次公交抵达站i的到站时刻;为该班次公交抵达后续站点k的到站时刻,k>=i+2;和均为非缺失数据;为该班次公交抵达后续站点j的到站时刻,j=i+1;具体过程为,将数据恢复问题转化为相邻站点的行驶时间估计问题。设置为该线路公交从站点i至站点j的经历时间;同理,设置为该线路公交从站点i至站点k的经历时间。若能从耦合信息中得以估计,则可由得以恢复。在一个实施例中,如下表1所示,给出某城市公交线路10某班次的行车数据,为简化问题,表中只给出站点6、站点7和站点8的到站信息。表1中,到站时刻转换为从00:00:00开始计算的分钟数,以638.92为例,其真实到站时刻为10:38:55,对应计算过程为10×60+38+55/60=638.92,将到站时刻转为分钟数的数据表达便于数据计算。表1:某班次公交到站信息表id站6站7站81638.92641.42*642.55表1中,id=1的所在行记录了该班次在站点6和站点8的到站时刻,站点7的真实值为641.42。假设站点7为数据缺失的站点,需要将其恢复并评估恢复误差。此时,按步骤s1,取i=6,k=8,l=10,j=7,主信息al=[638.92,642.55],待恢复数据转化为从站点6到站点7的行车估计问题。步骤s2、建立同线路耦合信息的恢复模型数据集x(0)和y(0);取线路l对站点i,j,k均非缺失的历史数据构成耦合信息并通过公式(1),由h(0)构造对应信息矩阵x(0)和y(0):其中,n表示符合条件的数据样本数,h(0)一行的数据对应该线路某班次在站点i,j,k均非缺失的到站时刻;x(0)为h(0)第3列h(0)(:,3)减去第1列h(0)(:,1)所得值,代表历史数据;y(0)为h(0)第2列h(0)(:,2)减去第1列h(0)(:,1)所得值,代表历史数据;具体过程为,以同班次公交前后关联的历史数据建立同线路耦合信息,并进一步以同线路耦合信息为基础,建立相应的数据恢复模型所需数据集。在一个实施例中,以上表1为例,对站点7的缺失数据,可在数据库中取线路10所有在站点6、站点7和站点8均非缺失的到站数据构成h(0)矩阵。按4个月为一批处理数据,针对表1,其同线路耦合信息共有4704个,因而获得的h(0)矩阵大小为4704×3,根据公式(1),可得同线路耦合信息的恢复模型数据集x(0)和y(0)。步骤s3、建立从站点i至站点j的同路段其它线路耦合信息的恢复模型数据集x(m)和y(m),m=1,2,…,m;取线路l在站i到站时刻的前后s分钟为时间窗,构造第m条耦合公交的历史数据集并通过公式(2),由h(m)构造对应信息矩阵x(m)和y(m):其中,m表示共有m条线路在站点i至站点j所构成的路段上行驶;x(m),具有相同的数据维度,表示第m条线路对线路l所构成的耦合信息集;nm为数据集中第m条线路产生的耦合信息数目;x(m)为h(m)第4列h(m)(:,4)减去第3列h(m)(:,3)所得值;y(m)为h(m)第2列h(m)(:,2)减去第1列h(m)(:,1)所得值。具体过程为,设置相近时间段时间窗s=2分钟,根据线路l在站i到站时刻的前后2分钟为时间窗,构造第m条耦合公交的历史数据集在一个实施例中,继续以上表1为例,线路10对应的站点6至站点7路段,共有3条耦合线路,其线路的数据库id分别为48,194和278,因此m=3,l1=48,l2=194,l3=278。对于l1=48,从历史数据集中筛选出同时满足主线路l=10和耦合线路l1=48在站6和站7均非缺失,且耦合线路在站6的到站时刻与主线路到站时刻相差2分钟以内的数据,构成h(1)数据集,根据系统中的实际数据集,获得h(1)矩阵大小为582×4。同理获得h(2)矩阵大小为876×4,h(3)矩阵大小为359×4。根据公式(2),获得表1中站6至站7的3条耦合线路训练数据集x(m)和y(m),具体为x(1)和y(1),x(2)和y(2),以及x(3)和y(3)。步骤s4、采用极限学习机elm建立耦合数据拟合模型,并将模型参数存入数据库中;在elm中,神经元个数设为t个,t的常用取值为10,激活函数采用sigmoid函数,输入权重采用区间在[-1,1]的随机数,输入偏置采用区间在[0,1]的随机数,对训练数据x(m)和y(m),m=0,1,2,…,m,则模型参数由下式(3)确定:进一步,根据模型参数,由公式(4)计算训练数据的拟合均方根误差:当m=0,以(l,i,k,0)为组合索引字段,将模型参数(win,bin,β,ermse)存入数据库中;当m>0,以(lm,i,j,1)为组合索引字段,将模型参数(win,bin,β,ermse)存入数据库中。具体过程为,在一个实施例中,继续以上表1为例,在elm中,神经元个数设为t=10个,激活函数采用sigmoid函数,输入权重采用区间在[-1,1]的随机数,输入偏置采用区间在[0,1]的随机数,对训练数据x(m)和y(m),m=0,1,2,3,共训练4个拟合模型。m=0时,(l,i,k,0)的组合索引字段为(10,6,8,0);m=1时,(l1,i,j,1)的组合索引字段为(48,6,7,1);m=2时,(l2,i,j,1)的组合索引字段为(194,6,7,1);m=3时,(l3,i,j,1)的组合索引字段为(278,6,7,1)。当拟合模型训练完毕,以对应索引字段将模型参数存入数据库中。步骤s5、取同线路耦合公交主信息构造m=0的模型输入变量并以(l,i,k,0)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),根据输入变量x(0)和模型参数(win,bin,β,ermse),由公式(5)计算对应输出变量和输出权重w(0):其中,ymin为容许输出的最小值,ymax为容许输出的最大值,当输出值不在容许范围内时直接对输出权重触发置零;kw为控制拟合均方根误差ermse对模型预报权重的影响,取值为正实数,kw取值越大,拟合误差小的模型对应输出权重越大。具体过程为,如图2所示的左边支路流程对应为本步骤的具体流程。此时,取ymin=0.3、ymax=30、kw=2,并以(l,i,k,0)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),计算主线路耦合信息输出变量和输出权重w(0)。在一个实施例中,继续以上表1为例,x(0)=642.55-638.92=3.63,以(10,6,8,0)为组合索引从数据库中取得模型参数(win,bin,β,ermse),具体为:win=[-0.2967,0.6617,0.1705,0.0994,0.8344,-0.4283,0.5144,0.5075,-0.2391,0.1356]bin=[0.0759,0.0540,0.5308,0.7792,0.9340,0.1299,0.5688,0.4694,0.0119,0.3371]β=[-7.925,6.091,13.94,-2.694,16.87,8.001,-330.4,298.2,12.85,-2.049]×104ermse=0.4441按公式(5),计算得w(0)=0.411。步骤s6、取同路段相近时间其它线路耦合公交信息m=1,2,…m,并以(lm,i,j,1)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),且进一步根据模型参数(win,bin,β,ermse),由公式(6)计算对应输出变量和权重w(m):具体过程为,如图2所示的中间支路和右边支路流程对应为本步骤的具体流程。此时,ymin、ymax和kw与步骤s5中的取值相同,即取ymin=0.3、ymax=30、kw=2,并以(lm,i,j,1)为组合索引字段从数据库中取得模型参数(win,bin,β,ermse),计算同路段耦合线路对应输出变量和输出权重w(m)。例如,以待恢复线路l在站i的发车时刻为基准,取时段内从站点i出发至站点j的其他公交行驶时间假设共有m条线路在此时段产生耦合信息,则共有m个模型分别计算相应输出变量和输出权重w(m)。在一个实施例中,继续以上表1为例,则查找该日在[636.92,640.92]时段内从站6出发至站7的其它线路公交信息,在该情形下符合条件的耦合线路数往往少于训练模型的耦合线路数,符合条件的耦合线路信息如表2所示,线路id为278和48的符合条件,根据步骤s6,得到:表2:同路段耦合线路到站信息表line_id站6站7278638.85641.4348638.78641.68以(278,6,7,1)为组合索引字段取得模型参数,并根据公式(6),计算得w(1)=0.337;以(48,6,7,1)为组合索引字段取得模型参数,并根据公式6计算得w(2)=0.359。步骤s7、对各模型输出进行权重累加归一处理,由公式(7)计算出线路l从站点i至站点j的加权输出估计值并进一步根据公式(8),计算出待恢复的缺失数据具体过程为,根据公式(7)以及步骤s5和s6的计算结果,得到从站6至站7的加权运行时间:进而,通过公式(8),得到恢复后的站7到站时刻为对比表1的真实值可见,本发明实施例中的恢复误差仅0.02分钟,取得良好效果。若采用线性插值,则有:误差为0.685分钟,远大于本发明实施例的方法。在本发明实施例中,当出现连续站点的缺失数据时,则可通过j=i+1恢复后,再令i=j,j=i+1的递进方式按s1至s7步骤方式恢复下一个缺失值,直至站点i至站点k之间的所有缺失数据恢复完毕。以表3为例,站7和站8数据连续缺失,可令i=6,j=7,k=9,恢复站7数据。待站7恢复后,令i=7,j=8,k=9,即可恢复站8数据。表3:连续2个站点缺失数据的公交到站信息id站6站7站8站91740.03----744.97为了验证并统计本发明实施例的数据恢复性能,对苏州公交的采集数据进行验证,其数据集采集时间为2012年8月1日至2012年12月9日。验证数据为线路10的公交到站数据,取80%的数据作为训练数据,20%作为验证数据,表4给出该线路在站点2至站点46共45个站点上缺失数据的恢复均方根误差,由表4可见,在大部分站点测试中,本发明的数据恢复误差比传统线性插值方法取得显著的改进。表4:本发明实施例的方法与线性插值方法的数据恢复均方根误差比较表实施本发明实施例,具有如下有益效果:1、相比传统的线性插值,本发明能充分利用同线路关联站点的耦合行车信息以及同路段其它线路的耦合行车信息,建立数据拟合模型,并根据模型拟合误差计算对应模型的权重,实现多模型加权计算相邻站点的行驶时间,进而实现相应缺失数据的恢复,从而充分利用了同线路关联耦合信息和同路段不同线路的耦合信息,能取得更低的数据恢复误差,提高数据的可靠性;2、本发明的数据拟合训练和数据恢复计算分离,并利用组合索引字段存储和获取模型参数,提高实时恢复数据的速度;3、本发明的模型输出权重由输出值异常触发置零,当某个模型的输出值不在预设范围内时,对应权重为0,使得该模型临时失效,避免了个别模型异常时对恢复数据产生不良影响;4、本发明的模型输出权重由拟合误差控制,使得拟合误差小的模型输出权重大,提高了数据恢复模型的鲁棒性。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如rom/ram、磁盘、光盘等。以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1