交通数据流的聚集查询方法及系统的制作方法

文档序号:6622309阅读:361来源:国知局
交通数据流的聚集查询方法及系统的制作方法
【专利摘要】本发明公开了交通数据流的聚集查询方法及系统,属于信息技术处理领域。方法获取移动对象的时空信息生成交通数据流,将数据空间划分为子单元,把频率相似的邻近的单元分组成少数的桶,基于桶的频率计算桶的卡尔曼增益,并用二叉划分树来索引桶形成当前时间戳的BPT索引,在当前时间戳结束后将BPT序列化形成历史索引;进行聚集查询,当桶频率变化过大时,利用桶频率最优估计值代替计算聚集查询值。系统包括:信息收集模块、数据处理模块、索引处理模块、应用服务模块和索引存储模块。本发明能够有效的抑制交通数据流查询过程中异常点的最大相对误差,保障聚集查询方法的可用性。
【专利说明】交通数据流的聚集查询方法及系统

【技术领域】
[0001] 本发明涉及交通数据流的聚集查询方法及系统,属于信息技术处理领域。

【背景技术】
[0002] 随着物联网、社交网络和云计算技术等的蓬勃发展,大量的业务应用产生了呈指 数级别增长的数据流数据,使得对数据进行分析和挖掘,发现其中蕴含的自然规律和人类 活动信息,已经变得前所未有的迫切;通过扫描大量数据元组获取统计和概要信息的聚集 查询作为数据分析最常见的查询方式被广泛使用;例如:为了分析和控制交通流、缓解交 通压力,交通监控系统经常关注特定时段内特定路段上移动车辆的近似概要信息(如:南 京市新街口上下班高峰期大约有多少辆车通过?)。由于数据流具有实时性、无限性、瞬时 性、流速不定性以及元数据无穷性等特点,尽管云计算技术具有天生的并行计算能力,也难 以对整个数据集进行聚集查询以在较短时间内获取精确的查询结果,所以,在实际应用中 往往利用高质量的近似聚集查询结果以代替精确结果。虽然近年来,近似聚集查询的研究 成果显著;但是面对人们对查询精度要求的逐步提高,滑动窗口技术、随机采样技术、小波 技术、草图索引结构、直方图技术等典型的近似聚集查询方法均以平均查询误差的大小去 衡量算法的优劣,忽略了能够产生最大相对误差或者较大相对误差的异常点对方法本身性 能的影响(聚集查询方法的可用性往往是由最大相对误差决定),使得近似聚集查询的精 度已经无法替代精确查询。
[0003] 针对这种情况,本发明运用卡尔曼滤波器原理对交通流经典聚集查询方法进行改 进,通过校正状态先验估计以获得后验估计的方法,利用桶的频率最优估计计算异常点聚 集值,有效地抑制异常点的最大相对误差,为聚集查询方法的可用性提供可靠保障。


【发明内容】

[0004] 本发明所要解决的技术问题是针对现有近似聚集查询技术忽略了能够产生最大 相对误差的不足,采用运用卡尔曼滤波器原理通过校正状态先验估计以获得后验估计的方 法,利用桶的频率最优估计计算异常点聚集值,提出了一种交通数据流的聚集查询方法及 系统。
[0005] 本发明为实现上述发明目的采用如下技术方案:
[0006] 交通数据流的聚集查询方法,包括如下步骤:
[0007] 步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在 系统时间戳到来时数据流;
[0008] 步骤2,在系统时间戳到来时生成、更新索引文件:
[0009] 步骤2-1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图 将数据空间分割为ω ·ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频 率,再将频率相似的邻近单元组成一个桶,形成η个桶,0〈η < Β,ω为分辨率,Β为桶数目的 上限,
[0010] 对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平 均频率方差的平均值、该桶的方差以及卡尔曼增益;
[0011] 步骤2-2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件:
[0012] 步骤2-2-1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率 6 : C =LF。= Fe+d,其中:f为前一时间戳单元c的频率,1彡c彡c〇2,d为任意实数;
[0013] 步骤2-2-2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b 个桶,第b个桶包含有nb个单元,b〈n,nb〈c〇 · ω :
[0014] 更新第 b 个桶的频率 fb:,/6=/&-+<Ag = /62-/6-2,
[0015] 更新第b个桶中各单元频率平方的平均值gb、方差vb : ^ (?/,-? + ^g)/nh, v, - gh - fl ,
[0016] 更新第b个桶中第i单元的卡尔曼增益,Fi为第i单元的频率:

【权利要求】
1.交通数据流的聚集查询方法,其特征在于包括如下步骤: 步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在系统 时间戳到来时数据流; 步骤2,在系统时间戳到来时生成、更新索引文件: 步骤2-1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图将数 据空间分割为ω · ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频率, 再将频率相似的邻近单元组成一个桶,形成η个桶,0〈η<Β,ω为分辨率,Β为桶数目的上 限, 对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平均频 率方差的平均值、该桶的方差以及卡尔曼增益; 步骤2-2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件: 步骤2-2-1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率F。: t =€,巧=€ +?/,其中:C为前一时间戳单元c的频率,1彡c彡ω2, d为任意实数; 步骤2-2-2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b个 桶,第b个桶包含有n b个单元,b〈n,nb〈c〇 · ω : 更新第 b 个桶的频率 fb :,/; = /6- + < Ag = :, 更新第b个桶中各单元频率平方的平均值gb、方差vb : gh 二、nh.gh + Ng)/nh,vh 二 gh -片, 更新第b个桶中第i单元的卡尔曼增益,匕为第i单元的频率:
当Fi>fb时,第i单元的卡尔曼增益为: 当匕< fb时,第i单元的卡尔曼增益为 计算出第b个桶中频率大于平均频率的单元数目nbl,更新第b个桶的卡尔曼增益Kgb : KSh =?,"*%; +(/?/?_/7m),A^ ! 1 ^ i ^ nbl ^ nb ; 步骤2-2-3-A,对于需要分裂的桶,计算每个需要分裂桶的最高分割利益和最优划分位 置,按照最优划分位置将需要分裂的桶分为两个子桶,并且设置前一系统时间戳内两个子 桶的频率均与分裂前桶的频率相等,重复步骤2-2-1 ; 步骤2-2-3-B,对于不需要分裂的桶,在索引中桶的数量达到上限时,利用最小合并惩 罚原理将频率集中的多个桶合并为一个桶,重复步骤2-2-1 ; 步骤2-2-3-C,对于不需要分裂的桶,在索引中桶的数量未达上限且当前系统时间戳尚 未结束的情况下,返回步骤1 ; 步骤2-2-3-D,对于不需要分裂的桶,在索引中通的数量未达上限且当前时间戳结束的 情况下,提取当前时间戳的索引文件生成历史索引; 步骤3,在生成更新索引文件的同时,根据用户的查询请求SUM(r,ts,te)对空间区域 r进行交通数据流查询,提取查询时间区间[ts,te]的系统时间戳,对于每个时间戳执行空 间聚集查询:遍历当前时间戳t的索引文件,利用如下表达式求得当前时间戳下空间区域r 在各桶的聚集查询值:
SUM为空间区域r在第bi个桶的聚集查询值,Sinfe为空间区域r与第bi个桶相交区 域的面积,fbi为当前时间戳第bi个桶的平均频率,为前一时间戳f第bi个桶的平均频 率,vbi第bi个桶的方差, 将每个时间戳的查询值求和形成最终的聚集查询值。
2. 根据权利要求1所述的交通数据流的聚集查询方法,其特征在于,步骤2采用二叉划 分树结构来索引桶。
3. 根据权利要求1或2所述的交通数据流的聚集查询方法,其特征在于,步骤2-2-3-A 利用贪心算法计算每个需要分裂桶的最高分割利益和最优划分位置。
4. 根据权利要求3所述的交通数据流的聚集查询方法,其特征在于,步骤2中生成的历 史索引序列化存储在索引存储模块中。
5. 根据权利要求4所述的交通数据流的聚集查询方法,其特征在于,步骤1中采集的移 动对象信息包括编号、经纬度坐标。
6. 交通数据流的聚集查询系统,其特征在于包括: 信息收集模块,采集移动对象的信息,将移动对象信息转化为计算机可处理的数据形 式,在系统时间戳到来时数据流; 数据处理模块,将系统时间戳内的空间数据划分为子单元,把包含移动对象数量相近 的单元组成一个桶,生成桶的索引文件,计算桶的频率、各单元平均频率方差的平均值、方 差以及卡尔曼增益,在新的系统时间戳到来时利用卡尔曼滤波原理更新索引文件; 索引存储模块,用以存储索引生成和更新模块生成的索引文件; 应用服务模块,调用索引存储模块查找符合查询请求的索引文件,并反馈聚值查询值。
7. 根据权利要求6所述的交通数据流的聚集查询系统,其特征在于所述查询系统还包 括索引处理模块,接收当前时间戳的索引,在当前时间戳结束后将当前时间戳的索引与历 史索引序列化处理后输出至引存储模块。
【文档编号】G06F17/50GK104156524SQ201410378094
【公开日】2014年11月19日 申请日期:2014年8月1日 优先权日:2014年8月1日
【发明者】冯钧, 唐志贤, 朱忠华, 査显月, 杜丙帅, 许潇, 王超, 朱跃龙, 李士进, 万定生 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1