一种卡口车辆通行数据的分布式存储方法及系统的制作方法

文档序号:6633607阅读:468来源:国知局
一种卡口车辆通行数据的分布式存储方法及系统的制作方法
【专利摘要】本发明涉及一种卡口车辆通行数据的分布式存储方法,包括:配置计算节点和数据节点服务器,搭建并行计算集群环境;按照需要采集的车辆特征建立表结构,在表结构中选取至少两个特征作为主键,由主键组成一条卡口数据信息;对主键和常用查询字段建立分布式可变索引,再针对车牌号建立分布式检索索引;接入待存储的各个卡口的过车信息数据源;用户以包含索引的字段进行查询,系统在100ms之内返回相应数据。本发明还公开了一种卡口车辆通行数据的分布式存储系统。本发明不仅满足了日常业务中卡口系统对海量过车信息数据存储的需求,而且通过对过车信息的数据结构的索引数据结构设计实现了快速查询的功能,大大提高了查询速率,增强了用户体验。
【专利说明】一种卡口车辆通行数据的分布式存储方法及系统

【技术领域】
[0001]本发明涉及卡口过车信息数据存储【技术领域】,尤其是一种卡口车辆通行数据的分布式存储方法及系统。

【背景技术】
[0002]随着平安城市项目的推进,卡口系统需要接入的数据源越来越多,当前,平安合肥每日新增卡口数据约40万条,已有历史数据约4600万条,高效的存储和读取大数据量的数据成为传统数据库存储结构的瓶颈。现有的传统数据库存储实现的卡口系统虽然可以记录一定量的过车信息,但当记录的数据流达到一定的数量级,就无法保证写入效率和查询效率,严重影响了响应的实时性。另外,传统数据库对大数据量大数据存储的管理存在同样类似的瓶颈。


【发明内容】

[0003]本发明的首要目的在于提供一种能够满足日常业务中卡口系统对海量过车信息数据存储的需求,大大提高查询速率的卡口车辆通行数据的分布式存储方法。
[0004]为实现上述目的,本发明采用了以下技术方案:一种卡口车辆通行数据的分布式存储方法,该方法包括下列顺序的步骤:
(1)配置计算节点和数据节点服务器,搭建并行计算集群环境,安装与集群环境版本匹配的数据访问中间件;
(2)按照需要采集的车辆特征建立表结构,在表结构中选取至少两个特征作为主键,由主键组成一条卡口数据信息;
(3)对主键和常用查询字段建立分布式可变索引,再针对车牌号建立分布式检索索弓I ;
(4)接入待存储的各个卡口的过车信息数据源;
(5)用户以包含索引的字段进行查询,系统在10ms之内返回相应数据。
[0005]设定定时任务,自动统计前一天各个卡口的过车数据总量。
[0006]将车牌号、通过时间、卡口编号这三个特征作为主键,由车牌号、通过时间和卡口编号共同组成一条能被用户查询到的卡口数据信息,卡口数据信息格式为:车牌号+通过时间取反+卡口编号。
[0007]所述分布式可变索引随着新的卡口数据的插入而自动更新索引数据,数据通过LSM树的数据结构存储在分布式数据库内,LSM树的数据结构为:通过时间取反+卡口编号+车牌号。
[0008]用户输入一个车牌号的其中任意一段连续字符,便可通过分布式索引文件的查询返回相似度最高的前20个车牌号;返回车牌号之后,系统再根据相似度最高的车牌号列表进行全字段的匹配查询;车牌号的分布式索引存储在大数据集群中的分布式文件系统中。
[0009]本发明还公开了一种卡口车辆通行数据的分布式存储系统,包括大数据集群,大数据集群通过网线分别与用户终端、卡口服务器和交换机相连,卡口数据源通过交换机接入系统,其中,大数据集群,提供大数据平台计算服务和海量数据存储服务;
用户终端,用户用来访问整个卡口系统和其中大数据服务应用;
卡口服务器,是卡口业务系统存放的主机,经过编译的卡口业务系统打包上传到卡口服务器上,然后卡口服务器对外发布卡口服务;
卡口数据源,是卡口业务系统和大数据平台需要记录的摄像头卡口抓拍的数据; 交换机,用于在局域网内不同服务器和主机终端交换数据、搭建局域网。
[0010]所述大数据集群由I个计算节点、I个备份计算节点和N个数据节点组成,计算节点、备份计算节点和数据节点之间通过网线连接,其中,
计算节点,用于处理卡口过车信息中需要运算,和选择分配任务决策运算处理;
备份计算节点,保证集群的高可用;
数据节点,用于存储海量过车信息数据。
[0011]所述大数据集群运行在Linux内核的服务器,计算节点、备份计算节点和数据节点使用Hadoop分布式计算框架,采用HDFS的分布式文件系统,利用MapReduce算法实现“分而治之”的计算模型,所有数据通过Phoenix中间件存储在HBase数据库内,整个Hadoop框架内的计算转发、监控和策略决定都由ZooKeeper管理。
[0012]由上述技术方案可知,本发明采用分布式数据存储结构,接入不同厂家的卡口过车信息数据,并且在入库之前对数据进行合法性校验和业务性调整,保证数据可用可分析。同时对车牌号,过车信息建立索引,保证查询时间和效率,保证高可用。本发明不仅满足了日常业务中卡口系统对海量过车信息数据存储的需求,而且通过对过车信息的数据结构的索引数据结构设计实现了快速查询的功能,大大提高了查询速率,增强了用户体验。本发明不仅可以应用于平安城市卡口系统记录过车信息相关数据,还可将其运用到其他类似数据量大,业务处理相对不是很复杂的业务场景中使用。

【专利附图】

【附图说明】
[0013]图1为本发明的系统网络拓扑图。
[0014]图2为本发明的软件技术分层框架图。
[0015]图3为本发明的方法流程图。

【具体实施方式】
[0016]一种卡口车辆通行数据的分布式存储方法,包括:首先,配置计算节点和数据节点服务器,搭建并行计算集群环境,安装与集群环境版本匹配的数据访问中间件,ApachePhoenix数据访问中间件把传统数据库的SQL语句编译成HBase存储所需要的操作语句,加快了开发效率,降低了开发难度;其次,按照需要采集的车辆特征建立表结构,在表结构中选取至少两个特征作为主键,由主键组成一条卡口数据信息;再次,对主键和常用查询字段建立分布式可变索引,常用查询字段如车速,再针对车牌号建立分布式检索索引;接着,接入待存储的各个卡口的过车信息数据源;最后,用户以包含索引的字段进行查询,系统在10ms之内返回相应数据,如图3所示。设定定时任务,自动统计前一天各个卡口的过车数据总量。每天定时对前一天数据进行统计并记录到日统计表,业务系统的统计数据不用每次去过车信息表里查询,去日统计表累加即可,大大加速了统计的效率,提高了用户体验,便于系统的总体统计展现,减少数据库负载。
[0017]如图3所示,按照业务需求采集的车辆特征建立表结构,采集到字段有“车牌号”,“通信时间”,“卡口编号”,“车辆颜色”,“车辆大小”,“通行方向”,“数据来源”等存储字段;根据具体业务需求,整理需要持久化的所有数据信息字段,同时选取能够唯一标志一条记录的字段作为主键,这里将车牌号、通过时间、卡口编号这三个特征作为主键,由车牌号、通过时间和卡口编号共同组成一条能被用户查询到的卡口数据信息,卡口数据信息格式为:车牌号+通过时间取反+卡口编号,比如,皖A12345 (车牌号)+ “2014-02-21 00:00:00.000”(通过时间取反)+ 1001 (卡口编号);表结构建立完成后,考虑到要对存储的卡口数据做随机读取,对表结构中的3个联合主键和某些常用查询字段如车速建立分布式可变索引,所述分布式可变索引随着新的卡口数据的插入而自动更新索引数据,数据通过LSM树的数据结构存储在分布式数据库内,LSM树的数据结构为:通过时间取反+卡口编号+车牌号,t匕如,“2014-02-21 00:00:00.000” (通过时间取反)+ 1001 (卡口编号)+ 皖 A12345 (车牌号)。
[0018]如图3所示,由于分布式存储数据对车牌号的模糊匹配效率较低,于是针对车牌号建立的分布式索引,例如:号牌号码:院A5U815,那么,它在分布式索引中建立的索引是“皖皖 A 皖 A5 皖 A5U 皖 A5U8 皖 A5U81 皖 A5U815 A A5 A5U A5U8 A5U81 A5U815 5 5U5U8 5U81 5U815 U U8 U81 U815 8 81 815 I 15 5 ”,车牌号的分布式索引存储在大数据集群中的分布式文件系统中。如果将索引文件仅仅建立在大数据集群中的其中I台服务器,则无法体现车牌号索引的分布式处理。为了保证整个应用的高可用和车牌号模糊匹配的高可用,同样需要把车牌号的索引文件分布式的存储在大数据集群中,为了满足车牌号模糊匹配的业务需求,用户输入一个车牌号的其中任意一段连续字符,便可通过分布式索引文件的查询返回相似度最高的前20个车牌号;返回车牌号之后,系统再根据相似度最高的车牌号列表进行全字段的匹配查询,于是提高了整体的查询检索速度。这里针对“车牌号”建立的分布式索引是为了让用户在通过输入车牌号作为检索条件的时候匹配出来的是一个完整的相似车牌号列表,而不是用户输入的这个不完整的车牌号。通过完整的相似车牌号列表的检索效率比通过不完整的模糊车牌号检索效率和检索效果要高得多。而针对“车速”,“数据源”等字段建立的分布式可变索引是为了提高检索速度对这些常用检索字段建立的索引。所以,这两个索引的关系是,车牌号的分布式索引的输出作为常用检索字段索引检索的输入,最后还是通过常用检索字段索引得到匹配数据。
[0019]如图1所示,本系统包括大数据集群,大数据集群通过网线分别与用户终端、卡口服务器和交换机相连,卡口数据源通过交换机接入系统,其中,大数据集群,提供大数据平台计算服务和海量数据存储服务;用户终端,用户用来访问整个卡口系统和其中大数据服务应用,比如:用户计算机浏览器,用户手机浏览器等;卡口服务器,是卡口业务系统存放的主机,经过编译的卡口业务系统打包上传到卡口服务器上,然后卡口服务器对外发布卡口服务;卡口数据源,是卡口业务系统和大数据平台需要记录的摄像头卡口抓拍的数据,每条数据就是一个卡口在某一时刻抓拍到的某辆车的过车信息,由于有很多摄像头卡口厂家同时给公安系统提供过车信息的抓取服务,所以每个厂家的卡口数据抓取服务就是不同的数据源;交换机,用于在局域网内不同服务器和主机终端交换数据、搭建局域网。
[0020]如图1所示,所述大数据集群由I个计算节点、I个备份计算节点和N个数据节点组成,计算节点、备份计算节点和数据节点之间通过网线连接。其中,计算节点,用于处理卡口过车信息中需要运算,和选择分配任务决策运算处理;备份计算节点,保证集群的高可用;数据节点,用于存储海量过车信息数据,数据源抓取过来的过车信息经过计算节点的分配决策存储在数据节点中供查询和分析。
[0021]如图2所示,所述大数据集群运行在Linux内核的服务器,计算节点、备份计算节点和数据节点使用Hadoop分布式计算框架,采用HDFS的分布式文件系统,利用MapReduce算法实现“分而治之”的计算模型,所有数据通过Phoenix中间件存储在HBase数据库内,整个Hadoop框架内的计算转发、监控和策略决定都由ZooK^per管理。
[0022]综上所述,本发明采用分布式数据存储结构,接入不同厂家的卡口过车信息数据,并且在入库之前对数据进行合法性校验和业务性调整,保证数据可用可分析。同时对车牌号,过车信息建立索引,保证查询时间和效率,保证高可用。本发明不仅满足了日常业务中卡口系统对海量过车信息数据存储的需求,而且通过对过车信息的数据结构的索引数据结构设计实现了快速查询的功能,大大提高了查询速率,增强了用户体验。
【权利要求】
1.一种卡口车辆通行数据的分布式存储方法,其特征在于,该方法包括下列顺序的步骤: (1)配置计算节点和数据节点服务器,搭建并行计算集群环境,安装与集群环境版本匹配的数据访问中间件; (2)按照需要采集的车辆特征建立表结构,在表结构中选取至少两个特征作为主键,由主键组成一条卡口数据信息; (3)对主键和常用查询字段建立分布式可变索弓|,再针对车牌号建立分布式检索索弓I ; (4)接入待存储的各个卡口的过车信息数据源; (5)用户以包含索引的字段进行查询,系统在10ms之内返回相应数据。
2.根据权利要求1所述的卡口车辆通行数据的分布式存储方法,其特征在于:设定定时任务,自动统计前一天各个卡口的过车数据总量。
3.根据权利要求1所述的卡口车辆通行数据的分布式存储方法,其特征在于:将车牌号、通过时间、卡口编号这三个特征作为主键,由车牌号、通过时间和卡口编号共同组成一条能被用户查询到的卡口数据信息,卡口数据信息格式为:车牌号+通过时间取反+卡口编号。
4.根据权利要求1所述的卡口车辆通行数据的分布式存储方法,其特征在于:所述分布式可变索引随着新的卡口数据的插入而自动更新索引数据,数据通过LSM树的数据结构存储在分布式数据库内,LSM树的数据结构为:通过时间取反+卡口编号+车牌号。
5.根据权利要求1所述的卡口车辆通行数据的分布式存储方法,其特征在于:用户输入一个车牌号的其中任意一段连续字符,便可通过分布式索引文件的查询返回相似度最高的前20个车牌号;返回车牌号之后,系统再根据相似度最高的车牌号列表进行全字段的匹配查询;车牌号的分布式索引存储在大数据集群中的分布式文件系统中。
6.一种卡口车辆通行数据的分布式存储系统,其特征在于:包括大数据集群,大数据集群通过网线分别与用户终端、卡口服务器和交换机相连,卡口数据源通过交换机接入系统,其中: 大数据集群,提供大数据平台计算服务和海量数据存储服务; 用户终端,用户用来访问整个卡口系统和其中大数据服务应用; 卡口服务器,是卡口业务系统存放的主机,经过编译的卡口业务系统打包上传到卡口服务器上,然后卡口服务器对外发布卡口服务; 卡口数据源,是卡口业务系统和大数据平台需要记录的摄像头卡口抓拍的数据; 交换机,用于在局域网内不同服务器和主机终端交换数据、搭建局域网。
7.根据权利要求6所述的卡口车辆通行数据的分布式存储系统,其特征在于:所述大数据集群由I个计算节点、I个备份计算节点和N个数据节点组成,计算节点、备份计算节点和数据节点之间通过网线连接,其中,计算节点,用于处理卡口过车信息中需要运算,和选择分配任务决策运算处理; 备份计算节点,保证集群的高可用; 数据节点,用于存储海量过车信息数据。
8.根据权利要求6所述的卡口车辆通行数据的分布式存储系统,其特征在于:所述大数据集群运行在Linux内核的服务器,计算节点、备份计算节点和数据节点使用Hadoop分布式计算框架,采用HDFS的分布式文件系统,利用MapReduce算法实现“分而治之”的计算模型,所有数据通过Phoenix中间件存储在HBase数据库内,整个Hadoop框架内的计算转发、监控和策略决定都由ZooK^per管理。
【文档编号】G06F17/30GK104462222SQ201410630291
【公开日】2015年3月25日 申请日期:2014年11月11日 优先权日:2014年11月11日
【发明者】王佐成, 刘春珲, 范联伟, 张跃, 周春寅, 王汉林, 余保华 申请人:安徽四创电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1