本发明涉及交通数据库,具体涉及一种数据库建立方法、装置、计算机设备及存储介质。
背景技术:
1、机动车、驾驶人、道路、运输企业、交通事故为当前交通管理业务五大关键主题,为针对各主题构建全维度数据档案,打造对机动车、驾驶人、道路、运输企业、交通事故的多角度标签体系,实现各主题数据的碰撞分析及量化积分体系构建,需针对各主题进行主题宽表、标签专题、积分专题的建设,从而将跨系统、跨数据源、跨数据结构的数据进行打通。五大关键主题的主题库及专题库建设可为全文检索、精细查询、画像构建、风险研判及预测等业务提供核心数据基础。
2、建立交通要素主题库及专题库,有助于对机动车、驾驶人、道路、运输企业、交通事故这五大交通管理业务进行归纳分析,而由于交通管理业务的原始数据十分庞大,如何建立一个规整的数据库就变得十分重要。
技术实现思路
1、有鉴于此,本发明提供一种数据库建立方法、装置、计算机设备及存储介质,以解决相关技术中交通要素数据太多、过于复杂无规划的问题。
2、第一方面,本发明提供了一种数据库建立方法,该方法包括:从hbase存储引擎中读取标准数据,根据标准数据分别建立各交通要素的宽表、标签表和积分表;hbase存储引擎中包含标准数据,标准数据是对原始数据进行标准化处理后得到的;根据各交通要素的积分表分别计算各交通要素的四色预警标签;将各交通要素的四色预警标签分别添加至对应的标签表中,得到各交通要素更新后的标签表;将各交通要素的积分表中的数据和标签表中的标签表数据录入宽表中,得到更新后的宽表;根据原始数据、标准数据、各交通要素的宽表、各交通要素标签表和各交通要素的积分表得到交通要素数据库。
3、本发明提供的数据库建立方法,将原始数据经过清洗后分为宽表、积分表、标签表三部分,其中宽表录入的是汽车的主要内容,如车牌号码,积分表为汽车的交通行驶中累计的积分,在违规时增加,标签表记录汽车包含的标签,如违法未处理;最终将标签表、积分表都录入宽表,实现对交通要素的数据进行有规划性分类,打造全维度交通要素数据档案,为全文检索、精细查询、画像构建、风险研判及预测等业务提供核心数据基础。
4、在一种可选地实施方式中,从hbase存储引擎中读取标准数据的步骤,包括:获取配置数据库连接信息,根据配置数据库连接信息连接hbase存储引擎,从hbase存储引擎中读取标准数据。
5、本发明提供的数据库建立方法,将原始数据进行标准化处理后先写入hbase存储引擎,hbase存储引擎具有分布式的特点,适合存储大量的数据,将仅经过标准化处理的数据存入,再分布式读取,有利于后续对数据清洗时,数据不能过多的要求。
6、在一种可选地实施方式中,根据标准数据分别建立各交通要素的宽表、积分表、标签表的步骤之前,本发明建立的具有关联宽表的临时表的步骤:提取标准数据中的多个数据表;将数据表注册为临时表;确定各交通要素分别对应的主表及辅助表;读取各交通要素分别对应的主表及辅助表之间的关联关系,根据所述关联关系建立关联宽表,所述关联宽表为临时表。
7、本发明提供的数据库建立方法,数据从hbase存储引擎提取数据清洗时,由于数据的数量比较多,不会直接将数据输入新的集群,而是选择建立临时表,选择在临时表中将数据进行转换后再写入新的集群中,由于临时表利用的是数据库临时表空间,由数据库系统自动进行维护,因此节省了表空间。并且由于临时表空间一般利用虚拟内存,大大减少了硬盘的i/o次数,因此也提高了系统效率。
8、在一种可选地实施方式中,根据标准数据分别建立各交通要素的宽表、标签表和积分表的步骤:将临时表中的数据加载为弹性分布式数据集,得到分区数据;将分区数据进行均衡化分布;对分区数据进行格式转换,得到转换数据;转换数据进行字典值替换,得到清洗数据;根据清洗数据得到宽表、积分表、临时表。
9、本发明提供的数据库建立方法,清洗数据时将临时表中的数据加载为弹性分布式数据集,这里对数据进行分布式区分,有助于清洗数据的压力不会过载;得到分区数据后进行均衡化分布,防止弹性分布式进行时出现分区数据过高的情况;最后对数据进行格式转换和字典值替换后得到可以建立宽表、积分表、临时表的数据;由于整个数据清洗的过程是分布式进行的,保证了清洗流程的稳定性。
10、在一种可选地实施方式中,还包括:获取elasticsearch配置信息;按照elasticsearch配置信息在多个分区分别建立elasticsearch集群连接;将属于宽表的内容分批次批量写入elasticsearch集群。
11、在一种可选地实施方式中,还包括:在多个分区分别建立hbase集群连接;将属于积分表和标签表的内容分批次批量写入hbase集群。
12、在一种可选地实施方式中,还包括:各交通要素的宽表、标签表和积分表中的数据是采用spark分布式计算引擎对标准数据进行清洗及计算得到的。
13、本发明提供的数据库建立方法,依据spark分布式计算引擎来清洗标准化数据建立各交通要素的宽表、标签表和积分表,这是因为交通要素相关的数据是非常多的,大量数据一次性进行清洗写入存在一定的困难性,因此利用spark分布式计算引擎,让数据分批次写入,保证稳定的传输数据。
14、第二方面,本发明提供一种数据库建立装置,该装置包括:读取模块,用于从hbase存储引擎中读取标准数据,根据标准数据分别建立各交通要素的宽表、标签表和积分表;计算模块,用于根据各交通要素的积分表分别计算各交通要素的四色预警标签;更新模块,用于将各交通要素的四色预警标签分别添加至对应的标签表中,得到各交通要素更新后的标签表;将各交通要素的积分表中的数据和标签表中的标签表数据录入宽表中,得到更新后的宽表;组合模块,用于根据原始数据、标准数据、各交通要素的宽表、各交通要素标签表和各交通要素的积分表得到交通要素数据库。
15、第三方面,本发明实施例提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的数据库建立方法。
16、第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的数据库建立方法。
1.一种数据库建立方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,从所述hbase存储引擎中读取标准数据的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,在根据所述标准数据分别建立各交通要素的宽表、积分表、标签表的步骤之前,还包括:
4.根据权利要求3所述的方法,其特征在于,根据所述标准数据分别建立各交通要素的宽表、标签表和积分表的步骤包括:
5.根据权利要求4所述的方法,其特征在于,根据所述清洗数据得到宽表的步骤,包括:
6.根据权利要求4所述的方法,其特征在于,根据所述清洗数据得到积分表、标签表的步骤,包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.一种数据库建立装置,其特征在于,包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一所述的数据库建立方法。