一种基于数据湖的智能公交运营方法及系统与流程

文档序号:26006288发布日期:2021-07-23 21:24阅读:70来源:国知局
一种基于数据湖的智能公交运营方法及系统与流程

本发明涉及公交车运移管理技术领域,尤其涉及一种基于数据湖的智能公交运营方法及系统。



背景技术:

随着大数据分析技术的不断发展进步,对于公交企业或者组织来说,数据已经成为一类重要资产;为了对数据进行有效管理,目前的用户多采用大数据平台进行管理,但是现有的大数据平台对于原样数据的存储、有效管理与集中治理,特别是数据追溯调用等均提出了挑战,就需要研究一种更适合智能公交使用的运营数据管理形式,以满足其处理大规模数据所需的存储和计算能力,并为用户提供多模式的数据处理能力。

数据湖相对于传统的关系型数据库所具备的优势,首先是能够把不同种类的数据汇集到了一起,其次它将很多原本无法用作分析的数据变得不需要预定义的模型就可以提取使用。然而数据湖架构也存在缺点,其一,数据湖中很多数据永远不会删除,所需存储空间架构庞大。其二,信息安全问题。数据湖架构可看作是将所有鸡蛋放进一个篮子里,如果其中一些数据的安全被破坏,那么数据湖中所有数据将面临风险。



技术实现要素:

本发明提供一种基于数据湖的智能公交运营方法及系统,以克服上述技术问题。

本发明一种基于数据湖的智能公交运营方法,包括:

获取公交运营系统上传的数据包,所述数据包为公交系统运行管理过程所产生的公交基础数据且配置对应的数据字段校验码;所述数据字段校验码包括:加密校验码以及与所述加密校验码配对的标准验证码;所述数据包中的数据类型包括:结构化数据、半结构化数据及非结构化数据;

根据所述加密校验码基于解密算法获取标准验证码,并通过所述标准验证码解密所述数据包内的公交基础数据;

对所述公交基础数据进行数据预处理,以去除垃圾数据和重复数据,并提高数据质量;

将数据湖根据不同的数据类型分割为不同的数据池,将完成数据预处理后的所述公交基础数据分类存储至对应的数据池中;

在所述不同的数据池中分别根据所述公交基础数据建立数据电子目录,并将所述公交基础数据按照所述数据电子目录存储至对应的存储空间;所述数据电子目录用于记载数据池中的数据类型属性、存储位置及数据关联信息;

用户根据所述数据电子目录调用所述公交基础数据使用。

进一步地,所述数据字段校验码基于des对称密码算法进行加解密。

进一步地,所述对所述公交基础数据进行数据预处理,包括:对所述公交基础数据进行删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类及设阈值操作。

进一步地,所述将数据湖根据不同的数据类型分割为不同的数据池,包括:将数据湖分割为结构化数据池、半结构化数据池及非结构化数据池;

所述结构化数据池,用于存储公交基础数据、公交配置数据、行驶区域地域数据以及用户个人信息数据;

所述半结构化数据池,用于存储html页面文件及文件格式为csv、xml、json的日志类文件;

所述非结构化数据池,用于存储公交办公系统内的电子邮件、文档、图形、音视频以及消息和指令数据。

进一步地,通过式(1)将数据湖根据不同的数据类型分割为不同的数据池;

式中,vi,vj表示式(1)算法的置信度,取值范围[0,1],x为数据湖,y为数据类型,b为数据池;ln(x,y,vj),ln(f(x),vj)表示使用对比损失训练的残差网络及使用二值化交叉熵损失训练的残差网络分析得到的概率,lm(f(x))表示使用二值化交叉熵损失训练的残差网络分析得到的概率,f(x)表示从公交基础数据里面提取特征。

进一步地,通过式(2)将完成数据预处理后的所述公交基础数据分类存储至对应的数据池中;

le=valm(f(a),f(b))+valm(a,b)+ln(a,b,vb)+ln(f(a),f(b),vb)(2)

式中,a为公交基础数据,数据池b,le表示所属数据池类别;va,vb表示式(2)算法的置信度,取值范围[0,1],ln(a,b,vb),ln(f(a),f(b),vb)表示使用对比损失训练的残差网络抽取后的特征,lm(f(a),f(b)),lm(a,b)表示使用二值化交叉熵损失训练的残差网络抽取后的特征,f(a),f(b)表示从公交基础数据里面提取特征。

进一步地,所述在所述不同的数据池中分别根据所述公交基础数据建立数据电子目录,包括:

将所述数据池中的所述公交基础数据拆分为至少一个子数据包;

逐一对拆分后的子数据包进行类型属性信息标识,并在添加时间戳后形成若干一级数据存储表单;

设置若干具有存储位置分区的存储位置表单;

获取每一一级数据存储表单的存储位置映射表并存储;所述存储位置映射表用于表征所述一级数据存储表单在存储位置表单上的存储位置。

进一步地,所述用户根据所述电子目录调用所述公交基础数据使用,包括:

用户发起查询请求后,解析所述查询请求以获取查询条件;并基于所述查询条件生成查询索引列表;

基于所述查询索引列表,根据所述数据电子目录判断是否有相匹配的数据,是则将打包后下发给用户,否则向用户反馈查询失败;

通过式(3)根据所述数据电子目录判断是否有相匹配的数据;

式中,c为数据电子目录,d为查询索引列表,dis为匹配度;vc,vd表示式(3)算法的置信度,取值范围[0,1],l(f(c)-f(d),f(c-d)),(f(c)-f(d)f(c-d))表示使用卷积网络抽取后的特征,f(c),f(d)表示对两个数据进行序列化,匹配值大于设定的阈值则判定为匹配成功。

一种基于数据湖的智能公交运营系统,包括:数据包处理单元、数据池处理单元及电子目录生成单元;

所述数据包处理单元,用于获取公交运营系统上传的数据包,所述数据包为公交系统运行管理过程所产生的公交基础数据且配置对应的数据字段校验码;所述数据字段校验码包括:加密校验码以及与所述加密校验码配对的标准验证码;所述数据包中的数据类型包括:结构化数据、半结构化数据及非结构化数据;根据所述加密校验码基于解密算法获取标准验证码,并通过所述标准验证码解密所述加密校验码以获取所述数据包内的公交基础数据;并对所述公交基础数据进行数据预处理,以去除垃圾数据和重复数据;

所述数据池处理单元,用于将数据湖根据不同的数据类型分割为不同的数据池,将完成数据预处理后的所述公交基础数据分类存储至对应的数据池中;并将所述公交基础数据按照数据电子目录存储至对应的存储空间;

所述电子目录生成单元,用于在所述不同的数据池中分别根据所述公交基础数据建立数据电子目录,用户根据所述数据电子目录调用所述公交基础数据使用;所述数据电子目录用于记载数据池中的数据类型属性、存储位置及数据关联信息。

本发明通过给公交运营系统上传的数据包配置对应的数据字段校验码来对数据进行加密,数据字段校验码中包含了配对使用的加密校验码和标准验证码,再通过标准验证码解密加密校验码以获取数据包内的公交基础数据。为了去除垃圾数据和重复数据以减少冗余数据,减少存储空间,对公交基础数据进行数据预处理。为了便于数据调用,将数据湖分割为不同的数据池来存储不同类型的数据,再在数据池中建立数据电子目录,用户通过数据电子目录调用数据从而极大的提高调用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为一种基于数据湖的智能公交运营方法流程图;

图2为一种基于数据湖的智能公交运营系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本实施例提供了一种基于数据湖的智能公交运营方法,包括:

101、获取公交运营系统上传的数据包,数据包为公交系统运行管理过程所产生的公交基础数据且配置对应的数据字段校验码;数据字段校验码包括:加密校验码以及与加密校验码配对的标准验证码;数据包中的数据类型包括:结构化数据、半结构化数据及非结构化数据;

具体而言,可以使用蓝光存储(光磁融合存储)技术或云平台来搭建数据湖,并建立公交系统数据湖运营平台用于数据集成、数据预处理、数据管理、智能服务等应用。目前,实现数据湖常用的手段是hadoop。进化后的hadoop数据管理架构依托apachefalcon数据管理平台,将数据群与程序,运算规则、显示器和历史记录联系到一起,完成数据湖的使用目标。公交系统上传的数据包含了结构化数据、半结构化数据及非结构化数据各种不同类型的数据,将全部数据都存储在数据湖中作为数据湖的水源。

结构化数据是能够用统一的结构加以表示的数据。通常是指可以用二维表结构来逻辑表达实现的数据,公交系统中存储在关系型数据库中的数据属于结构化数据。半结构化数据是介于界定严格的结构化数据和完全无结构的数据之间的数据,主要包括html页面文件及文件格式为csv、xml、json的日志类文件。非结构化数据是指不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集xml、各类报表、图像和音频/视频信息等等。

因为数据包中的数据存储量很大,因此在选用加解密技术时可以选择对称加密算法,在对称加密算法中常用的算法有:des、3des、tdea、blowfish、rc2、rc4、rc5、idea、skipjack、aes等。采用加密技术通过给公交运营系统上传的数据包配置对应的数据字段校验码来对数据进行加密,数据字段校验码中包含了配对使用的加密校验码和标准验证码,再通过标准验证码解密加密校验码以获取数据包内的公交基础数据。

102、根据加密校验码基于解密算法获取标准验证码,并通过标准验证码解密加密校验码以获取数据包内的公交基础数据;

具体而言,本实施例中采用des对称密码算法进行加解密。主要是将公交运营系统随机生成的明文分成64比特位大小的数据块;同时用56位密钥对明文信息加密,最终形成64位的密文;若明文长度不足64位,则采用补零等方法对其扩展。具体加密过程:

首先是将输入的数据进行初始换位(ip),即将明文m中数据的排列顺序按一定的规则重新排列,生成新的数据序列,以打乱原来的次序。

然后将变换后的数据平分成左右两部分,左边记为lo,右边记为ro,然后对ro施行在子密钥(由加密密钥产生)控制下的变换f,结果记为f(ro,k1),再与lo做逐位异或运算,其结果记为r1,ro则作为下一轮的l1。如此循环16轮,最后得到l16、r16,再对l16、r16施行逆初始置换ip',即可得到加密数据。

解密过程与此类似,不同之处仅在于子密钥的使用顺序正好相反。

103、对公交基础数据进行数据预处理,以去除垃圾数据和重复数据,并提高数据质量;

具体而言,对公交基础数据进行数据预处理时,通过现有技术中的算法对公交基础数据进行删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类及设阈值操作。其中,包括:数据去重技术、数据压缩技术、特征提取技术以及缺失值填充、噪声平滑、不一致数据清理等可以提高数据质量的技术。

104、将数据湖根据不同的数据类型分割为不同的数据池,将完成数据预处理后的公交基础数据分类存储至对应的数据池中;

将数据湖分割为结构化数据池、半结构化数据池及非结构化数据池。数据湖中各数据池是紧密相连的,一个数据进入数据湖中后根据其数据类型分类至不同的数据池中,不同类型的数据池分别用来存储不同类型的数据并对它们之间建立联系来共享信息。其中,结构化数据池,用于存储公交基础数据、公交配置数据、行驶区域地域数据以及用户个人信息数据;其中,公交基础数据主要是多组值不变的基础数据,如车辆编号、线路名称、线路编号、车载终端的ip地址及端口等信息;公交配置数据主要是车载终端系统配置参数ip地址及端口等信息、发动机参数等;行驶区域地域数据主要是线路上的公交站点以及经纬度;用户个人信息主要是司机、勤务人员等员工信息。

半结构化数据池,用于存储html页面文件及日志文件--应用api获取的数据的,如车载终端系统运行日志、排班日志等,文件格式可以是csv、xml、json;

非结构化数据池,用于存储公交办公系统内如电子邮件、文档、pdf、下发的各种消息和指令,以及公交运行状态所采集的图形、音频、视频,如车厢内人员图像/录像、路况等。

通过式(1)将数据湖根据不同的数据类型分割为不同的数据池;

式中,vi,vj表示式(1)算法的置信度,取值范围[0,1],x为数据湖,y为数据类型,b为数据池;ln(x,y,vj),ln(f(x),vj)表示使用对比损失训练的残差网络及使用二值化交叉熵损失训练的残差网络分析得到的概率,lm(f(x))表示使用二值化交叉熵损失训练的残差网络分析得到的概率,f(x)表示从公交基础数据里面提取特征。

通过式(2)将完成数据预处理后的所述公交基础数据分类存储至对应的数据池中;

le=valm(f(a),f(b))+valm(a,b)+ln(a,b,vb)+ln(f(a),f(b),vb)(2)

式中,a为公交基础数据,数据池b,le表示所属数据池类别;va,vb表示式(2)算法的置信度,取值范围[0,1],ln(a,b,vb),ln(f(a),f(b),vb)表示使用对比损失训练的残差网络抽取后的特征,lm(f(a),f(b)),lm(a,b)表示使用二值化交叉熵损失训练的残差网络抽取后的特征,f(a),f(b)表示从公交基础数据里面提取特征。

105、在不同的数据池中分别根据公交基础数据建立数据电子目录,并将公交基础数据按照数据电子目录存储至对应的存储空间;数据电子目录用于记载数据池中的数据类型属性、存储位置及数据关联信息;

具体而言,具体的操作过程是:

1、将所述数据池中的所述公交基础数据拆分为至少一个子数据包;

2、逐一对拆分后的子数据包进行类型属性信息标识,并在添加时间戳后形成若干一级数据存储表单;

3、设置若干具有存储位置分区的存储位置表单;

4、获取每一一级数据存储表单的存储位置映射表并存储;所述存储位置映射表用于表征所述一级数据存储表单在存储位置表单上的存储位置。

106、用户根据数据电子目录调用公交基础数据使用。

具体而言,用户发起查询请求后,解析查询请求以获取查询条件;并基于查询条件生成查询索引列表;基于查询索引列表,根据数据电子目录判断是否有相匹配的数据,是则将打包后下发给用户,否则向用户反馈查询失败。

通过式(3)根据所述数据电子目录判断是否有相匹配的数据;

式中,c为数据电子目录,d为查询索引列表,dis为匹配度;vc,vd表示式(3)算法的置信度,取值范围[0,1],l(f(c)-f(d),f(c-d)),(f(c)-f(d)f(c-d))表示使用卷积网络抽取后的特征,f(c),f(d)表示对两个数据进行序列化,匹配值大于设定的阈值则判定为匹配成功。

一种基于数据湖的智能公交运营系统,包括:数据包处理单元、数据池处理单元及电子目录生成单元;

数据包处理单元,用于获取公交运营系统上传的数据包,数据包为公交系统运行管理过程所产生的公交基础数据且配置对应的数据字段校验码;数据字段校验码包括:加密校验码以及与加密校验码配对的标准验证码;数据包中的数据类型包括:结构化数据、半结构化数据及非结构化数据;根据加密校验码基于解密算法获取标准验证码,并通过标准验证码解密加密校验码以获取数据包内的公交基础数据;并对公交基础数据进行数据预处理,以去除垃圾数据和重复数据;

数据池处理单元,用于将数据湖根据不同的数据类型分割为不同的数据池,将完成数据预处理后的公交基础数据分类存储至对应的数据池中;并将公交基础数据按照数据电子目录存储至对应的存储空间;

电子目录生成单元,用于在不同的数据池中分别根据公交基础数据建立数据电子目录,用户根据数据电子目录调用公交基础数据使用;数据电子目录用于记载数据池中的数据类型属性、存储位置及数据关联信息。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1