本发明涉及公路收费数据处理的技术领域,特别是涉及一种公路收费流水数据处理方法,以及一种公路收费流水数据处理系统。
背景技术:
随着高速公路快速发展,同时产生大量收费流水数据,因此就需要对收集的原始流水数据进行处理以及数据拆分校核,通常涉及到各类报表的统计及生成,包括车流量、通行费征收等。
然而,目前对高速公路收费数据的模式挖掘很大程度上需要依靠人的建模和直觉,但是数据处理人员的数量却跟不上高速公路收费流水的大量数据的发展规模,依靠数据分析团队的预测算法效率比较低。
技术实现要素:
基于此,有必要针对公路收费数据处理效率较低的技术问题,提供一种公路收费流水数据处理方法,以及一种公路收费流水数据处理系统,能够提高公路收费数据处理的效率。
一种公路收费流水数据处理方法,包括以下步骤:
获取高速公路收费流水的处理事项;其中,所述处理事项包括若干个相关的数据实体,各个所述数据实体的特征通过唯一标识符相关联;
通过所述数据实体的特征之间的关联关系,对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集;
根据所述数据实体特征集建立所述处理事项的数据模型;
通过建立的数据模型处理所述处理事项。
一种公路收费流水数据处理系统,包括:
数据获取模块,用于获取高速公路收费流水的处理事项;其中,所述处理事项包括若干个相关的数据实体,各个所述数据实体的特征之间通过唯一标识符相关联;
特征提取模块,用于通过所述数据实体的特征之间的关联关系,对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集;
模型获取模块,用于根据所述数据实体特征集建立所述处理事项的数据模型;
处理模块,用于通过建立的数据模型处理所述处理事项。
上述公路收费流水数据处理方法及系统,获取高速公路收费流水的处理事项包含的相关的数据实体,通过各个所述数据实体的特征之间的唯一标识符识别数据实体的特征之间的关联关系,根据所述关联关系对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集,然后根据所述数据实体特征集建立数据模型,通过相应的数据模型处理所述处理事项。因此,能够实现数据实体的特征的自动提取,对数据挖掘处理的效果较好,同时大大提高了公路收费数据处理的效率。也为数据处理人员在高速公路收费流水处理事项上提供了很好的特征候选,大大提高数据处理人员的工作效率。
附图说明
图1为一个实施例的公路收费流水数据处理方法的流程图;
图2为一个实施例公路收费流水数据处理事项的数据实体关联关系示意图;
图3为另一个实施例公路收费流水数据处理事项的数据实体关联关系示意图;
图4为数据实体关联关系的一个具体设置方式示例图;
图5为一个实施例中提取数据实体特征集的流程示意图;
图6为一个实施例的公路收费流水数据处理系统的结构示意图。
具体实施方式
下面结合附图对本发明的关键用电行业识别方法和系统的具体实施方式作详细描述。
参阅图1,图1所示为一个实施例的公路收费流水数据处理方法的流程图,包括如下步骤:
S101,获取高速公路收费流水的处理事项;其中,所述处理事项包括若干个相关的数据实体,各个所述数据实体的特征之间通过唯一标识符相关联;
S102,通过所述数据实体的特征之间的关联关系,对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集;
S103,根据所述数据实体特征集建立所述处理事项的数据模型;
S104,通过建立的数据模型处理所述处理事项。
其中,对于步骤S101,所述高速公路收费流水的处理事项包括很多种,具体可以根据实际需要分析处理的业务进行选择,包括:路段通行费用预测、优质客户的分类或者操作员业绩考核分类等处理事项,都可作为高速公路收费流水数据挖掘的对象。
每个所述处理事项包括相应的若干个相关的数据实体,而在确定处理事项,即挖掘对象后,需要对挖掘对象的特征进行提取。因此,需要先根据处理事项选定相关的数据实体,而各个所述数据实体的特征之间是通过唯一标识符相关联。
在一个实施例中,所述数据实体的特征的关联关系包括向前关联和向后关联,以及直接关联和间接关联。所述向前关联是指一个数据实体的特征作为另一个数据实体的特征的计算参数,所述向后关联是指一个数据实体的特征是另一个数据实体的特征的计算结果。例如以第一数据实体A的特征和第二数据实体B的特征为例,如果第一数据实体A的特征的计算需要用到第二数据实体B的特征,则第二数据实体B的特征向前关联第一数据实体A的特征,而第一数据实体A的特征向后关联第二数据实体B的特征。
所述直接关联是指两个数据实体的特征之间具有直接的计算关系,所述间接关联是指两个数据实体的特征之间具有间接的计算关系。例如以第一数据实体A的特征和第二数据实体B的特征为例,如果第一数据实体A的特征的计算只需要用到第二数据实体B的特征,则第二数据实体B的特征与所述第一数据实体A的特征直接关联,而如果所述第一数据实体A特征的计算不仅需要用到第二数据实体B的特征,还需要用到其他数据实体的特征,则第二数据实体B的特征与所述第一数据实体A的特征间接关联。
高速公路相关的数据实体很多,主要有入口车道流水、出口车道收费流水、车型编码、路段编码等等。实体的实例之间通过唯一的标识符关联,实例之间可存在向前关联和向后关联关系,并可存在直接关联和间接关联关系。
在一个实施例中,各个所述数据实体的特征之间的唯一标识符为记载各个数据实体的特征的数据表之间主键和外键。
通过查找所述数据实体所对应的数据表之间的主键和外键,可以有效地查到所述数据实体之间关联关系,实现所述数据实体之间关联关系的绑定。
请参阅图2,图2为一个实施例公路收费流水数据处理事项的数据实体关联关系示意图;
所述数据实体的特征包括:入口车道流水特征、基本费率特征、车型编码特征和车道工班特征;
所述入口车道流水特征分别向前关联所述基本费率特征和所述车型编码特征,所述基本费率特征向前关联所述车道工班特征。
进一步地,所述公路收费流水数据处理事项的数据实体的关联关系可设置为:所述入口车道流水特征分别与所述基本费率特征和所述车型编码特征直接关联,所述基本费率特征与所述车道工班特征间接关联。如图3所示。
请参阅图4,图4示出所述公路收费流水数据处理事项的数据实体关联关系的一个具体设置方式示例。入口车道流水数据实体有车型编码数据实体的特征,因此二者就是实体直接特征关联;而车道工班数据实体的总金额需根据入口路径基本费率表、车型编码、路段等数据统计出来,因此,车道工班数据实体与基本费数据实体就是间接实体特征关联。
在一个实施例中,步骤S102,通过所述数据实体的特征之间的关联关系,对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集的步骤包括:
获取所述处理事项对应的数据实体,在所述数据实体之中选定其中一个为待处理数据实体;
根据所述处理事项对应的数据实体之间的特征向前关联和向后关联关系,搜索所述待处理数据实体向后关联的数据实体以及向前关联的数据实体;
对所述向后关联的数据实体进行特征提取,获取第一实体特征集合;将所述待处理数据实体与所述向后关联的数据实体求取间接关联的特征并集,获得间接关联特征集;将所述第一实体特征集合和所述间接关联特征集求并集,获得所述处理事项的数据实体特征集;
对所述向前关联的数据实体进行特征提取,获取第二实体特征集合;将所述待处理数据实体与所述向前关联的数据实体求取直接关联的特征并集,获得直接关联特征集;将所述第二实体特征集合和所述直接关联特征集求并集,获得所述处理事项的数据实体特征集。
通过上述方式,可以通过多次递归迭代获取预测、分类数据实体的所有间接特征和直接深度特征集合,实现自动获取目标深度特征集。
例如,对数据实体E1-EM,可执行以下步骤提取数据实体特征集,如图5所示:
S201,创建特征提取函数,从第i个实体开始,对E1-EM实体进行特征提取;
S202,将已经搜索的数据实体EV纪录下来;
S203,找出Ei向后关联的实体EB;
S204,找出Ei向前关联的实体EF;
S205,建一个循环函数,若第j个实体Ej属于EB,进行下面步骤S206-S207;建一个循环函数,若第j个实体Ej属于EF,进行下面步骤S208-S210;
S206,调用特征提取函数,对Ej进行特征特征提取,获取第j个特征集合;
S207,对Ei和Ej实体求出间接关联的特征后,与第j个特征集合求并集。
S208,判断Ej属于是否EV,若是,则继续执行步骤S209;
S209,调用特征提取函数,对第j个实体Ej在实体集进特征提取,获取第i个特征集合;
S210,对Ei和Ej实体求出直接关联的特征后,与第i个特征集合求并集;
S211,将第i个特征集合与实体Ei求特征并集。
其中,其中E、F代表实体,E1...M代表数据库已知所有实体。通过多次递归迭代获取预测、分类实体的所有间接特征和直接深度特征集合,实现自动获取目标深度特征集。
在一个实施例中,根据所述数据实体特征集建立所述处理事项的数据模型之前,还包括以下步骤:
通过机器学习方法,对所述数据实体特征集进行预处理,并对所述数据实体特征集进行降维。
通过机器学习方法对所述数据实体特征集进行预处理以及降维,可以简化数据,获得更准确的运算结果。
其中,对所述数据实体特征集进行的预处理包括:
清除空白数据和重复值,以及数据格式统一化处理。
所述数据格式统一化处理是指将一类数据的格式进行统一,便于之后的统计计算。
对所述数据实体特征集进行降维的步骤包括:
将所述数据实体特征集的字段和数据写入矩阵中,将所述矩阵中方差大的维度方向纪录下来,获得降维后的数据实体特征集。
上述降维处理可以采用SVD(奇异值分解)算法,获取实体具有决定性的特征,提高之后数据挖掘的质量。
在步骤S103,可利用决策树、K-means技术根据特征进行目标分类、聚类建立所述处理事项的数据模型。
在一个实施例中,对建模获得的数据模型进行参数优化,调整参数权值的步骤包括:
采用高斯过程进行参数优化,将多个特征作为输入点,形成一个高斯分布,利用累计分布函数,根据输出结果,调整获取优化的参数和参数权值。
获取预测、分类实体特征后需要对这些特征的参数进行优化,调整参数的权值。采用高斯过程进行参数优化,将多个特征作为输入点,形成一个高斯分布,利用累计分布函数,根据输出结果,调整特征参数,从而优化参数,能够提高预测结果的准确率。
在步骤S104中,通过建立的数据模型处理所述处理事项。
例如利用深度特征综合分析的结果,对路段通行费用预测、优质客户的分类、操作员业绩考核分类等进行处理。
所述公路收费流水数据处理方法获取高速公路收费流水的处理事项包含的相关的数据实体,通过各个所述数据实体的特征之间的唯一标识符识别数据实体的特征之间的关联关系,根据所述关联关系对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集,然后根据所述数据实体特征集建立数据模型,通过相应的数据模型处理所述处理事项。因此,能够实现数据实体的特征的自动提取,对数据挖掘处理的效果较好,同时大大提高了公路收费数据处理的效率。也为数据处理人员在高速公路收费流水处理事项上提供了很好的特征候选,提高数据处理人员的工作效率。
在一个实施例中,本发明还提供一种与上述公路收费流水数据处理方法相对应的公路收费流水数据处理系统。
参考图6,图6所示为一个实施例的公路收费流水数据处理系统的结构示意图。
所述公路收费流水数据处理系统,包括:
数据获取模块10,用于获取高速公路收费流水的处理事项;其中,所述处理事项包括若干个相关的数据实体,各个所述数据实体的特征之间通过唯一标识符相关联;
特征提取模块20,用于通过所述数据实体的特征之间的关联关系,对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集;
模型获取模块30,用于根据所述数据实体特征集建立所述处理事项的数据模型;
处理模块40,用于通过建立的数据模型处理所述处理事项。
所述公路收费流水数据处理系统获取高速公路收费流水的处理事项包含的相关的数据实体,通过各个所述数据实体的特征之间的唯一标识符识别数据实体的特征之间的关联关系,根据所述关联关系对所述数据实体进行特征提取,获取所述处理事项的数据实体特征集,然后根据所述数据实体特征集建立数据模型,通过相应的数据模型处理所述处理事项。因此,能够实现数据实体的特征的自动提取,对数据挖掘处理的效果较好,同时大大提高了公路收费数据处理的效率。也为数据处理人员在高速公路收费流水处理事项上提供了很好的特征候选,提高数据处理人员的工作效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。