车主的出行形态的判断方法及系统与流程

文档序号:17865784发布日期:2019-06-11 23:11阅读:193来源:国知局
车主的出行形态的判断方法及系统与流程

本发明涉及数据处理领域,尤其涉及一种车主出行形态的判断方法及系统。



背景技术:

随着车联网的日渐普及,车辆行驶数据得到越来越多的积累,借助于车辆行驶数据,可对车主的出行情况进行深入分析。

但是,目前对车主的出行情况的分析大多通过统计车辆的里程数、常去的目的地、出行时间是否集中在固定时段这些碎片化的量化指标去了解每位车主的出行偏好,这些量化指标比较单一,无法具体来刻画和比较不同车主在出行形态上的区别,不利于后续营销、运营和风控等业务的智能化和自动化。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中量化指标比较单一,无法具体来刻画和比较不同车主在出行形态上的区别的缺陷,提供一种车主出行形态的判断方法及系统。

本发明是通过下述技术方案来解决上述技术问题:

提供一种车主出行形态的判断方法,所述车主出行形态的判断方法包括:

s1、根据车主驾驶车辆的预设行驶时间段以及与所述预设行驶时间段相对应的行驶路线构造时空指标参数,所述时空指标参数用于表征所述预设行驶时间段和所述行驶路线的分布状况;

s2、利用衡量混乱程度的概率算法对所述时空指标参数进行计算得到所述时空指标参数的分布概率;

s3、将所述分布概率进行聚类得到所述车主的出行形态。

较佳地,所述时空指标参数包括出行地集中度、行程频繁度和时段集中度中的至少一种;

所述出行地集中度用于表征所述预设时间段内的每个出行地点在所述预设时间段内所有行驶路线的重要程度;

所述行程频繁度用于表征所述预设时间段内的所有行驶路线中的相同起终点路线的往返频次的比例;

所述时段集中度用于表征所述预设时间段内的出行时段分布情况。

较佳地,步骤s2包括:

当所述时空指标参数包括出行地集中度时,利用所述概率算法根据所述出行地集中度和日期类型生成与所述日期类型相对应的出行地集中度分布概率;

当所述时空指标参数包括行程频繁度时,利用所述概率算法根据所述行程频繁度和日期类型生成与所述日期类型相对应的行程频繁度分布概率;

当所述时空指标参数包括时段集中度时,利用所述概率算法根据所述行程频繁度和日期类型生成与所述日期类型相对应的时段集中度分布概率;

其中,所述日期类型为所述预设时间段内的出行日期的的类型,所述日期类型包括工作日、节假日中的至少一种。

较佳地,所述步骤s2还包括:

计算得到出行地集中比值,所述出行地集中比值为第一地域范围内的出行地集中度分布概率与第二地域范围内的出行地集中度分布概率之间的比值,所述第一地域范围大于所述第二地域范围。

较佳地,所述车主的出行行态包括上班族;

所述步骤s3包括:

判断当所述日期类型为所述工作日时分别对应的出行地集中度分布概率、行程频繁度分布概率以及出行地集中比值是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述上班族;

和/或,

所述车主的出行行态包括周末出游族;

判断当所述日期类型为节假日时分别对应的出行地集中比值以及节假日对应的出行地集中比值与工作日对应的出行地集中比值之间的比值是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述周末出游族。

较佳地,所述步骤s2还包括:

计算得到行程效率比值,所述行程效率比值为与所述日期类型对应的行驶路线的起、终点之间的直线距离和实际行驶距离之间的比值。

较佳地,所述车主的出行行态还包括专车司机族;

所述步骤s3包括:

判断当所述日期类型为工作日时分别对应的行程效率比值以及行程频繁度分布概率以及时段集中度分布概率是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述专车司机族。

较佳地,所述概率算法为gini算法(一种概率算法)或者求熵算法,和/或,所述聚类采用的算法为kmeans算法(一种聚类算法)。

一种车主出行形态的判断系统,所述车主出行形态的判断系统包括构造模块、衡量模块和聚类模块;

所术构造模块用于根据车主驾驶车辆的预设行驶时间段以及与所述预设行驶时间段相对应的行驶路线构造时空指标参数,所述时空指标参数用于表征所述预设行驶时间段和所述行驶路线的分布状况;

所述衡量模块用于利用衡量混乱程度的概率算法对所述时空指标参数进行计算得到所述时空指标参数的分布概率;

所述聚类模块用于将所述分布概率进行聚类得到所述车主的出行形态。

较佳地,所述时空指标参数包括出行地集中度、行程频繁度和时段集中度中的至少一种;

所述出行地集中度用于表征所述预设时间段内的每个出行地点在所述预设时间段内所有行驶路线的重要程度;

所述行程频繁度用于表征所述预设时间段内的所有行驶路线中的相同起终点路线的往返频次的比例;

所述时段集中度用于表征所述预设时间段内的出行时段分布情况。

较佳地,所述衡量模块还用于当所述时空指标参数包括出行地集中度时,利用所述概率算法根据所述出行地集中度和日期类型生成与所述日期类型相对应的出行地集中度分布概率;

还用于当所述时空指标参数包括行程频繁度时,利用所述概率算法根据所述行程频繁度和日期类型生成与所述日期类型相对应的行程频繁度分布概率;

还用于当所述时空指标参数包括时段集中度时,利用所述概率算法根据所述行程频繁度和日期类型生成与所述日期类型相对应的时段集中度分布概率;

其中,所述日期类型为所述预设时间段内的出行日期的的类型,所述日期类型包括工作日、节假日中的至少一种。

较佳地,所述衡量模块还用于计算得到出行地集中比值,所述出行地集中比值为第一地域范围内的出行地集中度分布概率与第二地域范围内的出行地集中度分布概率之间的比值,所述第一地域范围大于所述第二地域范围。

较佳地,所述车主的出行行态包括上班族;

判断当所述日期类型为所述工作日时分别对应的出行地集中度分布概率、行程频繁度分布概率以及出行地集中比值是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述上班族;

和/或,

所述车主的出行行态还包括周末出游族;

判断当所述日期类型为节假日时分别对应的出行地集中比值以及节假日对应的出行地集中比值与工作日对应的出行地集中比值之间的比值是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述周末出游族。

较佳地,所述衡量模块还用于计算得到行程效率比值,所述行程效率比值为与所述日期类型对应的行驶路线的起、终点之间的直线距离和实际行驶距离之间的比值。

较佳地,所述车主的出行行态还包括专车司机族;

所述聚类模块还用于判断当所述日期类型为工作日时分别对应的行程效率比值以及行程频繁度分布概率以及时段集中度分布概率是否均在各自对应的预设阈值范围内,若是,则所述车主的出行行态为所述专车司机族。

较佳地,所述概率算法为gini算法或者求熵算法,和/或,所述聚类采用的算法为kmeans算法。

本发明的积极进步效果在于:

本发明通过根据车主驾驶车辆的预设行驶时间段以及与所述预设行驶时间段相对应的行驶路线构造时空指标参数,并利用衡量混乱程度的概率算法对所述时空指标参数进行计算得到所述时空指标参数的分布概率以及将所述分布概率进行聚类得到所述车主的出行形态,实现了刻画和比较不同车主在出行形态上的区别,以供其他相关业务使用,以增加相关业务的智能化和自动化。

附图说明

图1为本发明的实施例1的车主出行形态的判断方法的流程图。

图2为本发明的实施例1的车主出行形态的判断方法中步骤102的流程图。

图3为本发明的实施例2的车主出行形态的判断系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种车主出行形态的判断方法,如图1所示,车主出行形态的判断方法包括:

步骤101、根据车主驾驶车辆的预设行驶时间段以及与预设行驶时间段相对应的行驶路线构造时空指标参数,时空指标参数用于表征预设行驶时间段和行驶路线的分布状况。

时空指标参数包括出行地集中度、行程频繁度和时段集中度中的至少一种。

出行地集中度用于表征预设时间段内的每个出行地点在预设时间段内所有行驶路线的重要程度;

行程频繁度用于表征预设时间段内的所有行驶路线中的相同起终点路线的往返频次的比例;

时段集中度用于表征预设时间段内的出行时段分布情况。

本实施例中采用区域网格的地址编码描述行驶路线,假设vi代表某辆车出行地点(起点或者终点)的区域网格编码,本实施例中选取6位geohash编码(一种地址编码方法),对应的单位面积覆盖范围为±0.6公里范围,假设预设一时间段为最近三个月,nv表示该车最近三个月内的所有行驶路线中对应所有出行地点的区域网格编码个数。ei代表行驶路线中某次从起点到终点有方向的其中一段行程,ne代表所有行驶路线中的所有行程的数量。由此,所有的vi和ei构成了一张图中的所有顶点和边。

(1)出行地集中度c(vi)的计算公式为:

对行驶路线中的每个出行地点(网格编码)计算其在用户所有行驶路线中的重要程度,即每段行程中的起点和终点的组合中有多少最短路径必须经过该地点。如果该地点有越多路径必须经过,则该地点的集中度也越高。其中,betweenness是图论中的betweenness中心度的指标,即计算有多少最短路径经过vi。

(2)行程频繁度的计算公式为:

对起终点组合,计算其间的往返频次占比,(vi,vj)中无论哪个作为起点,

均视为同一组合,仅计算一次。该特征反映了车辆的日常用途;

(3)时段集中度的计算公式为:

统计预设时间段内的出行时段对应的行程分别在所有行驶路线中的行程

占比。其中,t(hi)计算时间段hi的行程占比,n(e)代表行程数量。

步骤102、利用衡量混乱程度的概率算法对时空指标参数进行计算得到时空指标参数的分布概率;

更具体地,如图2所示,步骤102包括:

步骤1021、利用概率算法根据出行地集中度和日期类型生成与日期类型相对应的出行地集中度分布概率;

步骤1022、利用概率算法根据行程频繁度和日期类型生成与日期类型相对应的行程频繁度分布概率;

步骤1023、利用概率算法根据行程频繁度和日期类型生成与日期类型相对应的时段集中度分布概率;

其中,日期类型为预设时间段内的出行日期的的类型,可根据实际需求进行分类,在本实施例中,将日期类型按照工作日、节假日进行分类。

本实施例概率算法可采用为gini算法或者求熵算法,也要采用其他的概率算法。

假设以时空指标参数中的出行地集中度c(vi)为例,其他时空指标参数计算类似。

出行地集中度以ai表示,得到的出行地集中度为为(a1,a2,…,ai,…,am),以下通过gini或者熵来计算时空指标参数进行计算得到时空指标参数的分布概率,如果采用gini算法,则计算公式为:

如果采用熵计算方法,则计算公式为:

其中,gini的值g(a)或者熵的值e(a)越大,说明出行地集中度分布越平均,越小则出行地集中度分布越集中。例如:当其中一目的地集中度=0.2时,则说明大量行程都会经过某个特定地点。如果=0.8,则说明,车辆的行程间没有什么集中的交汇地点。

本实施例,根据日期类型将上述时空指标参数分别按工作日和节假日来计算得到分别对应的分布概率,其对应方式如下表所示:

为得到更精确的判断结果,方法步骤102中还包括:

步骤1024、计算得到出行地集中比值,出行地集中比值为第一地域范围内的出行地集中度分布概率与第二地域范围内的出行地集中度分布概率之间的比值,第一地域范围大于第二地域范围。

前述步骤中的例子中是针对个位数的网格地址编码来计算的,按照6位geohash进行编码,反映了用户行程在各个±0.6公里区域中的往返情况;类似的,也需考察行程在区县、城市、省级等更大区域中的往返情况。为此,可以选择更少位数的网格编码来计算前述的时空指标参数的分布概率。例如:将行程的行程地点按3位geohash重新编码(±80公里范围)后,重新计算对行驶路线对应的所有网络地址编码进行遍历计算时空指标参数的分布概率,计算出这些时空指标参数的分布概率在小型区域和大型区域之间的比值,以工作日对应的工作日出行地集中比值为例,计算公式为:

更进一步的,为得到更加精确的判断结果,方法步骤102中还可包括:

1025、计算得到行程效率比值,行程效率比值为与日期类型对应的行驶路线的起、终点之间的直线距离和实际行驶距离之间的比值。

行程效率比值r(ei)的计算公式为:

对每次行程均计算起、终点间的直线距离和实际里程间的比值。其中,euc求取的是起、终点间的直线距离(欧几里得距离),mile是车辆实际的里程距离。

步骤103、将分布概率进行聚类得到车主的出行形态。

车主的出行行态在不同的应用场景中会有不同的归类,在本实施例中以最常见的上班族、专车司机族、周末出游族举例。

判断当日期类型为工作日时分别对应的出行地集中度分布概率、行程频繁度分布概率以及出行地集中比值是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为上班族;

判断当日期类型为工作日时分别对应的行程效率比值以及行程频繁度分布概率以及时段集中度分布概率是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为专车司机族;

判断当日期类型为节假日时分别对应的出行地集中比值以及节假日对应的出行地集中比值与工作日对应的出行地集中比值之间的比值是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为周末出游族。

聚类采用的算法为kmeans算法。

本实施例中,经过对大量历史数据的分析总结出上班族、专车司机族、周末出游族了特征,列举如下:

两点一线的上班族:工作日出行地集中度分布概率<0.3&工作日行程频繁度分布概率<0.2&工作日出行地集中比值<0.5;

周末出游族:节假日出行地集中比值>1&节假日出行地集中比值>工作日出行地集中比值。

专车司机族:工作日行程效率比值<0.1&工作日时段集中度分布概率>0.8&工作日行程频繁度分布概率>0.7。

本实施例通过根据车主驾驶车辆的预设行驶时间段以及与所述预设行驶时间段相对应的行驶路线构造时空指标参数,并利用衡量混乱程度的概率算法对所述时空指标参数进行计算得到所述时空指标参数的分布概率以及将所述分布概率进行聚类得到所述车主的出行形态,实现了刻画和比较不同车主在出行形态上的区别,以供其他相关业务使用,以增加相关业务的智能化和自动化。

实施例2

本实施例提供一种车主出行形态的判断系统,如图3所示,车主出行形态的判断系统包括构造模块201、衡量模块202和聚类模块203。

构造模块201用于根据车主驾驶车辆的预设行驶时间段以及与预设行驶时间段相对应的行驶路线构造时空指标参数,时空指标参数用于表征预设行驶时间段和行驶路线的分布状况。

时空指标参数包括出行地集中度、行程频繁度和时段集中度中的至少一种。

出行地集中度用于表征预设时间段内的每个出行地点在预设时间段内所有行驶路线的重要程度;

行程频繁度用于表征预设时间段内的所有行驶路线中的相同起终点路线的往返频次的比例;

时段集中度用于表征预设时间段内的出行时段分布情况。

本实施例中采用区域网格的地址编码描述行驶路线,假设vi代表某辆车出行地点(起点或者终点)的区域网格编码,本实施例中选取6位geohash编码(一种地址编码方法),对应的单位面积覆盖范围为±0.6公里范围,假设预设一时间段为最近三个月,nv表示该车最近三个月内的所有行驶路线中对应所有出行地点的区域网格编码个数。ei代表行驶路线中某次从起点到终点有方向的其中一段行程,ne代表所有行驶路线中的所有行程的数量。由此,所有的vi和ei构成了一张图中的所有顶点和边。

(1)出行地集中度c(vi)的计算公式为:

对行驶路线中的每个出行地点(网格编码)计算其在用户所有行驶路线中的重要程度,即每段行程中的起点和终点的组合中有多少最短路径必须经过该地点。如果该地点有越多路径必须经过,则该地点的集中度也越高。其中,betweenness是图论中的betweenness中心度的指标,即计算有多少最短路径经过vi。

(2)行程频繁度的计算公式为:

对起终点组合,计算其间的往返频次占比,(vi,vj)中无论哪个作为起点,均视为同一组合,仅计算一次。该特征反映了车辆的日常用途;

(3)时段集中度的计算公式为:

统计预设时间段内的出行时段对应的行程分别在所有行驶路线中的行程

占比。其中,t(hi)计算时间段hi的行程占比,n(e)代表行程数量。

衡量模块202用于利用衡量混乱程度的概率算法对时空指标参数进行计算得到时空指标参数的分布概率;

更具体地,衡量模块202还用于利用概率算法根据出行地集中度和日期类型生成与日期类型相对应的出行地集中度分布概率;

衡量模块202还用于利用概率算法根据行程频繁度和日期类型生成与日期类型相对应的行程频繁度分布概率;

衡量模块202还用于利用概率算法根据行程频繁度和日期类型生成与日期类型相对应的时段集中度分布概率;

其中,日期类型为预设时间段内的出行日期的的类型,可根据实际需求进行分类,在本实施例中,将日期类型按照工作日、节假日进行分类。

本实施例概率算法可采用为gini算法或者求熵算法,也要采用其他的概率算法。

假设以时空指标参数中的出行地集中度c(vi)为例,其他时空指标参数计算类似。

出行地集中度以ai表示,得到的出行地集中度为为(a1,a2,…,ai,…,am),以下通过gini或者熵来计算时空指标参数进行计算得到时空指标参数的分布概率,如果采用gini算法,则计算公式为:

如果采用熵计算方法,则计算公式为:

其中,gini(1)和熵(2)的值越大,说明出行地集中度分布越平均,越小则出行地集中度分布越集中。例如:当其中一目的地集中度=0.2时,则说明大量行程都会经过某个特定地点。如果=0.8,则说明,车辆的行程间没有什么集中的交汇地点。

本实施例,根据日期类型将上述时空指标参数分别按工作日和节假日来计算得到分别对应的分布概率,其对应方式如下表所示:

为得到更精确的判断结果,衡量模块202还用于计算得到出行地集中比值,出行地集中比值为第一地域范围内的出行地集中度分布概率与第二地域范围内的出行地集中度分布概率之间的比值,第一地域范围大于第二地域范围。

前述步骤中的例子中是针对个位数的网格地址编码来计算的,按照6位geohash进行编码,反映了用户行程在各个±0.6km区域中的往返情况;类似的,也需考察行程在区县、城市、省级等更大区域中的往返情况。为此,可以选择更少位数的网格编码来计算前述的时空指标参数的分布概率。例如:将行程的行程地点按3位geohash重新编码(±80公里范围)后,重新计算对行驶路线对应的所有网络地址编码进行遍历计算时空指标参数的分布概率,计算出这些时空指标参数的分布概率在小型区域和大型区域之间的比值,以工作日对应的工作日出行地集中比值为例,计算公式为:

更进一步的,为得到更加精确的判断结果,方法步骤102中还可包括:

衡量模块202还用于计算得到行程效率比值,行程效率比值为与日期类型对应的行驶路线的起、终点之间的直线距离和实际行驶距离之间的比值。

行程效率比值r(ei)的计算公式为:

对每次行程均计算起、终点间的直线距离和实际里程间的比值。其中,euc求取的是起、终点间的直线距离(欧几里得距离),mile是车辆实际的里程距离。

聚类模块203用于将分布概率进行聚类得到车主的出行形态。

车主的出行行态在不同的应用场景中会有不同的归类,在本实施例中以最常见的上班族、专车司机族、周末出游族举例。

判断当日期类型为工作日时分别对应的出行地集中度分布概率、行程频繁度分布概率以及出行地集中比值是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为上班族;

判断当日期类型为工作日时分别对应的行程效率比值以及行程频繁度分布概率以及时段集中度分布概率是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为专车司机族;

判断当日期类型为节假日时分别对应的出行地集中比值以及节假日对应的出行地集中比值与工作日对应的出行地集中比值之间的比值是否均在各自对应的预设阈值范围内,若是,则车主的出行行态为周末出游族。

聚类采用的算法为kmeans算法。

本实施例中,经过对大量历史数据的分析总结出上班族、专车司机族、周末出游族了特征,列举如下:

两点一线的上班族:工作日出行地集中度分布概率<0.3&工作日行程频繁度分布概率<0.2&工作日出行地集中比值<0.5;

周末出游族:节假日出行地集中比值>1&节假日出行地集中比值>工作日出行地集中比值。

专车司机族:工作日行程效率比值<0.1&工作日时段集中度分布概率>0.8&工作日行程频繁度分布概率>0.7。

本实施例通过根据车主驾驶车辆的预设行驶时间段以及与所述预设行驶时间段相对应的行驶路线构造时空指标参数,并利用衡量混乱程度的概率算法对所述时空指标参数进行计算得到所述时空指标参数的分布概率以及将所述分布概率进行聚类得到所述车主的出行形态,实现了刻画和比较不同车主在出行形态上的区别,以供其他相关业务使用,以增加相关业务的智能化和自动化。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1