一种基于车联网数据的用户出行喜好分析方法与流程

文档序号:12465772阅读:254来源:国知局
一种基于车联网数据的用户出行喜好分析方法与流程

本发明属于车联网技术领域,具体涉及一种基于车联网数据的用户出行喜好分析方法。



背景技术:

进入21世纪,随着信息技术的快速发展,物联网技术的研究取得了很大的进展。在物联网的发展浪潮中,车联网应运而生。在车联网发展的这几年,城市的交通系统正在向着智能化、安全化、全面化迈进。车联网承载了车与车(V2V)、车与路(V2R)、车与网(V2I)、车与人(V2H)等的互联互通,随着车联网的广泛普及,汽车除了对温度、压力、位置、转速、加速度和振动等各种信息进行实时、准确的测量和控制外,还需要兼顾更多要素——天气状况、污染指数、附近加油站等,以及驾驶员的驾驶水平、出行规律、出行喜好等。车联网的重心逐渐由“以路为本”向“以人为本”转移。因此,“车与人”进行互联互通的方式以及二者关联后能够产生的应用价值逐渐引起人们的关注。

近年来,我国机动车保有量持续增长,伴随着车联网技术的不断发展,基于机动车驾驶者的数据的量级逐渐增大,而在车主的出行喜好方面的研究还不是很多,一方面,车联网行业希望通过基于用户出行行为的数据分析用户的出行喜好,以此对用户进行深入了解,挖掘潜在需求,另一方面,用户希望自身产生的数据能对他们自己起到指导建议作用。然而,目前行业内基于车联网时空数据对用户出行喜好进行深度挖掘的研究尚且处于起步阶段,仍有大量研究工作有待完成。

用户驾车出行时会产生大量具有空间和时间属性的数据,用户通常会驱车前往各种具有不同属性的地理区域,停留不同的时长。从这类数据中我们可以分析用户驾车出行喜好,在某一时间区间内,根据用户驾车的时段和驻留的时长做出分析,推知其在概率上的兴趣点分布,并由此可做一些延伸的应用。基于用户在某一时间段内出行所产生的时间、空间数据,描绘其可能的兴趣分布,旨在刻画用户工作时段之外的出行喜好。针对用户个人可做纵向分析,即分析某用户更喜欢类型A抑或是类型B;针对用户群体可做横向比较,即对于同一类型的POI点,用户甲和用户乙谁表现出了更大的兴趣。

分析车主的出行喜好,可以使得我们更深入地了解用户,而非仅仅局限于用户自身所能提供的如年龄、性别等的基础数据。基于此,我们能够在各行业进行深度应用。如在保险行业,不同于对用户驾驶行为的评价,用户的出行喜好展现了一个车主更多维度的信息,通过对这些信息进行整合与分析,可以对保险的定价提供更加完备的参考方案。进一步地,通过分析用户的出行喜好,可以帮助我们深度了解用户,挖掘用户基于各种POI类型的潜在需求,从而为用户提供更加个性化的服务。



技术实现要素:

为了解决上述问题,本发明提供一种基于车联网数据的用户出行喜好分析方法,所述方法基于假定以用户驻留点的聚点附近各POI类型在该地点所有POI点的占比,表示其前往每一类型POI点的概率为模型,通过用户的聚点GPS信息进行逆地理编码,获知用户出行地点的空间属性,随后根据用户的出行行为推测其兴趣所在,针对提出的评价指标,依次对用户在每一POI点的类型作出评分,计算所得的指标权重值得到用户在某一POI点类型加权后的得分,最终将用户所有POI点类别的得分按照一定顺序进行排列,获得用户出行喜好;

进一步地,所述方法包括

S1:将用户的驻留点聚类,具体为对用户的驻留点进行聚类,确定某地点的中心点,称为驻留点的聚点;

S2:筛选行程,具体为分析用户工作之余的出行喜好,删去用户以“家”或“公司”为终点的行程,保留其余有效行程;

S3:逆地理编码,具体为根据用户的驻留点的聚点进行逆地理编码,规定此过程选取聚点周围半径r米内的POI;

S4:计算POI类型占比。由上一步得到所有聚点附近r米内所包含的各类POI信息与总数,随后逐个输出每一聚点附近各个类型的POI点的数目,并按类型计算POI点的占比,得到矩阵P;

S5:抽取指标数据;

S6:计算每种类型各指标的期望值;

S7:指标数据评分,具体为在每一个指标内部,首先对用户数据分布情况做出判别,观测其服从何种分布,将数据正态化,最终基于正态分布得出用户在每一类POI点的三种指标下各自的得分;

S8:计算指标权重、计算各POI类型下的指标权重;

S9:计算每一POI类型的得分。

进一步地,所述S5具体为抽取用户驻留点的聚点的在三个指标下的数据,所述三个指标分别是:到达次数Time、停留总时长Dura和驶入行程总时长Dura2;

进一步地,所述S6具体为根据S4和S5中用户所到达的每一个驻留点的聚点内每一类型的三个指标的数学期望值,其中,数学期望值计算方法如下:

到达次数的数学期望值=POI点的占比×到达次数Time;

停留时长的数学期望=POI点的占比×停留总时长Dura;

驶入行程时长的数学期望=POI点的占比×驶入行程总时长Dura2;

进一步地,所述S7包括:

S71:确定数据服从何种分布;

S72:原始数据正态化:具体为对原始数据做一次非线性变换,使其服从标准正态分布;

S73:对数据进行分组:具体为依据公式计算需要划分的组数;

S74:确定组距:对于每一个指标,计算每一POI类型中数据的全距,根据最大值与最小值计算得到组距;

S75:计算累积百分比:确定每一组数值的上限与下限,求出每一组中落入的数据点的个数、每一组的组中值,从而得到组中值以下的累加次数,将累加次数与总的用户人数作比,得到每一组的累积百分比;

S76:查询得到z分数;

S77:计算T分数,具体为根据公式对z分数作线性变换,以消除负值对结果的影响,得到每一组分数的上限与下限;

S78:计算用户在每一指标下各POI类型的得分:查找用户的数据所对应的分数区间,在区间内将数据按照线性处理对应到某一分数值,获得用户在三个指标下的得分值;

进一步地,所述S76中所述z分数为标准分,所述标准分在数据服从正态分布的条件下,将原始数据转化为z分数可以去除量纲,因此可以对同一整体不同类型的数据进行比较,由累积百分比查询正态分布表得到每一组的z分数,将分组后的组中值以下的累积百分比的比值作为组内的百分比上限;

进一步地,所述S8具体为利用层次分析法确定三个指标的权重值大小,根据类型确定其中三个指标的权重值;

进一步地,所述S9具体包括:

S91:计算同一指标下用户在各POI类型的得分,具体包括在指标“到达次数”下,将每一个用户在各POI类型下的得分与对应的权重值相乘,得到加权的分数,指标“停留时长”与指标“驶入行程时长”下各POI类型的得分计算方法同理;

S92:计算对指标加权后的得分,具体包括将每一个指标的权重与用户在该指标下各POI类型的得分相乘,得到对指标加权后的得分,对此得分作和,得到用户在不同POI类型下的得分;

进一步地,所述层次分析法确定权重包括以下步骤:

(1)建立层次结构模型:本方法中的层次结构由三层构成,分别是:①目标层,提出方法要解决的问题;②准则层,提出评分要参照的指标;③方案层,确定用户对每一种POI类型点的喜好程度;

(2)构造成对比较阵:从层次结构模型中的准则层与方案层,对于从属于上一层的每个因素的同一层各个因素,用成对比较法和1-9比较尺度构造成对比较阵;

(3)计算权向量并做一致性检验:对于每一个成对比较阵计算最大特征根及对应特征向量,利用一致性指标、随机一致性指标做一致性检验。若检验通过,则将归一化后的特征向量视为权向量;

(4)计算组合权向量并做一致性检验:计算层次结构模型中的方案层对目标的组合权向量,并进行一致性检验。若检验通过,则可按照组合权向量表示的结果进行决策。

本发明的有益效果如下:

分析车主的出行喜好,可以使得更深入地了解用户,而非仅仅局限于用户自身所能提供的如年龄、性别等的基础数据。基于此,能够在各行业进行深度应用。如在保险行业,不同于对用户驾驶行为的评价,用户的出行喜好展现了一个车主更多维度的信息,通过对这些信息进行整合与分析,可以提供更加完备的参考方案。进一步地,通过分析用户的出行喜好,可以深度了解用户,挖掘用户基于各种POI类型的潜在需求,从而为用户提供更加个性化的服务。

附图说明

图1为本发明中所述用户出行喜好评分流程图;

图2为本发明中所述POI类型为商务住宅的停留时长直方图;

图3为本发明中所述POI类型为商务住宅的停留时长Q-Q图;

图4为本发明中所述数据正态化示意图;

图5为本发明中所述确定POI点的权重值的层次结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:

如图1-图5所示,本发明提供一种基于车联网数据的用户出行喜好分析方法,所述方法基于假定以用户驻留点的聚点附近各POI类型在该地点所有POI点的占比,表示其前往每一类型POI点的概率为模型,通过用户的聚点GPS信息进行逆地理编码,获知用户出行地点的空间属性,随后根据用户的出行行为推测其兴趣所在,针对提出的评价指标,依次对用户在每一POI点的类型作出评分,计算所得的指标权重值得到用户在某一POI点类型加权后的得分,最终将用户所有POI点类别的得分按照一定顺序进行排列,获得用户出行喜好。

所述方法包括:

S1:将用户的驻留点聚类,具体为对用户的驻留点进行聚类,确定某地点的中心点,称为驻留点的聚点;

S2:筛选行程,具体为分析用户工作之余的出行喜好,删去用户以“家”或“公司”为终点的行程,保留其余有效行程;

S3:逆地理编码,具体为根据用户的驻留点的聚点进行逆地理编码,规定此过程选取聚点周围半径r米内的POI;

S4:计算POI类型占比。由上一步得到所有聚点附近r米内所包含的各类POI信息与总数,随后逐个输出每一聚点附近各个类型的POI点的数目,并按类型计算POI点的占比,得到矩阵P;

S5:抽取指标数据;

S6:计算每种类型各指标的期望值;

S7:指标数据评分,具体为在每一个指标内部,首先对用户数据分布情况做出判别,观测其服从何种分布,将数据正态化,最终基于正态分布得出用户在每一类POI点的三种指标下各自的得分;

S8:计算指标权重、计算各POI类型下的指标权重;

S9:计算每一POI类型的得分。

所述S5具体为抽取用户驻留点的聚点的在三个指标下的数据,所述三个指标分别是:到达次数Time、停留总时长Dura和驶入行程总时长Dura2;

所述S6具体为根据S4和S5中用户所到达的每一个驻留点的聚点内每一类型的三个指标的数学期望值,其中,数学期望值计算方法如下:

到达次数的数学期望值=POI点的占比×到达次数Time;

停留时长的数学期望=POI点的占比×停留总时长Dura;

驶入行程时长的数学期望=POI点的占比×驶入行程总时长Dura2;

所述S7包括:

S71:确定数据服从何种分布;

S72:原始数据正态化:具体为对原始数据做一次非线性变换,使其服从标准正态分布;

S73:对数据进行分组:具体为依据公式计算需要划分的组数;

S74:确定组距:对于每一个指标,计算每一POI类型中数据的全距,根据最大值与最小值计算得到组距;

S75:计算累积百分比:确定每一组数值的上限与下限,求出每一组中落入的数据点的个数、每一组的组中值,从而得到组中值以下的累加次数,将累加次数与总的用户人数作比,得到每一组的累积百分比;

S76:查询得到z分数;

S77:计算T分数,具体为根据公式对z分数作线性变换,以消除负值对结果的影响,得到每一组分数的上限与下限;

S78:计算用户在每一指标下各POI类型的得分:查找用户的数据所对应的分数区间,在区间内将数据按照线性处理对应到某一分数值,获得用户在三个指标下的得分值;

所述S76中所述z分数为标准分,所述标准分在数据服从正态分布的条件下,将原始数据转化为z分数可以去除量纲,因此可以对同一整体不同类型的数据进行比较,由累积百分比查询正态分布表得到每一组的z分数,将分组后的组中值以下的累积百分比的比值作为组内的百分比上限;

所述S8具体为利用层次分析法确定三个指标的权重值大小,根据类型确定其中三个指标的权重值;

所述S9具体包括:

S91:计算同一指标下用户在各POI类型的得分,具体包括在指标“到达次数”下,将每一个用户在各POI类型下的得分与对应的权重值相乘,得到加权的分数,指标“停留时长”与指标“驶入行程时长”下各POI类型的得分计算方法同理;

S92:计算对指标加权后的得分,具体包括将每一个指标的权重与用户在该指标下各POI类型的得分相乘,得到对指标加权后的得分,对此得分作和,得到用户在不同POI类型下的得分;

所述层次分析法确定权重包括以下步骤:

(1)建立层次结构模型:本方法中的层次结构由三层构成,分别是:①目标层,提出方法要解决的问题;②准则层,提出评分要参照的指标;③方案层,确定用户对每一种POI类型点的喜好程度;

(2)构造成对比较阵:从层次结构模型中的准则层与方案层,对于从属于上一层的每个因素的同一层各个因素,用成对比较法和1-9比较尺度构造成对比较阵;

(3)计算权向量并做一致性检验:对于每一个成对比较阵计算最大特征根及对应特征向量,利用一致性指标、随机一致性指标做一致性检验。若检验通过,则将归一化后的特征向量视为权向量;

(4)计算组合权向量并做一致性检验:计算层次结构模型中的方案层对目标的组合权向量,并进行一致性检验。若检验通过,则可按照组合权向量表示的结果进行决策。

下面对本发明所述方法举出具体实施案例:

本发明所述方法包括:

1模型假设

由于根据GPS返回的POI类型无法精准地表示用户具体的出行目的,如某一用户的行程停留在某综合商场,我们无法确定该用户是购物还是用餐。因此我们假定以用户驻留点的聚点附近各POI类型在该地点所有POI点的占比,表示其前往每一类型POI点的概率。

2符号说明

表1各符号说明

3评分体系建立流程

整体分为两个模块:

第一是基于用户的聚点GPS信息进行逆地理编码,获知用户出行地点的空间属性;在分析用户的兴趣点时,需要根据地点的内在性质对其有一定程度的划分。本过程基于地图所提供的POI分类,所有的POI被划分为三级,由于第三级的类目过于精细,相比之下第一、第二级类目能更好地代表用户的出行喜好,所以选择考虑首先根据第一级进行部分删改,随后将二级分类筛选后作适当插入。POI类型一级分类如表2所示:

表2 POI类型一级分类

POI类型二级分类如表3所示:

表3 POI类型二级分类

第二是在空间地理位置上叠加指标来进行综合分析。本流程的最终目的是根据用户的出行行为推测其兴趣所在,针对提出的评价指标,依次对用户在每一POI点的类型作出评分,随后根据计算所得的指标权重值得到用户在某一POI点类型加权后的得分,最终将用户所有POI点类别的得分按照一定顺序进行排列。我们可以认为,用户对某一类点的兴趣在很大程度上依赖于指标因素,又因为指标本身的重要性不同,因此指标权重值的取值有所不同,由此可得,评分位于前位的POI类型即是用户的兴趣所在。

根据图1,以下为用户出行喜好评分步骤:

第一步:将用户的驻留点聚类。

由于用户在同一地点选取的停车位置不一定相同、GPS定位存在偏差,因此首先对用户的驻留点进行聚类,确定某地点的中心点,称为驻留点的聚点。

第二步:筛选行程。

为分析用户工作之余的出行喜好,需要按照一定规则对用户的“家”与“公司”作出定义,将用户所有以“家”或“公司”为终点的行程删去,保留其余有效行程。

第三步:逆地理编码。

根据用户的驻留点的聚点进行逆地理编码,规定此过程选取聚点周围半径r米内的POI。

第四步:计算POI类型占比。

由上一步得到所有聚点附近r米内所包含的各类POI信息与总数,随后逐个输出每一聚点附近各个类型的POI点的数目,并按类型计算POI点的占比,得到矩阵,则第i个用户的占比矩阵为Pi

第五步:抽取指标数据。

抽取用户驻留点的聚点的在三个指标下的数据,分别是:①到达次数(Time)、②停留的总时长(Dura)、③驶入行程所花费的总时长(Dura2)。

第六步:计算每种类型各指标的期望值。

根据第四步和第五步,计算用户所到达的每一个驻留点的聚点内每一类型的三个指标的数学期望值,即POI点的占比与三个指标下的数据相乘。

例如某用户在三个月内到达聚点A的次数为100次,停留总时长为500小时,驶入行程花费时间为50小时,其中聚点A附近r米半径范围内有餐饮服务(60%)、购物服务(30%)、体育休闲服务(10%)三种POI类型,则得到如下数学期望值:

表4某用户在聚点A的各指标数学期望

该用户在三个月时间内到达聚点B的次数为50次,停留时长为100小时,驶入行程时长为40小时,其中聚点B附近r米半径范围内有餐饮服务(10%)、购物服务(20%)、体育休闲服务(70%)三种POI类型,则得到如下数学期望值:

表5某用户在聚点B的各指标数学期望

随后将某一用户所有驻留点的聚点中同类型、同指标的期望值数据相加。如,某用户的出行地点有A、B两个聚点,将表4与表5中对应位置的数据相加,则其全部出行数据在概率上体现为下表所示的情况:

表6某用户在聚点A、B的各指标数学期望之和

第七步:指标数据评分。

在每一个指标内部,首先对用户数据分布情况做出判别,观测其服从何种分布,将数据正态化,最终基于正态分布得出用户在每一类POI点的三种指标下各自的得分。

在这其中:

1)确定数据服从何种分布:利用SPSS对用户数据进行描述性统计,得到数据的频率分布直方图以及偏度和峰度、Q-Q图。当Q-Q图中的数据点能够拟合为一条直线时,数据服从正态分布。如图2、图3所示,尽管抽取的用户原始数据并不完全服从正态分布,但在一定程度上可以认为数据具有正态性质;

2)原始数据正态化:对原始数据做一次非线性变换,使其服从标准正态分布;

3)对数据进行分组:依据公式计算需要划分的组数k;

4)确定组距:对于每一个指标,计算每一POI类型中数据的全距(R),即最大值与最小值的差值,根据h=R/k得到组距h;

5)计算累积百分比:确定每一组数值的上限与下限,求出每一组中落入的数据点的个数、每一组的组中值,从而得到组中值以下的累加次数,将累加次数与总的用户人数作比,得到每一组的累积百分比;

6)查询得到z分数:z分数是一种标准分,在数据服从正态分布的条件下,将原始数据转化为标准z分数可以去除量纲,因此可以对同一整体的不同类型的数据进行比较。由累积百分比查询正态分布表则可得到每一组的z分数,由于正态分布的两侧均是无限延伸的,为了避免发生当累积百分比的比值等于100%时z分数等于正无穷的现象,将分组后的组中值以下的累积百分比的比值视作组内的百分比上限;

7)计算T分数:根据公式T=10z+50对z分数作线性变换,以消除负值对结果的影响,得到每一组分数的上限与下限;

8)计算用户在每一指标下各POI类型的得分:查找用户的数据所对应的分数区间,在区间内将数据按照线性处理对应到某一分数值:

此时会得到三个得分表,分别是用户在三个指标下的得分值。

第八步:计算指标权重、计算各POI类型下的指标权重。

首先利用层次分析法确定三个指标的权重值大小。其次,由于每一类型又有着各自的特点,如去超市与去电影院相比,用户对前者的兴趣更依赖于在该地点停留的时长,而对后者则更依赖于前往的次数,于是在此条件下需要以类型来确定其中三个指标的权重值。另一方面,对于某些POI类型,指标应当有最低阈值,当低于阈值时,这个类型应该算为无效,比如在电影院时长小于1小时这样的情况;

第九步:计算每一POI类型的得分。

评分过程分为如下:

1)首先计算同一指标下用户在各POI类型的得分。在指标“到达次数”下,将每一个用户在各POI类型下的得分与对应的权重值相乘,得到加权的分数,第i个用户在第j个POI类型的得分为:Ti=w1jxi,j

指标“停留时长”下,第i个用户在第j个POI类型的得分为:Di=w2jyi,j指标“驶入行程时长”下,第i个用户在第j个POI类型的得分为:

2)其次,计算对指标加权后的得分。将每一个指标的权重与用户在该指标下各POI类型的得分相乘,得到对指标加权后的得分。最终对得分作和,则可得到第i个用户在不同POI类型下的得分:Si=wtTi+wd1Di+wd2D2i

至此评分过程结束,针对数据产生的结果,我们能够获知在一定概率下用户对各种类型的POI点的偏好程度,据此,可以做相应的分析与应用。如:

1)“猜你是”:向用户做出行喜好推送,可赋予一个名称,如“购物达人”等;

2)预测未来的某个时间段内用户的出行喜好分布。

其中,上述层次分析法确定权重如下:

为了确定哪些指标对用户出行偏好更具影响力,以及最终用户对哪一类或者哪几类POI点有更高的喜好度,于是采用层次分析法对此问题进行分析。本方法中的层次结构由三层构成,分别是:(1)目标层,提出方法要解决的问题;(2)准则层,提出评分要参照的指标;(3)方案层,确定用户对每一种POI类型点的喜好程度。随后,构造两两比较的成对比较阵,求解权向量,通过两两比较判断的方式,确定每个层次中指标的相对重要性,并用定量的方法表示,进而建立成对比较阵。成对比较阵中的值可以反映出人们对指标的相对重要性最直观的认识。用1-9标度法来构造成对比较矩阵,如表7所示为1-9标度法。

表7 1-9标度法

因此,根据用户的指标数据进行评价综合分析后构造出成对比较矩阵。

表8成对比较矩阵

随后对矩阵C作归一化处理,得到准则层中三个指标的权重值,步骤如下:

1)将成对比较矩阵C的每一行向量归一化得

2)对按列求和得

3)将归一化,则w=[w1,w2,...,wn]即为所求的权重;

4)计算成对比较矩阵的最大特征根λmax

5)对矩阵进行一致性检验,计算一致性指标CI=0时矩阵为一致阵,CI越大矩阵的不一致程度越严重。为了确定矩阵的不一致程度的容许范围,则需引用随机一致性指标RI,其数值如表9。

表9随机一致性指标

6)对于n≥3的成对比较阵,将它的一致性指标CI与同阶的随机一致性指标RI之比成为一致性比率CR,当时认为成对比较阵的不一致程度在容许的范围之内,即能够通过一致性检验。

在本申请提出的方法中,令准则层的成对比较矩阵为其中认为到达次数对评分结果的影响比停留时长稍强,而绝对强于驶入行程的时长;停留时长的影响则明显强于驶入行程的时长。

经计算,矩阵通过一致性检验,并得到各指标的权重值如下:

表10各指标权重

由于矩阵是凭直观经验而得到,对方案层的成对比较矩阵C进行一致性检验,若检验通过则可对方案层进行分析。这一层的构建方式与准则层相同,因为每一POI类型的权重值由三个指标决定,因此在三个维度上各构造一个成对比较矩阵,经由1-9标度法则可得到方案层的权重。本方法在构造矩阵之前首先根据各POI类型所具有的属性进行1-9的标值,这样便于多个因子的快速计算,也可以避免一致性检验不能通过的情况发生。进行标度之前,依据经验给每一个POI类型的计数标准赋值,随后将其值标准化为1至9之间的整数值。计算方法为:将原始值划分为等距的9个区间,每个区间的值分别对应为1至9之间的整数。赋值结果如表11所示。

表11一级POI类型在指标下的标度值

由此,基于每一个POI类型所具有的标度值构造成对比较矩阵,可以得到基于到达次数、停留时长、驶入行程时长这三个指标的各POI类型的权重值,如下表所示。

表12一级POI类型在指标下的权重

表13二级POI类型在指标下的标度值

表14二级POI类型在指标下的权重

以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1