一种基于车联网数据的时空维度用户画像分析方法与流程

文档序号：11519632阅读：902来源：国知局

本发明属于车联网信息技术领域，具体涉及一种基于车联网数据的时空维度用户画像分析方法。

背景技术：

随着移动互联网和物联网技术的发展，越来越多的车辆通过前装或后装的方式加入了车联网的阵营，并产生了大量的基于车辆位置的数据，然而这些数据的价值还有待进行更多维度、更深层次的挖掘。相关领域，国内外对于车联网数据的使用主要集中在使用车联网数据对不良驾驶行为的识别和预警，以及驾驶行为的经济性研究，而在基于车联网时空数据对用户行为进行深度挖掘的工作才刚刚起步。相关方面如中国发明专利申请201410531377.x公开的“基于物联网大数据平台的用户智能画像方法”，是通过物联网信息中心采集用户数据对用户进行定性和定量的分析，从而识别核心和规模较大的用户。又如201210074506.8公开的“基于手机定位数据的居民出行特征参数的获取方法”，是通过手机定位数据匹配到交通小区，这种方法对地图信息的依赖性强，且需要完备的交通小区信息。并且在该专利中也给出了判断居住地和工作地的简单方法，从而去判断用户的出行特征。

技术实现要素：

为了解决上述问题，本发明提供一种基于车联网数据的时空维度用户画像分析方法，所述方法通过车联网时空数据的描述方法，得到车主在出行习惯方面的画像，进行对车主的出行规律度描述、运营性质车辆识别、自驾游喜好程度描述、社交喜好判断等方面的应用，通过对车主的用户画像丰富保险行业中从人因素的风险因子库，通过对特定车主身份的识别为行业用户提供实现精准营销、改善用户体验的数据基础；

进一步地，所述方法包括：

s1：obd数据采集；

s2：对s1采集的obd数据进行清洗；

s3：对s2清洗完的数据进行描述性统计；

s4：对s3中的行程起点和终点坐标进行聚类；

s5：对s4对车联网数据的时间维度描述；

s6：对s5车联网数据的空间维度描述；

进一步地，所述s1中obd数据采集具体为：通过obd盒子，对车辆can总线进行访问实时采集数据，所述数据具体为时间数据、gps数据和车况数据；

进一步地，所述s2中数据清洗具体为基于obd采集数据时的工作状态所生成的位掩码，位掩码表示记录中所有字段的有效性，“1”标志为有效，“0”标志为无效，查找并分析其余的异常数据，对该数据出现的规律性进行分析，提出合理的清除数据或者修改异常数据的措施；

进一步地，所述s3中描述性统计具体为对行程的统计表和对车主的统计表，所述统计表统计指标包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间和行程里程长度；

进一步地，所述s4中终点聚类具体为以车主的家或公司形成点密度较大的核心分布区域，将属于所述核心分布区域进行定位点编号；

进一步地，所述s5中对时间维度描述具体为将时间以较小的间隔离散化，记录车主在观测期内的所有行程，得到以下稀疏矩阵，

矩阵中的第一列为日期(yymmdd)，第二列为星期(1\2\3\4\5\6\7)，其余十二列为一天的12个时段。对应的12个时段内的标号，表示该车主行程起点和终点的编号；

进一步地，所述s6中对车联网数据的空间维度描述具体为将车主每天的行程看作是一条连续聚类点组成的序列，将车主所有的行程并列在一起，其中，层级表示为车主在观测日期内的最长行程长度，模块的宽度表示该层级中到达该聚类点次数的占比，所有聚类点带有一个详细行程表，记录：到达次数、到达次数占比、到达行程开始时间、到达行程结束时间、出发行程开始时间、出发行程结束时间；

本发明的有益效果如下：

1)如同为自驾游爱好者推荐兴趣相投的伙伴，使用车联网的用户画像技术可以为更多的车主提供丰富多样的社交属性；

2)可以直观地描述车主在空间维度的出行习惯，同时描述车主在时间维度的变化规律。同时结合对聚类点属性的反馈，可以判断车主的出行习惯；

说明书附图

图1为本发明s6中所述车联网数据的空间维度描述图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

一种基于车联网数据的时空维度用户画像分析方法，所述方法通过车联网时空数据的描述方法，得到车主在出行习惯方面的画像，进行对车主的出行规律度描述、运营性质车辆识别、自驾游喜好程度描述、社交喜好判断等方面的应用，通过对车主的用户画像丰富保险行业中从人因素的风险因子库，通过对特定车主身份的识别为行业用户提供实现精准营销、改善用户体验的数据基础，所述方法包括：

s1：obd数据采集；

s2：对s1采集的obd数据进行清洗；

s3：对s2清洗完的数据进行描述性统计；

s4：对s3中的行程起点和终点坐标进行聚类；

s5：对s4对车联网数据的时间维度描述；

s6：对s5车联网数据的空间维度描述，所述s1中obd数据采集具体为：通过obd盒子，对车辆can总线进行访问实时采集数据，所述数据具体为时间数据、gps数据和车况数据。

所述s2中数据清洗具体为基于obd采集数据时的工作状态所生成的位掩码，位掩码表示记录中所有字段的有效性，“1”标志为有效，“0”标志为无效，查找并分析其余的异常数据，对该数据出现的规律性进行分析，提出合理的清除数据或者修改异常数据的措施。

所述s3中描述性统计具体为对行程的统计表和对车主的统计表，所述统计表统计指标包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间和行程里程长度，所述s4中终点聚类具体为以车主的家或公司形成点密度较大的核心分布区域，将属于所述核心分布区域进行定位点编号，所述s5中对时间维度描述具体为将时间以较小的间隔离散化，记录车主在观测期内的所有行程，得到以下稀疏矩阵，

矩阵中的第一列为日期(yymmdd)，第二列为星期(1\2\3\4\5\6\7)，其余十二列为一天的12个时段。对应的12个时段内的标号，表示该车主行程起点和终点的编号，所述s6中对车联网数据的空间维度描述具体为将车主每天的行程看作是一条连续聚类点组成的序列，将车主所有的行程并列在一起，如图1所示，

其中，层级表示为车主在观测日期内的最长行程长度，模块的宽度表示该层级中到达该聚类点次数的占比，所有聚类点带有一个详细行程表，记录：到达次数、到达次数占比、到达行程开始时间、到达行程结束时间、出发行程开始时间、出发行程结束时间。

本发明所述的方法应用于以下模块：

1)obd数据采集模块

基于obd盒子，对车辆can总线进行访问实时采集数据。本专利中主要指采集到的时间数据、gps数据、车况数据等。

2)数据描述性统计模块

将obd采集到的数据发往服务器，并对这些数据进行清洗以及描述性的统计。

需要特别强调的是，在进行车主驻留点的聚类方法及属性分析前应当对车主身份及其他敏感信息(如vin码、设备id等)进行哈希加密，防止对车主产生不良影响。

另外，在整个数据处理过程中，要尽量保证数据安全。

数据清洗的主要工作有：

基于obd采集数据时的工作状态所生成的位掩码(fieldmask)，根据位掩码判断数据的初始有效性；

其次，查找并分析其余的异常数据，例如终端失灵导致的异常数据，对该数据出现的规律性进行分析，提出合理的清除数据或者修改异常数据的措施，例如卡曼滤波、滑动均值滤波的方法；

最后，接下来对数据进行描述性统计工作，主要包括对行程的统计表和对车主的统计表。针对于本专利的统计表统计指标主要包括：行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间、行程里程长度等。

3)车主行程起点、终点聚类

由于gps的定位点本身具有一定的定位误差，同时很多车主在到达家或公司之后车辆的停放位置也并不固定，所以一般来说会在车主的家或公司形成点密度较大的核心分布区域。这些区域我们称为车主的核心点，这些核心点是我们挖掘车主行为习惯的重要依据。因此，首先将属于这些核心点的定位点编号。

在对用户的行程的起点和终点聚类并编号后，除去因为硬件故障造成的行程中断跳跃之外，车主的整体行程是连续的。并且我们可以通过对聚类点时间及空间维度进行分析，确定聚类点的时间及空间属性。

4)对车联网数据的时间维度描述

将时间以较小的间隔离散化，并记录车主在观测期内的所有行程，可得到一个稀疏矩阵，例如，以两小时为单位，某车主在一周的观测期内的行为可以表示为如下稀疏矩阵：

实施例1：车主出行规律度描述

车主出行的规律性是研究车主行为画像的重要组成部分，并且也是行业用户的重点关注，理论上，车主的行为习惯越规律，发生事故的概率越低。

为了描述车主的出行规律度，我们采用时间、空间两个维度去分析车主的行为。通过本发明所述的分析方法，对车主出行数据的时间、空间描述，大部分车主在节假日和工作日中的出行规律有明显区别，故将其分开考虑。

在描述时间规律度(工作日/节假日)时，考虑以下2个指标：

a)车主每天第一个行程的开始时间；

b)车主每天最后一个行程的结束时间。

可以理解为，这两个时间分别代表了车主的离家和回家时间点。用这两个指标描述车主在时间维度上的规律度。使用这两个指标的方差来表示其规律度。

方差越小，说明车主离家或回家的时间越稳定，行为越规律。

在描述空间规律度(工作日/节假日)时，考虑以下6个指标：

a)每天第一个行程终点的种类数量，数值越小说明规律度越高；

b)每天第一个行程终点最高频点的占比，数值越大说明规律度越高；

c)每天最后一个行程的起点的种类数量，数值越小说明规律度越高；

d)每天最后一个行程的起点最高频点的占比，数值越大说明规律度越高；

e)每天第一个行程起点、最后一个行程终点最高频点的占比，一般来讲，第一个行程起点或最后一个行程终点对应着车主的“家”，因此，在规律度中需要考虑被认为是车主“家”地点的最高频点占比。数值越大说明规律度越高；

f)每天的平均行程数，数值越小说明规律度越高；

在获得以上8个特征后，构建层次分析法模型，选取适当的权重，得到最终的车主规律度，其中节假日和非节假日的规律度时分开的。可以将其基于时间长度做加权平均。公式如下：

车主规律度＝[(工作日时间规律度+工作日空间规律度)/2*工作日天数+(节假日时间规律度+节假日空间规律度)/2*节假日天数)]/(工作日天数+节假日天数)

实施例2：运营性质车辆识别

随着共享出行模式的不断普及，越来越多的非运营车辆转化为运营车辆，具有运营车辆属性，但按照非运营车辆购买车辆保险，对保险公司对于承保车辆风险判断出现错误，提高了赔付风险。通过车联网数据对车主进行用户画像分析，判断并识别运营性质车辆，从而降低保险公司的承保风险。

应用本发明所述分析方法，首先进行指标提取，选取14项指标，包括：车主出行规律度描述中所包含的8个指标、车主的主要路径重复度、车辆白天\夜晚的停放\行驶时长、在交通枢纽(包括机场、火车站、地铁站、长途汽车站等)附近的停车频率等。

选取已进行过问卷调查，并标记好身份的车主作为训练对象，建立bp神经网络。

bp神经网络是一种多层前馈神经网络，可以实现从输入到输出的任意非线性映射，具有良好的自组织、自适应和较强的鲁棒性的特点。bp神经网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。使用的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小，结束学习。具体步骤如下：

a)构建输入向量和输出值。输入向量为十四项指标，输出值为其对应的身份标记(1为运营车辆，0为正常车辆)；

b)将数据输入已经构建好的神经网络中，网络结构14×10×1的网络拓扑结构，神经元函数为sigmoid特征函数；

c)使用采集处理后的数据分为两部分，训练数据和检验数据，将训练数据作为输入训练神经网络，取学习率η＝0.3，误差标准ε＝0.005，得到训练好的神经网络；

d)选择检验数据作为输入，判断神经网络预测模型得到的结果的准确性。

若要将模型用于实际的生产中时，要考虑模型的不断学习优化过程，以达到更加准确的识别效果。

实施例3：用于自驾游喜好程度描述

随着生活节奏的不断加快，越来越多的人喜欢在节假日到郊区或更远的地方自驾游。这样的行为无形之中提高了车辆的事故风险，如果将这部分人识别出来，一方面，为其提供更加完备的保险服务以及周到的道路救援服务，可以极大的提高品牌效应和车主忠诚度。另一方面，可以为其提供针对性的维修保养等汽车后服务，并可以为其推荐兴趣相投的自驾游爱好者或者组建自驾游俱乐部。

首先进行指标选取，选取3项指标，包括：节假日外出行程比例、节假日外出行程平均长度，外出行程终点附近的poi属性为景点的比例。

采用的计算方法为topsis(techniquefororderpreferencebysimilaritytoanidealsolution)法，其基本原理，是通过检测评价对象与最优解、最劣解的距离来进行排序，若评价对象最靠近最优解同时又最远离最劣解，则为最好；否则不为最优。其中最优解的各指标值都达到各评价指标的最优值。最劣解的各指标值都达到各评价指标的最差值。

实施例4：社交喜好判断

如同为自驾游爱好者推荐兴趣相投的伙伴，使用车联网的用户画像技术可以为更多的车主提供丰富多样的社交属性，例如，可以通过计算识别出来的车主家庭住址和工作地址，为车主推荐附近的顺风车，从而为限行日的车主提供了更多的出行选择。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯志伟;耿文童;李旭
技术所有人：北京车网互联科技有限公司
我是此专利的发明人

上一篇：双向功率半导体器件的制造方法与工艺
上一篇：用户信息视图构建方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。