一种基于无监督学习的用户行程挖掘方法和装置与流程

文档序号:15271829发布日期:2018-08-28 22:31阅读:109来源:国知局

本发明涉及汽车领域,尤其涉及一种基于无监督学习的用户行程挖掘方法和装置。



背景技术:

随着城市化的不断深入和推进,城市越来越拥挤,越来越多的家庭拥有了自己的车。在这种情况下,司机的驾驶水平对城市交通的畅通程度起到了重要影响作用。因此,如果能够根据用户通过车联网上传到数据平台的海量数据进行分析和挖掘,区分出车辆行驶的每一个行程,对于进一步分析用户的驾驶行为将会有很大帮助。



技术实现要素:

本发明的目的在于提供一种基于无监督学习的用户行程挖掘方法和装置以根据用户上传的数据进行聚类分析,从而区分出每一个行程。

一方面,本发明实施例提供一种基于无监督学习的用户行程挖掘方法,包括以下步骤:步骤s1、对车载终端上传到数据平台的原始样本集进行处理,选定用于建立用于模型学习的训练样本的特征,组成样本库;以及步骤s2、对所述样本库使用k均值算法进行聚类分析,得到行程起点和非行程起点集合,从而区分出每一个行程

优选地,所述步骤s1包括:

步骤s11、对车载终端上传到数据平台的所述原始样本集进行处理,计算相邻两个元组的特征变化量;

步骤s12、分析所述原始样本集中的多个特征,对比行程起点集和非起点集在所述多个特征上的差异,选定用于建立用于模型学习的训练样本的特征,组成样本库。

优选地,在所述步骤s12中选定的用于建立用于模型学习的训练样本的特征为gps时间变化量、速度大小和状态信息变化量。

优选地,所述步骤s2包括:

步骤s21、对所述样本库进行数据规范化操作,生成包括所述gps时间变化量、所述速度大小和所述状态信息变化量三个特征的矩阵;

步骤s22、在所述矩阵中选取2个点作为初始聚类中心;

步骤s23、根据每个聚类的中心,计算每个点与这些中心点的距离,并根据最小距离重新对相应点进行划分,形成一类;

步骤s24、更新聚类中心,然后以每一类的平均向量作为新的聚类中心,重新分配数据对;

步骤s25、反复迭代,直到满足每个聚类不再发生变化为止。

相应地,本发明还提供一种基于无监督学习的用户行程挖掘装置,包括:

样本库建立模块,用于对车载终端上传到数据平台的原始样本集进行处理,选定用于建立用于模型学习的训练样本的特征,组成样本库;

聚类分析模块,用于对所述样本库使用k均值算法进行聚类分析,得到行程起点和非行程起点集合,从而区分出每一个行程。

优选地,所述样本库建立模块包括:

处理单元,用于对车载终端上传到数据平台的所述原始样本集进行处理,计算相邻两个元组的特征变化量;

分析单元,用于分析所述原始样本集中的多个特征,对比行程起点集和非起点集在所述多个特征上的差异,选定用于建立用于模型学习的训练样本的特征,组成样本库。

优选地,所述分析单元选定的用于建立用于模型学习的训练样本的特征为gps时间变化量、速度大小和状态信息变化量。

优选地,所述聚类分析模块通过以下步骤进行聚类分析:

对所述样本库进行数据规范化操作,生成包括所述gps时间变化量、所述速度大小和所述状态信息变化量三个特征的矩阵;

在所述矩阵中选取2个点作为初始聚类中心;

根据每个聚类的中心,计算每个点与这些中心点的距离,并根据最小距离重新对相应点进行划分,形成一类;

更新聚类中心,然后以每一类的平均向量作为新的聚类中心,重新分配数据对;

反复迭代,直到满足每个聚类不再发生变化为止。

实施本发明实施例,具有如下有益效果:在本发明中对于用户上传到数据平台的数据,由于其中不包含行程识别码,因此我们采用未知分类标签的无监督学习方式,进行聚类分析,从而得到行程起点集合和非行程起点集合,以区分出车辆行驶的每一个行程,为了能够进一步的分析用户的驾驶行为奠定基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基于无监督学习的用户行程挖掘方法的流程示意图;

图2是图1所示的步骤s1中利用原始样本集组成样本库的流程示意图;

图3是图1所示的步骤s2中进行聚类分析的流程示意图;

图4是本发明实施例二提供的基于无监督学习的用户行程挖掘装置的原理图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于无监督学习的用户行程挖掘方法,参见图1,该基于无监督学习的用户行程挖掘方法可以包括以下步骤:

步骤s1、对车载终端上传到数据平台的原始样本集进行处理,选定用于建立用于模型学习的训练样本的特征,组成样本库;以及

步骤s2、对所述样本库使用k均值算法进行聚类分析,得到行程起点和非行程起点集合,从而区分出每一个行程。

无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。在本实施例中,根据海马、天启星、t3688等终端定时上传到大平台的数据,包括用户呼号、gps时间、经纬度、速度大小、方向值、车辆状态信息(熄火或发动)等特征,区分每一个行程。由于这些类终端上传的数据样本没有包括行程id的记录,我们采用未知分类标签的无监督学习方式,进行聚类分析,从而得到行程起点集合和非行程起点集合,以区分出车辆行驶的每一个行程,为了能够进一步的分析用户的驾驶行为奠定基础。

具体地,参见图2,在本实施例中,利用原始样本集组成样本库的方法包括以下步骤:

步骤s11、对车载终端上传到数据平台的所述原始样本集进行处理,计算相邻两个元组的特征变化量;

在本步骤中,通过车载终端上传的原始样本集中包括用户呼号、gps时间、经纬度、速度大小、方向值、车辆状态信息(熄火或发动)等多个特征。通过对多个特征进行数据清理、数据变换操作,以计算相邻两个元组在多个特征上的变化量。

步骤s12、析所述原始样本集中的多个特征,对比行程起点集和非起点集在所述多个特征上的差异,选定用于建立用于模型学习的训练样本的特征,组成样本库;

由于原始样本集中包含多个特征,但不是每个特征在行程起点和非起点都存在显著差异,因此,在本步骤中,需要对比行程起点集和非起点集在各个特征上的差异,确定存在显著差异的特征变化量,用于进行聚类分析。

优选地,选定的用于建立用于模型学习的训练样本的特征为gps时间变化量、速度大小和状态信息变化量。

具体地,参见图3,在本实施例中,对所述样本库使用k均值算法进行聚类分析,得到行程起点和非行程起点集合,从而区分出每一个行程包括以下步骤:

步骤s21、对所述样本库进行数据规范化操作,生成包括所述gps时间变化量、所述速度大小和所述状态信息变化量三个特征的矩阵;

步骤s22、在所述矩阵中选取2个点作为初始聚类中心;

步骤s23、根据每个聚类的中心,计算每个点与这些中心点的距离,并根据最小距离重新对相应点进行划分,形成一类;

步骤s24、更新聚类中心,然后以每一类的平均向量作为新的聚类中心,重新分配数据对;

步骤s25、反复迭代,直到满足每个聚类不再发生变化为止。

本实施例通过对车辆上传到数据平台的原始样本进行处理分析,得到用于用于聚类分析的特征变量,再对该多个特征变量利用k均值算法进行聚类分析。在本发明中我们采用未知分类标签的无监督学习方式,进行聚类分析,从而得到行程起点集合和非行程起点集合,以区分出车辆行驶的每一个行程,为了能够进一步的分析用户的驾驶行为奠定基础。

实施例二

图4是本发明实施例二提供的基于无监督学习的用户行程挖掘装置的原理图。具体地,参见图4,基于无监督学习的用户行程挖掘装置包括:

样本库建立模块10,用于对车载终端上传到数据平台的原始样本集进行处理,选定用于建立用于模型学习的训练样本的特征,组成样本库;

聚类分析模块20,用于对所述样本库使用k均值算法进行聚类分析,得到行程起点和非行程起点集合,从而区分出每一个行程。

无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。在本实施例中,根据海马、天启星、t3688等终端定时上传到大平台的数据,包括用户呼号、gps时间、经纬度、速度大小、方向值、车辆状态信息(熄火或发动)等特征,区分每一个行程。由于这些类终端上传的数据样本没有包括行程id的记录,我们采用未知分类标签的无监督学习方式,进行聚类分析,从而得到行程起点集合和非行程起点集合,以区分出车辆行驶的每一个行程,为了能够进一步的分析用户的驾驶行为奠定基础。

具体地,在本实施例中,样本库建立模块10包括:

处理单元,用于对车载终端上传到数据平台的所述原始样本集进行处理,计算相邻两个元组的特征变化量;

具体地,通过车载终端上传的原始样本集中包括用户呼号、gps时间、经纬度、速度大小、方向值、车辆状态信息(熄火或发动)等多个特征。通过对多个特征进行数据清理、数据变换操作,以计算相邻两个元组在多个特征上的变化量。

分析单元,用于分析所述原始样本集中的多个特征,对比行程起点集和非起点集在所述多个特征上的差异,选定用于建立用于模型学习的训练样本的特征,组成样本库。

具体地,由于原始样本集中包含多个特征,但不是每个特征在行程起点和非起点都存在显著差异,因此,在本步骤中,需要对比行程起点集和非起点集在各个特征上的差异,确定存在显著差异的特征变化量,用于进行聚类分析。

选定的用于建立用于模型学习的训练样本的特征为gps时间变化量、速度大小和状态信息变化量。

进一步地,聚类分析模块20通过以下步骤进行聚类分析:

对所述样本库进行数据规范化操作,生成包括所述gps时间变化量、所述速度大小和所述状态信息变化量三个特征的矩阵;

在所述矩阵中选取2个点作为初始聚类中心;

根据每个聚类的中心,计算每个点与这些中心点的距离,并根据最小距离重新对相应点进行划分,形成一类;

更新聚类中心,然后以每一类的平均向量作为新的聚类中心,重新分配数据对;

反复迭代,直到满足每个聚类不再发生变化为止。

本实施例通过对车辆上传到数据平台的原始样本进行处理分析,得到用于用于聚类分析的特征变量,再对该多个特征变量利用k均值算法进行聚类分析。在本发明中我们采用未知分类标签的无监督学习方式,进行聚类分析,从而得到行程起点集合和非行程起点集合,以区分出车辆行驶的每一个行程,为了能够进一步的分析用户的驾驶行为奠定基础。

需要说明的是:上述实施例提供的基于无监督学习的用户行程挖掘装置在实现基于无监督学习的用户行程挖掘方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于无监督学习的用户行程挖掘装置与基于无监督学习的用户行程挖掘方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1