基于聚类判别模型的网约车鉴别方法和系统与流程

文档序号:12306099阅读:303来源:国知局
基于聚类判别模型的网约车鉴别方法和系统与流程
本发明属于网约车管理
技术领域
,尤其是涉及一种基于聚类判别模型的网约车鉴别方法和系统。
背景技术
:在“互联网+”的背景和市场趋势的推动下,网约车作为一种新兴出行用车方式,迅速成为市场的宠儿,成为智慧出行的重要组成部分。网约车即网络预约出租汽车,是一种将乘客、司机与车辆连接起来,乘客通过智能手机应用软件,预约司机接送服务的出行方式。网约车的出现,满足社会公众多样化出行需求,提升了机动车的利用效率,但是随着网约车规模的不断扩大,它带来的一系列社会监管难题也是不容忽视的。网约车与传统的出租车既有区别又有联系。在车辆颜色与车型上,出租车一般有统一的颜色与标识,网约车则多种多样。在运营方式上,出租车可以巡游揽客、站点候客和预约接客,而网约车不可以巡游接客,只能通过网络平台为预约顾客提供服务。在监管上,出租车一般由出租车公司进行统一管理,而网约车则缺乏一定的监管机制。初期,网约车是对出租车的补充。随着网约车专职司机的增多,网约车对传统出租车行业形成了一定的冲击,遭到了出租车司机一定程度上的抵制。此外,由于网约车平台对司机和车辆的审查并不严格,市场乱象重生,纠纷、事故等社会问题层出不穷,网约车市场亟需规范管理。为了管理网约车市场的乱象,《网络预约出租汽车经营服务管理暂行办法》于2016年11月1日起施行。其中明确规定了,在运营服务中,驾驶员不得在街上巡游揽客,不应在机场、火车站等设立统一巡游车调度服务站或实行排队候客的场所揽客。在网约车营运新规出台的大背景下,交通局作为公共出行服务管理机构,必须加强对网约车的管理。目前对网约车的管理方式是通过人工巡查的方式来进行,但这样耗费了大量的人力,因此,交通局迫切需要一种自动化的筛选方式,来帮助他们锁定嫌疑车辆,实现快速高效的执法。技术实现要素:本发明要解决的问题是提供一种以手机的信令数据为基础,提取出司机的移动特征的基于聚类判别模型的网约车鉴别方法。为解决上述技术方案,本发明采用的技术方案是该基于聚类判别模型的网约车鉴别方法包括以下步骤:步骤(1):获取原始数据,并随机抽取若干个已知出租车司机用户作为样本集m,随机抽取若干个未知类别的司机用户作为样本集n;步骤(2):获取所述步骤(1)中样本集m和样本集n中司机用户在一段时间内的信令数据,进行特征提取;步骤(3):通过对所述步骤(2)提取的特征进行分析,可知网约车司机和出租车司机存在一定的差异性;步骤(4):建立模型,将所述样本集m随机划分为聚类训练集p与验证集q,将所述样本集n作为测试集n;针对训练集p进行聚类分析,计算最佳聚类数k,剔除所述训练集p中的异常样本点,获得聚类中心点,计算训练集p中各个有效样本点到聚类中心点的距离之和,并基于距离增量变化情况得出分类的阈值;步骤(5):将采集到的未知司机信令数据导入到所述步骤(4)建立的模型中进行判定。在本发明中,以手机的信令数据为基础,提取出司机的移动特征,能够在仅知一类数据标签的情况下,判别出未知标签的数据是否归属于已知类别,快速便捷;通过步骤(3)的特征分析,可以知晓步骤(2)中的提取的特征是否正确,若是没有差异性,说明特征提取有问题;通过所述步骤(4)建立了以出租车司机为样本的聚类模型,这样,在步骤(5)中,可以快速高效的判别出未知司机用户的信令数据是否归属于已知的出租车类别。优选的,在所述步骤(4)中,采用验证集q对所述步骤(4)中得出的模型进行验证,采用测试集n进行测试。采用验证集q和测试集n可以提高聚类模型的准确性。优选的,所述步骤(2)中,提取的特征包括小区切换和驻留时长,其中,特征小区切换包括小区切换数日均值、小区切换数日标准差、忙时小区切换数均值、忙时小区切换数标准差、闲时小区切换数均值和闲时小区切换数标准差;特征驻留时长包括忙时驻留中位数、忙时驻留均值、忙时驻留标准差、闲时驻留中位数、闲时驻留均值和闲时驻留标准差。优选的,在所述步骤(4)中,对于训练集p,采用轮廓系数计算最佳聚类数k,轮廓系数是类的密集与分散程度的评价指标,公式如下:a(i)为i向量到同一簇内其他点不相似程度的平均值,即测量了组内的相似度;b(i)为i向量到其他簇的平均不相似程度的最小值,即测量了组间的相似度;s(i)的范围从-1到1,值越大说明组内内聚度和组间分离度相对较优。优选的,在所述步骤(4)中,计算训练集p中各个有效样本点到聚类中心点的距离之和,并排序,绘制增量图,x轴表示训练集p中样本序号,y轴表示样本点到中心点的距离之和,得出训练集p的拐点,该拐点所对应的y轴上的值即为分类的阈值y;threshold=y(x=101)=2.239995。本发明解决的另一个问题是提供一种基于聚类判别模型的网约车鉴别系统,该系统包括有数据收集模块、数据聚类分析模块、数据处理模块;其中,所述数据收集模块:用于接收网约车司机和出租车司机的信令数据;数据聚类分析模块:随机抽取若干个所述数据收集模块中收集到的出租车司机信令数据作为样本集m;随机抽取若干个所述数据收集模块中收集到的未知类别的司机用户作为样本集n;提取特征,以样本集m为基础,建立聚类判别模型;数据处理模块:将得到的司机用户信令数据导入,通过聚类判别模型进行判定该司机用户的类别。本发明基于聚类判别模型的网约车鉴别系统以移动运营商提供的手机信令数据为基础,使用基于聚类的判别模型,对出租车司机和网约车司机进行判断,鉴别出的结果能够为交通执法部门打击非法网约车进行服务,帮助他们快速定位嫌疑车辆,降低执法的人力成本,提升工作效率。附图说明下面结合附图和本发明的实施方式进一步详细说明:图1为选取小区切换数日标准差特征和闲时驻留标准差特征绘制的样本分布散点图;图2为选取小区切换数日均值特征和小区切换数日标准差特征绘制的样本分布散点图;图3为t-sne特征降维样本分布图;图4为建模分析流程图;图5是获取最佳聚类数示意图;图6是聚类分析结果示意图;图7是剔除异常值后的聚类分析结果示意图;图8是聚类中心分布折线图;图9是显著特征上聚类样本分布箱形图;图10是训练集p中各有效样本点x到中心点的距离之和排序后的增量图;图11是本发明基于聚类判别模型的网约车鉴别方法简易流程结构图;图12是本发明基于聚类判别模型的网约车鉴别系统结构图。具体实施方式如图11所示,本发明实施例的基于聚类判别模型的网约车鉴别方法包括以下步骤:步骤(1):获取原始数据,并随机抽取若干个已知出租车司机用户作为样本集m,随机抽取若干个未知类别的司机用户作为样本集n;步骤(2):获取所述步骤(1)中样本集m和样本集n中司机用户在一段时间内的信令数据,进行特征提取;步骤(3):通过对所述步骤(2)提取的特征进行分析,可知网约车司机和出租车司机存在一定的差异性;步骤(4):建立模型,将所述样本集m随机划分为聚类训练集p与验证集q,将所述样本集n作为测试集n;针对训练集p进行聚类分析,计算最佳聚类数k,剔除所述训练集p中的异常样本点,获得聚类中心点,计算训练集p中各个有效样本点到聚类中心点的距离之和,并基于距离增量变化情况得出分类的阈值;步骤(5):将采集到的未知司机信令数据导入到所述步骤(4)建立的模型中进行判定。在所述步骤(4)中,采用验证集q对所述步骤(4)中得出的模型进行验证,采用测试集n进行测试。所述步骤(2)中,提取的特征包括小区切换和驻留时长,其中,特征小区切换包括小区切换数日均值、小区切换数日标准差、忙时小区切换数均值、忙时小区切换数标准差、闲时小区切换数均值和闲时小区切换数标准差;特征驻留时长包括忙时驻留中位数、忙时驻留均值、忙时驻留标准差、闲时驻留中位数、闲时驻留均值和闲时驻留标准差。此外,在所述步骤(4)中,对于训练集p,采用轮廓系数计算最佳聚类数k,轮廓系数是类的密集与分散程度的评价指标,公式如下:a(i)为i向量到同一簇内其他点不相似程度的平均值,即测量了组内的相似度;b(i)为i向量到其他簇的平均不相似程度的最小值,即测量了组间的相似度;s(i)的范围从-1到1,值越大说明组内内聚度和组间分离度相对较优。在所述步骤(4)中,计算训练集p中各个有效样本点到聚类中心点的距离之和,并排序,绘制增量图,x轴表示训练集p中样本序号,y轴表示样本点到中心点的距离之和,得出训练集p的拐点,该拐点所对应的y轴上的值即为分类的阈值y;threshold=y(x=101)=2.239995。本实施例基于聚类判别模型的网约车鉴别方法具体操作如下:数据获取:如表1所示,基于以下3个原始数据集获取司机用户:表1数据集名称说明a交通厅提供的出租车司机用户名单b出租车集团号用户名单c在南站附近基站出现过且使用滴滴司机app的司机用户出租车司机用户数据集为:d=a∩b∩c在数据集d中,随机抽取150个已知出租车司机用户作为样本集m。e=c-d在数据集e中,随机抽取150个未知类别的司机用户作为样本集n。特征抽取:抽取以上300个用户2017年3月6日至3月19日之间两周的信令数据作为特征抽取的原始数据。定义周一至周五的9:00-17:00为忙时,周一至周五17:00-24:00和0:00-9:00为闲时。抽取的特征主要包括小区切换和驻留时长,如表2所示:表2提取以上特征,通过选取任意2维特征绘制散点图,如图1、2所示:图1中,横坐标表示标准归一化后的小区切换数日标准差特征,纵坐标表示标准归一化后的闲时驻留标准差特征;图2中,横坐标表示标准归一化后的小区切换数日均值特征,纵坐标表示标准归一化后的小区切换数日标准差特征。红色的点表示样本集m,即出租车司机,蓝色的点表示样本集n,即未知类别的司机用户;通过图1和图2,直观上,样本集m与样本集n的分布存在一定的差异性,从侧面说明特征在一定程度上反映了两类司机的行为差异。特征分析:t-sne(t-distributedstochasticneighborembedding)是由laurensvandermaaten和geoffreyhinton提出一种流形的(manifold)数据降维的方法。它是在sne的基础上发展而来的,在低维空间下使用更重长尾分布的t分布来避免crowding问题和难以优化的问题。该算法先将欧几里得距离转换为条件概率来表达点与点之间的相似度。给定一个n个高维的数据x1,…,xn,计算概率pj|i为:对低维度下的yi,使用t分布后的两点相似度为:优化的梯度为:使用t-sne对特征进行降维可视化;如图3所示,从图3的可视化结果可以看出,基于选取的特征,两类司机的分布存在一定的差异性。建立模型:采用基于聚类的判别模型来鉴别未知的司机用户为出租车司机还是网约车司机,具体的分析流程如图4所示。1、聚类数选择将样本集m按照8:2随机划分为聚类训练集p与验证集q,将样本集n作为测试集n。对于训练集p,使用轮廓系数(silhouettecoefficient)计算最佳聚类数k,轮廓系数是类的密集与分散程度的评价指标:其中:a(i)为i向量到同一簇内其他点不相似程度的平均值,即测量了组内的相似度;b(i)为i向量到其他簇的平均不相似程度的最小值,即测量了组间的相似度;s(i)的范围从-1到1,值越大说明组内内聚度和组间分离度相对较优。由图5可知,当聚类数为3时,s(i)的值最大。因此,取最佳聚类数k=3。2、聚类分析使用k-means算法对训练集p进行聚类分析。k-means属于划分式聚类算法,聚类相似度是利用各聚类中对象的均值所获得一个中心来进行计算的。其主要工作过程为:首先从n个数据对象中任意选择k个对象作为初始聚类中心,对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般使用均方差作为标准测度函数。将训练集p聚成3类,得到的聚类结果如图6所示。在以上聚类结果的基础上,对异常点进行处理,得到108个有效采样点。其主要分布情况如表3所示。表3类别cluster1cluster2cluster3合计样本数464517108如图7所示,由此,对于每个聚类簇,可得中心点所对应的每个维度特征值。3、用户行为特征分析以特征为横坐标,特征值为纵坐标,绘制折线图,查看三个聚类中心点的分布,如图8所示。由图8可知,以上三个聚类簇在6个指标上差异性较大:mean_worktime(忙时小区切换数均值);sd_worktime(忙时小区切换数标准差);mean_nonworktime(闲时小区切换数均值);sd_nonworktime(闲时小区切换数标准差);switch_cell_number_daily_mean(小区切换数日均值);switch_cell_number_daily_sd(小区切换数日标准差)。分别绘制三个类别样本在以上6个特征上的分布箱形图(见图9)。图9中横坐标为各个类别,每个箱形的下边缘表示最小值,上边缘表示最大值,箱子的底部表示四分之一分位,箱子的顶部表示四分之三分位,箱子中间的线表示中位数。箱子的宽窄表示了该类别样本数的多少。总的来说,箱形图表示了各个类别中样本的分布情况。可以看出,在上述的6个特征上,cluster1与cluster2的整体趋势比较相近,且cluster2对应的特征值均低于cluster1相对应的特征值;但cluster3和cluster1在趋势上整体相反。具体来说,有以下几点:(1)对于cluster1中的司机,有以下结论:mean_worktime(忙时小区切换数均值)指标最高,说明该类出租车司机在周一至周五的9:00-17:00,即白天活动最为频繁;mean_nonworktime(闲时小区切换数均值)指标较低,说明该类出租车司机在周一至周五17:00-24:00和0:00-9:00,即夜间活动较少;switch_cell_number_daily_mean(小区切换数日均值)指标最高,说明该类出租车司机整体活动较为频繁。因此,该类出租车司机是具有典型出租车活动行为特征的司机。(2)对于cluster2中的司机,有以下结论:mean_worktime(忙时小区切换数均值)指标较低,说明该类出租车司机在周一至周五的9:00-17:00,即白天活动不太频繁;mean_nonworktime(闲时小区切换数均值)指标也较低,说明该类出租车司机在周一至周五17:00-24:00和0:00-9:00,即夜间活动也不太频繁较少;switch_cell_number_daily_mean(小区切换数日均值)指标同样较低,说明该类出租车司机的整体活动不频繁。可以看出,该类出租车司机切换小区次数相对较少,也就是说更偏向于在某些区域进行驻留待客,因此,从行为特征的角度来说,和网约车司机驻留待客的行为比较类似。(3)对于cluster3中的司机,有以下结论:mean_worktime(忙时小区切换数均值)指标较低,说明该类出租车司机在周一至周五的9:00-17:00,即白天活动不太频繁;mean_nonworktime(闲时小区切换数均值)指标较高,说明该类出租车司机在周一至周五17:00-24:00和0:00-9:00,即夜间活动比较频繁;switch_cell_number_daily_mean(小区切换数日均值)指标较高,说明该类出租车司机的整体活动趋于频繁。可以看出,该类出租车司机具有昼伏夜出的特点,因此,从行为特征的角度来说,和典型网约车司机昼伏夜出的特点也比较类似。(4)总体来看:cluster1中的用户具有典型的出租车司机行为特征;cluster2和cluster3中的用户虽然是出租车司机,但在行为特征上和网约车司机比较类似;4、阈值设定计算训练集p中各有效样本点x到中心点的距离之和,并排序,绘制增量图,如图10所示:图10中,x轴表示训练样本序号,y轴表示样本点到中心点的距离之和。由图可看出:当x<101时,距离的增长速度较为平缓;当x>101时,距离的增长速度较快;由此得出:x=101为样本集中的拐点。因此,将其对应的距离,即y值设置为分类的阈值:threshold=y(x=101)=2.239995。5、结果输出对未知样本的类别归属判断,本专利采用基于聚类和阈值相结合的方法来实现出租车司机和非法网约车司机的类别。当测试集中的样本点到三个聚类中心点的距离之和大于阈值时,即判断为非法网约车,反之,则判定为出租车。对验证集q和测试集n进行判定,得出的结果如表4所示:表4(1)由此可见:对于验证集q中的30个样本,根据该模型判断,有23个司机用户属于出租车,取得了76.7%的召回率。对于测试集n中的150个样本,使用基于聚类的判别模型,发现有97个司机用户属于出租车,即64.7%的司机被判别为出租车司机。(2)更进一步:对测试集n中被判定为出租车的97个用户,根据其到三个中心点的距离进行分类得到进一步的分类结果,汇总结果如表5所示:表5类别cluster1cluster2cluster3合计样本数1186097在测试集n的占比7.3%57.3%064.7%因此,由以上分类结果可以看出,测试集n中仅仅7.3%的司机为典型的出租车司机,其余57.3%被判断为出租车的司机在行为特征上和非法网约车司机较为类似。如图12所示,本发明的基于聚类判别模型的网约车鉴别系统包括有数据收集模块、数据聚类分析模块、数据处理模块;其中,所述数据收集模块:用于接收网约车司机和出租车司机的信令数据;数据聚类分析模块:随机抽取若干个所述数据收集模块中收集到的出租车司机信令数据作为样本集m;随机抽取若干个所述数据收集模块中收集到的未知类别的司机用户作为样本集n;提取特征,以样本集m为基础,建立聚类判别模型;数据处理模块:将得到的司机用户信令数据导入,通过聚类判别模型进行判定该司机用户的类别。交通执法部门将新得到的司机用户信令数据直接导入系统,即可鉴别出的结果,能够为交通执法部门打击非法网约车进行服务,帮助他们快速定位嫌疑车辆,降低执法的人力成本,提升工作效率。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明;凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1