一种出租车违法行为判定方法及系统与流程

文档序号:11234605阅读:254来源:国知局
一种出租车违法行为判定方法及系统与流程

本发明实施例涉及智能交通技术领域,尤其涉及一种出租车违法行为判定方法及系统。



背景技术:

在城市发展的过程中,城市人口以及车辆数量的不断增多,加剧了交通拥堵的局面。为了缓解交通压力,方便人们出行,出租汽车已经成为人们外出旅游、工作的主要出行手段,因此提高出租行业的运营组织能力和服务水平成为现代城市发展的迫切要求。

但是由于企业经营不规范、从业人员素质良莠不齐、“嘀嘀”一类的打车软件的冲击、燃油价格上涨等因素的影响,以及受利益驱使,出租行业整体违章违法行为呈现高发趋势,造成的影响非常恶劣。因此面对庞大的出租车群体,加大执法力度、加强行业监管成为行业管理的一项重要任务。而重点排查违法车辆,对违法车辆进行处罚可以在出租车司机的角度降低违章违法行为,对整个行业的监管有促进作用。

现有技术中,对出租车的监管还是通过人工在路段上对过往的车辆一个一个进行检查,或者根据乘客的投诉来进行监管。虽然大部分的出租车可以按照要求进行运营,发生违章违法行为的只有少数车辆,但是要在大量的出租车中筛选排查违法车辆,所需要的人力物力耗费很大、排查难度很高,而且排查的效率很低。

因此,如何提高对出租车违法行为的排查效率是现如今亟待解决的课题。



技术实现要素:

针对现有技术存在的问题,本发明实施例提供一种出租车违法行为判定方法及系统。

一方面,本发明实施例提供一种出租车违法行为判定方法,包括:

获取预设时间段内的待判定车辆对应的待判定运营信息;

根据所述待判定运营信息,利用预设判定模型计算获得所述待判定车辆的违法概率值;

若判断获知所述违法概率值大于预设阈值,则判定所述待判定车辆为违法车辆。

另一方面,本发明实施例提供一种出租车违法行为判定系统,包括:

获取模块,用于获取预设时间段内的待判定车辆对应的待判定运营信息;

计算模块,用于根据所述待判定运营信息,利用预设判定模型计算获得所述待判定车辆的违法概率值;

判定模块,用于若判断获知所述违法概率值大于预设阈值,则判定所述待判定车辆为违法车辆。

本发明实施例提供的一种出租车违法行为判定方法及系统,通过利用预设判定模型计算获得待判定车辆的违法概率值,并若判断或者违法概率值大于预设阈值,则判定待判定车辆为违法车辆,提高了对出租车违法行为排查的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种出租车违法行为判定方法流程示意图;

图2为本发明实施例提供的载客里程归一化后统计的频数分布直方图;

图3为本发明实施例提供的测试集车辆违法概率分布图;

图4为本发明实施例提供的一种出租车违法行为判定系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种出租车违法行为判定方法流程示意图,如图1所示,所述方法,包括:

步骤101:获取预设时间段内的待判定车辆对应的待判定运营信息;

具体地,如果要判定某一辆出租车发生违法行为的违法概率值,则可获取该待判定车辆在预设时间段内的待判定运营信息,可以理解的是,可以取该车辆最近十五天的运营信息作为待判定运营信息,其预设时间段可以根据实际情况进行设置,本发明实施例对此不作具体限定。

步骤102:根据所述待判定运营信息,利用预设判定模型计算获得所述待判定车辆的违法概率值;

具体地,将获取到的待判定车辆的待判定运营信息输入到预设判定模型中,可以计算获得该待判定车辆对应的违法概率值,其中违法概率值越高,则说明该待判定车辆越容易发生违法行为。应当说明的是,该预设判定模型可以为决策树或者随机森林,同时,也适用于其他模型,本发明实施例对此不作具体限定。

步骤103:若判断获知所述违法概率值大于预设阈值,则判定所述待判定车辆为违法车辆。

具体地,将计算得到的待判定车辆的违法概率值与预设阈值进行比较,如果待判定车辆的违法概率值大于预设阈值,则判定该待判定车辆为违法车辆,在对出租车进行排查的时候,着重对该车辆进行排查。

本发明实施例通过利用预设判定模型计算获得待判定车辆的违法概率值,并若判断或者违法概率值大于预设阈值,则判定待判定车辆为违法车辆,提高了对出租车违法行为排查的效率。

在上述实施例的基础上,所述方法还包括:

获取第一预设天数的所有车辆的第一历史运营信息,所述第一历史运营信息包括:载客起点至终点的直线距离信息、载客里程信息、gps轨迹里程信息、空驶里程信息和收入信息;

根据所述第一历史运营信息对所述预设判定模型进行训练,获得议价判定模型。

具体地,在众多的违法行为中,议价是出租车司机典型的违法行为之一,因为这种行为对乘客的影响较大,关注度较高,并且执法人员可以在现场检查中进行判别。其中,所谓议价就是不按照计价器显示金额收费,而是直接向乘客商议、索要车费,司机在议价时通常不使用或少使用计价器。因此本发明实施例对议价行为的判定进行详细说明。

获取第一预设天数的所有出租车的所有第一历史运营信息,其中第一预设天数可以为出租车运营历史十五天的,当然,也可以根据实际情况设定预设天数,本发明实施例对此不作具体限定。第一历史运营信息包括载客起点至终点的直线距离信息、载客里程信息、gps轨迹里程信息、空驶里程信息和收入信息。应当说明的是,以上第一历史运营信息均来自于获取到的关于出租车的数据源,这些数据源包括出租车在运营过程中的gps数据(包括车牌号、gps生成时间、经度、纬度、载客状态)、计价器交易数据(包括车牌号、收入、交易时间、载客里程、空驶里程、上车时间)、审批系统数据(包括车牌号、单双班标志),车租车投诉数据(包括车牌号、投诉类型、投诉时间)以及出租车违章数据(包括车牌号、检查时间、违章行为)。

根据上述数据源可以看出,车牌号是共有属性,因此,以车牌号为索引依据,将一辆车一次运营情况下不同数据源的数据进行关联,并剔除异常数据(如经纬度为0),并将投诉类型中不属于议价的数据剔除掉,得到单车单次运营的一些有效数据,这些数据称为第一历史运营指标。其中,第一历史运营指标包括:车牌号、gps生成时间、经度、纬度、载客状态、载客里程、空驶里程、收入。对所有车辆所有次运营情况执行以上相同操作,得到每辆车每次的第一历史运营指标。从第一历史运营指标中获取第一历史运营信息,且第一历史运营信息包括载客起点至终点的直线距离信息、载客里程信息、gps轨迹里程信息、空驶里程信息和收入信息。

将历史运营十五天的某一辆车对应的第一历史运营信息构成一条训练数据,所有车辆的第一历史运营信息构成整个训练数据,所有车辆中,选用执法人员查获的违法车辆违法日期的前十五天,这十五天可以不连续,但是有第一历史运营信息的时间必须满十五天,且查获之前的一段时间发生违法行为的可能性会更大,因此,从执法人员处获取到的违法车辆日期的前十五天对应的第一历史运营信息作为训练集正样本,并为训练集正样本设置标签值为1;选用北京市出租车公司的士之星对应的所有车辆的历史十五天的第一历史运营信息作为训练集负样本,为训练集负样本设置标签值为0。根据所有车辆的第一历史运营信息对预设判定模型进行训练。

其预设判定模型可以选用决策树,决策树中每个决策点代表着一种第一历史运营信息,当对所有的决策点都做了决策之后,每一个叶节点都代表着一种类别,该类别为违法车辆或非违法车辆,在所有的叶节点中符合全部分割条件的那一个叶节点为决策树预测的违法车辆,其他的叶节点代表非违法车辆,训练完成后得到议价判定模型。应当说明的是,预设判定模型还可以选用随机森林,本发明实施例对此不作具体限定。

可以随机选取一定数量的训练集正样本和训练集负样本作为验证集样本,验证集样本用来验证议价判定模型,以此来调节议价判定模型中的参数。

判定结果存在四种情形:将违法车辆判定为违法车辆(truepositive,tp)、将非违法车辆判定为违法车辆(falsepositive,fp)、将违法车辆判定为非违法车辆(falsenegative,fn)、将非违法车辆判定为非违法车辆(truenegative,tn)。违法车辆判定准确率是评估判定的违法车辆结果中真正的违法车辆所占的比例,比例越高越准确,其中违法车辆判定准确率=tp/(tp+fp)。非违法车辆判定准确率是评估判定的非违法车辆结果中真正的非违法车辆所占的比例,比例越高越准确,其中非违法车辆判定准确率=tn/(tn+fn)。

另外,可以选择全北京市所有出租车十五天的第一历史运营信息作为测试集样本,对完成训练的议价判定模型进行测试,测试集样本用于测试议价判定模型的性能,将议价判定模型判定得到的违法车辆组成违法车辆库,统计违法车辆库占北京市所有车租车的比例,这个比例越低越好。

本发明实施例通过获取第一预设天数中所有车辆的第一历史运营信息作为训练数据,对预设判定模型进行训练,并得到议价判定模型,通过完成训练的议价判定模型可以预测出待判定车辆的违法概率值,提高了预测的准确度,使得执法人员根据违法概率值对车辆进行排查,在降低了排查的工作量的同时提高了排查的效率。

在上述实施例的基础上,所述待判定运营信息包括所述载客起点至终点的直线距离信息、所述载客里程信息、所述gps轨迹里程信息、所述空驶里程信息和所述收入信息;

相应地,所述利用预设判定模型计算获得所述待判定车辆的违法概率值,包括:

利用所述议价判定模型计算获得所述待判定车辆的所述违法概率值。

具体地,若要对一辆待判定车辆预测其发生议价违法行为的违法概率值,则获取到的待判定运营信息包括载客起点至终点的直线距离信息、所述载客里程信息、所述gps轨迹里程信息、所述空驶里程信息和所述收入信息,将上述信息输入到训练好的议价判定模型中,议价判定模型不仅会输出样本对应的类别(即违法车辆、非违法车辆),还会输出该类别对应的概率值,根据类别和概率值可以判定待判定车辆有多少几率属于违法车辆。计算获得待判定车辆的违法概率值。

本发明实施例通过议价判定模型计算获得待判定车辆的违法概率值,根据该违法概率值对出租车进行有针对性的排查,提高了排查的效率。

在上述实施例的基础上,所述方法还包括:

获取第二预设天数的所有车辆对应的第二历史运营信息,所述第二历史运营信息包括:单双班标志信息、行驶里程信息、空驶比信息、运营时间信息、运营次数信息、平均运距信息、收入信息和平均收入信息;

根据所述第二历史运营信息对所述预设判定模型进行模型训练,获得代驾判定模型。

具体地,在众多的违法行为中,代驾也是是出租车司机典型的违法行为之一,因为这种行为对乘客的影响较大,关注度较高,并且执法人员可以在现场检查中进行判别。其中,代驾即交予他人代为驾驶,每一辆出租车都对应一名驾驶员,驾驶员与车辆不相符的情况称为代驾。本发明实施例对代驾这一违法行为的判定进行详细描述。

获取第二预设天数的所有车辆对应的第二历史运营信息,应当说明的是,可以取历史数据中三十天的所有车辆对应的第二历史运营信息,第二历史运营信息包括:单双班标志信息、行驶里程信息、空驶比信息、运营时间信息、运营次数信息、平均运距信息、收入信息和平均收入信息。

应当说明的是,以上信息均来自于获取到的关于出租车的数据源,这些数据源包括出租车在运营过程中的gps数据(包括车牌号、gps生成时间、经度、纬度、载客状态)、计价器交易数据(包括车牌号、收入、交易时间、载客里程、空驶里程、上车时间)、审批系统数据(包括车牌号、单双班标志),车租车投诉数据(包括车牌号、投诉类型、投诉时间)以及出租车违章数据(包括车牌号、检查时间、违章行为)。

根据上述数据源可以看出,车牌号是共有属性,因此,以车牌号为索引依据,将一辆车一次运营情况下不同数据源的数据进行关联,并剔除异常数据(如经纬度为0),并将投诉类型中不属于代驾的数据剔除掉,得到单车单次的一些有效数据,这些数据称为第二历史运营指标。其中,第二历史运营指标包括:车牌号、单双班标志、上车时间、交易时间、载客里程、空驶里程、收入。由上述第二历史运营指标可以衍生出多单载客里程之和、多单收入之和以及运营次数(一段时间内单车多次的运营单数),根据第二历史运营指标获得第二历史运营信息,第二历史运营信息包括单双班标志信息、行驶里程信息、空驶比信息、运营时间信息、运营次数信息、平均运距信息、收入信息和平均收入信息。

同样地,从执法人员处选取违法车辆在发生违法事件日期前三十天的第二历史运营信息作为训练集正样本,其标签值为1;选用北京市的士之星三十天的第二历史运营信息作为训练集负样本,标签值设为0。

根据第二历史运营信息对预设判定模型进行模型训练,其预设判定模型可以选用决策树,决策树中每个决策点代表着一种第二历史运营信息,当对所有的决策点都做了决策之后,每一个叶节点都代表着一种类别,该类别为违法车辆或非违法车辆,在所有的叶节点中符合全部分割条件的那一个叶节点为决策树预测的违法车辆,其他的叶节点代表非违法车辆,训练完成后得到代驾判定模型。应当说明的是,预设判定模型还可以选用随机森林,本发明实施例对此不作具体限定。

可以随机选取一定数量的训练集正样本和训练集负样本作为验证集样本,验证集样本用来验证代驾判定模型,以此来调节代驾判定模型中的参数。

判定结果存在四种情形:将违法车辆判定为违法车辆(truepositive,tp)、将非违法车辆判定为违法车辆(falsepositive,fp)、将违法车辆判定为非违法车辆(falsenegative,fn)、将非违法车辆预测为非违法车辆(truenegative,tn)。违法车辆判定准确率是评估判定的违法车辆结果中真正的违法车辆所占的比例,比例越高越准确,其中违法车辆判定准确率=tp/(tp+fp)。非违法车辆判定准确率是评估判定的非违法车辆结果中真正的非违法车辆所占的比例,比例越高越准确,其中非违法车辆判定准确率=tn/(tn+fn)。

另外,可以选择全北京市所有出租车三十天的第二历史运营信息作为测试集样本,对完成训练的代驾判定模型进行测试,测试集样本用于测试代驾判定模型的性能,将代驾判定模型判定得到的违法车辆组成违法车辆库,统计违法车辆库占北京市所有车租车的比例,这个比例越低越好。

本发明实施例通过获取第二预设天数中所有车辆的第二历史运营信息作为训练数据,对预设判定模型进行训练,并得到代驾判定模型,通过完成训练的代驾判定模型可以预测出待判定车辆的违法概率值,提高了预测的准确度,使得执法人员根据违法概率值对车辆进行排查,在降低了排查的工作量的同时提高了排查的效率。

在上述实施例的基础上,所述待判定运营信息包括所述单双班标志信息、所述行驶里程信息、所述空驶比信息、所述运营时间信息、所述运营次数信息、所述平均运距信息、所述收入信息和所述平均收入信息;

相应地,所述利用预设判定模型计算获得所述待判定车辆的违法概率值,包括:

利用所述代驾判定模型计算获得所述待判定车辆的所述违法概率值。

具体地,若要对一辆待判定车辆预测其发生代驾违法行为的违法概率值,则获取到的待判定运营信息包括单双班标志信息、行驶里程信息、空驶比信息、运营时间信息、运营次数信息、平均运距信息、收入信息和平均收入信息,将上述信息输入到训练好的代驾判定模型中,代驾判定模型不仅会输出样本对应的类别(即违法车辆、非违法车辆),还会输出该类别对应的概率值,根据类别和概率值可以判定待判定车辆有多少几率属于违法车辆。计算获得待判定车辆的违法概率值。

本发明实施例通过代驾判定模型计算获得待判定车辆的违法概率值,根据该违法概率值对出租车进行有针对性的排查,提高了排查的效率。

在上述实施例的基础上,所述根据所述第一历史运营信息对所述预设判定模型进行训练,获得议价判定模型,包括:

对获取到的每一辆车的、每一所述第一历史运营信息进行归一化处理,获得归一化第一历史运营信息;将所述归一化第一历史运营信息进行分组,获取每一组对应的第一历史运营信息的频数;

将所有车辆的所述第一历史运营信息对应的所述频数构成训练数据;

根据所述训练数据对所述预设判定模型进行训练,获得议价判定模型。

具体地,一辆车的第一预设天数的多个第一历史运营信息构成一条训练数据,具体为,将一辆车的第一预设天数的每一个第一历史运营信息进行归一化处理,获得归一化第一历史运营信息;将归一化第一历史运营信息进行分组,分的组数可以根据实际情况进行设定,但是所有的归一化第一历史运营信息分的组数应该相同,从而可以获取到每一组对应的第一历史运营信息的频数。

以载客起点至终点的直线距离信息为例,图2为本发明实施例提供的载客里程归一化后统计的频数分布直方图,如图2所示,首先获取历史十五天的所有出租车的第一历史运营信息,从所有出租车中选择其中一辆出租车对应的十五天的多个第一历史运营信息,再从这一辆出租车对应的多个第一历史运营信息中选择载客里程信息,即该辆出租车历史十五天对应的载客里程信息,对该载客里程信息进行归一化处理获得归一化第一历史运营信息,归一化第一历史运营信息=value/maxvalue,其中value为当前里程信息,maxvalue为多次载客里程信息中的最大值。假设将归一化第一历史运营信息分为100组,统计归一化第一历史运营信息的频数,并可以绘制成图2所示的载客里程归一化后统计的频数分布直方图。对该车辆的其他第一历史运营信息都进行上述操作,可以获取到该车辆对应的所有第一历史运营信息以及第一历史运营信息对应的频数,将该车辆对应的所有第一历史运营信息对应的频数构成一组训练数据。同样的方法对其他车辆进行上述方法的处理,获得多组训练数据,利用多组训练数据对预设判定模型进行训练,获得议价判定模型。

本发明实施例通过对第一历史运营信息进行归一化处理并统计每一个第一历史运营信息的在每一组的频数,获得多组训练数据,利用多组训练数据对预设判定模型进行训练,从而获得议价判定模型,提高了议价判定模型输出结果的准确性。

在上述实施例的基础上,所述根据所述第二历史运营信息对所述预设判定模型进行模型训练,获得代驾判定模型,包括:

对所述第二预设天数进行分组处理;

对获取到的所有车辆的、所有组天数的、每一所述第二历史运营信息进行z-score标准化处理,获得训练数据;

根据所述训练数据对所述预设判定模型进行训练,获得代驾判定模型。

具体地,对第二预设天数进行分组处理,具体为,获取三十天的所有车辆的第二历史运营信息,从所有出租车中选择其中一辆出租车对应的三十天的第二历史运营信息,将三十天中所有星期一的第二历史运营信息作为一组,同理,将星期二、星期三、…、星期日的第二历史运营信息分别作为一组。同样的方法对其他车辆进行上述方法的处理。将三十天中,所有辆车的所有星期的第二历史运营信息(除单双班标志信息之外)进行z-score标准化处理,以行驶里程信息为例,具体的标准化公式为:(value-μ)/σ,其中value为当前行驶里程信息,μ为所有行驶里程信息的均值,σ为所有行驶里程信息的标准差,从而获得训练数据。根据该训练数据对预设判定模型进行训练,获得代驾判定模型。应当说明的是第二预设天数可以根据实际情况进行设置,本发明实施例对此不作具体限定。

本发明实施例通过对所有车辆的所有组天数的第二历史运营信息进行z-score标准化处理,从而获得训练数据,根据该训练数据对预设判定模型进行模型训练,提高了对待判定车辆判定的准确性。

在上述各实施例的基础上,所述根据所述第一历史运营信息对所述预设判定模型进行训练,包括:

根据所述第一历史运营信息,利用交叉验证和/或自举法对所述预设判定模型进行训练。

具体地,在对预设判定模型进行训练时,可以通过第一历史运营信息利用交叉验证和/或自举法对预设判定模型进行训练。

其中,交叉验证的方法为:从训练集中选取预设数量的数据作为验证集样本,常用的如10折交叉验证,即,将训练数据分为10份,轮流将其中9份作为训练集样本,1份作为验证集样本,10次结果的均值作为最终的训练结果。有时还需要进行多次10折交叉验证求均值,如10次10折交叉验证,从而得到更加稳定、可靠的预设判定模型。

自举法的具体方法为:首先将训练集正样本作为初始正样本,将训练集负样本作为初始负样本,利用初始正样本和初始负样本来训练一个初始预设判定模型,然后收集被初始预设判定模型错误分类的负样本(将负样本分类为正样本,在本发明实施例中,即为将非违法车辆判定为违法车辆)来形成一个负样本难例集。将负样本难例集加入未训练过的负样本形成新的负样本集,正样本集保持不变来训练新的预设判定模型,上述方法可以重复进行多次,最终获得预设判定模型。

判定议价这一违法行为的具体实施方式如下:

选用2016年1月至9月期间,违法车辆在查获日期之前的十五天的第一历史运营信息作为训练集正样本,设置标签值为1,选用2016年8月15日至9月15日之间北京市的士之星十五天的第一历史运营信息作为训练集负样本,设置标签值为0;选用2016年8月15日至9月15日之间北京市所有出租车十五天的第一历史运营信息作为测试集样本。由于每辆车中每一个第一历史运营信息在归一化后被分为了100个组,因此每一个第一历史运营信息的维度为100,由于第一历史运营信息包括载客起点至终点的直线距离信息、载客里程信息、gps轨迹里程信息、空驶里程信息和收入信息五个,所以每辆车训练数据的维度为500,训练集正样本42辆车,训练集负样本507辆车,测试集样本为51874辆车。

下表为某个违法车辆单车多日对应的第一历史运营指标,如表所示:

某个违法车辆多日载客里程信息归一化后统计的频数分布直方图如图2所示。将该违法车辆多日的所有第一历史运营信息组成一组训练数据,对预设判定模型进行训练,可以使用随机森林进行训练,其中树的深度为2,树的数量为15,训练集正样本保持不变,训练集负样本取43辆车的数据,使得正负样本比例为1:1,采用五折交叉验证的方法,将训练数据分成五份,轮流将其中四份作为训练集样本,一份作为验证集样本,五次结果取平均值。对训练集样本的训练结果为:tp=32、fp=5,所以可以得出,违法车辆预测准确率为86%,非违法车辆预测准确率为77%。用测试集检测模型的结果为:为了最大可能的抓获违法车辆,限定预测车辆概率值大于0.6的才判定为违法车辆,图3为本发明实施例提供的测试集车辆违法概率分布图,因此,可以得出违法车辆所占比例为6.7%。

本发明为另一实施例提供的判定议价违法行为的具体实施方式:

为了提高tp,降低fp,可以采用自举法,训练集正负样本比例为1:1,使用决策树进行训练,树的深度为4,类型权重参数选择balanced。训练过程中每一次自举法都保留预测训练集得到的fp,以及用预设判定模型判定未参与训练的负样本得到的fp,保持训练集正负样本比例为1:1,将得到的两类fp重新组成训练集负样本进行训练。可以多次重复上述动作,最终对训练集的训练结果为:tp=43、fp=1,违法车辆判定准确率为98%,非违法车辆判定准确率为100%。应当说明的是,训练集正样本和训练集负样本的构成方式与上述实施例一致,本发明实施例对此不再赘述。

本发明实施例通过交叉验证和/或自举法对预设判定模型进行训练,从而得到更加稳定、可靠的预设判定模型,提高了输出的准确性。

在上述各实施例的基础上,所述根据所述第二历史运营信息对所述预设判定模型进行模型训练,包括:

根据所述第二历史运营信息,利用交叉验证和/或自举法对所属预设判定模型进行训练。

具体地,在对预设判定模型进行训练时,可以通过第二历史运营信息利用交叉验证和/或自举法对预设判定模型进行训练。其中交叉验证和自举法的操作方法与上述实施例一致,此处不再赘述。

本发明实施例为判定代驾违法行为的具体实施方式,如下:

根据上述实施例提供的训练数据的构建方式构建训练数据,选用2015年1月至2016年9月期间,违法车辆在查获日期之前的三十天的第二历史运营信息,得到所有违法车辆的训练集正样本,并设置标签值为1。选用2015年1月至2016年9月之间,北京市的士之星出租车公司的三十天的第二历史运营信息,同样的方式获得训练集负样本,设置标签值为0。选用2016年9月北京市所有出租车三十天的第二历史运营信息作为测试集样本。从训练集正样本中选择67个正样本数据,从训练集负样本中选择300个负样本数据组成验证集样本,剩下的100个正样本数据和400个负样本数据组成训练数据,测试集样本有60186个。可以利用决策树进行训练,其中,树的深度为3,训练集正负样本比例为1:4。用验证集样本验证预设判定模型的结果为:tp=52,fp=13,违法车辆判定准确率为80%,非违法车辆判定准确率为95%。用测试集样本测试预设判定模型的结果为:违法车辆所占比例为6.02%。

本发明实施例通过交叉验证和/或自举法对预设判定模型进行训练,从而得到更加稳定、可靠的预设判定模型,提高了输出的准确性。

图4为本发明实施例提供的一种出租车违法行为判定系统结构示意图,如图4所示,所述系统包括:获取模块401、计算模块402和判定模块403,其中:

获取模块401用于获取预设时间段内的待判定车辆对应的待判定运营信息;计算模块402用于根据所述待判定运营信息,利用预设判定模型计算获得所述待判定车辆的违法概率值;判定模块403用于若判断获知所述违法概率值大于预设阈值,则判定所述待判定车辆为违法车辆。

具体地,如果要判定某一辆出租车发生违法行为的违法概率值,则获取模块401可获取该待判定车辆在预设时间段内的待判定运营信息,可以理解的是,可以取该车辆最近一天的运营信息作为待判定运营信息,其预设时间段可以根据实际情况进行设置,本发明实施例对此不作具体限定。计算模块402将获取到的待判定车辆的待判定运营信息输入到预设判定模型中,可以计算获得该待判定车辆对应的违法概率值,其中违法概率值越高,则说明该待判定车辆越容易发生违法行为。应当说明的是,该预设判定模型可以为决策树或者随机森林,同时,也适用于其他模型,本发明实施例对此不作具体限定。判定模块403将计算得到的待判定车辆的违法概率值与预设阈值进行比较,如果待判定车辆的违法概率值大于预设阈值,则判定该待判定车辆为违法车辆,在对出租车进行排查的时候,着重对该车辆进行排查。

本发明提供的系统的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

本发明实施例通过利用预设判定模型计算获得待判定车辆的违法概率值,并若判断或者违法概率值大于预设阈值,则判定待判定车辆为违法车辆,提高了对出租车违法行为排查的效率。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1