本发明涉及一种驾驶人危险度预测结果可靠性验证方法。
背景技术:
基于交通安全大数据开展的数据挖掘和特征分析,是目前解决主动式交通安全管理问题的热点问题。其中,采用机器学习等方法对驾驶人危险度的预测,能够为交通安全治理应用中的源头管理、现场检查等工作提供辅助决策的科学指标依据。因此,模型预测的可靠性能至关重要。而驾驶行为主要受主观性因素驱动,其不确定性特征显著,交通事故的发生更是概率性事件,如何检验驾驶人危险度预测结果的可靠性,当前尚缺乏针对该问题的研究。
技术实现要素:
本发明的目的是提供一种驾驶人危险度预测结果可靠性验证方法用于解决基于模型预测驾驶人安全风险程度的应用中缺乏模型质量控制的问题。
本发明的技术解决方案是:
一种驾驶人危险度预测结果可靠性验证方法,包括以下步骤,
s1、抽取高危驾驶人验证观测样本g以及在所有驾驶人样本中抽取与观测样本g同样本量的样本r;
s2、设定跟踪检验时间窗口,窗口长度为t,即对于进入期内某个抽取时段t∈[ts,te],将[t,t+t]作为样本gt、rt的观测期,其中gt、rt为时段t的观测样本;
s3、t=ts+i·τ,i初值为0,τ为样本抽取时间间隔;收集观测样本gt、rt在观测期[t,t+t]内的交通事故发生时间rt;
s4、若t<te,则i=i+1,返回步骤s3;否则,进入步骤s5;
s5、将g、r内的所有样本在观测期内收集的rt构成检验样本g、r;
s6、使用单因素方差分析g、r在事故发生时间上是否存在显著差异;若分析结论为不存在显著差异,则判断驾驶人预测结果不可靠,结束本流程;若存在显著差异,进入步骤s7做进一步验证;
s7、对检验样本g、r,采用生存分析,获得两类样本生存函数s(g)、s(r),并分别计算中位生存时间t50%(g)、t50%(r),若t50%(g)<t50%(r),则危险度预测结果具有可靠性,否则预测结果不可靠。
进一步地,步骤s1中,危险度为本发明所验证的模型输出的能够表征驾驶人发生交通事故风险的参数。
进一步地,步骤s1具体为,
s11、确定样本进入期[ts,te]以及样本抽取时间间隔τ,其中ts、te分别为进入期起止时间;
s12、在全样本中根据危险度抽取高危驾驶人观测样本g;
s13、忽略危险度,从全样本中随机抽取与观测样本g同样本量的样本r。
进一步地,步骤s12中,采用机器学习方法构建的驾驶人危险度预测模型,采用预测模型对驾驶人进行危险度预测,并根据预测结果进行驾驶人分类,根据危险度大小选取样本抽取时间间隔τ内危险度值最高的前k个驾驶人,作为观测样本g。
进一步地,步骤s3中,rt的计算以观测期开始日为基准时间,观测期内样本的首次事故发生日与基准时间之间的时长即为该样本的rt。
本发明的有益效果是:该种驾驶人危险度预测结果可靠性验证方法,采用单因素方差检验与生存分析相结合的方法,对基于模型的驾驶人危险度预测结果的可靠性加以检验。为驾驶人危险度模型的修正提供依据,从而形成驾驶人危险预测环节闭环,提升数据挖掘技术用于驾驶人风险预测的可靠性和可行性。
附图说明
图1是本发明实施例驾驶人危险度预测结果验证方法的流程示意图。
图2是实施例中检验样本生存曲线的示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种驾驶人危险度预测结果验证方法,如图1,具体步骤如下:
s1.根据驾驶人危险度选择验证观测样本,其中危险度为本发明所验证的模型输出的能够表征驾驶人发生交通事故风险的参数,危险度可以为概率、指数、等级,与具体预测模型有关。
步骤s1具体为,(1)确定样本进入期[ts,te]以及样本抽取时间间隔τ,其中ts、te分别为进入期起止时间;(2)在全样本中根据危险度抽取高危驾驶人观测样本g;(3)忽略危险度,从全样本中随机抽取与观测样本g同样本量的样本r。
实施例中采用机器学习方法构建的驾驶人危险度预测模型,输出的危险度为驾驶人经过随机森林的决策过程后最终被确定为高危驾驶人类别的概率。
在实施例中,进入期设定为6个月,样本抽取时间间隔为1自然月,即每个月均采用预测模型对驾驶人进行危险度预测,并根据预测结果进行驾驶人分类,根据危险度大小选取每月危险度值最高的前k个驾驶人,作为观测样本g,实施例k取值为10,危险度值越大表明驾驶人事故风险越高;同时,每月从所有驾驶人中(包含高危驾驶人样本)随机抽取k个样本作为另一组观测样本r。
s2.设定跟踪检验时间窗口,窗口长度为t,即对于进入期内某个抽取时段t∈[ts,te],将[t,t+t]作为样本gt、rt的观测期,其中gt、rt为时段t的观测样本;通常t取值为不小于12个月的时长;
在实施例中,t取12个月;
s3.t=ts+i·τ,i初值为0,τ为样本抽取时间间隔;收集观测样本gt、rt在观测期[t,t+t]内的交通事故发生时间rt,rt的计算以观测期开始日为基准时间,观测期内样本的首次事故发生日与基准时间之间的时长即为该样本的rt;其中rt的单位为日。
s4.若t<te,则i=i+1,返回s3;否则,进入s5。
s5.将g、r内的所有样本在观测期内收集的rt构成检验样本g、r。
s6.使用单因素方差分析g、r在事故发生时间上是否存在显著差异;若分析结论为不存在显著差异,则判断驾驶人预测结果不可靠,结束本流程;若存在显著差异,进入s7做进一步验证。
s7.对检验样本g、r,采用生存分析,获得两类样本生存函数s(g)、s(r),并分别计算中位生存时间t50%(g)、t50%(r),若t50%(g)<t50%(r),则危险度预测结果具有一定可靠性,否则预测结果不可靠。
在实施例中,根据检验样本的生存函数绘制如图2所示的生存曲线,由生存曲线可见,在观测时间内,t50%(g)<t50%(r)成立,可判断经过机器学习训练的驾驶人危险度预测模型具有一定可靠性。