一种应用于区域路网的交通事故严重度预测方法与流程

文档序号:19157210发布日期:2019-11-16 00:58阅读:来源:国知局

技术特征:

1.一种应用于区域路网的交通事故严重度预测方法,其特征是按如下步骤进行:

步骤一、区域路网道路交通事故数据的采集与预处理;

从道路交通事故数据库中获取n起事故数据作为事故数据集d,并从任意第i起事故数据中选取k个分类变量组成集合x={x1,x2,…,xk,…,xk}来表征第i起事故,其中,xk表示第k个分类变量,且第k个分类变量xk包含ck种类别,第k个分类变量xk在ck种类别中的取值记为sk,令sik表示第i起事故的第k个分类变量的取值,则第i起事故中所有k个分类变量的取值所组成的分类变量取值集合记为si={si1,si2,...,sik,...,sik};令表示第i起事故的k个分类变量的所有可能取值中的任意一种取值集合;k=1,2,3,...,k;i=1,2,3,...,n;

将第i起事故的严重度作为预测变量,记为yi,且yi的取值为“0”或“1”分别表示非死亡事故和死亡事故;

步骤二、根据区域路网道路交通事故数据,建立潜在类别分析模型;

步骤2.1、定义所述潜在类别分析模型中存在一个潜在类别变量v,v包含t种类别,且任意一种类别记为t,t=1,2,...,t;令第i起事故中潜在类别变量v的取值记为vi;

步骤2.1.1、定义外循环次数为τ、最大外循环迭代次数为τmax;令第τ次所设置的类别数目为tτ;初始化τ=1;

步骤2.1.2、初始化t=1;

步骤2.1.3、初利用式(1)得到第i起事故vi取值为t,即属于第t种潜在类别时,第i起事故在k个分类变量上的取值集合为的条件概率

式(1)中,p(sik=sk|vi=t)表示第i起事故属于第t个潜在类别时,第k个分类变量上取值为sk的条件概率;

步骤2.1.4、利用式(2)得到第i起事故中k个分类变量取值集合为的非条件概率即潜在类别分析模型的联合概率

式(2)中,p(vi=t)是第i起事故属于第t个潜在类别的概率,潜在类别t占总体的比率;

步骤2.2、采用极大似然法进行模型参数估计,得到潜在类别概率和分类变量条件概率的估计值以及潜在类别分析模型的第τ次极大似然函数值lτ;

步骤2.3、利用式(3)计算第i起事故被分类到第t个潜在类别的后验概率

步骤2.4、令t+1赋值给t,并判断t>tτ是否成立,若成立,则执行步骤2.5;否则,返回步骤2.1.3执行;

步骤2.5、利用式(4)、式(5)、式(6)和式(7)得到模型拟合评价指标,包括:第τ次信息评价指标aicτ、第τ次贝叶斯信息准则bicτ、第τ次样本校正的贝叶斯信息准则abicτ、第τ次熵值

aicτ=-2ln(lτ)+2m(4)

bicτ=-2ln(lτ)+ln(n)×m(5)

abicτ=-2ln(lτ)+ln(n*)×m(6)

式(4)、式(5)、式(6)和式(7)中,m为潜在类别分析模型中未知参数的个数;n*是调整后的样本量,且n*=(n+2)/24;

步骤2.6、将τ+1赋值给后τ,判断τ>τmax是否成立,若成立,则返回步骤2.7;否则,执行步骤2.1.3;

步骤2.7、从τmax次信息评价指标aic、贝叶斯信息准则bic、样本校正的贝叶斯信息准则abic和熵值r2中选出各个模型拟合评价指标均取到最优值时所对应的潜在类别个数,记为t*;将所述事故数据集d划分为t*个事故子类别,记为表示第t*个事故子类别中的事故数据,t*=1,2,…,t*

步骤三、根据潜在类别分析模型结果,对t*个子类别分别建立cart决策树模型;

步骤3.1、令所述第t*个事故子类别中的事故数据作为训练样本集,令k个分类变量所组成的集合x为所述cart决策树模型中的特征集;令结点样本阈值为σ、特征值切分点为α、gini指数阈值为ε;

步骤3.2、初始化t*=1;

步骤3.3、将所述训练样本集特征集x、定义结点样本阈值σ和gini指数阈值ε输入所述cart决策树模型;

步骤3.4、令t*+1赋值给t*,并判断t*>t*是否成立,若成立,则表示得到t*个决策树,并执行步骤3.5;否则,返回步骤3.3执行;

步骤3.5、根据所述t*个二叉决策树的树形图,确定分类变量间的交互作用项,其中,第t*个事故子类别对应的二叉决策树所确定的交互作用项;

步骤四、对t*个子类别分别建立基于二元logistic回归的事故严重度模型;

步骤4.1、将所述第t*个子类别中的事故数据作为事故严重度模型的拟合数据,以k个分类变量所组成集合x和第t*个子类别的交互作用项共同作为所述事故严重度模型的自变量x*;定义第t*个事故子类别包含j个事故数据,j的值为第j起事故的预测变量记为yj;

步骤4.2、初始化t*=1;

步骤4.3、利用式(11)得到基于二元logistic回归在自变量x*条件下死亡事故即yj=1的发生概率p(y=1|x*):

式(11)中,w*为自变量x*的回归系数;

步骤4.4、利用极大似然法估计所述二元logistic回归的事故严重度模型的参数w*

对于第j起事故,为给定自变量条件下yj=1的概率,则给定自变量条件下yj=0的概率为1-pj;并利用式(12)得到似然函数l(w*):

利用极大似然估计,求出使得l(w*)取得最大值时的估计参数w′;

根据估计参数w′得到第j起事故在自变量条件下yj=1的预测概率从而得到j起事故的预测概率并进行升序排序,得到排序后的预测概率集合记为{p′1,...,p′j,...,p′j};

步骤4.5、调整事故严重度模型的预测分类阈值;

步骤4.6、令t*+1赋值给t*,并判断t*>t*是否成立,若成立,则表示获得t*个事故严重度预测模型,否则,返回步骤4.3执行。

2.根据权利要求1所述的交通事故严重度预测方法,其特征是,所述步骤3.3是按如下过程进行:

步骤3.3.1、cart决策树使用gini系数作为判定决策树是否进行分支的依据,建立二叉决策树模型,根据特征值切分点α,将所述训练样本集分为第一子集dα1和第二子集dα2,利用式(8)得到所述特征值切分点α的gini指数gini(dα):

式(8)中,|dα1|和|dα2|分别表示训练样本集第一子集dα1和第二子集dα2中包含事故总数;

gini(dα1)表示第一子集dα1的gini指数,并有:

式(9)中,分别表示第一子集dα1中非死亡和死亡事故的概率;

式(8)中,gini(dα2)表示第二子集dα2的gini指数,并有:

式(10)中,分别表示第二子集dα2中非死亡和死亡事故的概率;

步骤3.3.2、遍历所述特征集x中每个特征值的切分点,并计算每个特征值的切分点的gini指数;若特征集x中每个特征值的切分点的gini指数小于阈值ε,则表示所述cart决策树模型是一棵单结点的树,并输出所述单结点的树;否则执行步骤3.3.3;

步骤3.3.3、选择特征集x中最小切分点的gini指数所对应的特征值xmin及其相应的切分点αmin,并根据所述切分点αmin将训练样本集分为两个子集dmin1和dmin2,再将子集dmin1和子集dmin2分别分配到以训练样本集为父节点的两个子结点中;

若子集dmin1和子集dmin2的样本数均小于给定的结点样本阈值σ,则表示两个子集dmin1和dmin2所在的子结点均是叶子结点,输出二叉决策树;若子集dmin1和/或子集dmin2的样本数大于所述结点样本阈值σ,则表示子集dmin1或子集dmin2所在的子结点是非叶子结点可进一步进行划分,并执行步骤3.3.4;

步骤3.3.4、对于非叶子结点,令训练样本集等于非叶子结点所对应的子集,并将最小切分点的gini指数所对应的特征值xmin从特征集x中删除后,返回执行步骤3.3.1,直到所有子结点的样本数均小于结点样本阈值σ或特征集x为空时,输出最终的二叉决策树。

3.根据权利要求1所述的交通事故严重度预测方法,其特征是,所述步骤4.5是按如下过程进行:

步骤4.5.1、定义θ为模型的预测分类阈值,且0<θ<1;表示事故严重度模型预测第j起事故预测为死亡事故;表示事故严重度模型预测第j起事故预测为非死亡事故;

步骤4.5.2、初始化j=1;

步骤4.5.3、令模型的第j个分类阈值θj等于p′j,利用式(13)得到事故严重度模型预测的第j个敏感度se(θj),即事故数据集中死亡事故预测为死亡事故的概率:

式(13)中,表示第s起事故预测为死亡事故的概率,ys=1表示第s起事故为死亡事故,1≤s≤j;

利用式(14)得到事故严重度模型预测的第j个特异性sp(θj),即事故数据集中非死亡事故预测为非死亡事故的概率:

式(14)中,表示第s起事故预测为死亡事故的概率,ys=0表示第s起事故为死亡事故,1≤s≤j;

步骤4.5.4、令j+1赋值给j,并判断j>j是否成立,若成立,则表示得到j对敏感度和特异性取值,并执行步骤4.5.5;否则,返回步骤4.5.3执行;

步骤4.5.5、以第j个分类阈值θj为横坐标,分别以第j个分类阈值θj所对应的敏感度se(θj)和特异性sp(θj)值为纵坐标,绘制敏感度与特异性的曲线,以两曲线的交点对应的阈值作为最佳模型预测分类阈值θ′。


技术总结
本发明公开了一种应用于区域路网的交通事故严重度预测方法,其步骤包括:1、区域路网交通事故数据的采集与预处理;2、基于区域路网交通事故数据,建立潜在类别分析模型;3、根据潜在类别分析结果,对各子类别分别建立CART决策树模型;4、对各子类别分别建立基于二元logistic回归的事故严重度模型(考虑自变量和交互作用项),并将敏感度与特异性曲线交点作为模型预测分类阈值。本发明能降低事故数据异质性对分析结果的不利影响,克服传统交通事故严重度预测模型忽略交互作用项和非平衡数据综合预测效果差的问题,提高事故严重度模型的预测精度和拟合优度。

技术研发人员:石琴;杨慧敏;陈一锴;骆仁佳;于淑君;董满生
受保护的技术使用者:合肥工业大学
技术研发日:2019.08.20
技术公布日:2019.11.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1