基于C4.5的高速公路事故主次因分析及事故类型判断方法与流程

文档序号:16326775发布日期:2018-12-19 05:58阅读:693来源:国知局
基于C4.5的高速公路事故主次因分析及事故类型判断方法与流程

本发明属于公路交通安全管理研究领域,具体涉及一种基于数据挖掘的交通事故主次因判断方法及事故类型判断方法。

背景技术

高速公路是适合中长途出行的便捷途径,同时也是不安全因素最多的出行模式。我国每年因为交通事故所带来的人身伤亡和财产损失情况都十分严重,交通事故问题一直是交通领域科学研究的重点问题。

国外学者对基于数据挖掘的交通事故分析开展较早,且在研究方法上呈现多样化趋势。例如,灰色模型与回归模型可用来进行交通事故的预测,决策树模型可应用在探究事故主次致因与事故严重程度影响因素,贝叶斯模型可以用来探究单因素对事故发生影响的程度,聚类分析与关联规则算法可以用来探究与交通事故相关因素之间的关联,等等。

影响高速公路事故的因素众多,对事故致因进行分类和重要性排序可以协助交管部门制定合理防范措施和更为准确的决策。致因分析中对事故进行主次因分析可以量化每个因素对事故的影响程度,明确不同事故类型的影响机理,有利于分析人员抓住主要矛盾。决策树c4.5算法是探究主次因常用的一种分类算法,该方法运算速度快,适用于处理海量事故信息,树形图的表示方法符合人的思维方式且较为直观。因此,利用决策树c4.5算法探究影响事故主次因的方法具有很强的实用性与可操作性。

由于我国的高速公路建设较晚,收集事故信息尚且缺乏统一的标准,为进行数据分析,事故信息往往需要经过大量预处理工作才行。我国目前对交通事故的分析主要还停留在统计分析阶段。使用数据挖掘算法对事故进行分析对数据和方法本身要求高,目前还没有大体量推广。如何全面准确地收集信息和通过科学的方法对信息进行分析是我国目前在交通事故分析领域的两个重要议题。



技术实现要素:

发明目的:针对现有技术中存在的问题,本发明公开了一种基于c4.5的高速公路事故主次因分析方法和事故类型判断方法,该方法综合考虑与事故相关的人-车-路-环境指标,能够精准分析公路交通事故主次因,判断某些条件下最可能发生的事故类型,对公路交通管理部门采取防护措施具有指导意义。

技术方案:本发明采用如下技术方案:

本发明一方面公开了一种基于c4.5的高速公路事故主次因分析方法,包括如下步骤:

(a1)收集n条高速公路交通事故记录,包括每一次事故发生时的道路条件、驾驶员情况、车辆情况等属性信息、事故类型;

(a2)将属性信息进行符号化,用符号表示每个属性的取值;设获取每次事故的m个属性构成属性变量v、每次事故的类型c,构建样本集t={t1,t2,…,tn};其中第i次事故ti表示为ti=[vi,ci],vi为事故ti的属性变量,ci为ti的事故类型,i=1,…,n;一次事故的属性变量v表示为v=[v1,v2,…,vm],vj为第j个属性,j=1,…,m;

(a3)n次事故的属性变量组成属性集合{vi}作为输入,事故类型集合{ci}作为输出,应用c4.5算法构建决策树,所述决策树的终端节点为事故类型,中间节点为属性;

(a4)根据步骤(a3)所建立决策树得到事故主次因素顺序,从位于所述决策树的上层到下层,属性对事故的影响程度依次减小,同一层属性的影响力基本相同。

步骤(a2)中属性信息进行符号化,包括连续型属性的离散化、用符号表示离散型属性和离散化后的连续型属性。

步骤(a3)中还包括设置节点的最小实例数,当构建决策树完成后,剪去实例数小于预设的最小实例数的终端节点。

本发明另一方面公开了一种基于c4.5的高速公路事故类型判断方法,包括如下步骤:

(b1)收集n条高速公路交通事故记录,包括每一次事故发生时的道路条件、驾驶员情况、车辆情况等属性信息、事故类型;

(b2)将属性信息进行符号化,用符号表示每个属性的取值;设获取每次事故的m个属性构成属性变量v、每次事故的类型c,构建样本集t={t1,t2,…,tn};其中第i次事故ti表示为ti=[vi,ci],vi为事故ti的属性变量,ci为ti的事故类型,i=1,…,n;一次事故的属性变量v表示为v=[v1,v2,…,vm],vj为第j个属性,j=1,…,m;

(b3)n次事故的属性变量组成属性集合{vi}作为输入,事故类型集合{ci}作为输出,应用c4.5算法构建决策树,所述决策树的终端节点为事故类型,中间节点为属性;

(b4)获取当前道路条件、驾驶员情况、车辆情况等属性,依据各属性的取值和步骤(b3)中构建的决策树,得到当前属性下的事故类型。

步骤(b2)中属性信息进行符号化,包括连续型属性的离散化、用符号表示离散型属性和离散化后的连续型属性。

步骤(b3)中还包括设置节点的最小实例数,当构建决策树完成后,剪去实例数小于预设的最小实例数的终端节点。

有益效果:与现有分析技术相比,本发明公开的基于c4.5的交通事故主次因分析方法及事故类型判断方法具有以下优点:1、考虑数据多元化,多元模型相较单一数据元的判断更为精确;2、运用决策树c4.5算法而非传统分析方法。传统分析方法在处理多变量是分析速度慢,且很难处理连续变量。3、分类模型能够直观地揭示出影响事故类型分布的主次因,对公路交通安全管理部门的决策有一定的指导意义。

附图说明

图1为本发明公开的高速公路事故主次因分析流程图;

图2为实例中丽温高速k117~k127研究路段位置示意图;

图3为实例生成的决策树图;

图4为造成追尾事故的各种条件模式。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施案例做说明。

本实施例以丽温高速为例详细阐述本发明所公开的基于c4.5的高速公路事故主次因分析方法,流程如图1所示。

步骤1、丽温高速位于浙江省境内,连接丽水与温州。丽温高速通车里程116km,桥隧里程占比达90%以上,被业界交通专家称为“桥隧俱乐部”。本实例所选取的研究路段范围为k117~k134,全长17km,如图2所示。研究路段按顺序经过了桐岭岗2号隧道、俞庄隧道、石帆大桥、大梁山隧道、阳山隧道和锦水隧道,地理环境复杂。经统计,2006年至2013年,左线发生事故243起,右线发生事故389起。根据“丽水辖区历年事故汇总”文件,筛选出研究路段内632条事故记录,收集事故发生时的道路条件、驾驶员情况、车辆情况等信息,以及每次事故额类型,其中的道路条件信息通过“金丽温高速路线设计图”获得;

原始数据具有杂乱、不完整、模糊的特性,清除元组缺失与含义模糊的数据组后,保留65%的有效数据,最终得到411条事故记录。

表1属性变量

步骤2、构建事故样本集,属性变量如表1所示,包括了事故发生时的道路条件、驾驶员情况、车辆情况以及是否有大车参与、是否特殊地形、事故记录原因项等因素;其中曲率半径和高程差绝对值为连续变量,先将其进行离散化,然后用符号表示离散化后的值;

事故类型分为撞固体物、追尾、翻车、刮擦、着火、其他,如表2所示,其中平直线形的曲率半径以12000米替代。

表2

步骤3、将411次事故属性变量组成的属性集合作为输入,事故类型作为输出,应用c4.5算法构建决策树;

本实施例中采用数据挖掘软件weka来构建决策树,将处理好的输入和输出数据输入weka软件,选择决策树c4.5分类算法。为了防止模型过度拟合,对模型进行剪枝操作。设置节点的最小实例数,当构建决策树完成后,剪去实例数小于预设的最小实例数的终端节点,本实施例中设置最小节点数为4。得到的树图如图3所示,决策树的终端节点为事故类型,中间节点为属性。终端节点括号中第一个数字为正确分类,第二个数字为错误分类。例如模型的第一个分支将雨天路滑造成的事故类型全部判断为撞固体,其中有44个正确,10个错误。经验证,该模型正确率达到82.24%,具有较高可靠性。

中间节点,即椭圆节点的上下顺序代表每个属性的重要程度,处于最上层的事故记录原因项为首要因素,包括疲劳驾驶、雨天路滑、车身间距过小、驾驶员操作失控、车况不良、山体洒落物、超速行驶;处于第二层的曲率半径和是否有大车参与为第二重要因素,第二层以下的是否特殊地形、高程、时间等因素对事故类型影响不大。

可以直观从树图中看出某些情况下容易造成哪种事故类型。以追尾事故为例,以下6种情况下最容易发生的事故类型为追尾事故,如图4所示。

(1)原因:间距过小;

(2)原因:超速→曲率半径<=4000;

(3)原因:超速→曲率半径>4000→高程绝对值>13.6;

(4)原因:操作失控→大车参与:无→地形:隧道出口;

(5)原因:操作失控→地形:隧道内→曲率半径:<=1000;

(6)原因:操作失控→大车参与:有→曲率半径:>850→时间段:白天→高程绝对值:<=5。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1