基于层次聚类和决策树的车辆特征评估方法与流程

文档序号:19422001发布日期:2019-12-14 01:37阅读:855来源:国知局
基于层次聚类和决策树的车辆特征评估方法与流程
本发明涉及交通安全
技术领域
,具体涉及一种基于层次聚类和决策树的车辆特征评估方法。
背景技术
:一直以来,机动车作为交通管理的主要对象都受到了交通管理者的重点管控,但由于机动车数量的剧增,交管部门有限的警力资源己经无法对其进行全方位的严格管控,致使各类交通违法和乱象层出不穷,给人们的交通出行安全带来极大的隐患。技术实现要素:本发明提出的一种基于层次聚类和决策树的车辆特征评估方法,结合交通警务管理实战的需求,建立机动车管控体系,可协助交通部门做高效精准管理,提供道路安全。为实现上述目的,本发明采用了以下技术方案:一种基于层次聚类和决策树的车辆特征评估方法,包括以下步骤:s100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;s200、获取待评价车辆的评估指标数据;s300、对车辆评估指标数据进行层次聚类处理;s400、根据层次聚类的结果,进行划分类别并标注;s500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;s600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。进一步的,所述步骤s200获取待评价车辆的评估指标数据;还包括对获取到的评估指标数据进行数据处理,处理成指定格式。进一步的,所述步骤s100中车辆评估指标包括车辆类型、车龄、环保等级、使用性质、车检是否逾期、是否报废、保险是否逾期、违法、事故。进一步的,所述s200获取待评价车辆的评估指标数据;具体从车辆基本信息中获取,其中车辆基本数据包括车辆基本信息表、违法信息表、事故信息表。进一步的,所述步骤s200中数据处理包括:把车辆类型分为为大车、小车、摩托车、其他车辆;把使用性质分为救护、客运、校车教练车、非营运、租赁、货运、危化品运输、其他;把车龄分为1年以内、1-3年、3-10年、10年以上;车辆环保情况分为国一、国二、国三、国四、国五、登记信息不全或未登记六种。进一步的,所述不住s300对车辆评估指标数据进行层次聚类处理;包括:对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息进行层次聚类;其中层次聚类包括先对离散属性组合进行层次聚类,然后查看聚类个数,再确定聚类个数。进一步的,所述s500基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;包括根据最终标签数据,将数据进行随机切分,百分之七十作为训练数据,百分之三十作为测试数据,通过决策树进行建模,得到车辆评估模型。本发明还公开一种基于层次聚类和决策树的车辆特征评估系统,包括以下模块:数据采集模块,用于获取待评价车辆的评估指标数据;车辆危险评估模型构建模块,基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;车辆危险评估模块,对待评价车辆进行危险等级评估。进一步的,还包括数据处理模块,所述数据处理模块用于对获取到的评估指标数据进行数据处理,处理成指定格式。由上述技术方案可知,本发明的基于层次聚类和决策树的车辆特征评估方法具有以下有益效果:本发明依托交通信息情报大数据中心库中车辆的基本档案信息、历史违法信息、交通事故信息等相关信息,使用层次聚类和决策树结合的方法,构建车辆危险等级模型,通过量化的风险评估,为交通管理者对不同风险的车辆差异化管理,提高道路安全管理的效率,减少安全隐患。附图说明图1是本发明的方法流程图;图2是本发明实施例的类别标注示意图;图3是本发明实施例的类别标注结果示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。如图1所示,本发明实施例的一种基于层次聚类和决策树的车辆特征评估方法包括以下步骤:s100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;s200、获取待评价车辆的评估指标数据;s300、对车辆评估指标数据进行层次聚类处理;s400、根据层次聚类的结果,进行划分类别并标注;s500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;s600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。上述步骤可解释为本发明实施例的一种基于层次聚类和决策树的车辆特征评估方法,根据车辆违法情况和违法频率情况,制定相应的车辆评估模型,依托交通信息情报大数据中心库中车辆的基本档案信息、历史违法信息、交通事故信息等相关信息,将机动车按照积分等级划分相应的等级比如为高危、中危、低危3个等级。其中s100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;可解释为:机动车辆的危险程度,主要包括车辆本身属性和车辆被驾驶的行为特征。车辆的属性,主要由车辆类型、车龄、环保等级、使用性质、车检是否逾期、是否报废、保险是否逾期七个特征来描述;车辆被驾驶的行为特征,就是车辆行驶中造成的违法、事故两类交通事件。对于步骤s200获取待评价车辆的评估指标数据;其中评估指标数据处理,主要依据车辆基础信息、车辆违法、和车辆事故的数据,提取模型需要的九个变量:对于s300、对车辆评估指标数据进行层次聚类处理;可解释为分析数据主要特征,对于“车辆类型”、“车龄”“是否报废”、“违法情况”、“事故情况”五个特征,对结果分类相对比较重要。因此,这里对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息,这里采用层次聚类。层次聚类包括:对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息进行层次聚类;其中层次聚类包括先对离散属性组合进行层次聚类,然后查看聚类个数,再确定聚类个数。层次聚类原理:(1)将每个对象看作一类,计算两两之间的最小距离;(2)将距离最小的两个类合并成一个新类;(3)重新计算新类与所有类之间的距离;(4)重复(2)、(3),直到所有类最后合并成一类。对于s400、根据层次聚类的结果,进行划分类别并标注;其中类别标注的工作,主要是根据层次聚类的结果,将数据划分为“高危、中危、低危”三类。具体方法如下:(1)根据层次聚类的结果,从每类数据中抽取一列作为聚类中心。转成字符型供专业人士进行标注。(2)对一些能确定的特殊行为数据进行标注。例如至少在五起轻微事故负主要责任的列为中危,至少在两起重伤及以上事故负主要责任直接列为高危车辆等等,更新类别标签,得到最后有标签的数据。对于s500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;其中,将层次聚类后的数据随机划分为70%的训练集和30%的测试集;(1)初始,按照最大深度为3、随机种子为30的参数,建立决策树模型,对训练集数据进行训练。(2)运用准确率等指标,对测试集的结果评估。(3)在测试集的结果不理想的情况下,通过“决策树参数搜索”的方法,寻找模型最优的参数。决策树原理:决策树的构造过程就是找到在分类时起到决定性作用的特征,根据其决定性程度来构造一个倒立的树--决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一类。最后对于s600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。包括首先,对其他需要进行车辆危险等级评估的数据,进行变量处理。然后,通过训练好的决策树模型,对需要分类为“高危、中危、低危”三类的车辆进行评估。以下具体说明本发明实施例:数据预处理特征选择根据对业务的理解,这里最终选择“车辆类型”,“车龄”,“环保等级”,“使用性质”,“车检是否逾期”,“是否报废”,“保险是否逾期”,“违法”,“事故”9个特征作为车辆评估特征。基本数据车辆基本信息表从车辆信息表中取得“xh”、“hphm”、“hpzl”、“cllx”、“syxz”、“ccdjrq”、“yxqz”、“qzbfqz”、“bxzzrq”、“hbdbqk”对应的“序号”、“号牌号码”、“号牌种类”、“车辆类型”、“使用性质”、“初次登记日期”、“检验有效期止”、“强制报废期止”、“保险终止日期”、“环保达标情况”。取得的车辆信息表数据为593888条。违法信息表从违法信息表中取“hphm”、“hpzl”、“wfjfs”对应“号牌号码”、“号牌种类”、“违法计分数”。由于违法行为种类太多,不方便数据分析,而违法计分数能体现出违法行为的严重程度,所以这里取了违法行为字段。为了方便统计车辆的违法行为对应的次数,这里将违法信息表进行变换,最后变成“hphm”、“hpzl”、“wf_0”、“wf_1”、“wf_2”、“wf_3”、“wf_6”、“wf_12”对应的是“号牌号码”、“号牌种类”、“扣0分的次数”、“扣1分的次数”、“扣2分的次数”、“扣3分的次数”、“扣6分的次数”、“扣12分的次数”。事故信息表事故信息表数据由事故人员信息表和事故表关联事故编号得到。取事故人员信息表中的“hphm”、“hpzl”、“sgzr”和事故表中的“qsrs”、“zsrs”、“swrs30”、“zjccss”对应的是“号牌号码”、“号牌种类”、“事故责任”、“轻伤人数”、“重伤人数”、“死亡人数”、“直接财产损失”。根据轻微事故、一般事故、重大事故、特大事故的判断规则计算。轻微事故是指一次造成轻伤1至2人,或者财产损失机动车事故不足1000元,非机动车事故不足200元的事故。一般事故是指一次造成重伤1到2人,或者轻伤3人以上,或者财产损失不足3万元的事故。重大事故是指一次造成死亡1至2人,或者重伤3人以上10人以下,或者财产损失3万元以上不足6万元的事故。特大事故是指一次造成死亡3人以上,或者重伤11人以上,或者死亡1人,同时重伤8人以上,或者死亡2人,同时重伤5人以上,或者财产损失6万元以上的事故。最后计算变换得到表“hphm”、“hpzl”、“qwsg_1”、“qwsg_2”、“qwsg_3”、“qwsg_4”、“qwsg_5”、“qwsg_6”、“ybsg_1”、“ybsg_2”、“ybsg_3”、“ybsg_4”、“ybsg_5”、“ybsg_6”、“zdsg_1”、“zdsg_2”、“zdsg_3”、“zdsg_4”、“zdsg_5”、“zdsg_6”对应的是“号牌号码”、“号牌种类”、“轻微事故-全部责任次数”、“轻微事故-主要责任次数”、“轻微事故-同等责任次数”、“轻微事故-次要责任次数”、“轻微事故-无责次数”、“轻微事故-无法认定次数”、“一般事故-全部责任次数”、“一般事故-主要责任次数”、“一般事故-同等责任次数”、“一般事故-次要责任次数”、“一般事故-无责次数”、“一般事故-无法认定次数”、“重大事故-全部责任次数”、“重大事故-主要责任次数”、“重大事故-同等责任次数”、“重大事故-次要责任次数”、“重大事故-无责次数”、“重大事故-无法认定次数”、“特大事故-全部责任次数”、“特大事故-主要责任次数”、“特大事故-同等责任次数”、“特大事故-次要责任次数”、“特大事故-无责次数”、“特大事故-无法认定次数”。数据清洗相关属性将上述表通过“hphm”、“hpzl”进行关联,最终得到总表“xh”、“cllx”、“syxz”、“ccdjrq”、“yxqz”、“qzbfqz”、“bxzzrq”、“hbdbqk”、“wf_0”、“wf_1”、“wf_2”、“wf_3”、“wf_6”、“wf_12”、“qwsg_1”、“qwsg_2”、“qwsg_3”、“qwsg_4”、“qwsg_5”、“qwsg_6”、“ybsg_1”、“ybsg_2”、“ybsg_3”、“ybsg_4”、“ybsg_5”、“ybsg_6”、“zdsg_1”、“zdsg_2”、“zdsg_3”、“zdsg_4”、“zdsg_5”、“zdsg_6”包含“车辆类型”、“使用性质”、“初次登记日期”、“使用性质”、“检验有效期止”、“强制报废期止”、“保险终止日期”、“环保达标情况”、“违法情况”、“事故情况”相关信息。数据处理说明车辆类型通过“cllx”字段处理,处理方法如下:第一个字符表示车辆判断规则b半挂车大车d电车小车g挂车大车h货车第二个字符1、2为大车,3、4、5为小车j挖掘机大车k客车轿车第二个字符1、2大车,3、4小车m摩托车n三轮汽车小车q牵引车大车t拖拉机第二个字符1大车,2小车x其他z专业作业车第二个字符1、2、5大车,4、7小车最后将车辆类型分为大车、小车、摩托车、其他四种。使用性质由“syxz”确定,根据数据字典将使用性质分为救护、客运、校车教练车、非营运、租赁、货运、危化品运输、其他(不在以上范围内以及未登记的)。车龄由“ccdjrq”确定,计算当前时间和初次登记日期的时间差,将车龄分为1年以内、1-3年、3-10年、10年以上。是否检验有效期内由“yxqz”确定,将检验期止和当前时间进行比较,若晚于当前时间则在检验有效期内,否则在有效期外。是否报废由“qzbfqz”确定,将强制报废期止和当前时间进行比较,若晚于当前时间则未报废,否则已报废。是否保险期内由“bxzzrq”确定,将保险终止日期和当前时间进行比较,若晚于当前时间则在保险有效期内,否则在有效期外。车辆环保情况由“hbdbqk”确定,由于环保达标情况登记时数据不规范,出现空值、字符不一致(例如有的登记的是“,”,有的是“,”,还有“、”和空格的情况)、中英文字符混合、登记信息不全无法判断是属于哪一种环保等级。经过对字符串进行清洗,最终将环保等级分为国一、国二、国三、国四、国五、登记信息不全或未登记六种。违法积分将违法相关属性合并为一列,由于违法行为的严重程度和扣分表挂钩,因此将所有违法扣分信息合并为一列作为“违法积分”。计算扣分数乘以相关次数之和,但是为了避免数值太大影响建模,因此将扣分数除以10作为积分值,而违法扣分为0并不表示没有违法,因此也给予一定积分值,这里赋值为0.05。因此违法积分=0.05*扣0分次数+0.1*扣1分次数+0.2*扣2分次数+0.3*扣3分次数+0.6*扣6分次数+1.2*扣12分次数。事故积分事故信息也需要合并处理,将每一类事故合并为一列。查看了交通法,当事故双方都是机动车时,全部责任赔偿100%,主要责任赔偿70%,次要责任赔偿30%,同等责任赔偿50%,无法判断双方赔偿50%,无责则不赔偿。因此计算事故积分=1*全部责任次数+0.7*主要责任次数+0.3*次要责任次数+0.5*同等责任次数+0.5*无法判断次数对轻微事故、一般事故、重大事故、特大事故分别进行计算。数据概览经过数据清洗之后得到最终进行建模的数据:层次聚类分析数据主要特征,很明显“车辆类型”、“车龄”“是否报废”、“违法情况”、“事故情况”对结果分类相对比较重要,因此,这里对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息,这里采用层次聚类。离散属性组合对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,组合结果为:车辆类型为大车,车龄为1年以内,未报废数据为538条。车辆类型为大车,车龄为1-3年,未报废数据为3144条。车辆类型为大车,车龄为3-10年,未报废数据为30375条。车辆类型为大车,车龄为10年以上,未报废数据为19594条。车辆类型为小车,车龄为1年以内,未报废数据为3629条。车辆类型为小车,车龄为1-3年,未报废数据为29382条。车辆类型为小车,车龄为3-10年,未报废数据为148500条。车辆类型为小车,车龄为10年以上,未报废数据为49874条。车辆类型为大车,车龄为10年以上,报废数据为18626条。车辆类型为小车,车龄为3-10年,报废数据为597条。车辆类型为小车,车龄为10年以上,报废数据为13037条。车辆类型为摩托车,车龄为1年以内,未报废数据为1182条。车辆类型为摩托车,车龄为1-3年,未报废数据为21040条。车辆类型为摩托车,车龄为3-10年,未报废数据为141473条。车辆类型为摩托车,车龄为10年以上,未报废数据为56512条。车辆类型为摩托车,车龄为10年以上,报废数据为55991条。车辆类型为其他,车龄为1年以内,未报废数据为1条。车辆类型为其他,车龄为3-10年,未报废数据为63条。车辆类型为其他,车龄为10年以上,未报废数据为247条。车辆类型为其他,车龄为10年以上,报废数据为83条。对每种组合分别进行聚类。聚类先对每种组合进行层次聚类,然后查看聚类个数。其中车辆类型为大车,车龄为1年以内,未报废时,根据不同t(t为层次聚类参数)值计算聚类个数,结果如下:t=0.0时对应的聚类个数为:35t=0.2时对应的聚类个数为:24t=0.4时对应的聚类个数为:19t=0.6时对应的聚类个数为:17t=0.8时对应的聚类个数为:10t=1.0时对应的聚类个数为:8t=1.2时对应的聚类个数为:6t=1.4时对应的聚类个数为:4t=1.6时对应的聚类个数为:3t=1.8时对应的聚类个数为:3t=2.0时对应的聚类个数为:3t=2.2时对应的聚类个数为:3t=2.4时对应的聚类个数为:3t=2.6时对应的聚类个数为:2t=2.8时对应的聚类个数为:2t=3.0时对应的聚类个数为:2t=3.2时对应的聚类个数为:1t=3.4时对应的聚类个数为:1车辆类型为大车,车龄为1-3年,未报废,结果如下:t=0.0时对应的聚类个数为:190t=0.2时对应的聚类个数为:101t=0.4时对应的聚类个数为:59t=0.6时对应的聚类个数为:39t=0.8时对应的聚类个数为:29t=1.0时对应的聚类个数为:24t=1.2时对应的聚类个数为:18t=1.4时对应的聚类个数为:14t=1.6时对应的聚类个数为:10t=1.8时对应的聚类个数为:9t=2.0时对应的聚类个数为:8t=2.2时对应的聚类个数为:7t=2.4时对应的聚类个数为:7t=2.6时对应的聚类个数为:7t=2.8时对应的聚类个数为:7t=3.0时对应的聚类个数为:6t=3.2时对应的聚类个数为:6t=3.4时对应的聚类个数为:5其他数据也根据不同的t值查看聚类个数,就不一一列出。聚类结果根据结果这里将t值统一定为2.0。然后将聚类后的结果再合并。得到最后聚类结果,共聚成240类。类别标注由于层次聚类没有聚类中心,因此从每类数据中抽取一列作为聚类中心。转成字符型方便专业人士进行标注;如图2所示。根据聚类中心,由专业人士将每一类标注成高危、中危、低危三种结果。关联原数据得到总标签数据。特殊情况数据标注对一些能确定的特殊行为数据进行标注,例如至少在五起轻微事故负主要责任的列为中危,至少在两起重伤及以上事故负主要责任直接列为高危车辆等等,更新类别标签,得到最后有标签的数据。结果分析查看类别标注结果,如图3所示;最后标注出来的低危车辆有484482辆,中危车辆105971辆,高危车辆3435辆。建立决策树根据最终标签数据,将数据进行随机切分,百分之70作为训练数据,百分之30作为测试数据,通过spark的决策树进行建模,得到车辆评估模型。用测试数据对模型预测性能进行评估,准确率为0.99。同时本发明实施例还公开一种基于层次聚类和决策树的车辆特征评估系统,包括以下模块:数据采集模块,用于获取待评价车辆的评估指标数据;车辆危险评估模型构建模块,基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;车辆危险评估模块,对待评价车辆进行危险等级评估。同时还包括数据处理模块,所述数据处理模块用于对获取到的评估指标数据进行数据处理,处理成指定格式。可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1