一种基于Apriori的公安交管业务异常数据研判方法与流程

文档序号:17700145发布日期:2019-05-17 22:14阅读:698来源:国知局
一种基于Apriori的公安交管业务异常数据研判方法与流程

本发明涉及交通数据分析领域。具体而言是一种基于apriori的公安交管业务异常数据研判方法。



背景技术:

近年来,各级公安交管部门在智能交通管理和车管、驾管、违法、事故等业务管理建立了较为完整的信息化应用体系,围绕人、车、违法、事故等核心业务对象建立了综合业务数据库,在公安交通管理和服务方面发挥着重要支撑作用。但是,随着业务不断深入开展和系统建设的快速发展,特别是围绕核心业务数据库开展综合分析与数据挖掘需求越来越强烈,现有数据库中数据缺项、业务逻辑错误、均值偏离等问题逐步显现,对自动查找错项数据、自主研判业务异常等提升异常数据研判和分析效率的系统需求强烈。目前,一些深层次的业务逻辑问题和异常状态数据的发现还主要依靠分析人员的工作经验,缺乏系统的、有效的异常数据识别方法,评估效率低、覆盖范围小、难以为业务开展提供很好的指导作用。



技术实现要素:

本发明的目的在于提出一种基于apriori的公安交管业务异常数据研判方法,将apriori算法应用于公安交管业务数据分析中,提高公安交管人员的数据分析效率,扩大数据分析覆盖范围。

为实现上述发明目的,本发明采用如下的技术方案:

步骤一:建立公安交管业务数据库d1。

本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。

步骤二:针对数据库d1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。

(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;

(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;

(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。

步骤三:整合数据库d1中未建立异常数据识别规则的字段,建立数据库d2,对数据库d2中的数量属性字段进行离散化。

步骤四:根据apriori算法,生成候选项集和频繁项集。

(1)设置最小支持度min_sup和最小置信度min_conf;

(2)扫描数据库d2,计算d2中每个数据项出现的次数,生成候选1项集c1;

(3)计算c1中每个项的支持度,若支持度大于等于min_sup,则从c1中确定频繁1项集l1;

(4)将l1与自身相连接产生候选2项集c2;

(5)计算c2中每个项的支持度,若支持度大于等于min_sup,则从c2中确定频繁项集l2,以此类推得到不同频繁项集l3……lk-1、lk,其中lk-1表示频繁k-1项集,lk表示频繁k项集。

步骤五:当数据库d2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集lk’。

(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。

(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。

步骤六:计算强关联规则。

从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。

步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。

步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。

与现有技术相比,本发明的有益效果是:

本发明通过apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实际过程对本发明做具体的介绍。

本发明的实现路线包括以下几步:

步骤一:建立公安交管业务数据库d1。

本发明涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。

从公安交通管理综合应用平台中获取上述数据的一年历史数据。

步骤二:针对数据库d1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。

(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;

(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;

(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。以人员信息登记表中身份证号字段和性别字段为例。若身份证号码的第17位为奇数,则性别应当为“男”;若身份证号码的第17位为偶数,则性别应当为“女”。根据此函数关系可以判别性别字段的异常数据。

步骤三:整合数据库d1中未建立异常数据识别规则的字段,建立数据库d2,对数据库d2中的数量属性字段进行离散化。

步骤四:根据apriori算法,生成候选项集和频繁项集。

(1)设置最小支持度min_sup和最小置信度min_conf;

(2)扫描数据库d2,计算d2中每个数据项出现的次数,生成候选1项集c1;

(3)计算c1中每个项的支持度,若支持度大于等于min_sup,则从c1中确定频繁1项集l1;

(4)将l1与自身相连接产生候选2项集c2;

(5)计算c2中每个项的支持度,若支持度大于等于min_sup,则从c2中确定频繁项集l2,以此类推得到不同频繁项集l3……lk-1、lk,其中lk-1表示频繁k-1项集,lk表示频繁k项集。

步骤五:当数据库d2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集lk’。

(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。

(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。

步骤六:计算强关联规则。

从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。

以能够导出事故形态中的“侧面相撞”为例,设置最小支持度为4.0%,最小置信度为60.0%,计算出事故数据间的关联规则如下:

规则①即不按规定让行所导致的交通事故为侧面相撞,该规则的支持度为15.53%,置信度为74.02%。

规则②即在四路交叉口处违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.65%,置信度为64.11%。

规则③即在混合式物理隔离道路上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.33%,置信度为63.77%。

规则④即在分车分向式物理隔离方式的正常路段上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为4.37%,置信度为60.02%。

规则⑤即在分车式物理隔离的城市主干道上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.30%,置信度为62.79%。

规则⑥即夜晚有灯照明条件下在四路交叉口处雨水路面上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.03%,置信度为62.89%。

规则⑦即在有冰雪覆盖的分车分向式物理隔离的沥青道路上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为6.14%,置信度为62.97%。

规则⑧即在分车式物理隔离的城市主干道三路交叉口处超速行驶所导致的交通事故为侧面相撞,该规则的支持度为6.10%,置信度为64.01%。

规则⑨即在夜间有灯照明条件下分车式物理隔离的沥青道路上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为4.03%,置信度为61.58%。

步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。

(1)数据缺失补充

将交管业务历史数据中的某条数据记录与关联规则集类比,寻找关联规则集中最大程度满足该条数据记录的关联规则,即该关联规则与该条数据记录最大程度的吻合,获得缺失数据最可能的取值,继而对缺失数据进行弥补。对于同一条数据记录,可能出现多个字段数据缺失的现象,因此在类比过程中,尽量避免在同一关联规则下弥补多个字段缺失数据的情况,而应尽可能分散缺失字段,依据关联规则集中不同的规则逐一弥补缺失数据。

对于某起侧面相撞事故,在其事故数据中存在空缺信息,道路物理隔离方式中所填值为空,其道路类型为城市主干道,路口路段类型为三路交叉口,违法驾驶行为为超速行驶,依据上述步骤四中计算的关联规则集,可判断该起事故信息符合关联规则集中的规则⑧,继而判断其发生道路物理隔离为分车式,即分车式为该起事故发生道路的物理隔离方式最可能取值,将其填入空缺值,即完成该起事故空缺数据的填充。

(2)数据异常研判

在交管业务历史数据中,对属于同一关联规则的事故数据的各字段进行对比分析,得出各字段的正常值阈值。超出阈值的数据判定为异常数据,并根据上述数据缺失补充的方法对异常数据进行修正。

步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。

本发明通过apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1