基于无监督智能学习算法的非法运营车辆识别方法及系统的制作方法

文档序号:8487845阅读:890来源:国知局
基于无监督智能学习算法的非法运营车辆识别方法及系统的制作方法
【技术领域】
[0001]本发明涉及智能交通技术领域,尤其是一种基于无监督智能学习算法的非法运营车辆识别方法及系统。
【背景技术】
[0002]近年来,全国各地发生了多起因乘客乘坐非法运营车辆而被抢劫、强奸、杀害的恶性案件,非法运营车辆的存在不仅给社会治安带来恶劣影响,而且还给正常交通运输市场秩序造成了极大的冲击,危害颇多,但目前并没有一种有效的方法或系统可实现非法运营车辆的自动识别。故如何自动识别非法运营车辆,如何追踪非法运营车辆的行车轨迹等问题已成为各地运管部门亟待解决的问题。

【发明内容】

[0003]本发明的首要目的在于提供一种实现对过车数据中的非法营运车辆的自动识别,维护正常的交通秩序,为运管处对非法营运车辆的监控处罚提供依据的基于无监督智能学习算法的非法运营车辆识别方法。
[0004]为实现上述目的,本发明采用了以下技术方案:一种基于无监督智能学习算法的非法运营车辆识别方法,该方法包括下列顺序的步骤:
(1)输入待识别车辆的筛选条件;
(2)根据筛选条件,在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据;
(3)对检索出来的过车数据进行数据预处理;
(4)通过Hadoop大数据平台的MapReduce引擎,采用无监督智能学习算法对预处理后的过车数据进行分析处理;
(5)对分析结果进行统计分析,并将统计结果与阈值进行比较后,识别车辆是否为非法运营车辆,将最终的识别结果呈现给用户。
[0005]所述筛选条件包括车辆经过卡口的起止时间,卡口编号,以及车牌号码。
[0006]所述数据预处理包括以下步骤:
(1)特征选择:采用MapReduce引擎获取存储在分布式文件系统HBase中的卡口过车数据,然后通过相关性分析得到车辆过车数据中各特种属性与非法运营车辆间的相关程度,取相关程度靠前的3个确定为过车时间、经过卡口速度以及卡口编号;
(2)过车数据集成:将卡口系统中的过车数据信息与GIS系统中的卡口经玮度坐标信息集成;
(3)过车数据清洗:将过车数据中的非结构化数据进行标准化处理,将过车数据中有缺失或错误的数据删除,同时根据车型条件,删除大型客车、货车车辆;根据车牌号码,删除出租车、单位用车车辆;
(4)过车数据特征属性变换:将过车时间、卡口编号的非数字型属性值转换为数字型属性值,并将过车时间、卡口经玮度坐标值进行放大处理。
[0007]所述采用无监督智能学习算法对预处理后的过车数据进行分析处理包括以下步骤:
(1)计算过车数据间的欧几里得距离:将经预处理后的过车数据转变为数值型数据,计算待识别车辆的每条过车数据与其他所有车辆过车数据的欧几里得距离;
(2)计算过车数据的第k领域:将欧几里得距离按从小到大的顺序进行排序,取第k个值作为该过车数据的第k距离,以此过车数据为中心,以第k距离值为半径的空间区域为该过车数据的第k领域;
(3)计算过车数据的可达距离:将某条过车数据的第k距离与其第k领域中其他过车数据的第k距离比较,取最大的值作为第k领域内过车数据所对应的可达距离;
(4)计算过车数据的可达密度:求得每条过车数据第k领域内所有过车数据可达距离的平均值,对此平均值求倒数,即得到各过车数据的可达密度;
(5)计算过车数据的离群因子:计算得到某条过车数据第k领域内所有过车数据可达密度与该条过车数据的可达密度之比,求得所有比值的平均值,对此平均值求倒数,即得到各个过车数据的局部离群因子;
(6)计算过车数据中的离群点:将每个过车数据的局部离群因子与离群点判别阈值比较,大于离群点判别阈值的局部离群因子作为离群点,离群点判别阈值为1.5。
[0008]将离群点与非法运营车辆判别阈值比较,离群点数大于非法运营车辆判别阈值的车辆即为非法营运车辆,非法运营车辆判别阈值为10。
[0009]本发明的另一目的在于提供一种基于无监督智能学习算法的非法运营车辆识别系统,包括:
检索模块,对卡口过车数据进行序列化处理,将卡口大数据转换成二进制流的方式存储到分布式文件系统HBase中,并使用MapReduce引擎获取存储在分布式文件系统HBase上符合条件的过车数据,将获取的数据存储到分布式文件系统HBase中,实现对卡口过车数据的快速检索;
控制模块,实现对查询条件的自动语义识别,进而对存储的过车数据进行目标查找,获得原始数据;
处理模块,采用MapReduce引擎对获取到的过车数据进行转换、合并、计算操作,并将清洗之后的数据传输到计算节点;负责MapReduce任务的调度、资源的申请及管理,并负责任务的切分、处理、失败任务重启功能,最终完成任务的执行。
[0010]所述处理模块包括:
资源管理模块,申请所需要的过车数据资源,实现对过车数据处理所需的资源的管理,同时保证在并行的条件下资源的合理利用;
任务管理模块,将预处理后的过车数据采用MapReduce任务方式进行离群点分析,负责运行执行MapReduce任务以及任务的调度、分配;
计算模块:负责将过车数据在多个计算节点上进行并行预处理计算,通过Map算法对过车数据进行转换,通过Reduce算法对过车数据进行集成、数据计算及数据的归并;通过MapReduce引擎实现过车数据的离群点并行计算,在Map算法上对过车数据进行欧氏距离、第k领域以及可达距离的计算,在Reduce算法上进行可达密度、离群因子的计算,最终得到过车数据中的离群点。
[0011]由上述技术方案可知,本发明的优点在于:第一,在Hadoop大数据平台上对符合筛选条件的车辆的过车数据进行快速检索,同时,对检索出来的过车数据进行数据预处理,接着通过MapReduce引擎将处理后的过车数据使用无监督智能学习算法进行分析,并将分析结果呈现给用户,从而提高运管部门对非法营运车辆的监控管理能力;第二,本发明的所有智能分析过程都是自动的,最大限度的减少了人为的因素对最终非法运营车辆识别结果的影响,而且所有的数据处理过程都是并行的,极大地提高了数据处理的效率,使用户执行操作时能最快的获得分析的结果。
【附图说明】
[0012]图1为本发明的方法流程图;
图2为本发明的系统结构框图;
图3为本发明的数据检索方法流程图;
图4为本发明的数据预处理方法流程图;
图5为本发明的离群点分析方法流程图。
【具体实施方式】
[0013]如图1所示,一种基于无监督智能学习算法的非法运营车辆识别方法,包括:(1)输入待识别车辆的筛选条件;(2)根据筛选条件,在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据,如图3所示;(3)对检索出来的过车数据进行数据预处理;(4)通过Hadoop大数据平台的MapReduce引擎,采用无监督智能学习算法对预处理后的过车数据进行分析处理;(5)对分析结果进行统计分析,并将统计结果与阈值进行比较后,识别车辆是否为非法运营车辆,将最终的识别结果呈现给用户。所述筛选条件包括车辆经过卡口的起止时间,卡口编号,以及车牌号码。
[0014]如图3所示,在进行检索时,由用户提交查询请求,比如说某个模糊的车辆车牌信息;控制模块对输入的查询请求信息进行分析,控制模块采用MapReduce引擎对查询条件进行自动语义识别;然后通过检索模块对存储在Hbase中的过车数据进行目标查找,获得原始的过车数据并进行序列化处理,如:车辆的车牌信息、卡口名称、卡口过车时间及过车速度等;然后将过车数据传输至处理模块,对过车数据进行数据预处理、计算等操作。
[0015]如图4所示,所述数据预处理包括以下步骤:(I)特征选择:采用MapReduce引擎获取存储在分布式文件系统HBase中的卡口过车数据,然后通过相关性分析得到车辆过车数据中各特种属性与非法运营车辆间的相关程度,取相关程度靠前的3个确定为过车时间、经过卡口速度以及卡口编号;(2)过车数据集成:将卡口系统中的过车数据信息与GIS系统中的卡口经玮度坐标信息集成;(3)过车数据清洗:将过车数据中的非结构化数据进行标准化处理,将过车数据中有缺失或错误的数据删除,同时根据车型条件,删除大型客车、货车车辆;根据车牌号码,删除出租车、单位用车车辆;(4)过车数据特征属性变换:将过车时间、卡口编号的非数字型属性值转换为数字型属性值,并将过车时间、卡口经玮度坐标值进行放大处理,放大处理是为了让过车时间、卡口经玮度在一个数量级上,从而使各个特征属性对识别结果的影响一致。
[0016]如图5所示,所述采用无监督智能学习算法对预处理后的过车数据进行分析处理包括以下步骤:(1)计算过车数据间的欧几里得距离:将经预处理后的过车数据转变为数值型数据,计算待识别车辆的每条过车数据与其他所有车辆过车数据的欧几里得距离;
(2)计算过车数据的第k领域:将欧几里得距离按从小到大的顺序进行排序,取第k个值作为该过车数据的第k距离,以此过车数据为中心,以第k距离值为半径的空间区域为该过车数据的第k领域;(3)计算过车数据的可达距离:将某条过车数据的第k距离与其第k领域中其他过车数据的第k距离比较,取最大的值作为第k领域内过车数据所对应的可达距离;(4)计算过车数据的可达密度:求得每条过车数据第k领域内所有过车数据可达距离的平均值,对此平均值求倒数,即得到各过车数据的可达密度;(5)计算过车数据的离群因子:计算得到某条过车数据第k领域内所有过
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1