一种基于大数据挖掘的轨迹智能匹配关联分析算法模型的制作方法

文档序号：17442160发布日期：2019-04-17 04:54阅读：1577来源：国知局

本发明涉及大数据挖掘领域，更具体地说，是一种基于大数据挖掘的轨迹智能匹配关联分析算法模型。

背景技术：

随着人民生活水平的提高，车辆的拥有量不断上升，人们的活动范围也逐步扩大，同时以机动车为主要交通工具或以机动车为侵害目标的犯罪案件也在日益增多。由于机动车存在使用者多，活动范围大，速度快等特点，故加大了某机关案件侦查的难度。近年来，在全国范围内推广使用的机动车缉查布控系统(简称卡口系统)和电子串号电子设备的侦码系统，实现了道路上车辆数据和电子串号的数据采集，为某机关案件侦破提供了丰富的线索。但是由于数据采集量过于庞大且分属不同系统，需要进行进一步的挖掘和分析，建立不同资源数据的关联关系，通过数据挖掘技术的应用可将这些潜在的规则和关联显性化，找出人车的关联关系。然而当前针对人车关联的研究相对较少，且多数采用传统的关联算法，存在着时间和空间上处理性能低下等问题，对于人、车如此海量的数据，需要更好地挖掘出数据隐藏的价值和关联信息。

本发明根据车牌抓拍数据以及设备采集的侦码数据，基于大数据算法，构建车牌和电子串号的关联模式，实现人车的关系匹配，为某部门交通管理及交通事故的案件侦查提供重要技术支持。

技术实现要素：

本发明实施例的目的在于提供一种基于大数据挖掘的轨迹智能匹配关联分析算法模型，旨在通过对大数据进行分析计算，提供准确的人车关联的信息。

为了实现上述目的，本发明的技术方案如下：

s1：车辆和电子串号的源数据处理；分别将车辆和电子串号的侦码设备采集的数据进行去重、删除缺失值记录等清洗处理；

s2：站点匹配；通过设备经纬度确定侦码采集设备和车辆抓拍设备是否处在同一地点；

s3：判断轨迹方向是否一致；以数据记录中任意一辆车为例，根据车辆的行驶轨迹，当车辆在t1时间经过p1站点，则时间t1±δt对应的电子串号集合为a，车辆t2时间经过p2站点，则时间t2±δt对应的电子串号集合为b(δt为时间阈值)，同时t2±δt对应p3站点的电子串号集合为c，p3站点与p2站点距离n，当n>＝lmax(lmax为距离的阈值)，且c∈a则车辆在时间[t1,t2]内的电子串号的有效集合为a-c+b，依次递归，计算出与车辆关联的电子串号集合；

s4：对数据提取多维度特征作为初始样本；并存储数据；

s5：利用fisher判别法剔除样本中的离群点和异常点；

s6：人车关联模型建立及优化；对处理后的样本建立模型，计算车辆与电子串号的关联度。

优选的，所述步骤s5中，对于汇总分析得出的统计数据，收集样本，样本包括电子串号与车辆明确存在一一对应的关系的特征数据(标记类别为1)、电子串号与车辆明确不存在一一对应的关系的特征数据(标记类别为0)，通过fisher判别法将类别为0的数据中的离群点进行过滤，减少可能对结果产生较大负面影响的点，提高数据集对于模型假设的拟合度。

优选的，所述步骤s6具体包括：

s601、将处理后的样本集，运用logisticregression算法模型得到参数估计值

s602、根据得到的参数估计值计算出每一组车辆和电子串号的logit(p)，并将logit(p)映射收敛到区间[0,1]，得到最终车辆和电子串号的关联度。

一种基于大数据挖掘的轨迹智能匹配关联分析算法模型的使用方法，包括以下步骤：

客户在系统中输入某个电子串号或者车牌信息，系统即可输出与之相应的车牌或电子串号的关联度。

与现有技术相比，本发明的有益效果是：本发明针对所有的车辆和所有的电子串号，通过共站关联分析，对人、车数据进行不断分析、挖掘，计算出人车关联的匹配度，在此基础上改进了传统关联算法的繁杂，提高了人车关联的准确性。

附图说明

图1是本发明实施例1中方法的流程框图；

图2是本发明实施例1中方法的具体流程示意图；

图3是本发明实施例2中系统的结构框图。

具体实施方式

下面结合实例对本发明所述的一种基于大数据挖掘的轨迹智能匹配关联分析算法模型作进一步说明。

以下是本发明所述的最佳实例，并不因此限定本发明的保护范围。

实施例1

图1示出了本发明所述的一种基于大数据挖掘的轨迹智能匹配关联分析算法模型，包括以下步骤：

s1：车辆和电子串号的源数据处理；分别将车辆和电子串号的侦码设备采集的数据进行去重、删除缺失值记录等清洗处理；

s2：站点匹配；通过设备经纬度确定侦码采集设备和车辆抓拍设备是否处在同一地点；

s4：对数据提取多维度特征作为初始样本，并存储数据；

s5：利用fisher判别法剔除样本中的离群点和异常点；

s6：人车关联模型建立及优化；对处理后的样本建立模型，计算车辆与电子串号的关联度。

在本实施例中，图2示出了本发明所述的方法的具体流程步骤，其中，更具体的：

(1)车辆和电子串号的源数据处理；

车辆数据是车辆经过卡口监控设备时，设备采集的车辆行驶信息。电子串号数据是侦码采集设备采集的一定范围内的手机imsi、imei等信息。该步骤主要是对采集到原始数据进行去重、删除缺失值记录等清洗处理。

(2)卡口监控设备和侦码采集设备共站匹配；

由于车辆和电子串号由两个不同的设备采集，故须判断两个设备是否处于同一位置。根据设备所处位置的经纬度，将处于同一地理位置的卡口监控设备及侦码采集设备进行匹配。

(3)判断车牌和电子串号轨迹方向是否一致

根据(2)匹配的卡口监控设备及侦码采集设备，以车辆一天的行车轨迹为基准，判断电子串号的轨迹方向是否与该车牌的轨迹方向一致，若一致，则该车牌与电子串号作为一组关联组。以数据记录中任意一辆车为例，根据车辆的行驶轨迹，若存在某个时刻t1，当车辆经过p1站点，则时间t1±δt对应的电子串号集合为a，当车辆t2时间经过p2站点，则时间t2±δt对应的电子串号集合为b(δt为时间阈值)，同时t2±δt对应p3站点的电子串号集合为c，p3站点与p2站点距离n，当n>＝lmax(lmax为距离的阈值)，且c∈a则车辆在时间[t1,t2]内的电子串号的有效集合为a-c+b，依次递归，计算出与车辆关联的电子串号集合。

(4)多维度特征样本整理存储

根据(3)得到的车牌和电子串号的关联组，探究其潜在形式和数据结构，然后将车牌数据和电子串号数据属性分割及结合进行特征构建，以车辆、电子串号、车牌与电子串号为三个大维度，以其他找出的具有物理意义的特征如匹配天数、匹配次数等为子维度作为初始样本并存储数据。

(5)样本处理，剔除离群点和异常点

由(4)计算得到的样本中，对车辆和电子串号明确存在一一对应关系的样本，标记类别为1，对车辆和电子串号明确不存在一一对应关系的样本，标记类别为0。对类别为0的样本(数据量远远大于类别为1的样本)，运用fisher判别法进行过滤，删除可能对结果产生较大负面影响的点，以期提高样本对于模型假设的拟合度。

(6)建立模型，计算人车关联度

经过(5)处理后的数据，作为建立模型的样本，运用logisticregression算法模型得到参数估计值根据得到的参数估计值可计算出每一组车辆和电子串号的logit(p)，将logit(p)映射收敛到区间[0,1]，得到最终车辆和电子串号的关联度。

实施例2

图3示出了根据实施例1中所述方法进行人车关联度计算的系统，包括过车数据存储模块、侦码数据存储模块、人车轨迹匹配计算模块、统计数据存储模块、人车关联分析模块、人车关联结果解析模块；

所述过车数据存储模块、侦码数据存储模块用于管理采集的原始过车数据和电子串号数据；

所述人车轨迹匹配计算模块用于计算车辆与电子串号的多维度特征样本，并剔除离群点和异常点；

所述统计数据存储模块用于存储车辆和电子串号的多维度特征样本；

所述人车关联分析模块用于基于logisticregression算法计算车辆和电子串号的关联度；

所述人车关联结果解析模块，用于将计算得到的关联度结果解析并存储。

作为优选的，所述过车数据存储模块、侦码数据存储模块和统计数据存储模块采用数据库分布式完成存储。

作为优选的，所述人车轨迹匹配计算模块和人车关联分析模块为大数据计算、分析中心，通过logisticregression算法模型完成计算。

综上所述，本发明提供一种基于大数据挖掘的轨迹智能匹配关联分析算法模型，属于大数据挖掘技术领域。该方法包括对车辆和电子串号源数据进行去重、删除缺失值记录等清洗处理；采用设备经纬度对侦码采集设备和车辆抓拍卡口进行共站匹配，并判断车辆与电子串号轨迹方向是否一致；对数据提取多维度特征作为样本，并剔除样本中的离群点和异常点；最后将处理后的车辆和电子串号数据运用logisticregression算法建立模型，并对模型进行优化。本发明对车辆和电子串号侦码进行了关联分析，可全方位掌握车辆人员和车辆特征，提高了人车关联的准确性，对交通大数据的分析起到很好的支撑作用，为某部门交通案件侦查提供人员寻查等重要技术，以打击犯罪。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王国锋;刘海滨;庄维维;朱荣亚
技术所有人：南京森根科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。