一种基于大规模WiFi活动轨迹的异常行为检测方法与流程

文档序号:12500233阅读:881来源:国知局

本发明涉及数据挖掘分析技术领域,尤其涉及一种基于大规模WiFi活动轨迹的异常行为检测方法。



背景技术:

在传统的WiFi扫描数据的处理中,WiFi扫描列表中不包括显示移动端的坐标信息,且WiFi扫描数据与GPS轨迹数据相比,不能精确记录用户的实际地理坐标且不具有连续的位置点,因此传统的WiFi扫描数据不能构成移动端的时间、地点、事件的要素。

在现有技术中,移动端的轨迹数据通常是由内置有GPS功能的移动终端来进行记录,然而GPS需要开启时才能够工作,且耗电较大,并且在城市或室内等有遮挡物的环境下,GPS的定位精度就会较差。然而,WiFi受到城市高楼和室内墙阻隔的影响较小,且WiFi正不断的在城市里密集覆盖,因此在这种环境下,WiFi相对于GPS更具优势。

然而,目前还没有一种合理的方法能够通过WiFi扫描设备来记录人群的出行轨迹,进而通过所记录的出行轨迹来检测人群中活动轨迹的异常行为,为已经发生的安全事件提供辅助研判,或者为可能发生的安全事件做出预警。



技术实现要素:

本发明的目的在于针对现有技术中的不足,建立双层异常检测模型,第一层利用SVDD(Support Vector Domain Description,支持向量域描述)算法作为基本分类器,通过集成技术训练得到群体异常检测模型来排除大量正常的MAC(Media Access Control,用来定义网络设备的位置),第二层通过单个MAC时间一致性和空间一致性检测进一步确定异常MAC。

为实现上述目的,本发明提出了一种基于大规模WiFi活动轨迹的异常行为检测方法,包括以下步骤:

第一步:通过WiFi采集设备收集移动端的MAC及时间戳,根据所述WiFi采集设备的部署位置获取使用所述移动设备的移动对象的位置信息;

第二步:通过Flume进行实时采集所述MAC、时间戳和位置信息,并推送存入分布式文件系统中,所述分布式文件系统对所述数据进行相关预处理,通过频繁轨迹挖掘算法确定个体行为正常的MAC;

第三步:在所述个体行为正常的MAC中抽取表征移动对象行为的特征属性,通过多次抽样将所述特征属性规整为特征向量,且所述特征向量作为SVDD算法的输入;然后采用SVDD算法建立多个异常行为检测模型,所述异常行为检测模型将MAC筛分为符合群体行为规律的MAC和异于群体行为规律的MAC,并排除大量符合群体行为规律的MAC;

第四步:针对第三步中筛选出来的异于群体行为规律的MAC,通过时间一致性检测单个异于群体行为规律MAC在活动时间上的偏离度以及通过空间一致性检测单个异于群体行为规律MAC在活动地点上的聚集度,根据所述偏离度和聚集度再次判断异于群体行为规律MAC是否为异常对象。

进一步的,在所述基于大规模WiFi活动轨迹的异常行为检测方法中,在个体行为正常的MAC中,对个体行为正常MAC的活动地点和时间经过预处理,得出每天每个MAC的活动时间序列,且将采集时间间隔超过阈值的MAC活动时间序列断开分成两段行程。

进一步的,在所述基于大规模WiFi活动轨迹的异常行为检测方法中,在第三步中所述多次抽样包括以下步骤:将抽取出来的特征属性存入hbase(分布式的、面向列的开源数据库)中,经过抽样和归一化处理规整为特征向量,多次抽样产生多组训练集,其中抽样基数比例5%。

进一步的,在所述基于大规模WiFi活动轨迹的异常行为检测方法中,在第三步中所述多个异常行为检测模型的建立包括以下步骤,通过分布式计算平台利用SVDD算法以特征向量为输入训练出多个异常检测模型,建立多个异常检测模型的投票机制,根据投票机制的结果判断特征向量的类别。

进一步的,在所述基于大规模WiFi活动轨迹的异常行为检测方法中,所述特征属性为每日出行时间、行程数、MAC活动采集次数、历史出行时间、历史行程数和历史MAC活动采集次数。

进一步的,在所述基于大规模WiFi活动轨迹的异常行为检测方法中,在第四步中,对异于群体行为规律进行再次判断时,当所述偏离度大于阈值和所述聚集度小于阈值时则认定所述异于群体行为规律为异常MAC对象。

与现有技术相比,本发明的有益效果是:在采集的MAC记录的基础上,利用频繁轨迹挖掘算法找出个体行为正常的MAC,抽取这些个体行为正常MAC的活动特征属性,作为SVDD算法的输入,建立多个异常检测模型过滤掉大量符合群体行为规律的MAC,既大大缩短了处理大规模数据需要的时间又保证了异常检测方法的稳定性,且能很好克服本应用环境中正负样本严重不均衡的特点,进而对单个异于群体行为规律的MAC进行时间一致性和空间一致性检测,能够更加准确的锁定异常活动的MAC。本发明可有效的应用在公共安全领域,实时监控移动对象的移动轨迹,准确实时识别出异常行为,为已经发生的安全事件提供辅助研判,为可能发生的安全事件做出预警。

附图说明

图1为基于大规模WiFi活动轨迹的异常行为检测方法的处理流程示意图。

具体实施方式

下面将结合示意图对本发明的基于大规模WiFi动轨迹的异常行为检测方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。

如图1所示,本发明提出了一种基于大规模WiFi活动轨迹的异常行为检测方法,包括以下步骤:

第一步:通过WiFi采集设备收集移动设备的MAC及时间戳,根据所述WiFi采集设备的部署位置获取使用所述移动设备的移动对象的位置信息;

第二步:通过Flume进行实时采集所述MAC、时间戳和位置信息,并推送存入分布式文件系统hdfs中,所述分布式文件系统对所述数据进行相关预处理,通过频繁轨迹挖掘算法确定个体行为正常的MAC;

第三步:对上一步中确定的个体行为正常MAC的活动地点和时间经过预处理,得出每天每个MAC的活动时间序列,对于前后两次采集时间超过阈值(可设置)的活动时间序列,将其断开分为两段行程,然后抽取表征移动对象行为的特征属性,所述特征属性包括但不限于每日出行时间、行程数、MAC活动采集次数、历史出行时间、历史行程数和历史MAC活动采集次数等。所述将特征属性可以分为当天活动时间段序列和历史活动时间段序列,其中历史活动时间段序列分工作日活动时间段序列和休息日活动时间段序列,如表1所示。

表1为移动对象行为的特征分类

将抽取出来的特征属性存入hbase中,经过抽样和归一化处理规整为特征向量,多次抽样(抽样基数比例5%)产生多组训练集,通过分布式计算平台(如Hadoop和Spark)利用SVDD算法以特征向量为输入训练出多个异常检测模型,通过这多个异常检测模型的投票机制(所述投票机制为:模型输出-1或1,计算各模型输出值的和sum,sum<0则为负例,反之为正例),所述投票机制用于判断特征向量的类别,当sum≥0时,MAC为符合群体行为规律的MAC,当sum<0时,MAC为异于群体行为规律的MAC,从而将MAC筛分为符合群体行为规律的MAC和异于群体行为规律的MAC,并将大量符合群体行为规律的MAC排除。

第四步:针对第三步中筛选出来的异于群体行为规律的MAC,通过时间一致性检测计算单个MAC在活动时间上的偏离度,同时通过空间一致性检测计算单个MAC在活动地点上的聚集度,当偏离度大于阈值且聚集度小于阈值时,将该MAC认定为异常对象。

其中,所述时间一致性检测:当天活动时间段序列和历史活动时间段序列(分工作日和休息日),历史活动时间段序列通过和当天活动时间段序列迭代计算,以相同部分保留不相交部分取一半时间为原则计算当天的历史活动时间段序列。则偏离度θ为当天活动时间段序列和历史活动时间段序列的不重合时间长度与总时间长度(时间并集)的比:

其中,所述空间一致性检测:先计算MAC在各个设备(不同地点)中出现的频次,包括当天被采集频次和历史频次(最近10个工作日或最近6个休息日每天被采集次数的中位数),并将历史频次按从大到小进行排序为,其对应设备的当天频次为,对于其前k个频次,计算聚集度:

综上,在本发明实施例提供的基于大规模WiFi活动轨迹的异常行为检测方法中,在采集的MAC记录的基础上,利用频繁轨迹挖掘算法找出个体行为正常的MAC,抽取这些个体行为正常MAC的活动特征属性,作为SVDD算法的输入,建立多个异常检测模型过滤掉大量符合群体行为规律的MAC,既大大缩短了处理大规模数据需要的时间又保证了异常检测方法的稳定性,且能很好克服本应用环境中正负样本严重不均衡的特点,进而对单个异于群体行为规律的MAC进行时间一致性和空间一致性检测,能够更加准确的锁定异常活动的MAC。本发明可有效的应用在公共安全领域,实时监控移动对象的移动轨迹,准确实时识别出异常行为,为已经发生的安全事件提供辅助研判,为可能发生的安全事件做出预警。

上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1