一种基于伴随模型的异常轨迹分析方法与流程

文档序号:17479928发布日期:2019-04-20 06:22阅读:428来源:国知局
一种基于伴随模型的异常轨迹分析方法与流程

本发明属于视频数据处理技术领域,具体涉及一种基于伴随模型的异常轨迹分析方法。



背景技术:

公安信息智能感知是依据在一定时空下的犯罪特点和治安情况,运用人工智能背景下机器学习的理论和方法,通过对警情信息进行分类、甄别、分析、预判,对可能发生犯罪和导致社会动乱的各种要素及其所呈现出来的征兆进行严密监测,对其发展趋势、危害程度进行准确预测,捕捉警讯,及时预警,超前防范,形成有效防控犯罪发生和重大恶性案件爆发的一套运行机制。传统的作战技法无法及时还原违法犯罪行为轨迹,而目前常用采用的积分预警模型是相关行业专家根据已有经验综合打分获得,这种方法的缺点是过多的依赖于先验知识,而忽略了潜在的影响因素。

重点人员异常轨迹分析是公安智能感知机制中的重要应用课题,尤其是结合伴随关系进行重点人员异常轨迹检测,在公安激战法中具有较大的应用价值。目前来说,公安实战应用中对人员伴随情况的异常轨迹分析,主要依靠人工回放视频的方式来进行轨迹事后还原,分析效率较低。而部分地方已构建视频结构化数据分析平台,基于人脸视频结构化数据,使用规则和机器学习算法实现伴随关系异常轨迹检测分析。其中,规则系统主要依赖专家经验,存在一定的主观因素,且难免疏漏。基于机器学习算法的异常轨迹检测相对规则系统具有更好的客观性及准确性。基于机器学习算法的伴随关系异常轨迹检测技术包括监督性学习和无监督性学习两类算法,该方案常用的监督性学习包括逻辑回归、神经网络、支持向量机以及随机森林等算法;该方案常用到的无监督学习包括pca、密度聚类、关联规则、lof、孤立森林以及关系网络等算法。

虽然以上这些方法在异常轨迹检测应用中取得一定效果,但仍然存在以下问题:

(1)通常基于视频结构化数据对人员异常轨迹分析,基本上从时间和位置角度构建模型,没有考虑到人员之间的伴随关系(即目标人员在不同时间下与一个到多个不等人员的同行伴随情况),从而降低了分析精度,在实战应用中大打折扣。

(2)基于视频结构化数据,在人员异常轨迹检测阶段,轨迹相似度的计算往往面临轨迹长度不等和轨迹间断不连续问题,传统的轨迹相似度计算方法,如常用的dtw(dynamictimewarping,动态时间归整)算法,时间复杂度较高,计算效率低下,难以满足实际需要。

(3)基于视频结构化数据,数据量通常较大,且数据通常分布不均匀,传统的异常轨迹检测技术,如dbscan密度聚类,计算系统开销大,计算效率低下,聚类质量较差。

(4)当历史信息积累到一定程度,适合使用监督性学习实现异常轨迹检测。然而使用轨迹数据进行特征构造和特征选择比较复杂,传统的轨迹训练特征选择主要依靠建模人员经验,建模难度较高,无法做到特征的自动选择,而基层业务人员无机器学习基础,在基层实战应用中难以实现模型调优。



技术实现要素:

本发明的目的在于:解决上述现有技术中的不足,提供一种基于伴随模型的异常轨迹分析方法,基于伴随分析与异常轨迹综合分析,提高异常轨迹检测精度;在无监督学习异常检测阶段,使用fastdtw和改进的密度聚类技术,降低系统开销,提高计算性能;在监督学习阶段使用自动特征工程技术,解决轨迹特征选择困难问题,提高模型分析效率和质量。

为了实现上述目的,本发明采用的技术方案为:

一种基于伴随模型的异常轨迹分析方法,包括以下步骤:

步骤一:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;

步骤二:预设伴随人员风险阈值,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,若伴随风险系数大于伴随人员风险阈值,记录为风险伴随人员;

步骤三:通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,得到风险伴随人员的异常轨迹;

步骤四:基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型,通过有监督学习模型进行风险伴随人员异常轨迹分析。

进一步的,上述的步骤一具体包括以下步骤:

步骤101:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;

步骤102:通过分布式计算、实时计算和流式计算,生成人脸视频结构化数据和人脸图像数据并存储。

进一步的,上述的步骤101包括视频结构化系统获取各个监控点的视频图像数据,然后进行数据接入、数据转换、数据加载和数据清洗。

进一步的,上述的人脸视频结构化数据支持第三方接入,所述的人脸视频结构化数据通过关系型数据库或非关系型数据库存储,所述的人脸图像数据通过图像数据库存储。

进一步的,上述的步骤二具体包括以下步骤:

步骤201:预设人员伴随关系的最小支持度;

步骤202:通过频繁模型挖掘算法计算满足最小支持度的关联关系;

步骤203:根据满足最小支持度的关联关系计算伴随系数;

步骤204:根据伴随系数和伴随关系数据通过风险权重模型计算伴随风险系数。

进一步的,上述的步骤三具体包括以下步骤:

步骤301:识别不规则轨迹并进行相似度的度量;

步骤302:基于轨迹相似度矩阵通过密度聚类算法进行异常轨迹检测分析。

进一步的,上述的步骤301中通过fastdtw算法识别不规则轨迹并进行相似度的度量,所述fastdtw算法具体为:

步骤401:对原始的时间序列进行数据抽象,将长度为n的时间序列规约为长度为m的表述方式,所述的m<n,得到粗粒度数据点,所述粗粒度数据点为其对应的若干个细粒度数据点的平均值,所述的细粒度数据点为两个原始的时间序列x和y在坐标轴为(i,j)组成的坐标系中,对应的规整路径所经历的坐标方格,所述的规整路径距离为两个长度不等时间序列之间相似的点组成的路径距离之和,所述的规整路径距离用于衡量两个时间序列之间的相似性;

步骤402:在粗粒度上对时间序列运行dtw算法,得到经过粗粒度化处理后的归整路径经过的方格;

步骤403:将在粗粒度上得到的归整路径经过的方格细粒度化到细粒度的时间序列上,并在细粒度的空间内横向、竖向和/或斜向扩展k个粒度,k为半径参数,所述的k取值为1或2。

进一步的,上述的步骤302中密度聚类算法为改进的dbscan密度聚类算法,所述改进的dbscan密度聚类算法中先将原始数据按照分布密集程度划分为若干个数据区,并行选取各数据区的eps值。

进一步的,上述的步骤四中通过自动特征工程算法训练无监督学习模型具体包括缺失值处理、异常值处理、离散变量处理、数据标准化、特征子集选择、模型训练和评估检验。

由于采用了上述技术方案,本发明的有益效果是:

本发明基于人脸视频结构化数据,结合伴随分析模型,在考虑人员伴随关系的基础上,再使用异常轨迹检测算法进行人员异常轨迹分析,克服了仅从时间和位置角度构建模型在准确性和应用性较差的局限,分析结果更加精准可靠。

本发明基于人脸视频结构化数据,在使用无监督学习模型对伴随人员进行异常轨迹检测阶段,轨迹相似度的计算往往面临轨迹长度不等和轨迹间断不连续问题,本方案使用改进的fastdtw算法,克服了传统轨迹相似度计算效率低下和精度不高的问题,为进一步使用算法做异常轨迹检测打好基础。

本发明基于人脸视频结构化数据,在进行相似度计算后,使用改进的dbscan密度聚类算法进行伴随人员异常轨迹检测,解决了传统密度聚类模型在海量数据、以及数据分布差异较大的情况下计算系统开销大,计算效率低下,聚类质量较差的问题。

本发明基于人脸视频结构化数据,当历史信息积累到一定程度,在使用监督性学习模型阶段,使用自动特征工程技术,解决轨迹特征选择困难问题,业务人员在模型应用阶段可很少需要建模专家参与,让模型更好服务于业务人员,更精准和快速地捕捉到伴随人员异常轨迹。

附图说明

图1为本发明的整体实施流程示意图。

图2为本发明的人脸视频结构化数据准备架构示意图。

具体实施方式

参照附图1-2,对本发明的实施方式做具体的说明。

一种基于伴随模型的异常轨迹分析方法,包括以下步骤:

步骤一:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;

步骤二:预设伴随人员风险阈值,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,若伴随风险系数大于伴随人员风险阈值,记录为风险伴随人员;

步骤三:通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,得到风险伴随人员的异常轨迹;

步骤四:基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型,通过有监督学习模型进行风险伴随人员异常轨迹分析。

本实施例公开了一种基于人脸视频结构化数据的伴随异常轨迹分析方法,该方法的实现主要包括以下步骤:首先,利用人脸视频结构化数据分析平台,实现数据采集、存储、计算和人脸识别;其次,基于频繁模式挖掘技术实现人员伴随关系挖掘;然后,基于伴随关系,使用无监督异常轨迹检测技术,实现伴随人员异常轨迹检测;最后,基于不断积累的伴随关系和被验证的异常信息,使用监督学习技术实现异常轨迹检测分析。

本实施例解决了公安应用中传统激战法伴随异常轨迹检测效率低下问题;基于伴随分析与异常轨迹综合分析,提高异常轨迹检测精度;在无监督学习异常检测阶段,使用fastdtw和改进的密度聚类技术,提高计算性能;在监督学习阶段使用自动特征工程技术,解决轨迹特征选择困难问题,提高模型分析效率和质量。

进一步的,上述的步骤一具体包括以下步骤:

步骤101:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;

步骤102:通过分布式计算、实时计算和流式计算,结合图像识别、深度学习、语义分析等机器学习技术,实现人脸识别,生成人脸视频结构化数据和人脸图像数据并存储。

进一步的,上述的步骤101包括视频结构化系统获取各个监控点的视频图像数据,然后进行数据接入、数据转换、数据加载和数据清洗。

接入的数据包括卡口数据、视频设备监控数据、电警数据等;数据转换为视频数据到图片数据的转换;数据加载包括视频数据、图像数据的加载;数据清洗包括图像分割、人脸图像降噪、图像的标准化。

进一步的,上述的人脸视频结构化数据支持第三方接入,所述的人脸视频结构化数据通过关系型数据库或非关系型数据库存储,所述的人脸图像数据通过图像数据库存储。

人脸视频结构化数据的生成和存储:支持第三方接入,数据存储包括人脸视频结构化数据和人脸图像数据,人脸视频结构化数据支持关系型数据库和非关系型数据库存储,支持hbase、hive、mysql、oracle等存储组件;人脸图像数据使用图像数据库进行存储,支持noe4j等图像数据库的存储。

进一步的,上述的步骤二具体包括以下步骤:

步骤201:预设人员伴随关系的最小支持度;

步骤202:通过频繁模型挖掘算法计算满足最小支持度的关联关系;

步骤203:根据满足最小支持度的关联关系计算伴随系数;

步骤204:根据伴随系数和伴随关系数据通过风险权重模型计算伴随风险系数。

首先,使用频繁模式挖掘技术,找出满足最小支持度的关联关系(组合),即人员的伴随关系。频繁挖掘技术算法分为宽度优先搜索算法和深度优先搜索算法,区分的依据是搜索策略的不同。宽度优先搜索算法采用自低向上地逐层搜索整个搜索空间,而深度优先搜索算法采用逐个分枝对整个搜索空间进行搜索。相对于其他频繁模式挖掘算法,eclat算法采用垂直数据表示的形式,仅需要1次数据库扫描,具有搜索快速性,且通过交叉计数来计算支持度,所得结果具有高效性。

eclat算法建立在概念格理论的基础上,概念格是进行数据挖掘和规则提取的有力工具。该算法利用前缀等价关系划分搜索空间,每个搜索空间定义为一个概念格,划分出来的子空间又称为子概念格。在每个子概念格上,各自采用自底向上的搜索方法独立产生频繁项集。算法过程简述如下:

1)首先对数据库进行一次遍历,生成项对应的事务集;

2)将所有项作为一个集合,求该集合的子集;

3)对每个子集中的项对应的事务集合求交集;

4)交集中元素个数大于阈值的集合,即为频繁项集。

其次,基于伴随关系计算伴随系数。所谓伴随系数,就是所包含的人员组合在伴随人员组合中所占权重,可细分为两个伴随系数。假设人员伴随组合为zh={{a,b},{a,b,c,f},{a,b,d,e,h},{b,c},{a,b},{…}},定义广义伴随系数为gc,狭义伴随系数为xc,该系数既可以作为监督性学习模型的特征输入参数,也可以作为非监督性异常轨迹检测的重要参考。

gc=该伴随组合的出现次数/所有伴随组合的次数

xc=该伴随组合的出现次数/包含该伴随组合的所有伴随集合

最后,匹配伴随位置信息和时间信息,实现伴随关系综合分析。将人员伴随的经纬度位置信息、所属区域、是否重点地区、抓拍时间等信息进行关联,结合广义伴随系数、狭义伴随系数、以及伴随的时间段、出现频率,关联人数,使用权重模型,计算伴随人员风险系数bsr,然后再对bsr达到一定阀值的伴随人员开展异常轨迹分析工作。

进一步的,上述的步骤三具体包括以下步骤:

步骤301:识别不规则轨迹并进行相似度的度量;

步骤302:基于轨迹相似度矩阵通过密度聚类算法进行异常轨迹检测分析。

进一步的,上述的步骤301中通过fastdtw算法识别不规则轨迹并进行相似度的度量,所述fastdtw算法具体为:

步骤401:对原始的时间序列进行数据抽象,将长度为n的时间序列规约为长度为m的表述方式,所述的m<n,得到粗粒度数据点,所述粗粒度数据点为其对应的若干个细粒度数据点的平均值,所述的细粒度数据点为两个原始的时间序列x和y在坐标轴为(i,j)组成的坐标系中,对应的规整路径所经历的坐标方格,所述的规整路径距离为两个长度不等时间序列之间相似的点组成的路径距离之和,所述的规整路径距离用于衡量两个时间序列之间的相似性;

步骤402:在粗粒度上对时间序列运行dtw算法,得到经过粗粒度化处理后的归整路径经过的方格;

步骤403:将在粗粒度上得到的归整路径经过的方格细粒度化到细粒度的时间序列上,并在细粒度的空间内横向、竖向和/或斜向扩展k个粒度,k为半径参数,所述的k取值一般为1或2。

标准的dtw距离的计算不受到轨迹点数是否相同的限制,计算公式为:

其中,dtw(a,b)表示使用dtw算法计算出的轨迹a、b之间的距离。给定轨迹a<a1,a2,...an>和轨迹b<b1,b2,...bm>,head(a)表示a1,rest(a)表示<a2,a3...an>。

由于标准dtw算法复杂度为o(n2)。当两个时间序列都比较长时,dtw算法效率比较慢,不能满足需求,为此,本文使用fastdtw算法进行改进,改进后模型的复杂度为o(n),改进方法如下:

(1)粗粒度化。亦即首先对原始的时间序列进行数据抽象,数据抽象可以迭代执行多次1/1->1/2->1/4->1/16,粗粒度数据点是其对应的多个细粒度数据点的平均值;

(2)投影。在较粗粒度上对时间序列运行dtw算法;

(3)细粒度化。将在较粗粒度上得到的归整路径经过的方格进一步细粒度化到较细粒度的时间序列上。除了进行细粒度化之外,我们还额外的在较细粒度的空间内额外向外(横向,竖向,斜向)扩展k个粒度,k为半径参数,一般取为1或者2。

进一步的,上述的步骤302中密度聚类算法为改进的dbscan密度聚类算法,所述改进的dbscan密度聚类算法中先将原始数据按照分布密集程度划分为若干个数据区,并行选取各数据区的eps值。

在对不规则轨迹进行相似度的度量的基础上,下面基于相似度矩阵,使用改进的dbscan密度聚类技术,实现伴随人员异常轨迹检测,克服传统dbscan模型计算系统开销大,以及当空间聚类的密度不均匀且聚类间距离相差很大时,聚类的质量较差的问题,本方案对dbscan输入参数进行改进。

通常对dbscan算法输入参数eps(聚类半径)的设定依靠经验,当数据密度相差较大和类间距离分布不均匀时,很难选取一个合适的eps值来进行聚类且得到比较准确的结果。现有的通过绘制k距离图的方式选择最优eps,当eps值已经比较接近“理想”值,但常有微小差距,最终造成聚类结果的相差很大,可以考虑采用如下方法来加以改善:

(1)可以对所有聚类对象按照从一个簇到另一个簇,按簇边缘-->簇核心-->簇边缘的顺序排序。这样,该对象序列就可以反映出数据空间基于密度的簇结构信息,基于这些信息可以容易地确定合适的eps值,并随之发现各个簇。

(2)并行化处理。从dbscan算法可以看出,全局变量eps值影响了聚类质量,尤其是数据分布不均匀时。因此,考虑对数据进行划分,每一个划分中的数据分布相对较均匀,根据每个划分中数据的分布密集程度来选取eps值。这样一方面降低了全局变量eps值的影响,另一方面由于具有多个划分,因此考虑并行处理,从而提高聚类效率,也降低了dbscan算法对内存的较高要求。

(3)增量式处理。当数据增加或者删除时,只考虑其增加或删除的数据所影响到的那些类。这种方法在处理大数据集时非常有效,不需要重新对数据库中的数据进行聚类,只需要对类进行渐进性地更新,修正和加强已发现的类。

基于改进的dbscan算法,利用“分而治之”和高效的并行算法思想,克服传统dbscan模型计算系统开销大,以及当空间聚类的密度不均匀且聚类间距离相差很大时,聚类的质量较差的问题。

进一步的,上述的步骤四中通过自动特征工程算法训练无监督学习模型具体包括缺失值处理、异常值处理、离散变量处理、数据标准化、特征子集选择、模型训练和评估检验。

缺失值处理:对缺失值处理比较普遍的做法有两种,即删除存在缺失值的个案和对缺失值作插补操作,若缺失占比较低,删除该缺失值个例对建模整体影响不大,可以选择删除存在缺失值的个例;若缺失值占比较高,则可选择对缺失值做插补操作。

异常值处理:对异常值的处理方式一般包括四种,其一为删除含有异常值的记录;其二为将异常值视为缺失值,交给缺失值处理方法来处理;其三为用平均值(中位数)或众数来填充,其四为不做任何处理。

离散变量处理:大部分算法不能直接处理类别变量(离散变量),因此在对数据建模前需对类别变量转化为连续值参与模型训练,对类别变量转化数值有多种方法,如独热编码、风险值编码、类别编码、目标编码等多种编码方式。

数据标准化:该步骤主要是为了消除特征之间量量纲的影响,在基于距离的算法中具有非常重要的意义。支持min-max标准化、z-score标准化、小数定标标准化、功效系数法标准化等多种标准化算法。

特征子集选择:支持基于搜索策略划分的特征选择方法和基于评价准则划分的特征选择方法,基于搜索策略划分的特征选择方法包括采用全局最优搜索策略的特征选择方法(如广度优先、分支限界搜索、定向搜索、前向后向搜索等)和采用随机搜索的特征选择方法(如随机产生序列选择算法、模拟退火算法和遗传算法等);而基于评价准则划分的特征选择方法包括采用过滤式评价策略的特征选择方法和基于封装式评价策略的特征选择方法。

模型的训练:使用分类器,按比例将数据集分割成训练集和测试集,常用7:3分割方式分割,然后在训练集中分割部分作为验证集合,在验证集上对模型参数进行优化选择。

评估检验:对特定评估指标(如精确率、召回率、f1值、auc、均方误差、轮库系数等)进行评估检验,确定模型是否满足实际需要,若满务实际需要,则完成建模过程,否则需对前面步骤进行重复执行,直到满足建模效果为止。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1