一种基于时间序列的空间分析异常检测方法与流程

文档序号:26499510发布日期:2021-09-04 01:47阅读:177来源:国知局
一种基于时间序列的空间分析异常检测方法与流程

1.本发明属于国土规划空间分析异常检测领域,特别是涉及一种基于时间序列的空间分析异常检测方法。


背景技术:

2.国土规划空间信息云平台采用分布式系统的管理方式,其规则和复杂性不断增加,使得日志量暴增。目前异常检测在现代大规模分布式系统的管理中起着重要作用,记录系统运行时信息的日志已广泛用于异常检测。在现代分布式系统全天候持续产生大量日志的背景下,基于自动日志分析的异常检测方法成为学术界和工业界具有实际重要性的研究课题。
3.如国土规划空间信息云平台这样的现代大规模服务系统,通过数千台机器来扩展构建分布式系统,扩展后分布式系统的高性能计算能够处理用户高并发的访问请求。与此同时,分布式系统下高并发用户访问请求产生的日志给基于日志的异常检测带来挑战。挑战主要集中在两方面:一是从原始日志数据集中识别出同一国土规划空间分析任务,二是基于国土规划空间分析日志的异常检测。
4.国土规划空间分析任务虽然可以通过空间分析任务号标识,但是无法区分用户前后多次对同一国土规划空间分析任务进行操作。因此考虑从国土规划空间分析日志数据之间的相关性入手解决上述问题,国土规划日志记录的是空间分析图层的分析返回结果,一次国土规划空间分析任务往往是对一个分析专题进行空间分析,因此同一专题下的不同图层很大概率会被同时分析,所以同一国土规划空间分析任务涉及的图层操作量之间相关性很强,因此可以通过不同图层操作量时间序列来辅助识别同一国土规划空间分析任务操作。
5.时间序列聚类是挖掘相似时间序列的有效方法,层次聚类采用自底向上的思想,只需要计算初始每对节点的相似度,按照相似度由高到低排序,逐步重新连接各结点。在时间序列聚类中,两段时间序列的长度可能并不相等,因此传统的时间序列聚类不能采用常用的欧式距离度量,为解决上述问题dynamictimewarping(dtw)被提出。dtw是一种衡量两个长度不同的时间序列相似度的方法,广泛应用在数据挖掘和信息检索等领域。
6.空间分析响应耗时是国土规划空间分析服务的重要性能评价指标,由于国土规划空间分析日志数据量巨大,很小比例的过长空间分析响应耗时也会造成大量用户的体验下降,因此有必要对空间分析响应耗时进行异常检测。在异常检测领域,chandola等总结异常类别可以分为点异常、上下文异常和集体异常,国土规划空间分析异常既包括分析耗时前后差异过大的上下文异常,也包括分析耗时本身过长的点异常。对点异常的异常检测,breunig等提出了一种局部异常因子,用于独立表示系统中某一组件的状态情况而不受到相关组件的影响。liu等提出一种孤立随机森林算法,这种方法采用下采样的方式将异常事件从所有的事件中隔离并提取识别,为大数据场景下的异常检测提供了线性时间复杂度的运算效率以及相对较低的内存需求。


技术实现要素:

7.本发明针对现有技术的不足,提供一种基于时间序列的空间分析异常检测方法,实现了国土规划分析服务平台同一国土规划任务的识别,以及导致图层分析服务性能下降的异常响应的检测。该方法主要包括同一国土规划空间分析任务识别和国土规划空间分析异常检测两部分。同一国土规划空间分析任务识别部分,首先依据空间分析操作类型和图层两个维度,将图层分析日志原始数据集划分为各个特定操作类型和图层的子数据集,接着统计每个子数据集小时粒度的操作量时间序列,然后基于各操作量时间序列间的dtw距离矩阵,利用层次聚类方法,聚类并合并具有相似时间序列的子数据集,最后基于国土规划空间分析任务号和日志记录时间,提取同一规划空间分析项目“同一次操作”下的日志记录。国土规划空间分析异常检测部分主要基于图层分析日志记录的面积、耗时信息对国土规划空间分析异常操作进行识别和提取。
8.为了达到上述目的,本发明提供的技术方案是一种基于时间序列的空间分析异常检测方法,包括以下步骤:
9.步骤1,依据空间分析操作类型、具体的分析图层将图层分析日志原始数据集划分为特定操作类型和图层的子数据集,若子数据集为空,则不进行后续操作;
10.步骤2,统计步骤1划分得到的各个特定操作类型和图层子数据集的操作量时间序列;
11.步骤3,归一化步骤2中统计得到的每个操作量时间序列;
12.步骤4,计算步骤3归一化后的各个操作量时间序列间的dtw距离矩阵w;
13.步骤5,变换步骤4计算得到的操作量时间序列间的dtw距离矩阵为凝聚矩阵w

,凝聚矩阵w

是距离矩阵w的上三角矩阵的一维表示;
14.步骤6,基于步骤5得到的操作量时间序列间的dtw凝聚矩阵w

,用dtw距离替换聚类中各操作量时间序列之间的欧式距离衡量相似度,并基于single

link方法自底向上层次聚类操作量时间序列,聚类得到相似的特定操作类型和图层操作量时间序列;
15.步骤7,合并步骤6聚类得到的相似操作量时间序列对应的特定操作类型和图层子数据集;
16.步骤8,基于国土规划空间分析任务号,提取步骤7合并后数据集中同一国土规划空间分析项目的日志记录;
17.步骤9,提取步骤8中同一国土规划空间分析项目“同一次操作”下的日志记录;
18.步骤10,若步骤9中国土规划空间分析项目日志“同一次操作”下的记录耗时超过阈值(α为经验值),则判定该空间分析项目日志记录为异常操作;
19.步骤11,若步骤9中国土规划空间分析项目日志“同一次操作”下的记录耗时小于等于α,则根据步骤9中同一国土规划空间分析项目“同一次操作”下的日志记录的返回面积、耗时信息判断其是否为异常操作。
20.而且,所述步骤3中归一化公式如下:
[0021][0022]
其中,x

为归一化后操作量时间序列值,x为原始操作量时间序列值,x
min
为最小操作量时间序列值,x
max
为最大操作量时间序列值。
[0023]
而且,所述步骤4中dtw距离矩阵w的计算方式如下:假定任意两个时间序列l
ai,li
(s,t)={s
ii
(t1),s
ii
(t2),

,s
ii
(t
i
)}和l
aj,lj
(s,t)={s
jj
(t1),s
jj
(t2),

,s
jj
(t
i
)},s(t)表示时间t对应的时间序列值,ai、li表示第i个时间序列的操作类型和图层,若l
ai,li
(s,t)有n个数据点,l
aj,lj
(s,t)有m个数据点,计算两个序列各个点之间的距离,得到m
×
n的距离矩阵m:
[0024][0025]
dtw算法的目标就是在距离矩阵m中找出一条从矩阵左上角到右下角的路径,使得路径上的元素和最小。采用递归算法求最短路径长度,从矩阵左上角m(1,1)到任一点m(i,j)的最短路径长度为l
min(i,j)
,则有起始条件:
[0026]
l
min(1,1)
=m(1,1)
ꢀꢀꢀ
(3)
[0027]
递推规则:
[0028]
l
min(i,j)
=min{l
min(i,j

1)
,l
min(i

1,j)
,l
min(i

1,j

1)
}+m(i,j)
ꢀꢀꢀ
(4)
[0029]
最终l
min(n,m)
即为我们所求的dtw距离,对于任意两个时间序列均可求得一个dtw距离,如此对所有时间序列计算得到dtw距离矩阵w。
[0030]
而且,所述步骤9中是将日志记录产生时间在同一分钟内的数据,作为同一国土规划空间分析项目“同一次操作”下的日志记录。
[0031]
而且,所述步骤10中国土规划空间分析项目日志“同一次操作”下的记录耗时超过阈值α,是指当一分钟内有多次访问操作时,若存在一次操作的耗时超过阈值α,就将“同一次操作”判定为异常操作。
[0032]
而且,所述步骤11中国土规划空间分析项目日志“同一次操作”下的记录耗时小于等于α,是指当一分钟内存在多次访问操作时,所有访问操作的耗时都小于等于α,若一分钟内某几次访问操作的空间分析面积相同,则比较两两访问操作的耗时差,并将耗时最短的操作访问对应的时间作为最小耗时,若出现耗时差大于最小耗时,则将“同一次操作”判定为异常操作。
[0033]
与现有技术相比,本发明具有如下优点:依据空间分析操作类型和图层划分原始数据集为各个子数据集,并统计各个子数据集对应的操作量时间序列,基于操作量时间序列聚类结果合并子数据集,对合并后子数据集进行异常检测,异常检测考虑了不同图层在分析任务中的共现特点,能提高检测的准确性。面向国土规划空间分析应用领域,基于图层分析日志记录的面积、耗时信息对国土规划空间分析异常操作进行识别和提取,可为国土规划空间分析服务平台运行维护提供参考,有效避免规模化并行服务中带来的性能下降处理不及时的问题,有助于维持国土规划空间分析服务性能的稳定性。
附图说明
[0034]
图1为本发明实施例的流程图。
具体实施方式
[0035]
本发明提供一种基于时间序列的空间分析异常检测方法,主要包括同一国土规划空间分析任务识别和国土规划空间分析异常检测两部分。同一国土规划空间分析任务识别部分,首先依据空间分析操作类型和图层两个维度,将图层分析日志原始数据集划分为各个特定操作类型和图层的子数据集,接着统计每个子数据集小时粒度的操作量时间序列,然后基于各操作量时间序列间的dtw距离矩阵,利用层次聚类方法,聚类并合并具有相似时间序列的子数据集,最后基于国土规划空间分析任务号和日志记录时间,提取同一规划空间分析项目同一次操作下的日志记录。国土规划空间分析异常检测部分主要基于图层分析日志记录的面积、耗时信息对国土规划空间分析异常操作进行识别和提取。
[0036]
下面结合附图和实施例对本发明的技术方案作进一步说明。
[0037]
如图1所示,本发明实施例的流程包括以下步骤:
[0038]
步骤1,依据空间分析操作类型、具体的分析图层将图层分析日志原始数据集划分为特定操作类型和图层的子数据集,若子数据集为空,则不进行后续操作;
[0039]
步骤2,统计步骤1划分得到的各个特定操作类型和图层子数据集的操作量时间序列;
[0040]
步骤3,归一化步骤2中统计得到的每个操作量时间序列;
[0041]
步骤4,计算步骤3归一化后的各个操作量时间序列间的dtw距离矩阵w;
[0042]
步骤5,变换步骤4计算得到的操作量时间序列间的dtw距离矩阵为凝聚矩阵w

,凝聚矩阵w

是距离矩阵w的上三角矩阵的一维表示;
[0043]
步骤6,基于步骤5得到的操作量时间序列间的dtw凝聚矩阵w

,用dtw距离替换聚类中各操作量时间序列之间的欧式距离衡量相似度,并基于single

link方法自底向上层次聚类操作量时间序列,聚类得到相似的特定操作类型和图层操作量时间序列;
[0044]
步骤7,合并步骤6聚类得到的相似操作量时间序列对应的特定操作类型和图层子数据集;
[0045]
步骤8,基于国土规划空间分析任务号,提取步骤7合并后数据集中同一国土规划空间分析项目的日志记录;
[0046]
步骤9,提取步骤8中同一国土规划空间分析项目日志记录产生时间在同一分钟内的数据,得到同一国土规划空间分析项目“同一次操作”下的日志记录;
[0047]
步骤10,若步骤9中国土规划空间分析项目日志“同一次操作”下的记录耗时超过阈值α(即一分钟内有多次访问操作时,存在一次操作的耗时超过阈值α,α为经验值),就将“同一次操作”判定为异常操作。
[0048]
步骤11,若步骤9中国土规划空间分析项目日志“同一次操作”下的记录耗时小于等于α(即一分钟内多次访问操作的耗时都小于等于α),则进一步判断步骤10中同一国土规划空间分析项目“同一次操作”下的日志记录的国土规划空间分析面积,若空间分析面积相同,且访问操作的耗时相差大于最小耗时时,将其判定为空间分析异常操作。
[0049]
下面结合具体实施例某国土规划空间信息云平台后台图层分析日志,进一步阐述本发明的技术方案,包括以下步骤:
[0050]
步骤1,对于2019年4月4日至2020年7月9日某国土规划空间信息云平台后台图层分析日志,依据空间分析操作类型将图层分析日志原始数据集划分为入库、分析、查重三种
操作类型子数据集。
[0051]
步骤2,依据基本农田保护图斑、地质灾害危险程度分区、土地规划地类等85种分析图层将步骤1中划分得到的三种操作类型子数据集划分为各个特定操作类型和图层子数据集,若子数据集为空,则不进行后续操作。划分后的记录形式为{action:..,tc:..,df:..},action表示图层分析日志操作类型,tc表示图层,df表示划分后子数据集。
[0052]
步骤3,统计步骤2划分得到的各个特定操作类型和图层子数据集的操作量时间序列,各个特定操作类型和图层子数据集大小不同,统计得到的各操作量时间序列包含的数据点个数不相同。
[0053]
步骤4,归一化步骤3中统计得到的每个操作量时间序列,所述归一化公式如下:
[0054][0055]
其中,x

为归一化后操作量时间序列值,x为原始操作量时间序列值,x
min
为最小操作量时间序列值,x
max
为最大操作量时间序列值。
[0056]
步骤5,计算步骤4归一化后的各个操作量时间序列间的dtw距离矩阵w。假定任意两个时间序列l
ai,li
(s,t)={s
ii
(t1),s
ii
(t2),

,s
ii
(t
i
)}和l
aj,lj
(s,t)={s
jj
(t1),s
jj
(t2),

,s
jj
(t
i
)},s(t)表示时间t对应的时间序列值,ai、li表示第i个时间序列的操作类型和图层,若l
ai,li
(s,t)有n个数据点,l
aj,lj
(s,t)有m个数据点,计算两个序列各个点之间的距离,得到m
×
n的距离矩阵m:
[0057][0058]
dtw算法的目标就是在距离矩阵m中找出一条从矩阵左上角到右下角的路径,使得路径上的元素和最小。采用递归算法求最短路径长度,从矩阵左上角m(1,1)到任一点m(i,j)的最短路径长度为l
min(i,j)
,则有起始条件:
[0059]
l
min(1,1)
=m(1,1)
ꢀꢀꢀ
(3)
[0060]
递推规则:
[0061]
l
min(i,j)
=min{l
min(i,j

1)
,l
min(i

1,j)
,l
min(i

1,j

1)
}+m(i,j)
ꢀꢀꢀ
(4)
[0062]
最终l
min(n,m)
即为我们所求的dtw距离,对于任意两个时间序列均可求得一个dtw距离,如此对所有时间序列计算得到dtw距离矩阵w。
[0063]
步骤6,变换步骤5计算得到的操作量时间序列间的dtw距离矩阵为凝聚矩阵w

,凝聚矩阵w

是距离矩阵w的上三角矩阵的一维表示。由于dtw距离矩阵是对称矩阵,随着数据量的增大占用的内存空间也增大,为了节省存储空间提高计算效率,此处将其变换为凝聚矩阵便于后续操作。
[0064]
步骤7,基于步骤6得到的操作量时间序列间的dtw凝聚矩阵w

,用dtw距离替换聚类中各操作量时间序列之间的欧式距离衡量相似度,并基于single

link方法自底向上层次聚类操作量时间序列,聚类得到相似的特定操作类型和图层操作量时间序列。聚类后结果用{c
i
=[s
j
]}表示,其中,c
i
表示第i类操作量时间序列,i=1,2,3,

;s
j
表示编号为j的操作量时间序列,j表示时间序列的编号。
[0065]
步骤8,合并步骤7聚类得到的相似操作量时间序列对应的特定操作类型和图层子数据集,合并后数据集用df表示,df
k
表示合并后第k个数据集。
[0066]
步骤9,基于国土规划空间分析任务号,提取步骤8合并后数据集中同一国土规划空间分析项目的日志记录。
[0067]
步骤10,提取步骤9中同一国土规划空间分析项目日志记录产生时间在一分钟内的数据,得到同一国土规划空间分析项目“同一次操作”下的日志记录。
[0068]
步骤11,若步骤10中国土规划空间分析项目日志“同一次操作”下的记录耗时超过阈值α(即一分钟内有多次访问操作时,存在一次操作的耗时超过阈值α,α为经验值),就将“同一次操作”判定为异常操作。
[0069]
步骤12,若步骤10中国土规划空间分析项目日志“同一次操作”下的记录耗时小于等于α(即一分钟内多次访问操作的耗时都小于等于α),则进一步判断步骤10中同一国土规划空间分析项目“同一次操作”下的日志记录的国土规划空间分析面积,若空间分析面积相同,且访问操作的耗时相差大于最小耗时时,将其判定为空间分析异常操作。
[0070]
此处是对一分钟内的几次访问操作日志记录的国土规划空间分析面积进行比较,如果某几次访问操作的空间分析面积相同,则比较两两访问操作的耗时差,并将耗时最短的操作访问对应的时间作为最小耗时,若出现耗时差大于最小耗时,则将“同一次操作”判定为异常操作。
[0071]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1