一种基于异常检测的时序数据压缩算法

文档序号:37413899发布日期:2024-03-25 19:02阅读:11来源:国知局
一种基于异常检测的时序数据压缩算法

本发明设计一种基于异常检测的时序数据压缩算法,属于计算机领域中数据库相关。


背景技术:

1、由于人工智能、物联网(iot)、5g等产业的推动,时间序列数据迅速积累并被广泛应用[1]。例如,监控系统不断收集时间序列数据并进行异常检测,以便能够及时响应异常情况。此外,在能源[2]、金融[3]和医疗[4]等行业,企业必须学习历史时间序列数据进行趋势预测,以增强行业竞争力为了适应时间序列数据的增长速度和特殊结构,时间序列数据库(tsdb)应运而生并迅速发展,例如influxdb[5]和prometheus[6]。

2、然而,时间序列数据的爆炸式增长带来了三个亟需解决的问题:(1)数据传输效率低:时序数据的研究对时效性有一定要求,例如工业设备的异常检测,如果数据挖掘的时间延迟过大,那么分析结果将失去意义甚至导致严重的事故。(2)数据存储成本高:为了由于时序数据往往具有采集频率高,维度多,保存时间长的特点,因此所需的存储空间一般较大,这将产生较大的存储开销。(3)环境污染:相关数据标识,数据中心在成为数字经济重要基础的同时,已经成为了主要的碳排放源之一。大量存储设备的运行将产生大量能耗,加剧环境污染,阻碍了“绿色计算”计划的推动,不利于物联网、大数据等行业的可持续发展。寻找更压缩率更高的时间序列数据压缩算法来减少存储所需空间是一个解决上述问题的重要途径。

3、目前已经有一些时序数据压缩算法的相关研究和应用。但大部分都忽略了时序数据的数据模式不稳定的特性,因而算法往往缺乏灵活性和普适性,使得还没有一种算法能够在任何情况下都理想地压缩数据。尤其在工业中,由于外界因素的干扰,时序数据中出现异常点或数据剧烈抖动的情况频繁发生,异常点的出现不仅导致它们本身无法被当前压缩算法有效压缩,甚至还会影响其他数据点的压缩效果,对整体的压缩率有着极大的负面影响。

4、因此,本发明提出了一种基于异常检测的时序数据压缩算法,能够准确识别并分离异常点,减小异常点对整体数据压缩效果的影响。同时针对非异常点和异常点的数据特征,提出了基于滑动窗口的压缩和离散容忍的压缩,两种压缩方法,来进一步提高压缩率。

5、[1]fu tc(2011)a review on time series data mining.engineeringapplications of artificial intelligence 24(1):164-181

6、[2]koprinska i,wu d,wang z(2018)convolutional neural networks forenergy time series forecasting.in:2018 international joint conference onneural networks(ijcnn),ieee,pp 1-8

7、[3]sezer ob,gudelek mu,ozbayoglu am(2020)financial time seriesforecasting with deep learning:a systematic literature review:2005-2019.applied soft computing 90:106181

8、[4]juang wc,huang sj,huang fd,et al(2017)application of time seriesanalysis in modelling and forecasting emergency department visits in amedical centre in southern taiwan.bmj open 7(11):e018628

9、[5]naqvi snz,yfantidou s,zim′anyi e(2017)time series databases andinfluxdb.studienarbeit,universit′e libre de bruxelles 12

10、[6]bader a,kopp o,falkenthal m(2017)survey and comparison of opensource time series databases.datenbanksysteme f′ur business,technologie undweb(btw 2017)-workshopband


技术实现思路

1、本发明为解决的技术问题:

2、时间序列中的异常点会对时序数据的压缩效果带来负面影响。以压缩数组v={120,240,180,2400,270,480,350}为例。当使用delta of delta(dod)编码压缩数组时,得到的二阶差分序列为:d={120,120,-180,2280,-4350,2340,-340}。不难发现,由于异常点v4的数值和其他数据点差异过大,导致d4也比其他二阶差分d大得多。不仅如此,因为v4还参与了相邻数据点v4,v5的二阶差分计算,因此也会影响d5和d6的结果。因此,可以说异常点v4严重影响了dod算法的压缩效果。

3、然而,现有的压缩算法并没有考虑时序数据中存在异常点的压缩场景,使得上述情况层出不穷并严重影响了压缩算法的实际应用效果。其次,时序数据模式并不总是平稳的,目前的算法研究中模式时序数据的数据模式是相对平稳的,面对数据频繁振动的情景,缺乏灵活的抵抗能力。

4、本发明为解决其技术问题采用如下技术方案:

5、本发明专利提出了一种基于异常检测的时序数据压缩算法,其包含四个步骤:

6、(1)构建异常候选集:一开始并不直接定位异常点,因为数据压缩场景中的异常点往往是局部的,因此传统异常检测思路不能完全复用。需要先从全量的待压缩数据中找出可能是异常点的数据。

7、(2)异常点识别和分离:确定异常点范围后,可以使用常规异常检测模型,孤立森林算法进行异常点检测,找出真的异常点并将其从原数据集中分离,记录值和其在原序列中的位置,以便进行解压缩。

8、(3)非异常点压缩:摒弃数值上突变的异常点后,剩下的非异常点数据,在数据模式一般是平滑或小浮动震动,针对这种数据模式,提出一种基于滑动窗口的数据压缩算法,来抵抗数据波动对压缩率的影响。利用滑动窗口来计算实际存储的数据,从而弱化波动数据模式中的局部尖峰和局部低谷。

9、(4)异常点压缩:异常点数据在数值上一般差距较大,因此设计了一种离散容忍的高效数据压缩算法,利用公共前缀来降低数据的实际存储空间。

10、本发明采用以上技术方案与现有技术相比,具有以下有益效果:

11、(1)相比传统的时序数据压缩算法,本发明专利提出的算法能有效识别时序数据中的异常点,通过分区压缩的方式,避免了异常点对压缩效果的影响。同时能够灵活处理数据模式处于平缓、小幅震荡、剧烈震荡等多种数据模式,压缩方案更具自适应性、合理性和灵活性。

12、(2)本发明专利提出的算法在压缩多种场景和数据模式的数据下,都能得到良好得压缩率和压缩效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1