用于学习异常检测的样本的方法

文档序号:9524399阅读:358来源:国知局
用于学习异常检测的样本的方法
【技术领域】
[0001] 本发明总体设及信号处理,并且更具体地,设及检测实值时间序列数据中的异常。
【背景技术】
[0002] 对于许多应用,可W生成并分析时间序列数据。例如,自动设备监视可W避免工业 设备的高费用维修。运可W通过分析由设备上或设备附近的传感器获得的时间序列数据W 检测可W表示设备需要维护或维修的异常来完成。
[0003] 因此,期望有效地学习一维时间序列数据的模型。然后,可W使用该模型来检测来 自相同源的未来测试时间序列数据中的异常。典型地,从没有异常的训练时间序列来学习 该模型。
[0004] 已知用于学习时间序列数据的模型的多种方法。一种简单且有效的方法使用整个 训练时间序列数据作为模型。换句话说,将整个训练时间序列存储为模型。因此,可W忽略 训练时间。为了检测异常,将测试时间序列的每一个窗口与训练时间序列的每一个窗口进 行比较,并且将到最接近匹配窗口的距离用作异常分数。如果异常分数大于阔值,则通报 (signaling)异常,参见Keo曲等人的"册TSAX:Finding1:heModelUnusualTimeSeries Subsequence:Algo;rithmsandApplications,"ICDM2005。该方法的主要缺点在于,其需 要存储可能非常大的整个训练时间序列,和具有大范围的不同类型的时间序列数据,并且 异常分数的计算很慢,计算很慢会妨碍使用该方法用于实时应用。 阳0化]用于对时间序列数据建模的另一类方法使用预测技术。运类方法使用时间序列数 据的大量先前值来预测当前值,参见Ma等人的"OnlineNoveltyDetectiononTemporal Sequences, "SIGK孤 2003U及Koskivaara的"ArtificialNeuralNetworksfor PredictingPatternsinAuditingMonthlyBalances, "J.oftheOperationalResearch Society, 1996。虽然那些预测模型可W是紧凑的,但是所述模型可能不能准确地预测一些 时间序列数据。
[0006] 用于对时间序列数据建模的另一种方法是作为穿过d维特征空间的轨迹 (trajectory)。已经使用d维空间中的分段线性路径或框(box)来有效地表示在训练 时间序列数据中的有效路径,参见Mahoney等人的"TrajectoryBoundaryModelingof TimeSeriesforAnomalyDetection,'WorkshoponDataMiningMethodsforAnomaly Detectionat邸化2005。用于学习的该方法具有0(nlo即)的复杂性。
[0007] 一种稍微不同的方法确定用于表示时间序列数据的短窗口的子空间,并且然后用 自回归模型或密度估计对子空间中的轨迹建模,参见Liu等人的"ModelingHeterogeneous TimeSeriesDynamicstoProfileBigSensorDatainComplexPhysical Systems,"IEEEConf.onBigData, 2013。
[0008] Jones等人的于 2013 年 7 月 1 日提交的名为"MethodforDetectingAnomalies inaTimeSeriesDatawithTrajectoryandStochasticComponents^的美国专利申请 Sn. 13/932, 238描述了一种通过将从测试时间序列数据中提取的通用特征与从训练时间序 列数据获得的通用特征进行比较w确定分数来检测时间序列数据中的异常的方法。通用特 征表征时间序列数据的轨迹分量和时间序列数据的随机分量。然后,如果异常分数大于阔 值,则检测到异常。在该专利申请中没有公开用于从训练时间序列有效地学习通用特征的 集合(其是一类样本(exemplar))的方法。
[0009] 因此,需要有效地学习针对时间序列的准确且紧凑的模型,该模型可W应用于很 多不同类型的时间序列数据。

【发明内容】

[0010] 本发明的实施方式提供一种使用从训练时间序列数据学习的模型来有效且准确 地检测一维时间序列数据中的异常的方法。
[0011] 本发明的主要思想在于,将训练时间序列数据建模为样本的集合。运些样本表示 时间序列数据中的各种不同的窗口或子序列。最终样本集基本小于训练时间序列数据中的 重叠窗口的总集合。
[0012] 样本学习过程使用分治(divide-and-conquer)的思想,W将时间序列数据划分 为较小的分块(chunk),学习针对每一个分块的样本的集合,并且然后组合结果。得到的样 本学习过程具有〇(nw)的时间复杂性(在平均情况下),其中,η是训练时间序列数据的尺 寸,并且W是窗口的尺寸。
[0013] 因为训练时间序列数据被相对小数量的样本有效地概括,所W得到的样本的集合 使得异常检测非常快。此外,所学习的模型产生针对各种不同时间序列数据的非常准确的 异常检测方法。
【附图说明】
[0014] 图1是根据本发明的实施方式的用于检测时间序列数据中的异常的方法的流程 图;化及
[0015] 图2是根据本发明的实施方式的用于学习异常的集合的分治过程的示意图。
【具体实施方式】
[0016] 异常检测方法
[0017] 图1示出了用于检测时间序列数据中的异常的方法。如本领域中已知的,该方法 的步骤可W在处理器100中执行,该处理器100经由总线连接至存储器和输入/输出接口。 [001引通过使用分治过程200概括训练时间序列数据101来学习样本111的集合。样本 是时间序列数据的类似窗口的集合的代表。在图2中示出了分治过程的细节。
[0019] 对于测试时间序列数据102的每一个窗口,确定120到最接近样本的距离。该距 离用作异常分数121。
[0020] 然后,当针对窗口的异常分数大于阔值Τ时,通报130异常131。
[0021] 分治过程
[0022] 如图2所示,分治过程将初始样本集201划分为多个分块202。然后,将选择过程 和组合过程220、230、240、250的序列205应用于分块。选择过程从样本的给定集合中选择 样本的较小集合。选择样本的较小集合W很好地表示给定集合。简单的选择过程的示例反 复地合并分块中的两个最接近样本,直到分块中的样本之间的最小最近邻间距大于阔值τ为止。
[0023] 组合过程简单地将来自两个分块的所有样本放入一个分块中。选择和组合的该处 理205继续进行,直到剩下单个分块为止。然后,最终选择操作260产生最终样本集203。
[0024] 统计和平滑轨迹(SST)特征 阳025] 时间序列数据的窗口被表示为轨迹分量和统计分量,所述轨迹分量表征窗口内的 时间序列数据的形状,所述统计分量表征随机分量。运些窗口在时间上滑动且重叠。包括 轨迹分量和
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1