一种基于格拉布斯准则与ARIMA的GWAC光变曲线异常检测方法与流程

文档序号:11412280阅读:379来源:国知局
一种基于格拉布斯准则与ARIMA的GWAC光变曲线异常检测方法与流程

本发明涉及一种面向gwac光变曲线的异常检测方法,特别是涉及一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法。



背景技术:

地基广角相机阵gwac(ground-basedwide-anglecameraarray)是中法合作伽玛暴探测天文卫星“空间变源监视器svom(spacemulti-bandvariableobjectsmonitor,天基多波段空间变源监视器)”的关键地面设备。gwac的短时标15秒曝光和大视场能力为我们生成天区上的图像,在对图像进行点源提取与交叉证认后生成有关光强度的时间序列曲线,即光变曲线。

光变曲线是天文学上表示天体相对于时间的亮度变化图形,是亮度关于时间的函数。有些光变曲线呈周期性变化,有些则是非周期性的。对光变曲线进行研究通常能够发现一些较为特殊的天文现象,如微引力透镜现象。这些特殊的天文现象发生时通常都会导致光变曲线发生变化。目前,已经上线应用的mini-gwac拍摄到的图像在进行点源提取与交叉证认后可以得到天体亮度关于时间变化的数据。对这些数据形成的光变曲线进行分析可得知星体亮度是否发生异常变化,从而为发现特殊天文现象做出贡献。

与此同时时间序列的应用十分广泛,任何关于时间的特征属性都可用时间序列的方法分析。光变曲线就是典型的时间序列函数,这种方法不是根据其他属性或变量进行预测,而是根据自身历史数据对其进行预测。利用时间序列方法对gwac数据建立预测模型可预测出一段时间内光变曲线的走势情况,进而为特殊亮度变化预警提供参考依据。

此外结合arima模型的思想,将预测对象随时间推移而形成的数据序列视为一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。目前,由于gwac的短时标特性在国际上属于领先地位,所以对此类光变曲线的分析方法很少。



技术实现要素:

针对以上现有技术的不足,本发明提供一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法,以解决gwac光变曲线分析中对异常亮度的检测问题。根据本发明的一个方面,提供了改进的arima模型,包括:为了能使所有的光变曲线都能应用arima模型,基于单位根检验准则对数据进行自动平稳化检测,并对不平稳的数据进行差分,并描述具体方法和过程;为了使预测后的数据是光变曲线的预测值而不是差分后的值,将差分后的预测值进行差分还原过程。

根据本发明的另一方面,提供了基于格拉布斯准则的光变曲线过滤方案,包括为了使整个异常检测系统能够在很短时间内做出响应,使用国际通用的异常检测方法格拉布斯准则与arima模型相结合,以确保异常检测的时间不超过15秒。

根据本发明的上述方面,针对gwac光变曲线分析的异常检测方法不但能够在15秒内快速响应,同时通过格拉布斯准则与arima模型双重过滤,保证了对异常检测的准确性。

本发明的目的通过以下技术方案来实现:

一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法,该方法包括如下步骤:

1)使用格拉布斯准则对gwac光变曲线进行过滤,筛选出其中可疑值。

2)将通过格拉布斯准则筛选出的可疑值进行平稳性检测,将不平稳的数据进行差分,使其成为平稳序列,使其符合使用arima模型的前提条件。

3)在2)的基础上,将最终平稳化的数据通过arima模型进行预测。

4)在3)的基础上,若是对差分序列进行预测则将其还原,得到对可疑值的预测值。

5)在4)的基础上,对此序列当前可疑值之前的数据做相同预测并求得预测误差的平均值作为预测误差标准将其与可疑值的预测值进行比较,从而最终判断是否为光变曲线的异常值。

作为优选,所述格拉布斯准则将实时流数据作为判断是否可疑的待比较数据。

作为优选,所述arima模型输入数据使用adf检验进行自动平稳化检测,其过程为使用正则表达式分别提取出adf值与其标准值进行比较。

作为优选,所述对不平稳的数据进行自动差分,使其满足arima模型的输入条件。

作为优选,所述差分还原方法为:

其中,

i)n是序列个数

ii)b是差分后序列,bn是对差分序列的预测值;

iii)a是光变曲线序列,an+1是可疑值的预测值;

iv)a1是所选取序列的第一个值。

作为优选,所述最终判断是否为异常值检测方法为:设定选取计算预测误差标准所需预测数据个数,使用相同方法对其进行预测计算出预测误差的平均值将其作为预测误差标准,将可疑值数据的预测误差与此标准作比较,如果可疑值的预测误差比次预测误差标准大,则判断此可疑值为光变曲线的异常值;否则,不作为最终判断的异常值。

作为优选,根据所述可疑值的预测误差来选取多个预测误差的均值,并作为待比较数据。

作为优选,所述预测误差标准为动态变化的比较标准。

本发明的优点在于:

1)该方法能够在gwac拍摄15的短暂间隙对17万条光变曲线进行分析,速度上在短时间内响应迅速。

2)通过格拉布斯准则和arima模型的结合,在异常检测的准确性上进一步提升,减少误报的情况发生,从而保证对光变曲线的分析准确性较高。

3)通过对arima模型的改进,可以使时间序列自动通过模型进行预测分析,不需要进行手动干预。

附图说明

图1一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法组成示意图;

图2格拉布斯准则流程图;

图3改进后arima模型数据平稳化流程图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

下面将参照附图来描述根据本发明实施例的一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法的具体步骤如下:

光变曲线异常检测流程如图1,首先将全部的光变曲线经过格拉布斯准则过滤,筛选出其中可疑曲线,之后应用arima模型对其进一步检验确定是否为异常值。

第一步,使用格拉布斯准则对gwac光变曲线进行过滤,筛选出其中可疑值。由于gwac的数据量巨大,使用单纯使用arima模型不能满足在短时间内对17万条数据的分析,所以通过统计上的方法先将数据进行过滤,之后对重点可疑的数据进行arima模型的预测,进而准确的检验出异常值。在国际上,常推荐格拉布斯准则。

一组测量数据中,如果个别数据偏离平均值很远,那么这些数据称作“可疑值”。如果用统计方法例如格拉布斯(grubbs)法判断,能将“可疑值”从此组测量数据中判断出来。图2给出格拉布斯准则判断可疑值的具体流程。一组数据中的异常值可以肯定不是最大值就是最小值,由于光变曲线的特性,星体突然变亮的情况是我们需要考虑的,突然变暗(黑洞)的情况目前不需要考虑,所以当实时数据到来时,判断其是否为最大值。计算平均值x-和标准差s。计算偏离值:平均值与最小值之差,最大值与平均值之差。确定可疑值:比较起来,最大值与平均值之差是否大于平均值与最小值之差,因此认为最大值是可疑值。计算g值:g=(xi-x-)/s;可认为g是残差与标准差的比值。下面要把计算值g与格拉布斯表给出的临界值gp比较,如果计算的g值大于表中的临界值gp,则能判断该测量数据是我们想要发现的可疑值,便记录下此数据所在的光变曲线id等特征。临界值gp(n)与两个参数有关:检出水平α(与置信概率p有关)和测量次数n(与自由度f有关)。定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率p=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即p=0.90;通常定α=0.05,p=0.95。查格拉布斯表获得临界值:根据选定的p值(此处为0.95)和测量次数n(此处为50),查格拉布斯表,横竖相交得临界值g95(50)=2.956。比较计算值g和临界值g95(50)。判断是否为可疑值:若g>g95(50),可以判断此时数据为可疑值,便记录下此数据所在的光变曲线id等特征。

第二步,将通过格拉布斯准则筛选出的可疑值进行平稳性检测,将不平稳的数据进行差分,使其成为平稳序列,符合使用arima模型的前提条件。平稳差分过程如图3所示,数据通过adf检验,也就是单位根检验。单位根检验是指检验序列中是否存在单位根,因为存在单位根就是非平稳时间序列了。单位根就是指单位根过程,可以证明,序列中存在单位根过程就不平稳,会使回归分析中存在伪回归。单位根检验时间序列的单位根研究是时间序列分析的一个热点问题。时间序列矩特性的时变行为实际上反映了时间序列的非平稳性质。对非平稳时间序列的处理方法一般是将其转变为平稳序列,这样就可以应用有关平稳时间序列的方法来进行相应得研究。对时间序列单位根的检验就是对时间序列平稳性的检验,非平稳时间序列如果存在单位根,则一般可以通过差分的方法来消除单位根,得到平稳序列。

通过程序对序列进行adf检验,adf各水平值的设定意义为,1%、5%、10%中的值代表拒绝原假设的程度,1%为严格拒绝原假设,若adf值小于1%值可说明序列平稳。将不平稳的数据进行差分重复此过程,直至平稳。

第三步,使用arima模型进行预测,若是经过过滤的可疑光变曲线平稳,不需要进行差分则预测出的数据就是对光变曲线原始序列的预测值。若是经过差分后的序列则预测出的数据需进行差分还原,可得到对此可疑值的预测值。

所述差分还原方法为:

其中,

i)n是序列个数;

ii)b是差分后序列,bn是对差分序列的预测值;

iii)a是光变曲线序列,an+1是可疑值的预测值;

iv)a1是所选取序列的第一个值。

第四步,给出基于arima的动态检测标准,最终判断是否为异常值检测方法为:设定选取计算预测误差标准所需预测数据个数,使用相同方法对其进行预测计算出预测误差的平均值将其作为预测误差标准,将可疑值数据的预测误差与此标准作比较,如果可疑值的预测误差比次预测误差标准大,则判断此可疑值为光变曲线的异常值;否则,不作为最终判断的异常值。

对此序列当前可疑值之前的数个数据做相同预测并求得预测误差的平均值作为预测误差标准将其与可疑值的预测值进行比较,从而最终判断是否为光变曲线的异常值。

本发明的基于格拉布斯准则与arima(auto-regressiveintegratedmovingaveragemodel)的gwac光变曲线异常检测方法;将传统的arima模型进行改进,改进的arima模型将对天文星体观测数据进行无人工干预的数据平稳化判断,并且通过平稳化处理,将不平稳的数据进行自动差分,以及还原过程等。并将改进后的模型与国际上通用的异常检测方法格拉布斯准则结合起来,使其能够满足gwac光变曲线异常检测的需求。根据对天文星体观测的需求,将格拉布斯准则和改进的arima时间序列预测相结合,对gwac观测到的天文星体的亮度所形成的光变曲线进行检测,以便发现其中异常的星体。

本发明对上面提出的一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法。应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1