确定时间数据中的周期性效应的制作方法

文档序号:6596523阅读:736来源:国知局
专利名称:确定时间数据中的周期性效应的制作方法
确定时间数据中的周期性效应
背景技术
为了更好地理解企业(如公司、教育机构、政府机构,等等)内的操作,企业可以收集与这样的操作有关的各方面的信息。例如,将监视器加入到信息技术(IT)系统以在IT 系统操作期间收集数据。企业还可以收集与企业的业务方面有关的信息,如与由企业提供的产品(货物和/或服务)有关的信息。所期望的是分析数据以执行异常检测,如检测故降情况,错误,或企业可能希望解决的任何其他情况。然而,由于所接收的数据中存在周期性(seasonality)(或周期性效应 (seasonal effect)),这样的数据分析是复杂的。


本发明的一些实施例针对下图进行描述图1是根据一个实施例,检测时间数据中的周期性的过程的流程图;图2是根据一个实施例,说明时间数据和相应桶(bucket)之间的映射;图3是根据一个实施例,说明通过一过程计算的作为不同周期(season)的函数的误差分数的图表;图4是根据一个实施例,计算连续时间数据的误差分数的过程的流程图;图5是根据一个实施例,计算离散时间数据的误差分数的过程的流程图;图6是其中包括本发明实施例的示例性计算机的框图;以及图7是根据一个实施例的基线估计的过程的流程图。
具体实施例方式为实现准确分析所收集的有关企业的时间数据,所期望的是识别时间数据的周期性效应(或周期性)。周期性效应指随时间的推移(在时间序列上)收集的时间数据中的时间相关模式,其中该模式趋向于每一定长度的周期(或循环)重复一次。长度可以是秒、 分钟、小时、天、月、年等等。时间数据的周期性行为可以基于不同的使用模式、系统内部过程,或其他因素。例如,相应于典型的系统访问模式,用户卷(user volume)往往显示每日和每周循环。在没有识别时间数据中的周期性的情况下,对时间数据执行的一些分析可能不会产生准确的结果,如假警报。可以对时间数据执行分析以用于异常检测,如确定故障情况、 错误、或企业可能希望解决的任何其他情况。根据一些实施例的周期性检测算法并不假定周期性效应是基于静态的周期,如小时、天、或星期。相反,根据一些实施例的周期性检测算法能够考虑到任意变化长度的周期, 以及识别周期之一来代表时间数据中的周期性效应。例如,考虑到的不同可能周期开始于一小时并以一小时的增量继续直到某一最大周期大小(例如,一星期、一月、或一年)。误差分数被用于帮助选择周期之一作为时间数据中的周期性的代表,其中基于在考虑到相应周期的同时基于时间数据计算的统计计量来得到误差分数。因此,对于多个考虑到的周期(候选周期),产生多个相应误差分数。以不同方式执行误差分数计算取决于时间数据是连续的时间数据还是离散的时间数据(如下文进一步所讨论的)。选择与最低 (或最优)误差分数相关联的候选周期作为最有可能代表时间数据中的的周期性效应的周期。在另一个实施例中,不是使用误差分数,而是可以使用可能性分数作为代替。即使在时间数据中存在间隙,根据一些实施例的周期性检测算法能够执行周期性识别。除此之外,周期性检测算法能够相对好地容许噪声输入数据。此外,周期性检测算法对时间数据(连续的或离散的)起作用而无需固定的(规则的)采样间隔。图1是根据一个实施例,识别时间数据中的周期性的周期性检测算法的流程图。 如图1所示,接收时间数据(在10 。所接收的时间数据是时间序列形式的数据,其包括沿时间点的数据值。时间数据可以由一个或多个监视器收集,例如,如计算机系统、存储系统、 网络系统等等中的监视器。可替换地,时间数据可以是与企业相关联的业务数据。根据一些实施例的技术适用于任何类型的时间数据。周期性检测算法还接收(在104) —组用于测试的候选周期。例如,候选周期可以是范围从0小时到目标小时数的周期。因此,候选周期可以是1小时周期、2小时周期、4小时周期、15小时周期、40小时周期,等等。鉴于周期性检测算法相对简单并因此可以及时地执行这一事实,被测试的候选周期的数可以相对较大。因为能够考虑相对大数量的任意长度的候选周期,所以能够实现时间数据中周期性的更准确识别。每个候选周期被称为周期 k,其中k = 1到nun^easons,其中nun^easons彡2代表所考虑的周期的数量。图1中的块106描绘了针对该组中每个候选周期要执行的处理。所考虑的周期的间隔被划分(在108)为多个桶i (其中i = 1到Nbk,Nbk 代表周期k中桶的数量)。例如,如果所考虑的周期是1小时周期,即间隔为1小时,并且该间隔可以被划分到15分钟的桶中。图2示出将周期间隔200划分到四个十五分钟桶202A、202B、202C、及202D中的例子。对于具有不同间隔的其他周期,可以确定不同长度的桶。接下来,基于每个样本的时间,将所接收的时间数据中的样本分配(在110)至相应的桶。特定样本的时间落入一个桶。在上面的例子中,如果特定样本的时间发生在小时后的15分钟和四分钟之间,则该特定样本将被分配至图2的第二桶202B中。这在图2中示出,其中小时后的第一个一刻钟中所取的所有数据样本被分配至桶202A中,小时后的第二个一刻钟中所取的所有数据样本被分配至桶202B中,小时后的第三个一刻钟中所取的所有数据样本被分配至桶202C中,并且小时后的第四个一刻钟中所取的所有数据样本被分配至桶202D中。因此,如图2所示,将12:00和12:14之间所取的数据样本分配至桶202A 中,将1:00和1:14之间所取的数据样本分配至桶202A中,以及将2:00和2:14之间所取的数据样本分配至桶202A中。接下来,基于周期k的桶中的数据样本,计算(在112)周期k的误差分数, error (k)。为确定误差分数,基于时间数据是连续的时间数据还是离散的时间数据执行不同的处理,如结合图4和图5所述。离散的时间数据指具有少于某预定义数量(如,10)的离散值的数据。针对每个考虑到的候选周期重复块106的处理,从而为相应的候选周期产生相应的误差分数。然后比较(在114)候选周期的误差分数。然后输出(在116)最小误差分数的指示。例如,相应候选周期的误差分数可以存储在误差向量中,并且在116输出的指示可以是该误差向量的索引。标识相应周期的输出索引(或其他指示)可以用于后续处理中以识别时间数据的周期性。在不同的实施例中,不是选择最小的误差分数,而是可以选择具有另外最优值(如,最大分数)的分数一具有“最优”值的分数取决于所计算的分数类型。图3示出根据图1的过程为不同候选周期所计算的示例误差分数的图表。在图3 的例子中,考虑到的候选周期在从0到168小时的范围变动。图表中每个点绘制出相应候选周期的误差分数。点300与最小误差分数相关联。在图3的例子中,点300对应于M小时的周期。因此,从中得出图3的误差分数的时间数据具有M小时的周期性。如上所述,误差分数的计算取决于时间数据是连续的还是离散的数据而不同。图 4是在时间数据是连续的情况下计算周期k的误差分数,error (k)的流程图,而图5是在时间数据是离散的情况下计算周期k的误差分数,error (k)的流程图。在图4中,为所考虑的周期的每个桶i计算(在40 统计计量。在一个例子中, 所述统计计量是被分配到桶的数据样本的中值(median)。在其他例子中,统计计量可以是数据样本的平均数,数据样本的标准偏差,或数据样本的某种概率分布。然后计算(在404)桶中数据样本与桶的统计计量(如,中值)之间的绝对偏差。对为特定桶所计算的这些绝对偏差求和以产生相应的偏差和Deviati0n_SUm(i)= Σ IDi(J)-Hiedi I,其中Hiedi代表桶i的中值,Di(J)代表桶i中的数据样本j,其中i = 1至 Nbs (桶的数量),以及j = 1至numDataGS i中的数据样本的数量)。桶的偏差和,Deviation_Sum(i),继而被聚合(在406),如通过求和,为相应的候选周期k产生误差分数,error (k)0按如下执行对偏差和的求和以产生如下的周期k的误差分数,error (k)error(k)= ^ Deviation_Sum Ci).
1=1在可替换的实施方案中,当计算桶中数据样本与桶的相应统计计量之间的绝对偏差时,为避免过度拟合,周期性检测算法进行η重交叉验证。通过η重交叉验证,每个桶中的数据样本被随机地划分为η组(η > 1)。然后对η-1个组计算统计计量,对其余组计算绝对偏差。然后针对η个组的每一个重复该过程。图5图示在时间数据是离散数据的情况下的误差分数计算。在一个实施例中, 用于离散时间数据的误差计量是每个桶中数据样本的熵的平均。基于桶中的数据样本计
算(在502)概率质量函数(PMF),& [{^,^^^,其中 ㈣是^桶中的值乂^]的概
率(其中k为周期),其中ν是V中的索引,其是一个发现于数据中的不同值的数组,并且 Iength(V)代表V的长度。PMF是为每个bk桶计算的统计计量的一个例子。在其他实施方案中,可以使用其他统计计量。然后基于PMF计算(在504)每个桶中数据样本的熵
VH(Pbk) = Y^pvbtIogpvbk接下来,将周期k的误差分数计算(在506)为所有桶的平均熵
权利要求
1.一种确定时间数据中的周期性效应的方法,包括 接收(104)与企业的一方面有关的时间数据;对于多个候选周期中的每一个,由计算机(600)执行 定义相应候选周期的间隔;将所述间隔划分(108)为包含各自时间数据集合的多个桶, 计算相应桶的统计计量,以及使用所计算的统计计量来计算(11 相应候选周期的分数,其中为相应候选周期所计算的分数被用于识别所述候选周期中的哪个候选周期代表时间数据的周期性效应。
2.如权利要求1的方法,其中计算统计计量包括计算从由中值、平均值、标准偏差、以及概率分布构成的组中选择的统计计量。
3.如权利要求1的方法,其中计算分数包括计算误差分数。
4.如权利要求3的方法,其中计算误差分数包括在每个桶内,基于桶中的时间数据值和桶的统计计量应用数学函数以产生输出值;以及对为桶产生的输出值进行聚合以计算误差分数。
5.如权利要求4的方法,其中应用数学函数包括根据桶的统计计量来计算桶中时间数据值的绝对偏差,以及对相应桶的绝对偏差求和以产生相应的输出值。
6.如权利要求1的方法,其中计算统计计量包括计算概率映射函数。
7.如权利要求6的方法,进一步包括基于每个桶的概率映射函数计算熵。
8.如权利要求7的方法,其中基于桶的熵计算分数。
9.如权利要求1的方法,进一步包括基于时间数据是连续的还是离散的,选择性地使用不同的技术计算分数。
10.如权利要求1的方法,进一步包括在识别与时间数据相关联的周期之后,为时间数据估计基线,其中估计基线包括将所识别周期的间隔划分成桶;将时间数据映射到所识别周期的间隔的桶中;基于所识别周期的间隔的桶中的时间数据值计算统计量;以及基于统计量计算阈值。
11.如权利要求10的方法,进一步包括 接收新的数据样本;以及将新的数据样本与阈值比较以确定新的数据样本是正常的还是异常的。
12.—种计算机(600)包括存储时间数据的存储介质(608);以及处理器(604)用于 定义一组任意长度的候选周期;对于组中的每个候选周期,基于将时间数据划分至相应候选周期的间隔内的多个桶中来计算分数,其中为相应多个桶计算统计计量以实现分数的计算;以及比较相应候选周期的分数以识别候选周期中的一个作为时间数据的周期性的代表。
13.如权利要求12的计算机,其中处理器被配置为进一步对于每个桶,计算桶中每个时间数据值与桶的统计计量之间的绝对偏差, 其中基于桶的绝对偏差计算分数。
14.如权利要求12的计算机,其中处理器被配置为进一步 对于每个桶,基于桶的统计计量计算熵,其中基于桶的熵计算分数。
15.如权利要求12的计算机,其中时间数据包括在没有规则采样间隔的情况下获得的连续数据和离散数据之一。
16.一种包括至少一个计算机可读存储介质的物品,所述计算机可读存储介质包含指令,所述指令在执行时使计算机(600)接收与企业的一方面有关的时间数据;对于多个候选周期中的每一个定义相应候选周期的间隔;将所述间隔划分为包含各自时间数据集合的多个桶,计算相应桶的统计计量,以及使用所计算的统计计量来计算相应候选周期的分数,其中为相应候选周期计算的分数被用于识别所述候选周期中的哪个候选周期代表时间数据的周期性效应。
17.如权利要求16的物品,其中所述指令在执行时使计算机进一步 基于每个桶中的时间数据值和桶的相应统计计量计算绝对偏差,其中基于绝对偏差计算分数。
18.如权利要求16的物品,其中所述指令在执行时使计算机进一步 基于每个桶中的时间数据值和桶的相应统计计量计算熵,其中基于熵计算分数。
19.如权利要求18的物品,其中所述统计计量是概率质量函数。
20.如权利要求16的物品,其中所述指令在执行时使计算机进一步基于时间数据是连续的还是离散的,选择性地使用不同的技术计算分数。
全文摘要
为确定时间数据中的周期性效应,对于多个候选周期中的每一个,执行以下步骤。定义相应候选周期的间隔。将所述间隔划分(108)为包含各自时间数据集合的多个桶,以及计算相应桶的统计计量。使用所计算的统计计量来计算(112)相应候选周期的分数。为相应候选周期所计算的分数被用于识别所述候选周期中的哪个候选周期代表时间数据的周期性效应。
文档编号G06F17/40GK102483738SQ200980160657
公开日2012年5月30日 申请日期2009年7月14日 优先权日2009年7月14日
发明者A·克雷佩尔, I·科亨, K·埃森伯格, L·阿什克纳兹, M·利安, M·罗斯曼 申请人:惠普开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1