在存在噪声的情况下检测事件开始的方法和设备与流程

文档序号:17049798发布日期:2019-03-05 19:56阅读:382来源:国知局
在存在噪声的情况下检测事件开始的方法和设备与流程

现代测量仪器通常会生成包括显著水平噪声的数字测量值流。在许多所关注的应用中,耗用这种数字流的系统面临确定事件何时开始的问题。在存在噪声的情况下确定何时发生事件带来重大挑战。例如,数字示波器测量作为时间函数的信号振幅,并且将所观察到的信号的一部分显示为作为时间函数的信号振幅的图。现代数字示波器可以在多个测量信道的每一个中以接近100千兆个样本/秒的速率测量信号。通常使用一组采样和保持电路对信号进行数字化,该组采样和保持电路在连续时隙中对信号进行采样。每个采样和保持电路都向高速模数转换器(adc)馈送,该adc转换器将其输出存储在被分配给该adc的高速存储器组中。

一次只能显示这种所记录的数据中的一小部分,并且因此,需要某种形式的触发器来定义要显示的所关注测量值的开始。一旦检测到触发事件,只要缓冲器充满,该系统就会停止累积新数据,并且因此,错误触发可能会导致在发生实际所关注事件期间的死区时间。考虑前沿触发器,其中触发事件是信号增加到某个预定水平以上。如果水平太低,则噪声将会引起许多错误触发。如果水平太高,则触发事件的开始可能会丢失,或者可能错过触发事件,因为信号显著增加到噪声水平以上,但是没有达到触发器指定的水平。



技术实现要素:

本发明包括一种用于操作数据处理系统以检测数据流中的事件的存在的方法,该数据流包括有序数字值序列xi,i=1到nd。该方法包括使该数据处理系统确定训练窗口内的数据数字值的统计参数的基值。然后,对于该有序数字值序列中的所关注区域中的每个xi,该数据处理系统通过在包含xi并且对于每个xi都不同的滑动窗口内测量xi的统计参数来确定与该xi对应的统计参数的滑动值。该数据处理系统将该滑动值与所关注区域中的每个xi的基值进行比较以确定xi是否为事件的一部分。

在本发明的一个方面中,该数据流包括被由噪声谱表征的噪声污染的信号,并且该统计参数包括噪声谱的量度。

在另一个方面中,该统计参数包括该数字值之一将是离群值的概率。

在另一个方面中,该统计参数包括该数字值的标准偏差。

在另一个方面中,该训练窗口包括该滑动窗口。

在另一个方面中,该训练窗口不包括该滑动窗口。

在另一个方面中,该数字值是仅具有两个状态的标量值,具有这两个状态之一的数字值被定义为离群值。

在另一个方面中,该数字值中的每一个是具有多个分量的向量。

在另一个方面中,该训练窗口包括来自与该滑动窗口对应的xi之前的数据流的前m个样本,该训练窗口比该滑动窗口大至少四倍,该滑动窗口随着xi移动。

本发明还包括一种分析仪,其测量所关注的潜在事件的区域中的信号。该分析仪包括端口,其用于接收信号并且将信号转换为有序数字值序列xi,i=1到nd,以及触发电路,其基于包含xi并且随着每个xi移动的滑动窗口来确定该区域中的xi中的每一个的统计参数的滑动值,如果该滑动值大于从对训练窗口中的xi的分析确定的统计参数的基值,则该触发信号生成所关注事件信号。

在另一个方面中,该信号被由噪声谱表征的噪声污染,并且该统计参数包括噪声谱的量度。

在另一个方面中,该统计参数包括该数字值之一将是离群值的概率。

在另一个方面中,该统计参数包括该滑动窗口内的数字值的标准偏差。

在另一个方面中,该训练窗口包括该滑动窗口。

本发明还包括一种操作数据处理系统以监控测试系统的方法,该方法在一系列受测试装置上测量该测试系统的故障。该方法包括从该测试系统的测量输出来生成有序数字值数字序列xi,i=1到nd,该输出测量每个受测试装置的性质;以及使该数据处理系统确定训练窗口内的数据数字值的统计参数的基值;对于该有序数字值序列中的所关注区域中的每个xi,该数据处理系统通过在包含xi并且对于每个xi都不同的滑动窗口内测量xi的统计参数来确定与该xi对应的统计参数的滑动值;将该滑动值与所关注区域中的每个xi的基值进行比较以确定xi是否为事件的一部分。

在另一个方面中,该统计参数包括该数字值之一将是离群值的概率。

在另一个方面中,该数字值是仅具有两个状态的标量值,具有这两个状态之一的数字值被定义为离群值。

本发明还涉及以下实施方案:

1.一种用于操作数据处理系统以检测数据流中的事件的方法,所述数据流包括有序数字值序列xi,i=1到nd,所述方法包括

使所述数据处理系统确定训练窗口内的所述数字值的统计参数的基值;

对于所述有序数字值序列中的所关注区域中的每个xi,使所述数据处理系统通过在包含所述xi并且对于每个xi都不同的滑动窗口内测量所述xi的所述统计参数来确定与所述xi对应的所述统计参数的滑动值;以及

将所述滑动值与所述关注区域中的每个xi的所述基值进行比较以确定所述xi是否为事件的一部分。

2.实施方案1的方法,其中所述数据流包括被由噪声谱表征的噪声污染的信号,所述统计参数包括对所述噪声谱的量度。

3.实施方案1的方法,其中所述统计参数包括所述数字值之一将是离群值的概率。

4.实施方案1的方法,其中所述统计参数包括所述数字值的标准偏差。

5.实施方案1的方法,其中所述训练窗口包括所述滑动窗口。

6.实施方案1的方法,其中所述训练窗口不包括所述滑动窗口。

7.实施方案1的方法,其中所述数字值是仅具有两个状态的标量值,具有所述两个状态之一的数字值被定义为离群值。

8.实施方案1的方法,其中所述数字值中的每一个是具有多个分量的向量。

9.实施方案1的方法,其中所述训练窗口包括在所述数据流中紧接在所述滑动窗口之前的m个样本,所述训练窗口比所述滑动窗口大至少四倍,所述滑动窗口随着所述xi移动。

10.一种测量所关注的潜在事件的区域中的信号的分析仪,所述分析仪包括:

端口,所述端口用于接收所述信号并且将所述信号转换为有序数字值序列xi,i=1到nd,以及

触发电路,所述触发电路基于包含xi并且随着每个xi移动的滑动窗口来确定所述区域中的所述xi中的每一个的统计参数的滑动值,如果所述滑动值大于从对训练窗口中的所述xi的分析确定的所述统计参数的基值,则所述触发电路生成所关注事件信号。

11.实施方案10的触发电路,其中所述信号被由噪声谱表征的噪声污染,所述统计参数包括所述噪声谱的量度。

12.实施方案10的触发电路,其中所述统计参数包括所述数字值之一将是离群值的概率。

13.实施方案10的触发电路,其中所述统计参数包括所述滑动窗口内的所述数字值的标准偏差。

14.实施方案10的触发电路,其中所述训练窗口包括所述滑动窗口。

15.一种操作数据处理系统以监控测试系统的方法,所述方法在一系列受测试装置上测量所述测试系统的故障,所述方法包括:

从所述测试系统的测量输出来生成有序数字值数字序列xi,i=1到nd,所述测量输出测量每个受测试装置的性质;

使所述数据处理系统确定训练窗口内的所述数字值的统计参数的基值;

对于所述有序数字值序列中的所关注区域中的每个xi,使所述数据处理系统通过在包含所述xi并且对于每个xi都不同的滑动窗口内测量所述xi的所述统计参数来确定与所述xi对应的所述统计参数的滑动值;以及

将所述滑动值与所述关注区域中的每个xi的所述基值进行比较以确定所述xi是否为事件的一部分。

16.实施方案15的方法,其中所述统计参数包括所述数字值之一将是离群值的概率。

17.实施方案16的方法,其中所述数字值是仅具有两个状态的标量值,具有所述两个状态之一的数字值被定义为离群值。

附图说明

图1a和图1b展示了计数函数方案。

图2展示了示波器的简单实施方案,其中本发明可用于执行触发。

图3a是噪声数据流的曲线图,其中事件在样本500周围开始。

图3b是计数函数的曲线图,该计数函数对大小为151个样本的窗口中的离群值的数量进行计数。

图4展示了计数函数,如果仅使用图3a中的最先四分之一的样本来计算离群值截止值所基于的统计值,则获得该计数函数。

具体实施方式

考虑由仪器生成的数据流。数据流可以是监控诸如电路中的电压或电流等某个物理信号的结果,或者可以是监控来自对生产线上的装置执行测试的测试仪器的输出的结果,等等。假设这些数据流受到大量噪声的影响。出于本讨论的目的,噪声将被定义为信号中关于某个平均值的随机波动。随机波动可以存在于值的振幅或值的定时中。例如,具有随机出现的1的二进制信号在值的定时中具有随机波动,这导致信号在平均振幅方面有随机波动。

通常通过对来自数据流的大量样本执行统计分析来测量噪声以测量表征噪声的统计参数。出于本讨论的目的,统计参数是从窗口内的单独信号值与信号值的平均值之间的绝对差值的函数的平均值导出的任何参数。平均值可以从窗口中或单独的训练窗口中的值来确定。这种统计参数的例子包括窗口内的数据流值的标准偏差的函数以及单独数据值与平均值的绝对差值的平均值的函数。

窗口内的离群值的数量或其函数是统计参数的另一个例子。出于本讨论的目的,离群值被定义为与平均信号值相差超过预定阈值的信号值。考虑将恒定信号数字化以提供其中信号被具有高斯分布的噪声污染的数据流,窗口中的离群值的数量是关于基础信号值的信号的标准偏差的量度。在这种情况下,可以根据信号值的期望被定义为噪声标准偏差的离群值的分数比例来确定阈值。

离群值阈值可以是预定水平,或者它可以通过对数据流中的第一窗口(称为训练窗口)内的测量值执行统计分析来定义,以确定选择测量值中的某个预定分数比例作为离群值的水平。例如,如果数据值被具有高斯分布的噪声污染,则可以分析训练窗口中的样本以确定平均值以及该值关于平均值的标准偏差。然后可以通过与平均值相差的某个预定数量的标准偏差来设定阈值。如果数据值的波动不是根据已知的统计分布而分布的,则可以通过搜索不同的阈值来找到导致预定百分比的数据值被定义为离群值的水平从而设定阈值。

在给定离群值识别阈值的情况下,可以通过对训练窗口中的离群值进行计数并且将离群值的数量除以训练窗口中的样本的数量来确定任何特定测量值是离群值的概率p。

在利用窗口中的离群值的数量作为统计参数的实施方案中,定义函数co(w,x)是有用的,该函数对滑动窗口w内的数据流的一部分中的离群值的数量进行计数,该滑动窗口从具有对x的固定相对位置的样本开始沿着数据流移动。出于该特定类型的实施方案的目的,在以下讨论中将该窗口称为计数窗口。例如,窗口可以从x-ns/2开始,其中ns是样本中的计数窗口的长度。在另一个例子中,计数窗口可以从x开始。通常,如果没有可能改变数据流中的条目的平均值的基础事件,则co(w,x)将围绕w中预期的离群值的平均数量波动。本发明是基于以下观察:如果基础信号被噪声污染并且噪声在窗口内显著变化,则离群值的数量也将显著增加。在极限情况中,co(w,x)将具有值ns;即,每个点都会充分偏离以将该点变为离群值函数所认为的离群值。通过观察co(w,x)的幅值和形状,可以推导出基础事件的存在以及关于该事件的本质的某些信息。

出于本讨论的目的,事件被定义为基础信号的变化,其保证用户或数据处理系统的调查。该事件通常从数字值序列中的特定点开始。为了检测事件,必须在基本上无事件的数据流的区域中确定正在被测量的统计参数的基值。在下面的讨论中,该区域将被称为训练窗口。数据处理系统分析训练窗口中的数据值以确定信号的平均值和统计参数的基值。在对滑动窗口中的离群值的数量进行计数的实施方案的情况下,在训练窗口中确定平均值和基值计数。然后将每个滑动窗口中的统计参数与训练窗口中的统计参数进行比较以确定是否发生了事件。理论上,训练窗口比滑动窗口大得多。

通常,由于训练窗口和滑动窗口中的基础噪声,可以确定统计参数的统计精度将具有一些不确定性。这种统计不确定性通常随着窗口中的样本数量增大而降低,较大的窗口具有较小的统计不确定性。虽然可以通过增加训练窗口的大小来改进对整体不确定性的贡献,但是假设背景保持稳定,滑动窗口的大小由许多标准设定,并且不像训练窗口大小那样自由。因为基值和滑动窗口值都受到噪声的影响,所以有利的是将从训练窗口导出的值中的噪声降低到与滑动窗口值中的不确定性相比较小的水平,以区分由于基值和滑动窗口值的统计变化引起的假阳性事件。在本发明的一个方面中,训练窗口的大小至少是滑动窗口的大小的四倍。

滑动窗口的最佳大小取决于正在寻找的事件的持续时间。如果事件的长度与滑动窗口的大小相比较短,则所测量的统计参数中的偏差将被滑动窗口的不存在事件的部分“稀释”。然而,如果利用非常小的滑动窗口,则正在被测量的统计参数的统计波动将对可以在给定置信度下检测到统计参数中的最小偏差设定极限:观察到的变化实际上是所关注事件,而不仅仅是数据流中统计波动的结果。在本发明的一个方面中,使用多个不同长度的滑动窗口来测试数据流中的当前点。短事件在较短的窗口中将更明显。因此,通过观察哪个滑动窗口检测到事件,可以推导出关于事件长度的信息。例如,如果事件在长采样周期中改变数据流,则将在较短的测试窗口中首先看到该事件,然后在较长的窗口中以更高的确定性看到该事件。

然后,数据处理系统确定所关注区域中的每个xi是否为事件的一部分。在计数函数的情况下,事件被定义为数字值的子序列,其具有升高的计数并且其为噪声结果的概率小于某个预定概率阈值。概率阈值将取决于正在检查的特定数据流。通过对包含xi的移动计数窗口中的离群值的数量进行计数来进行该确定。包含xi的计数窗口被定义为包含xi的数字值的子序列,具有固定数量的连续数字值,并且与xi保持固定关系使得窗口随着xi的改变而移动。

通常,如果计数函数与移动窗口中将从训练样本的统计分析预期的预期离群值数量相差超过某个预定事件阈值,则xi是事件的一部分。下面将更详细地讨论确定事件阈值的方式。如果确定相邻xi值之一是事件的一部分,则计数函数值小于事件阈值但是大于事件下限阈值的xi可以被认为是该事件的一部分。

现在参考图1a和图1b,这些图展示了上面讨论的计数函数方案。图1a是具有平均值1的测量值与显著噪声量的图。纵轴是以噪声的标准偏差为单位的信号值。图1b是在减去基于用于151个样本的窗口宽度的训练样本的预期离群值数量之后的co(w,x)的图,并且离群值被定义为大于与平均值相差两个标准偏差的值。从图中可以看出,co函数可以用于容易地找到图1a中所示的被噪声污染的特征的开始和持续时间。

w的最优大小将取决于基础问题。在检测指示事件开始的离群值数量的细微变化的灵敏度与检测起始点的能力之间存在权衡。如果w很大,则co在没有基础事件的区域中将是几乎恒定的。然而,用于确定持续时间小于w的基础事件的存在的co分辨率将受到损害。如果w太小,则co的波动可能会掩盖事件的开始或者抑制检测离群值数量的细微变化的能力。

在一个实施方案中,本发明通过测量训练窗口与计数窗口之间的离群值数量的变化来检测事件。测量值是离群值的概率取决于在训练阶段期间选择的阈值。如果阈值变化,则p作为响应而变化。因此,可以改变p和计数窗口大小以改变可以检测事件的灵敏度。

虽然本发明检测训练窗口与计数窗口之间的离群值数量的变化,但是本发明可以被视为检测数据值是离群值的概率的变化。计数窗口的大小和训练过程中选择的p值确定了可以用给定的计数窗口大小和起始p值检测到的p值上的最小变化。

在滑动窗口中观察到的p值可以写为p=p0+dp,其中p0是在训练周期期间针对离群值阈值的特定选择而测量的p值。因为我们关注可以检测到的最小变化,所以假设dp<<p0。计数窗口期间观察到的计数和从训练窗口中预期的计数的差值可以写成

co(ws,x)=p*ns-p0*ns=dp*ns

在这里,从观察到的离群值数量p*ns中已经减去了预期的离群值数量p0*ns。

该计数受到散粒噪声的影响。散粒噪声的标准偏差大约是计数的平方根。我们假设dp与p相比较小,并且因此,由于散粒噪声导致的计数误差具有大约p0*ns的平方根的标准偏差。为了确定观察到的dp是基础信号变化的结果而不是散粒噪声的结果,其中k是确定结果不仅仅是噪声结果的确定程度的值。因此,可以用ksigmas的可靠性检测到的p的最小变化是因此,如下实施方案是优选的:离群值概率足够小且ns足够大以确保在存在和不存在触发事件时都可以对足够数量的离群值进行计数以确保有效的计数统计。然而,应注意,p0还确定背景与所关注事件之间的计数函数值的差值。对于利用离群值数量作为正在被测量的统计参数的实施方案,计数函数在没有事件的区域中的p0ns与在具有事件的区域中的最大值ns之间变化。因此,在这样的实施方案中,p0小于0.5是优选的。

如上所述,数据流本质上可以是标量或向量。标量数据流的一个简单例子是示波器或信号分析仪的一个信道的输入。现在参考图2,其展示了示波器的简单实施方案,其中本发明可用于执行触发。示波器100包括采样和保持电路102,其对进入的波形进行串行采样。采样和保持电路102的输出由adc103数字化,并且结果存储在存储器104中。应注意,采样和保持电路102可以包括一组采样和保持电路,其对进入的信号进行串行采样,并且adc103和存储器104同样可以成组构造以提供用于提高采样速率和/或提供比adc转换时间短得多的采样窗口的并行处理。高速示波器可以在多个测量信道的每一个中每秒采样100千兆个样本。通常只关注这样的数据中的一小部分。因此,利用某种形式的“触发器”来定义信号中的潜在关注区域的开始。当检测到触发器时,仪器记录从触发器到某个时间点的信号,该时间点取决于存储器组的存储容量。提供可以在进入的数据的速度下操作的实时触发器是有利的。当正在被数字化的信号具有显著噪声水平而引起不可接受的错误触发水平时,本发明可用于实现这种实时触发。

示波器100利用根据本发明的统计分析仪105来检测事件的开始。通过采样和保持电路102和adc103捕获并数字化输入信号,以生成存储在存储器104中的数字序列。当存储每个新样本时,统计分析仪105确定是否已检测到事件并在显示器107上显示包含该事件的所存储数字序列的部分。

统计分析仪105使用两个窗口。第一窗口是大窗口,其捕获前n个样本并且对这些样本执行统计分析以确定信号的平均值以及任何给定样本在没有事件的情况下是离群值的概率。用于确定样本是否为离群值的阈值可以由用户通过连接到控制器111的图形用户界面来指定。当实时触发器发生器109检测到触发事件时,控制器111使显示处理器108显示数字序列,或从该序列导出的某个函数。通常在滑动窗口中的离群值数量超过某个预定阈值时生成触发器。该训练样本的统计分析可以用于基于数据流的统计模型来确定用于将样本标记为离群值的标准。

例如,该模型可以假设数据流值具有高斯分布,并且与平均值相差超过预定的标准偏差数量的样本是离群值。在这种情况下,数据处理系统将会测量样本关于平均值的标准偏差,并且设定信号水平,样本在高于或低于该信号水平时将被视为离群值。然后,数据处理系统将使用该截止值以通过使用该截止值对训练窗口中的离群值数量进行计数然后除以训练窗口中的样本数量来确定样本为离群值的实际概率。

在另一个例子中,用户提供截止值,该截止值用于定义相对于训练窗口中的样本的平均值的离群值,并且数据处理系统通过对训练窗口中的离群值数量进行计数然后除以训练窗口中的样本数量来计算任何给定样本是具有该定义的离群值的概率。

在另一个例子中,用户在训练窗口中提供期望的p值,并且计算机确定提供训练窗口样本的作为离群值的分数比例的截止值。

然后,可以使用样本是离群值的概率来通过将所确定的概率乘以计数窗口中的样本数量来计算计数窗口中的预期的离群值数量。

在一个示例性实施方案中,对存储在存储器104中的数据执行统计分析,并且在接收到每个新数据值时更新统计分析。例如,长度等于训练窗口长度和计数窗口长度的循环缓冲区用于在数据值到达时存储数据值。在接收到每个新值后,覆盖最旧的值。确定训练窗口中样本的平均值和离群值数量。然后使用新的平均值和在整个过程中保持恒定的离群值阈值来确定计数窗口中的离群值数量。在不同的实施方案中,计数窗口可以是训练窗口的一部分或者与训练窗口分开。

用每个新样本更新训练值的实施方案将被称为动态计数实施方案。动态计数实施方案具有补偿缓慢变化的训练环境的优点。这样的实施方案对数据处理系统设置了更高的计算工作负担。

然后使用co(w,x)的行为(其中x是最后一个样本编号)来构造实时触发。在最简单的情况下,如果co(w,x)大于阈值,则生成触发器。在更复杂的触发中,分析co(w,x)的形状以确定是否要生成触发器。例如,如果将实时触发器设定为在某个持续时间的脉冲上的触发器,则将分析co(w,x)以确定其是否显示具有期望持续时间的脉冲。因为co(w,x)对信号中的噪声不太敏感,所以错误触发显著减少。

在第二示例性实施方案中,本发明用于监控测试设备以检测测试设备的故障。考虑如下生产线:检查所制造的零件以确定零件是否有缺陷。将被称为测试仪的设备在每个零件通过生产线上的工作站时对其进行测量。可以将测量序列视为可以由本发明分析的数据流。分析的目标是检测测试仪中的故障,而不是由测试仪测试的零件的故障。假设测试仪测量正在被检查零件的性质。当零件连接到各种测试信号时,该性质可以是在特定端子上呈现的电压。好的零件在关于该性质的某个预定范围内彼此不同,并且因此,数据流受到噪声的影响。由本发明执行的分析的目标是检测测试仪中的故障。故障可能反映在所测量性质的逐渐变化或周期性的不规则测量值中。例如,由于本地电网的功率波动,测试仪在一天当中的某些时段可能具有高误差率。如果故障是导致所测量性质不准确的随机事件,则故障可能仅反映在本应合格却不通过的零件中。在测试仪开始失效后检测测试仪故障可能需要大量时间,并且因此,许多好的零件可能看起来有缺陷,或者更糟糕的是,许多坏零件可能会合格。导致测量值有小幅度偏移的测试仪故障可以被视为与本发明相关的事件。

如上所述,数据流可以是二进制数据流。这种数据流的一个例子是测试仪的输出,它简单地为装配线上的每个零件提供合格-不合格确定。合格的零件可以用值“0”表示,而那些不合格的零件用值“1”表示。离群值被定义为大于0的任何值。在训练阶段期间,统计分析确定当已知测试仪正常工作时任何特定装置不合格的概率。计数函数将计数窗口中的不合格装置数量计数为所测试装置数量减去预期的不合格装置数量的函数。如果作为正在被测试的装置的函数的计数函数的绝对值显著不同于零,则在生产线上的相应时间发生了事件。应注意,事件可以对应于太多装置不合格或者太多装置合格。

在上面的例子中,数据流本质上是标量的。即,数据流由数据流中每个时间点处的一个值组成。然而,本发明也可以应用于向量值数据流。在向量值数据流中,每个时间点具有多个测量值。在每个时间点生成这种多值测量值的仪器的例子包括具有多个测量信道的示波器以及电路板测试仪,这些电路板测试仪在用预定的一组测试信号激励电路的同时在多个点处探测该电路。

原则上,向量值数据流可以被视为针对事件分开地分析的多个单独测量值。然而,如果测量“信道”不是彼此独立的,则这种方法可能会错过所关注事件。例如,所有单独偏差都太小而无法触发离群值确定的情况实际上当该组测量值被视为一个整体时可能会触发这样的确定。另外,即使在信道彼此独立的情况下,也需要针对每个信道重复事件检测方案。

在每个时间点的测量值集合可以被视为具有所讨论的测量值作为其分量的向量。考虑向量值数据流,其中每个向量具有n个分量。该n个分量可以被视为n维空间中的点的坐标。测量值中的噪声具有将非噪声系统中的单个点转换为n维空间中的点群集的效果。如果群集为球形,则可以使用单独测量值与群集中心的偏差来识别离群值。例如,如果群集中心位于向量vc处,则向量v与中心的偏差可以被定义为vc与v之间的角度。该角度具有统计分布,并且因此,可以定义角度阈值,该角度阈值标记离群值与群集中的其他向量之间的边界。然后可以将上述分析的方法应用于向量值数据流中的每个新向量的角度。即,在给定向量值数据流中的新向量的情况下,确定它是否为离群值。将窗口w中的离群值数量作为向量值数据流中的最新向量的位置的函数来计数。

在更一般的情况下,向量的群集不是球形的。即使在每个分量具有正态统计分布的系统中,单独分量围绕该分量平均值的标准偏差也可能因分量而异。在这种情况下,包含测量值的预定分数比例的表面预期为n维空间中的椭圆体。另外,如果两个或更多个分量相关,则椭圆体的一个或多个轴将不会平行于n维空间中的轴。

然而,通常,存在包含n维空间中的任何预定百分比的点的表面。例如,如果表面被设定为包含90%的向量,则表面之外的点只有十分之一的机会成为群集的一部分。因此,如果点在该表面之外,则该点是离群值。因此,本发明的系统需要定义概率,该概率定义该边界,然后计算包含该向量的该分数比例的表面。然后,该系统可以像之前一样对离群值进行计数,以确定所关注事件的开始。

上述实施方案需要假设没有任何“事件”的训练窗口,并且可以进行统计分析以得到一种量度,如果违反该量度,则该量度将允许任何后续点被定义为离群值。学习样本也需要有一定水平的离群值。如下面将更详细讨论,学习样本可以具有少量离群值,该离群值是基础事件的结果。在这种情况下,用于定义离群值的阈值将稍微有误差,并且检测“事件”所需的计数窗口内的离群值数量将高于学习样本是无事件的情况。

在一个最简单的例子中,假设正在被测量的参数是被噪声污染的常数,该噪声的统计分布由高斯分布良好地表示。在这种情况下,如果样本超过与平均值的某个指定数量的标准偏差,则将样本定义为离群值。学习样本必须足以获得平均值和标准偏差的充分近似。

计数窗口w沿着测量值序列滑动。在本发明的一个方面中,如果不存在所关注事件,则将计数函数对窗口大小和窗口内的预期离群值数量进行归一化。p标示在没有任何关注事件的情况下任何给定样本是离群值的概率。参数p由噪声分布的统计特性和用于定义离群值的截止值来确定。通常,用户定义离群值阈值并且定义平均测量值。下面将更详细地讨论用户定义离群值阈值和平均测量值的方式。例如,如果测量值本质上是标量,则平均测量值可以是训练窗口中的样本的平均值或训练窗口中的值的平均值。如果测量值与平均测量值相差大于离群值阈值,则测量值被定义为离群值。在没有事件的情况下任何给定测量值是离群值的概率是在训练窗口中找到的离群值数量除以训练窗口中的样本数量。

大小为ns个样本的窗口中预期的离群值数量为pns。最简单的计数函数是co(w,x)=nout,即,在测量值序列中在样本x处定义的窗口中的离群值数量。该函数随着窗口的宽度而变化,并且因此不容易比较具有不同窗口大小的结果。没有该问题的更好的计数函数由

co(w,x)=nout-pns给定。

该计数函数具有促进在不同窗口大小选择的结果之间进行比较的优点。

滑动窗口在数据流中的点xi处的放置取决于需要结果的速度。如果窗口放置在点i周围,则结果将使数据采集滞后ns/2个样本。该延迟可能会在实时触发应用中引发问题。在这样的应用中,使用包括以xi终止的ns测量值序列的窗口可能是有利的。

在本发明的一个方面中,如果样本xi的计数函数值大于第一阈值,则该样本被定义为事件的一部分,该第一阈值指示由于统计变化而发生该计数的概率小于预定概率。通常,由于计数函数使用的窗口宽度,预期事件跨越一个以上的样本。单个大样本值将会增加接近无噪声平均值的相邻样本值的计数。如果事件缓慢地开始且样本仅略微超过预期噪声,则计数函数可以显示上升时间,该上升时间直到事件开始很久之后才超过第一阈值。因此,在本发明的一个方面中,即使对应计数小于第一阈值,如果该对应计数的邻区之一被分配给事件并且该样本的计数函数值大于比第一阈值更低的第二阈值,则将xi分配给该事件。

以上例子假设数据流的平均值在“事件”之间是常数。然而,也可以构建考虑平均值随时间变化的实施方案。在一个实施方案中,在每次搜索事件之前执行平均值和标准偏差的测量。该实施方案适用于实时触发系统,其中被测量信号恰好在测量之前连接到测试设备。

在另一个实施方案中,在一天当中的特定时间执行校准。如上文所讨论,该实施方案适用于监控生产线上的测试设备。它在噪声随一天当中的时间变化的环境中也很有用。

上述实施方案假设受噪声影响的信号的平均值是恒定的。然而,在一些应用中,被监控的信号可能具有已知的时间依赖性,并且仪器将由在该信号变化之上发生的事件触发。例如,测量包括来自电力线的60个周期的振幅变化的信号的示波器的用户可能希望捕获施加在信号上的瞬变。在这种情况下,平均值具有正弦变化,并且相对于基础的正弦变化来判断离群值。在校准期间,必须将平均值拟合到正弦波已经所确定的正弦波的振幅、相位和频率。然后使用关于该正弦波的噪声的统计数据来定义离群值。然后在计数窗口内,将正弦波与观察到的信号值之间的差值与截止值进行比较以确定点是否为离群值。

上述实施方案需要一种用于确定给定样本关于被测量信号的统计数据是否为离群值的方法。如果已知数据流的区域没有事件,则该区域可以用于测量信号的统计数据并且定义截止值以确定单个信号值是否为离群值。不幸的是,能够定义这样的区域并不总是可行的。通常,系统被呈现有跨越大窗口的一系列测量值,其中用于对离群值进行计数的较小窗口沿着信号的最后部分移动。如果使用大窗口来计算统计数据和离群值截止值,则截止值可能以导致事件开始被错过的方式偏移。

现在参考图3a到图3b。图3a是噪声数据流的图,其中事件在样本500周围开始。图3b是计数函数的图,该计数函数对大小为151个样本的窗口中的离群值的数量进行计数。在该例子中,图3a中所示的整个信号用于计算确定点是否为离群值的统计数据。现在参考图4,该图展示了计数函数,如果仅使用图3a中的最先四分之一的样本来计算离群值截止值所基于的统计值,则获得该计数函数。可以看出,计数函数现在清楚地识别从约样本500开始的事件。

因此,有利的是识别数据流的如下区域:在该区域中没有事件发生并且该区域包含足够的点以提供对基础噪声统计的量度。到达这样的区域的一种方法是使用整个序列或该序列的至少非常大的部分来定义对离群值截止值的第一近似。使用该离群值截止值,可以识别具有与无事件一致的计数的数据流区域。然后可以使用该无事件区域中的样本重新计算离群值截止值以用于处理整个数据流。如果需要,可以迭代该程序直到获得截止阈值的稳定值。

如果训练窗口包括重要事件,则计数函数将由计数函数为负的扩展区域表征。在训练函数中包括具有事件的区域导致p的估计值太大,因为事件具有更高的离群值数量并且训练样本取决于每个样本的离群值的平均数量。

虽然上述实施方案涉及时间序列,但是可以被子采样到窗口或块(bin)中的任何有序系列都适合于本发明的计数分析。例如,可以分析诸如谱图等频域数据。在这里,排序是按频率而不是按时间。可以分析单个谱图以确定具有高于随机rf噪声的功率值的rf信号。或者可能存在用于大的发射值的某个标准,该发射值可以用于定义预期功率水平与离群值水平。

通常,对于任何系列,在使该系列经受本发明的统计分析之前,还可将数据变换到另一个域中,诸如一阶或二阶导数、fft、对数变换等。变换后的域可以提供更方便的离群值定义。例如,如果触发器涉及输入信号的上升时间,则可以使用一阶导数变换来变换输入信号以强调信号的上升和下降时间。虽然经变换的信号强调了所关注的信号性质,但是该信号也具有明显更多的噪声,因为导数变换放大了噪声以及所关注的上升时间。然后,即使存在增强的噪声,本发明的分析也将在一阶导数空间中搜索异常值。

除了识别事件的位置之外,计数函数还可以提供其他信息。计数函数下面积是事件大小的度量。如果事件定期发生,则计数函数可以检测事件与其他参数(诸如一天当中的时间)之间的关系。如果该面积或峰值在时间上增加,则事件的幅值增加。

上述实施方案取决于定义截止值,在该截止值之上,样本被认为是离群值。在本发明的一个方面中,对样本值进行归一化以提供与数据流中的每个样本xi对应的归一化值zi,其中

zi=(xi-μ)/σ

在这里,μ是数据流中的样本的平均值,而σ是该系列值的标准偏差。然后,截止值zc是样本值偏离平均值的度量,单位为σ。

不是取决于平均值和标准偏差来将点归一化并将点分类为离群值,而是可以利用其他统计测量。例如,使用中位数和四分位数间距(iqr)提供了中心性和离散度的类似估计,但是对可能偏离平均值和方差的大离群值不太敏感。在本发明的一个方面中,中位数和iqr被它们在z归一化中的对应物替代,并且利用基于来自中位数的iqr的某个倍数的截止值。

另一种分类系统使用中位数的绝对偏差的中位数mad,其中

mad=median{|xi-xm|}

其中xm是样本中位数。样本x的合适的归一化是

m(x)=0.6745(x-xm)/mad

添加因子0.6745以使归一化值与上面讨论的高斯z得分大致相当。

在上述实施方案中,如果与样本对应的窗口中的计数函数大于某个预定事件阈值,则该样本是事件的一部分。如果事件阈值设定得太高,则可能会丢失统计上显著的事件。如果事件阈值太低,则可能会生成大量假阳性。通常,最优事件阈值将取决于与假阳性或错过的事件相关联的相对成本。然而,在测量中的散粒噪声的标准偏差方面设定事件阈值是有利的。如果噪声是高斯型并且计数函数值大于一个标准偏差,则事件已经发生的结论将在大约60%的时间是正确的。对于更高倍数的散粒噪声标准偏差,可以提出类似的结论。如上所述,散粒噪声标准偏差大约是其中p可能来自训练样本。在一个示例性实施方案中,计数函数被归一化为散粒噪声的标准偏差。即,在这种情况下,事件阈值可以被设定为提供事件是离群值的期望确定性程度的数字。应注意,可以在不同的计数窗口大小之间比较该计数函数的值。

上述实施方案还假设计数窗口的大小相对于计数窗口中的样本值的数量保持恒定。在一些应用中,允许计数窗口的大小变化可能是有利的。例如,在样本生成速率在工作轮换或其他关注的时间间隔内稍微变化的应用中,在时间上恒定的计数窗口可能更有用。在这种情况下,窗口中的样本数被计数,而样本计数用作ns。

在本发明的一个方面中,超几何得分用于对函数进行计数。超几何得分z由下式定义

在这里,n离群值是在大小为ns的当前窗口中观察到的离群值数量,p是在没有事件的情况下任何给定样本是离群值的概率,而n总是训练窗口的大小。在是离群值的概率并非远小于1的情况下,该计数函数为散粒噪声的标准偏差提供更精确的归一化。

上述实施方案假设滑动窗口中的样本数量在数据流中从一点到另一点保持恒定。然而,也可以构造滑动窗口被定义为时间窗口的实施方案。在这种情况下,如果生成样本的速率在时间上不恒定,则滑动窗口中的样本数量可以因点而异。在这样的实施方案中,对具有滑动时间窗口的样本的数量进行计数,并且窗口中的实际样本数量用于确定事件是否已经发生。

本发明的上述实施方案是基于以下观察:可以通过以下方式来检测事件,在训练阶段期间测量信号值流的统计分布的性质、然后在沿着数据流移动的窗口中测量相同的性质以确定该性质是否已从训练周期发生显著变化。在以上例子中,统计性质是由平均值和离群值阈值定义的离群值数量。如果离群值数量已经显著改变,则本发明得出如下结论:统计分布已经发生显著变化,并且因此发生了值得注意的事件。还可以构建利用基础统计分布的其他度量的实施方案。

在一个示例性实施方案中,计算训练窗口中的数据值的平均值和标准偏差。与上面讨论的计数窗口类似的滑动窗口在数据流上移动。在每个x值处,计算关于大小为ns的窗口内的训练平均值的值的标准偏差,并且将该标准偏差与训练窗口中的值的标准偏差进行比较。如果标准偏差偏差超过事件阈值,则认为事件已发生。

还可以构建基于基础统计分布的其他度量的实施方案。例如,可以使用样本值与平均样本值之间的差值的绝对值的平均值。

本发明可以在能够执行上述统计计算以及执行数据系列到执行统计分析的新形式的任何变换的任何数据处理系统上实践。除了通用计算机等之外,本发明也可以结合到测量仪器上的数据处理器中或者在诸如现场可编程门阵列或其他定制硬件等专用硬件中实施。

已经提供了本发明的上述实施方案以展示本发明的各个方面。然而,应理解,可以组合在不同的具体实施方案中显示的本发明的不同方面以提供本发明的其他实施方案。另外,根据前面的描述和附图,对本发明的各种修改将变得显而易见。因此,本发明仅受所附权利要求书的范围限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1