检测被测量的测得值中异常值的异常值检测方法与流程

文档序号:36796236发布日期:2024-01-23 12:18阅读:20来源:国知局
检测被测量的测得值中异常值的异常值检测方法与流程

本发明涉及一种异常值(outlier)检测方法,特别是一种计算机实施的检测被测量的测得值中的异常值的异常值检测方法,以及一种包括异常值检测方法的确定和提供被测量的测量结果的方法。


背景技术:

1、所关注的测得值被确定,随后用于各种不同应用的各种目的,包括工业应用以及实验室应用。在许多应用中,被测量的测得值是由测量被测量的测量设备确定和提供的,并且随后用于监视、调节和/或控制被测量、工厂或设施(例如,生产设施)的操作,和/或在应用中执行的过程(例如,生产过程)的至少一个步骤。例如,在化学生产过程中,能够监视生产过程中使用的反应物的浓度和/或过程产生的预产物、中间产物和/或排放物中所含的分析物的浓度,并且基于被测量的测得值来安排、调节和/或控制生产过程的一系列过程步骤。例如,测量被测量,诸如ph值、游离氯浓度和/或介质浊度的液体分析测量设备被用于例如游泳池以及饮用水供应网络和净水厂,以监视、调节和/或控制水质。

2、取决于具体应用,生产过程的效率和/或生产率、所生产产品的产品质量,设施、工业工厂和/或实验室的操作安全和/或饮用水的质量可能取决于测得值的准确性和可靠性。

3、即使采用高度准确和可靠的测量设备来确定测得值,仍然存在问题,即测得值的时间序列可能包括异常值,这些异常值显著偏离被测量当时的真实值。异常值可能是由于与应用和/或确定测得值的测量设备相关联的多种根本原因而发生的。根本原因的示例包括在测量地点(其中被测量被确定)处发生的干扰,在应用(其中被测量被确定)处执行的过程的干扰,以及确定测得值的测量设备所暴露的不利测量条件。

4、当异常值仍未被注意时,存在风险,即可能做出错误的决定,和/或可能基于包括在测得值中的异常值而执行不适合的动作。这种风险在其中以半自动或全自动方式基于测得值来执行监视、调节和/或控制的应用中尤其高。作为示例,当供应管道上的阀门由于异常值指示容器内介质的高料位而关闭时,即使真实料位低,这也可能损害容器内生产的产品的质量和/或甚至可能构成安全隐患。

5、因此,需要检测测得值中包括的异常值以防止它们被进一步采用。异常值检测在文献中已经被广泛讨论,但能够实时检测异常值的异常值检测方法很少见。另一问题在于这些方法基于参数定期操作。为了能够准确和可靠地检测异常值,这些参数的确定通常需要对测得值的性质,特别是测得值的时间依赖性和测得值中包括的噪声性质进行专家分析,随后手动调整参数。测得值和噪声的性质通常事先不知道。这使得所需参数的准确确定成为一种严苛的、耗时和成本密集的过程。


技术实现思路

1、本发明的目标在于提供一种异常值检测方法,其能够检测包括在被测量的测得值的时间序列中的异常值,使得能够实时检测异常值,无需专家分析或事先了解测得值和/或其中所包括的噪声的性质。

2、该目标通过一种检测被测量的测得值中的异常值的异常值检测方法、特别是计算机实施的异常值检测方法,所述方法包括以下步骤:

3、a)连续地或重复地记录数据,包括被测量的测得值及其确定时间,

4、b)通过对测得值进行过滤来确定测得值的经过滤值,

5、c)基于包括在所记录的数据中的训练数据,确定单独测得值与将在特定应用中预期的相应单独测得值之前的测得值的经过滤值之间的差值的组合分布,在特定应用中,通过执行以下步骤应用异常值检测方法:

6、基于包括在训练数据中的测得值的经过滤值来确定经过滤值的第一差值的差值分布,

7、确定包括在测得值中的噪声的噪声分布,以及

8、基于噪声分布和差值分布来确定组合分布,

9、d)通过执行以下步骤识别针对至少一个、几个或每个新测得值的异常值:

10、确定相应新测得值与在相应新测得值之前的测得值的经过滤值之间的差值,

11、根据组合分布来确定相应新测得值与先前测得值的经过滤值之间的这种差值的发生概率,以及

12、当这种差值的发生概率低于预定置信水平时,将相应新测得值识别为异常值,以及

13、e)通过执行以下步骤中的至少一个来提供检测结果:指示已经被识别为异常值的每个新测得值,在已经识别出异常值时发出警告,以及当预定数量的连续确定的新测得值已经被识别为异常值时发出通知或警报。

14、本发明提供了下述优点:组合分布的确定以自主的完全数据驱动的方式执行,既不需要对数据的专家分析也不需要测得值性质和噪声性质的任何先前了解。因而,不基于可能对于其中采用所述方法的特定应用无效的任何假设、参数或其它输入。基于经验确定的组合分布,方法使得能够以高准确性和可靠性实时地,并且以真正考虑测得值和噪声的性质的方式在其中使用异常值检测方法的特定应用中检测异常值。另一优点在于,第一差值的差值分布和噪声分布能够是任何类型的。因而,无论是差值分布还是噪声分布都必须符合预定要求。这使得无论这些分布的性质如何,都可以普遍采用所述方法。作为示例,采用异常值检测方法既不需要分布是高斯分布,也不需要是对称分布,也不需要是静止分布,也不需要符合任何其它要求。

15、根据第一实施例,噪声分布如下被确定:

16、被确定为或基于包括在训练数据中的测得值与对应的经过滤值之间的残差分布,或者

17、基于确定和提供被测量的测得值的测量设备所固有的测量不确定性,或者

18、以基于包括在训练数据中的测得值与对应的经过滤值之间的残差分布以及确定和提供被测量的测得值的测量设备所固有的测量不确定性而确定的组合噪声分布的形式,或者

19、基于包括在训练数据中的测得值与对应的经过滤值之间的残差分布,使得噪声分布表示作为噪声幅度函数的噪声的发生概率,其中,针对由噪声分布覆盖的每个噪声幅度,发生概率大于或等于由于确定和提供被测量的测得值的测量设备固有的测量不确定性而具有相应噪声幅度的噪声的发生概率。

20、第二实施例进一步包括以下步骤:

21、基于包括在所记录的数据中的新训练数据来更新组合分布,以及

22、随后基于更新的组合分布来执行异常值的识别,

23、其中,组合分布的更新:

24、a)至少一次、重复地或周期性地被执行,

25、b)至少一次、重复地或周期性地基于新训练数据被执行,新训练数据包括在训练时间间隔之后已经确定的大于或等于一的给定数量的测得值,在训练时间间隔期间,被用于确定先前确定的组合分布的训练数据中包括的测得值已经被确定,

26、c)至少一次、重复地或周期性地基于包括测得值在内的新训练数据被执行,测得值已经在相应更新的组合分布的确定之前的预定持续时间的时间间隔期间确定,

27、d)在可能对测得值的性质和/或噪声的性质产生影响的事件发生后执行,

28、e)在由连续确定的测得值之间的恒定时间间隔的变化或由连续确定的测得值之间的时间差值分布的至少一个性质的变化给定的事件之后执行,

29、f)在由新测得值与先前测得值之间的、超过预定时间限制的时间差值给定的事件之后执行,和/或

30、g)包括确定新训练数据与在组合分布的先前确定中采用的训练数据之间的相似性程度的方法步骤,随后是下述方法步骤:在相似性程度低于预定阈值时更新组合分布和/或在相似性程度超过预定阈值的情况下推迟组合分布的更新。

31、根据第三实施例,对测得值过滤的方法步骤包括:

32、基于包括在数据中的训练数据,通过以下步骤确定用于具有可调过滤强度的过滤器的参数化:

33、将过滤强度设置为预定初始过滤强度,

34、执行借助于过滤器对包括在训练数据中的测得值进行过滤并且确定由过滤器提供的经过滤值的分形维数的过程,以及

35、通过以下步骤迭代地重复该过程,即,将过滤器的过滤强度增加到更高过滤强度,并且随后对测得值进行过滤,并且确定由具有更高过滤强度的过滤器确定的经过滤值的分形维数,直到在过程的每次迭代结束时确定的分形维数的衰减下降到预定阈值以下为止,以及

36、用基于对应于在最后一次迭代中采用的过滤强度的参数化来操作的过滤器,执行对测得值的过滤。

37、根据第三实施例的实施例,每次迭代包括通过以下来确定分形维数的衰减的方法步骤:

38、a)确定为或基于在相应迭代期间确定的经过滤值的分形维数与包括在训练数据中的未经过滤的测得值的分形维数的比率,或者

39、b)确定为或基于在相应迭代期间确定的经过滤值的分形维数与在先前迭代期间确定的经过滤值的分形维数的比率,或者

40、c)基于三个或更多个先前确定的分形维数和/或基于拟合到几个或所有先前确定的分形维数的函数的性质。

41、根据方法(根据第二和第三实施例)的实施例,在组合分布被更新时更新过滤器的参数化。

42、根据第四实施例,异常值的识别是实时执行的,和/或训练数据是未标记的数据,和/或包括预定数量的测得值和/或在初始和/或预定训练时间间隔期间或预定持续时间的任意选择时间间隔期间已经测量的测得值。

43、本发明进一步包括一种方法,用于在确定和提供被测量的测量结果的方法中使用异常值检测方法,包括以下步骤:

44、借助于测量设备重复地或连续地确定和提供被测量的测得值,

45、其中,测量设备是:

46、在测量地点处测量被测量的物理设备,或者

47、由基于对其提供的数据重复地或连续地确定和提供被测量的测得值的虚拟设备、计算机实施的设备或软传感器给定,

48、基于测得值及其确定时间来执行异常值检测方法,以及

49、基于测得值和通过执行异常值检测方法确定的检测结果来确定和提供被测量的测量结果。

50、根据使用异常值检测方法的方法的某些实施例:

51、a)提供测量结果包括提供检测结果并且提供测得值、测得值的经过滤值、和/或基于测得值和/或经过滤值确定的经处理的测得值,或者

52、b)确定测量结果包括基于检测结果消除已经被识别为异常值的每个新测得值,并且确定和提供测量结果包括下述中的至少一项:

53、b1)提供在已经消除异常值之后剩余的剩余测得值,

54、b2)提供剩余测得值的经过滤值,

55、b3)提供基于剩余测得值和/或基于剩余测得值的经过滤值而确定的经处理的测得值,以及

56、b4)执行下述中的至少一项:提供检测结果,指示已经被识别为异常值的每个新测得值,当已经识别出异常值时发出警告和/或当预定数量的连续确定的新测得值已经被识别为异常值时发出通知或警报。

57、在某些实施例中,使用异常值检测方法的方法进一步包括下述步骤中的至少一项:

58、针对两个或更多个被测量的被测量执行确定和提供测量结果的方法,

59、基于测量结果,监视、调节和/或控制被测量或至少一个被测量,监视、调节和/或控制工厂或设施的操作,和/或监视、调节和/或控制在其中采用测量设备的应用中执行的过程的至少一个步骤,以及

60、将被测量的测量结果提供给上级单元,上级单元被配置成监视、调节和/或控制相应的被测量、工厂或设施的操作、和/或在其中采用确定被测量的测得值的测量设备的应用中执行的过程的至少一个步骤。

61、本发明进一步包括一种测量设备,其被配置成执行确定和提供测量结果的方法,包括:

62、测量单元,其被配置成确定和提供被测量的测得值,

63、计算装置、与计算装置相关联的存储器以及被安装在计算装置上的计算机程序,在程序被计算装置执行时,使计算装置基于测量单元提供给计算装置的测得值来执行确定和提供测量结果的方法。

64、本发明进一步包括一种被配置成执行确定和提供用于至少一个被测量的测量结果的方法的测量系统,所述测量系统包括:

65、用于每个被测量的测量设备,其确定和提供相应被测量的测得值,

66、计算装置,其连接到每个测量设备和/或与每个测量设备通信并且被配置成接收每个被测量的测得值,

67、存储器,其与计算装置相关联,以及

68、计算机程序,其被安装在计算装置上,当程序被计算装置执行时,使计算装置针对每个被测量执行确定和提供测量结果的方法。

69、在测量系统的某些实施例中:

70、计算装置位于边缘设备中、上级单元中或云中,并且

71、至少一个或每个测量设备直接地、经由上级单元、经由位于相应测量设备附近的边缘设备、和/或经由因特网连接到和/或与计算装置通信。

72、本发明进一步包括一种计算机程序,其包括指令,当程序被计算机施行时,指令使计算机执行异常值检测方法,或者包括异常值检测方法在内的基于被提供给计算机的测得值来确定和提供针对至少一个被测量的测量结果的方法。

73、本发明进一步包括一种计算机程序产品,其包括该计算机程序和至少一个计算机可读介质,其中,至少计算机程序存储在计算机可读介质上。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1