检验服从近似正态分布的时间序列的异常的方法与流程

文档序号:12786708阅读:656来源:国知局

本发明涉及异常检测领域,特别涉及一种检验服从近似正态分布的时间序列的异常的方法。



背景技术:

伴随着医院信息化建立的不断健全和完善,医院产生了大量的数据,该数据具有价值高,维度大等特点。正是由于数据的复杂性高,当医院某些指标发生异常时,难以发现,并且某些重要指标的异常检测对医院管理决策有着重要影响。因此如何及时有效地检测医院管理关键指标的异常模式,保证医院正常运行具有重要的意义。医院管理关键指标异常是指医院管理关键指标偏离其正常模式的情形。随着医院信息系统的不断完善,数据量不断增加,医院重要管理关键指标异常对医院正常运行的影响越来越大。因而如何准确、快速地检测出指标异常,并做出合理的响应,是保证医院正常运行的前提条件之一。

医院管理关键指标(门诊量,住院量,手术量等)的异常模式检测技术有助于医院管理者及时发现医院相关指标的异常情况,及时查找问题发生的原因,解决问题,保证医院各项工作正常运转。目前医院现有的检测异常模式的方式,主要是医院管理者根据经验判断指标是否异常,这种异常检测方法存在很多问题,一是这种方式不能及时发现异常,往往是经过一段时间的数据汇总(如月报汇报时)管理者才发现异常,导致不能及时解决问题,时间滞后;二是这种检测异常模式的方法需要管理者具有一定的管理经验,对管理者的要求较高,可复制性差;还有就是由于管理者的经验的不同,导致检测出的异常模式更具有经验性、个人主观性,缺乏科学性、合理性。



技术实现要素:

本发明提供了一种检验服从近似正态分布的时间序列的异常的方法,以解决现有技术中数据异常检测滞后性大、缺乏科学性和合理性的问题。

为解决上述问题,作为本发明的一个方面,提供了一种检验服从近似正态分布的时间序列的异常的方法,包括:步骤1,获取关键管理指标的按时间顺序排列的历史数据;步骤2,生成所述关键管理指标的正态概率图;步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4;步骤4,根据广义ESD统计检验时间序列是否存在异常值。

优选地,步骤2包括:步骤21,将每个关键管理指标的数据分别由小至大排列,并分别按1-n编号;步骤22,计算每个数据的分位数;步骤23,确定与每个分位数匹配的正态分布值;步骤24,根据上述每个数据的值及其对应的分位数的正态分布值生成散点图,其中,该散点图的X轴为所述正态分布值,Y值为所述数据的值;步骤25,采用一条直线拟合所述散点图中的数据点,生成正态概率图。

优选地,所述步骤3包括:计算所述散点图中的数据点与所述直线之间的相关系数,如果相关系数小于预定值,则认为存在异常值。

优选地,所述步骤4包括:步骤41,确定异常值的个数r或占比a;步骤42,计算步骤3中确定的每个异常值对应的统计量、以及该异常值在给定的显著水平下的临界值;步骤43,若该异常值的统计量大于临界值,则该异常值对应的数据是所述关键管理指标的异常值。

优选地,所述步骤42根据下式计算所述统计量:

其中,Ri为统计量,为样本均值,S为样本标准差,xi为时间序列中的数据值。

优选地,所述步骤42在显著性水平为α的条件下,根据下式计算所述临界值:

其中,λi为临界值,tp,n-i-1为自由度为n-i-1的t分布的100p百分位点,且其中,n为时间序列的长度,i为时间序列中的点的位置。

由于医院各指标为时间序列数据,即时间序列的自动异常检测技术,因此,通过本发明中的技术方案可科学地定义出异常模式,并实现异常模式的自动检测、及时发现异常,克服了现有技术中往往需要经过一段时间的数据汇总(如月报汇报时)后才能由管理者发现异常,导致不能及时解决问题现象。此外,本发明中的方法在检测异常模式时,不需要管理者具有一定的管理经验,降低了对管理者的要求,可复制性好,而且还能避免由于管理者经验的不同,导致检测出的异常模式带有很多经验性和个人主观性的问题,增加了预测的科学性和合理性。

附图说明

图1示意性地示出了本发明的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明提供了一种检验服从近似正态分布的时间序列的异常的方法,其不但适用于医院的门诊量、住院量、手术量,而且适用于如银行的交易额、交易量,交通领域的交通量,网络流量数据等。本发明中的所述方法包括:

步骤1,获取关键管理指标(以医院为例,如门诊量、住院量、手术量等)的按时间顺序排列的历史数据;

步骤2,生成所述关键管理指标的正态概率图;正态概率图可用于检查一组数据是否服从正态分布,是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。

步骤3,根据所述正态概率图判断所述关键管理指标的数据是否存在潜在的异常值,如果有,则进入步骤4。根据正态概率图可初步判断是否存在异常值()这里说的潜在异常值甚至可以只是肉眼粗略的判断);如果有,那么进入到步骤4,精确的计算异常值,若没有,则不需要进入到步骤4。

步骤4,根据广义ESD统计检验时间序列是否存在异常值。

由于医院各指标为时间序列数据,即时间序列的自动异常检测技术,因此,通过本发明中的技术方案可科学地定义出异常模式,并实现异常模式的自动检测、及时发现异常,克服了现有技术中往往需要经过一段时间的数据汇总(如月报汇报时)后才能由管理者发现异常,导致不能及时解决问题现象。此外,本发明中的方法在检测异常模式时,不需要管理者具有一定的管理经验,降低了对管理者的要求,可复制性好,而且还能避免由于管理者经验的不同,导致检测出的异常模式带有很多经验性和个人主观性的问题,增加了预测的科学性和合理性。

优选地,步骤2包括:

步骤21,将每个关键管理指标的数据分别由小至大排列,并分别按1-n编号。以医院为例,本发明中检测异常的过程都是针对一个医院管理的关键指标而言的。医院管理会包含多个指标,所有指标检测异常的方法和步骤都是相同的,这里从小到大排序是对一个关键指标数据,比如医院住院量数据,按照住院量的大小从小到大排序,原始的数据是按时间排序的。

步骤22,计算每个数据的分位数。若i是排序后的序号,n是数据长度,则:分位数=(i-0.5)/n。

步骤23,确定与每个分位数匹配的正态分布值。

例如,可将原始数据、分位数及对应的正态分布值记到如下的表格里:

步骤24,根据上述每个数据的值及其对应的分位数的正态分布值生成散点图,其中,该散点图的X轴为所述正态分布值,Y值为所述数据的值。

步骤25,采用一条直线拟合所述散点图中的数据点,生成正态概率图。

优选地,所述步骤3包括:计算所述散点图中的数据点与所述直线之间的相关系数,如果相关系数小于预定值,则认为存在异常值。其中,相关系数是描述两个变量线性相关程度的统计量,此处为原始数据和正态分布值的相关系数,相关系数很高,说明二者存在明显的线性关系,拟合直线具有显著性。

优选地,所述步骤4包括:

步骤41,确定异常值的个数r或占比a。占比和个数都是基于步骤3中初步判断出的异常值,本步骤的目的是得到大概存在多少个异常值,或是原指标数据中有百分之多少为异常值。优选地,确定异常值的个数r或占比a的方法为观察正态概率图,根据偏离直线的点的个数确定。

步骤42,计算步骤3中确定的每个异常值对应的统计量、以及该异常值在给定的显著水平下的临界值。在初步判断了有异常值、异常值的大概个数或是占比,就开始精确的根据ESD统计量检测,检测的方法是一个一个的检测,先检测最异常的点,然后剃掉最异常的点再检验,直到检测到r个或达到占比。

步骤43,若该异常值的统计量大于临界值,则该异常值对应的数据是所述关键管理指标的异常值。

优选地,所述步骤42根据下式计算所述统计量:

其中,Ri为统计量,为样本均值,S为样本标准差,xi为时间序列中的数据值。

上式中,的值越大,说明xi与相差越大,该数据点是管理关键关键指标的异常值的可能性也越大。

例如,我们可首先删除使最大的xi,然后重新计算余下的n-1个数据的Ri,再移除相应的xi。重复这个过程,一直到移除了r个满足条件的数据(此时,该数据集中,可能是医院管理关键关键指标的异常值的r个数据被删除),形成r个检测统计量R1,R2,,Rr

优选地,所述步骤42在显著性水平为α(置信度为1-α)的条件下,根据下式计算所述临界值:

其中,λi为临界值,tp,n-i-1为自由度为n-i-1的t分布的100p百分位点,且其中,n为时间序列的长度,i为时间序列中的点的位置。

假设:

H0:没有医院管理关键关键指标的异常值

H1:最多有r个医院管理关键关键指标的异常值

其中,t的密度函数为

假设H0成立,则有则有P(t≤λi)=p,则上述检验的拒绝域为(λi,+∞),即当Rii时,对应的数据是管理关键关键指标的异常值。

因此,找出使Rii得最大的i,就是我们检验的数据集中存在i个医院管理关键关键指标的异常值。

本发明可以帮助管理者自动检测管理关键指标的异常模式,对管理者的管理经验要求不高,检测出更加科学的异常模式,且具有即时性,随时检测异常。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1