一种判断数据异常方法和设备与流程

文档序号:12597616阅读:257来源:国知局
一种判断数据异常方法和设备与流程

本申请涉及网络技术领域,特别是涉及一种判断数据异常方法和设备。



背景技术:

企业或者在线系统一段时间内的运营情况会反映在一些关键数据上,因此对数据的监控与预警是企业决策的重要依据之一,比如:企业的营业收入、现金流量等数据和系统的访问流量、平均访问延迟等数据如果出现异常,会对企业的正常生产运营和系统的服务质量产生较大影响,需要决策层及时进行反应与处理。当前数据的监控数据基本上都会以数据的形式进行存储,如何有效地对数据异常性进行分析与判定,防止数据噪音带来的误报并提供准确的预警信息是一个亟需有效解决的问题,而有了有效的数据预警机制,决策层可以更快地对于公司或者在线系统的运营状况进行反应,提升效益。

在现有技术中主要是利用专家模型或者曲线模型来进行数据预警,比如:

专家模型:通过专家的经验与分析,制定一个阈值,如果数据的一些统计量满足该阈值(如半年度净利润率低于3%),则进行预警;曲线模型:利用小波分解方法对数据在一段时间范围内的变化曲线进行分解,获得反应短期随机性因素和长期趋势性因素的两类子曲线。通过对两类子曲线分别进行分析,判断是否需要进行预警。

在实现本申请的过程中,发现现有技术中至少存在以下技术问题:

通过专家模型进行预警完全依赖于专家制定的阈值,,并没有通过具体的数据来进行分析,主观性过强,并且制定的阈值并不完全准确;通过曲线模型进行预警,这种方法容易受到噪音的影响,并且分解出来的子曲线与业务相关性不大,可解释性不强。



技术实现要素:

本申请提供一种判断数据异常方法和设备,以使所述设备终端对数据进行预警。

为了达到上述目的,本申请提供了一种判断数据异常的方法,其特征在于,所述方法包括:

设备终端根据预设的时间划分方法将获取的数据所对应的时间划分为两个相邻的时间区间;

所述设备终端根据所述两个相邻的时间区间内的数据集合确定所述两个相邻的时间区间的数据差异评分;

所述设备终端根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验;

所述设备终端根据预设检验次数的置换检验的结果判断获取的数据是否存在异常。

所述设备终端根据所述两个相邻的时间区间内的数据集合确定所述两个相邻的时间区间的数据差异评分,具体为:

所述设备终端根据公式:MXY=median{|X-Y|2}确定所述两个相邻的时间区间内的数据集合差异的中位数;其中,MXY表示两个相邻的时间区间内的数据集合差异的中位数;X表示一个时间区间的数据集合;Y表示另一个时间区间的数据集合;

所述设备终端根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分。

所述设备终端根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分,具体为:

所述设备终端根据公式:Score=2MXY-MXX-MXY,确定所述两个相邻的时间区间的数据差异评分;

其中,MXX表示一个时间区间内的数据集合差异的中位数;MYY表示另一个时间区间内的数据集合差异的中位数。

所述设备终端根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验,具体为:

所述设备终端将所述两个相邻的时间区间内的数据进行随机置换;

所述设备终端根据随机置换后的所述两个相邻的时间区间内的数据确定随机置换后的所述两个相邻的时间区间的数据差异评分;

所述终端设备判断随机置换前所述两个相邻的时间区间的数据差异评分大于预设检验次数的随机置换后的所述两个相邻的时间区间的数据差异评分的比例是否在置信区间内。

在所述设备终端判断出获取的数据存在异常后,所述方法还包括:

所述设备终端将获取的数据存在异常的时间点确定为预警时间点;

所述设备终端判断预警时间点前后的时间区间的中位数的大小变化;

如果变大,所述设备终端进行数据异常是提高的预警;

如果变小,所述设备终端进行数据异常是降低的预警。

一种设备终端,其特征在于,所述设备包括:

划分模块,用于根据预设的时间划分方法将获取的数据所对应的时间划分为两个相邻的时间区间;

评分模块,用于根据所述两个相邻的时间区间内的数据集合确定所述两个相邻的时间区间的数据差异评分;

置换检验模块,用于根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验;

判断模块,用于根据预设检验次数的置换检验的结果判断获取的数据是否存在异常。

所述评分模块根据公式:MXY=median{|X-Y|2}确定所述两个相邻的时间区间内的数据集合差异的中位数;其中,MXY表示两个相邻的时间区间内的数据集合差异的中位数;X表示一个时间区间的数据集合;Y表示另一个时间区间的数据集合;

所述评分模块根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分。

所述评分模块根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分,具体为:

所述评分模块根据公式:Score=2MXY-MXX-MYY,确定所述两个相邻的时间区间的数据差异评分;

其中,MXX表示一个时间区间内的数据集合差异的中位数;MYY表示另一个时间区间内的数据集合差异的中位数。

所述置换模块,具体用于:

将所述两个相邻的时间区间内的数据进行随机置换;

根据随机置换后的所述两个相邻的时间区间内的数据确定随机置换后的所述两个相邻的时间区间的数据差异评分;

判断随机置换前所述两个相邻的时间区间的数据差异评分大于预设检验次数的随机置换后的所述两个相邻的时间区间的数据差异评分的比例是否在置信区间内。

所述设备还包括:

确定模块,在所述判断模块判断出获取的数据存在异常后,用于将获取的数据存在异常的时间点确定为预警时间点;

中位数判断模块,在所述预警确定模块根据所述异常点确定对应的预警时间点后,用于判断预警时间点前后的时间区间的中位数的大小变化;

如果变大,所述设备终端进行数据异常是提高的预警;

如果变小,所述设备终端进行数据异常是降低的预警。

本申请中基于获取的数据在其对应的时间上的变化,通过将获取的数据对应的时间划分为两个相邻的时间区间并得到所述两个相邻的时间区间的数据差异评分,同时将两个相邻的时间区间内的数据进行随机置换对置换前所述两个相邻的时间区间的数据差异评分进行多次置换检验,如果置换检验的结果符合要求则能够确定出获取的数据中是否存在异常,以对数据进行预警。本申请是根据实际的数据来确定对数据进行预警,提高了预警效果,并且,本申请中获取的数据是否存在异常是通过两个相邻的时间区间的数据差异评分得到的,不易受到噪音的影响,具有较好的抗噪性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对本申请或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中的一种判断数据异常方法流程图;

图2为本申请实施例中的一种某商品销售数据与时间的示意图;

图3为本申请实施例中的一种预警时间点图形化的流程图;

图4为本申请实施例中的一种预警时间点图形化的示意图;

图5为本申请实施例中的一种设备终端结构示意图。

具体实施方式

下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的其他实施例,都属于本申请保护的范围。

如图1所示,为本申请一种判断数据异常方法,所述方法包括以下步骤:步骤101,设备终端根据预设的时间划分方法将获取的数据所对应的时间划分为两个相邻的时间区间。

具体的,例如:获取的数据所对应的时间为2014年11月1日-2014年11月30日,预设的时间划分方法为以天为单位,从前向后依次选取时间区间分割点,形成多个两个相邻的时间区间,以2014年11月1日为开始形成的多个两个相邻的时间区间为:[11月1日;11月2日-11月30日]、[11月1日-11月2日;11月3日-11月30日]、……、[11月1日-11月29日;11月30日]等多个两个相邻的时间区间,其中,11月1日和11月2日-11月30日为一组两个相邻的时间区间。

步骤102,所述设备终端根据所述两个相邻的时间区间内的数据集合确定所述两个相邻的时间区间的数据差异评分。

所述设备终端根据所述两个相邻的时间区间内的数据集合确定所述两个 相邻的时间区间的数据差异评分,具体为:

所述设备终端根据公式:MXY=median{|X-Y|2}确定所述两个相邻的时间区间内的数据集合差异的中位数;其中,MXY表示两个相邻的时间区间内的数据集合差异的中位数;X为两个相邻的时间区间中的一个时间区间的数据集合;Y为两个相邻的时间区间中的另一个时间区间的数据集合;

所述设备终端根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分。

所述数据集合中的数据的前后排列顺序是根据所述数据对应的时间的先后顺序进行排列的,例如:11月2日-11月5日所对应的数据分别为5、4、6、8、2,划分的时间区间为:11月1日-11月2日和11月3日-11月5日,那么X的数据集合为[5、4],Y的数据集合为[6、8、2],进一步的,所述数据集合中的数据是向量数据,向量的方向是以时间的先后顺序为方向的。

所述设备终端根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分,具体为:

所述设备终端根据公式:Score=2MXY-MXX-MYY,确定所述两个相邻的时间区间的数据差异评分;其中,MXX表示一个时间区间内的数据集合差异的中位数;MYY表示另一个时间区间内的数据集合差异的中位数。

具体的,以时间区间为11月1日-11月2日和11月3日-11月5日为例,MXY时11月1日-11月2日与11月3日-11月5日的数据差异评分,MXX为11月1日-11月2日的数据内部的差异评分,MYY为11月3日-11月5日的数据内部的差异评分。

步骤103,所述设备终端根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验。

所述设备终端根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验来衡量所述两个相邻的时间区间的数据差异评分是否显著、可信。

所述设备终端根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验,具体为:

所述设备终端将所述两个相邻的时间区间内的数据进行随机置换;

具体的,所述设备终端随机抽取两个数据集合中相同数目的任意个数的数据,并随机安放在任意的位置。

所述设备终端根据随机置换后的所述两个相邻的时间区间内的数据确定随机置换后的所述两个相邻的时间区间的数据差异评分;

具体的,所述设备终端根据公式:MXY=median{|X-Y|2}确定置换后的所述两个相邻的时间区间内的数据集合差异的中位数,并根据公式:Score=2MXY-MXX-MYY,确定置换后的所述两个相邻的时间区间的数据差异评分。

所述终端设备判断随机置换前所述两个相邻的时间区间的数据差异评分大于预设检验次数的随机置换后的所述两个相邻的时间区间的数据差异评分的比例是否在置信区间内。

具体的,例如:预设检验次数为10次,预设的置信区间为90%-100%,在得到10次随机置换后的所述两个相邻的时间区间的数据差异评分后,所述终端设备判断随机置换前所述两个相邻的时间区间的数据差异评分大于随机置换后所述两个相邻的时间区间的数据差异评分的个数,如果所述随机置换前所述两个相邻的时间区间的数据差异评分比9个或所有的随机置换后所述两个相邻的时间区间的数据差异评分都大,那么表示所述随机置换前所述两个相邻的时间区间的数据差异评分显著,可信度高。

步骤104,所述设备终端根据预设检验次数的置换检验的结果判断获取的数据是否存在异常。

具体的,所述设备终端根据多次的置换检验能够判断出差异评分是否显著,如果显著,则表明获取的数据存在异常;如果不显著,则表明获取的数据不存在异常,则不需要进行预警,并结束。

在所述设备终端判断出获取的数据存在异常后,所述方法还包括:

所述设备终端将获取的数据存在异常的时间点确定为预警时间点;

所述设备终端判断预警时间点前后的时间区间的中位数的大小变化;

如果变大,所述设备终端进行数据异常是提高的预警;

如果变小,所述设备终端进行数据异常是降低的预警。

具体的,如果置换检验的结果在置换区间内,表明划分获取的数据的时间点前后的数据存在明显变化,所述设备终端将获取的数据对应的时间划分为两个相邻的时间区间的时间点确定为预警时间点,即数据异常点,所述设备终端根据所述预警时间点来进行后续的处理。

在所述设备终端根据所述异常点确定对应的预警时间点后,所述方法还包括:

所述设备终端判断预警时间点前后的时间区间的中位数的大小变化;

如果变大,所述设备终端进行数据异常是提高的预警;

如果变小,所述设备终端进行数据异常是降低的预警。

具体的,所述设备终端根据预设的时间划分方法判定出多个预警时间点,将获取数据所对应的图形分割为多个相邻的区间,计算得到各个区间的中位数,所述设备终端判断每个预警时间点前后时间区间的中位数的大小,如果预警时间点前面的中位数大于后面的中位数,表示该相邻的区间的中位数对应的数据按照时间顺序有提升,所述设备终端进行数据的异常变化是提高的预警,以保证后续的操作;如果预警时间点前面的中位数小于后面的中位数,表示该相邻的区间的中位数对应的数据按照时间顺序有下降,所述设备终端进行数据的异常变化是降低的预警,以保证后续的操作。

本申请中基于获取的数据在其对应的时间上的变化,通过将获取的数据对应的时间划分为两个相邻的时间区间并得到所述两个相邻的时间区间的数据差异评分,同时将两个相邻的时间区间内的数据进行随机置换对置换前所述两个相邻的时间区间的数据差异评分进行多次置换检验,如果置换检验的结果符合要求则能够确定出获取的数据中存在异常,以对数据进行预警。本申请是根据实际的数据来确定对数据进行预警,提高了预警效果,并且,本申请中获取的数据是否存在异常是通过两个相邻的时间区间的数据差异评分得到的,不易受到噪音的影响,具有较好的抗噪性。

为了进一步阐述本申请的技术思想,现结合具体的应用场景,如:“双 十一”左右某商品销量的变化,对本申请的技术方案进行说明,其中时间和商品销量(数据)的对应关系如图2所示。

具体的,预警时间点图形化的流程如图3所示,如果时间划分方法是一天为单位,按照时间的先后顺序选取划分间隔点,依次将所有的时间进行划分,划分后的两两相邻的时间区间为:[20141108;20141109-20141113]、[20141108-20141109;20141110-20141113]、[20141108-20141110;20141111-20141113]、[20141108-20141111;20141112-20141113]、[20141108-20141112;201411103],其中,以[20141108-20141109;20141110-20141113]为例来进行说明,X为区间:20141108-20141109,Y为区间:20141110-20141113,X和Y为相邻区间,然后计算相邻区间之间的数据差异评分。

具体的,X集合为:[30、36],Y集合为:[39、203、102、30],根据公式:MXY=median{|X-Y|2}确定出X集合与Y集合的差异集合的中位数,然后在根据公式:Score=2MXY-MXX-MYY得到X与Y的数据差异评分。

所述设备终端进行置换检验判断所述数据差异评分是否具有显著性。

具体的,如果预设的检测次数为10次,每次随机置换掉一个数据,所述设备终端得到每次置换的X与Y的数据差异评分,置换后的X与Y的数据差异评分一共有10个,假如10个置换后的数据差异评分分别为:1、3、5、7、9、2、4、6、8、10。

如果置信区间为90%,假如置换前X与Y的数据差异评分为9或大于9的其他数值,那么,置换前的数据差异评分满足显著性,那么,X区间与Y区间的划分时间点就确定为预警时间点,并输出该预警时间点,假如置换前X与Y的数据差异评分为8或小于8的其他数值,那么就不能确定出预警时间点。

所述设备终端判断是否枚举完划分出来的所有的相邻区间,如果没有枚举完,则继续判断没有枚举的相邻区间的数据差异评分是否具有显著性,如果枚举完毕则判断确定出来的预警时间点前后相邻的时间区间的中位数的大小,来降低数据异常的预警还是提高数据异常的预警。

具体的,假如枚举完毕所有划分出来的所有的相邻区间后发现根据[20141108-20141110;20141111-20141113]和[20141108-20141112;20141113]计算得到置换前的X与Y的数据差异评分大于置换后的X与Y的数据差异评分,即[20141108-20141110;20141111-20141113]和[20141108-20141112;20141113]的数据差异性得分异常显著、可信度高,所述设备就能够确定出两个预警时间点,并输出两个所述预警时间进行图形化展示如图4所示。

所述设备终端判断时间区间[20141108-20141110]与[20141111-20141113]的中位数的大小,区间[20141108-20141110]的中位数为36,区间[20141111-20141113]的中位数为102,所述设备终端进行数据异常提高的预警;

所述设备终端判断时间区间[20141108-20141112]与[20141113]的中位数的大小,区间[20141108-20141112]的中位数为39,区间[20141113]的中位数为30,所述设备终端进行数据异常降低的预警。

基于与上述方法同样的申请构思,本申请还提出了一种设备终端,如图5所述,该设备包括:

划分模块51,用于根据预设的时间划分方法将获取的数据所对应的时间划分为两个相邻的时间区间;

评分模块52,用于根据所述两个相邻的时间区间内的数据集合确定所述两个相邻的时间区间的数据差异评分;

置换检验模块53,用于根据预设检验次数对所述两个相邻的时间区间的数据差异评分进行置换检验;

判断模块54,用于根据预设检验次数的置换检验的结果判断获取的数据是否存在异常。

所述评分模块根据公式:MXY=median{|X-Y|2}确定所述两个相邻的时间区间内的数据集合差异的中位数;其中,MXY表示两个相邻的时间区间内的数据集合差异的中位数;X表示一个时间区间的数据集合;Y表示另一个时间区间的数据集合;

所述评分模块根据所述两个相邻的时间区间内的数据集合差异的中位数 确定所述两个相邻的时间区间的数据差异评分。

所述评分模块根据所述两个相邻的时间区间内的数据集合差异的中位数确定所述两个相邻的时间区间的数据差异评分,具体为:

所述评分模块根据公式:Score=2MXY-MXX-MYY,确定所述两个相邻的时间区间的数据差异评分;

其中,MXX表示一个时间区间内的数据集合差异的中位数;MYY表示另一个时间区间内的数据集合差异的中位数。

所述置换模块,具体用于:

将所述两个相邻的时间区间内的数据进行随机置换;

根据随机置换后的所述两个相邻的时间区间内的数据确定随机置换后的所述两个相邻的时间区间的数据差异评分;

判断随机置换前所述两个相邻的时间区间的数据差异评分大于预设检验次数的随机置换后的所述两个相邻的时间区间的数据差异评分的比例是否在置信区间内。

所述设备还包括:

确定模块,在所述判断模块判断出获取的数据存在异常后,用于将获取的数据存在异常的时间点确定为预警时间点;

中位数判断模块,在所述预警确定模块根据所述异常点确定对应的预警时间点后,用于判断预警时间点前后的时间区间的中位数的大小变化;

如果变大,所述设备终端进行数据异常是提高的预警;

如果变小,所述设备终端进行数据异常是降低的预警。

本申请中基于获取的数据在其对应的时间上的变化,通过将获取的数据对应的时间划分为两个相邻的时间区间并得到所述两个相邻的时间区间的数据差异评分,同时将两个相邻的时间区间内的数据进行随机置换对置换前所述两个相邻的时间区间的数据差异评分进行多次置换检验,如果置换检验的结果符合要求则能够确定出获取的数据中是否存在异常,以对数据进行预警。本申请是根据实际的数据来确定对数据进行预警,提高了预警效果,并且,本申请中获取的数据是否存在异常是通过两个相邻的时间区间的数据差异评 分得到的,不易受到噪音的影响,具有较好的抗噪性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本申请的保护范围。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆分成多个子模块。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1