确定数据异常的方法和装置与流程

文档序号:15047136发布日期:2018-07-27 22:55阅读:171来源:国知局

本说明书一个或多个实施例涉及数据处理领域,尤其涉及确定数据异常的方法和装置。



背景技术:

随着互联网的升级,不同平台之间的数据交互和共享越来越频繁。例如,银行或金融平台会将多个用户的交易数据发送到另一个相关平台以进行数据分析。然而,各个平台为了安全性和自身用户保密性的考虑,在将数据发送给其他平台处理之前,往往会对数据进行一些隐私保护处理。这样处理之后的数据会失去其业务含义。接收平台在接收到这些数据之后,很难根据业务规则对数据中是否存在异常进行判断。例如,数据中是否存在空值、是否存在异常等。

另一方面,在大数据背景下,数据量指数增长,而业务规则又是不断变化难以穷尽的,因此仅通过业务规则来发现数据异常,工作量巨大而不够全面。

因此,需要更有效的方式,对数据的异常进行判断和预警。



技术实现要素:

本说明书实施例旨在提供一种更有效的确定数据异常的方法和装置,以解决现有技术中的不足。

为实现上述目的,本说明书一个方面提供一种确定数据异常的方法,包括:获取对应于预定特征的多个待检测数据,作为第一待检测数据组;获取所述待检测数据的多个历史数据,作为对比数据组;对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。

在一个实施例中,在上述确定数据异常的方法中,所述获取所述待检测数据的多个历史数据,作为对比数据组包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。

在一个实施例中,上述确定数据异常的方法还包括:在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。

在一个实施例中,在上述确定数据异常的方法中,所述第一、第二和第三两组间显著性检验各自是以下检验中的一种:t检验、z检验和t’检验。

在一个实施例中,上述确定数据异常的方法还包括:在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。

在一个实施例中,在上述确定数据异常的方法中,所述预处理为如下数据变换中的一种:对数变换、平方根变换、倒数变换和平方根反正弦变换。

本说明书另一方面提供一种确定数据异常的装置,包括:第一获取单元,配置为,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;第二获取单元,配置为,获取所述待检测数据的多个历史数据,作为对比数据组;第一检验单元,配置为,对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验;以及第一确定单元,配置为,根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常。

在一个实施例中,上述确定数据异常的装置还包括:划分单元,配置为,在根据所述第一两组间显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组,第二检验单元,配置为,对每个所述第二待检测数据组与所述对比数据组进行第三两组间显著性检验,以及第二确定单元,配置为,根据所述第三两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。

在一个实施例中,上述确定数据异常的装置还包括预处理单元,配置为,在对所述第一待检测数据组与所述对比数据组进行第一两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。

本说明书另一方面提供一种计算机可读的存储介质,其上存储有指令代码,所述指令代码在计算机中执行时,令计算机执行上述确定数据异常的方法。

通过以上实施例的方法和装置,可以更有效地发现数据异常,进而进行预警和干预。

附图说明

通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:

图1为本说明书披露的一个实施例的示意图;

图2示出根据一个实施例的确定数据异常的方法流程图;

图3示出了根据一个实施例的t检验的流程图;

图4示出了t界值表的一个示例;

图5示出了对应于图4所示的t分布的示意曲线图;

图6示出根据本说明书实施例的z检验流程图;

图7示出根据本说明书实施例的t’检验的流程图;以及

图8示出了根据本说明书实施例的确定数据异常的装置800。

具体实施方式

下面将结合附图描述本说明书实施例。

图1为本说明书披露的一个实施例的示意图。在图1中,处理平台(例如支付宝服务器)从数据提供平台获取对应于预定特征的多个待检测数据,作为待检测数据组(例如,对应于用户交易额的数据组)。另一方面,处理平台还获取所述待检测数据的多个历史数据作为对比数据组,该历史数据也对应于上述相同预定特征,对比数据组可由数据提供平台预先提供。接着,处理平台对所述待检测数据组与所述对比数据组进行两组间显著性检验,根据检验结果,确定是否存在数据异常。如果不存在数据异常,处理平台可以继续处理这些数据,或者将这些数据发送到下一业务环节。如果确定存在数据异常,则可以启动预警,通知相关人员分析数据异常的原因,触发相关解决方案。下面描述确定数据异常的具体实施过程。

图2示出根据一个实施例的确定数据异常的方法流程图。该方法的执行主体可以是任何具有计算能力和处理能力的处理平台,例如服务器。如图2所示,该方法包括:步骤21,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;步骤22,获取所述待检测数据的多个历史数据,作为对比数据组;步骤23,对所述待检测数据组与所述对比数据组进行两组间显著性检验;以及,步骤24,根据所述显著性检验的检验结果,确定所述待检测数据组是否存在数据异常。下面结合具体例子描述以上各个步骤的执行方式。

首先,在步骤21,获取对应于预定特征的多个待检测数据,作为第一待检测数据组。

例如,处理平台(例如支付宝服务器)从数据提供平台(例如银行或金融平台)获取对应于预定特征的待检测数据组。该预定特征例如可以是不同用户的年龄、征信、交易额、支出额、贷款额等等,也可以是例如年龄在预定范围内的用户的支出额等。数据提供平台一般成批量地向处理平台发送多批数据,每批数据例如可以是该数据提供平台在一定时段内接收的全部数据,例如一星期内的数据、一个月内的数据等。每批数据中包括对应于多个特征的多列数据,例如对应于用户年龄的一列数据,对应于用户征信的一列数据、对应于用户交易额的一列数据等。例如每批数据的量级为10w个,即,该10w量级的数据中对应于特定特征(例如用户交易额)的数据可构成一个待检测数据组。在一个实施例中,待检测数据组可以包括较少数据,例如包括20个数据。

当上述预定特征涉及用户隐私时,出于安全性和保密性的考虑,数据提供平台在向处理平台发送数据之前会对该数据进行加密处理。这样处理之后的数据失去了其业务含义,即,很难通过人工进行检查。而这些数据中可能包含很多空值和异常值,这些空值和异常值可能是采集数据时产生的,也可能是在进行表join(多表连接)时产生的,还可能是在业务的各个环节中产生的。

在步骤22,获取所述待检测数据的多个历史数据,作为对比数据组。

通常,对比数据组与上述待检测数据组具有相同的数据来源。例如,由数据提供平台预先向处理平台提供一组对应于所述预定特征(例如用户交易额)的历史数据作为对比数据组。并且,同样地,当上述预定特征涉及用户隐私时,数据提供平台在向处理平台发送该历史数据之前会对该数据进行加密处理。通常,历史数据是由数据提供平台在之前一段较长时间段内(例如,一周,一个月等)接收的大量同类数据。并且,数据提供平台在向处理平台发送该对比数据组之前会对该对比数据组进行检查,以确保该数据准确无误。即,默认为该对比数据组是不包含空值和异常值的。该对比数据组包括的数据越多越好,这样可以保证样本的分布更趋近于真实的分布。在一个实施例中,对比数据组的数据量为20w量级。在一个实施例中,对比数据组可包括较少的数据,例如包括20个数据。

接下来,在步骤s23,对所述待检测数据组与所述对比数据组进行两组间显著性检验。

本领域技术人员可知,两组间显著性检验是假设两个数据组的分布相同(例如总体均值相等),然后通过样本信息判断该假设是否合理。即,判断样本与所设定的假设之间的差异是纯属机会变异(接受所述假设),还是由于所述假设与样本的总体真实分布不一致所引起的(拒绝所述假设)。两组间显著性检验包括:t检验、z检验和t’检验,其适用于不同的样本情况。

在一个实施例中,由于所述对比数据组与所述待检测数据组来自于相同的数据来源,因此,默认为所述对比数据组与所述待检测组具有相同的总体分布,即,所述对比数据组与所述待检测组具有方差齐性。并且,所述对比数据组与所述待检测数据组的总体例如为金融平台用户,即,总体数据量足够大,总体为正态分布。因此,对所述对比数据组与所述待检测组进行t检验,这里的t检验是用于两独立样本的t检验。图3示出了根据一个实施例的t检验的流程图。

在一个实施例中,所述待检测数据组包括n1个数据,所述n1个数据的样本均数为样本标准偏差为s1,以及总体均数为μ1。所述对比数据组包括n2个数据,所述n2个数据的样本均数为样本标准偏差为s2,以及总体均数为μ2。其中n1和n2是自然数,这里n1和n2一般最小为5个,对n1和n2的最大值不作限制。如图3所示,对所述待检测数据组与所述对比数据组进行t检验包括以下步骤:

在步骤s31,设定假设μ1=μ2;

在步骤s32,根据以下公式计算t检验统计量:

在步骤s33,根据以下公式计算t检验统计量的自由度:ν=n1+n2-2;以及

在步骤s34,根据所述t检验统计量及其自由度ν,确定假设μ1=μ2成立的第一概率p1。

在通过计算获得t检验统计量及其自由度ν之后,可通过查询t界值表获取p1值。图4示出了t界值表的一个示例。这里,t检验为双侧检验。在一个实施例中,t检验为单侧检验。如图4所示,例如,在自由度ν为34的情况中,当t为2.032时,p=0.05,并且从图4中还可以看出,当t大于2.032时,p<0.05。通常,将两组间显著性检验的信度α设置为0.05,即当p≤0.05时,所述假设μ1=μ2成立的概率较小,而当t>2.032时,假设μ1=μ2成立的概率越来越小。

图5示出了对应于图4所示的t分布的示意曲线图。t分布曲线的形态与自由度ν大小有关,自由度ν越小,t分布曲线越平坦,曲线中间越低,曲线双侧尾部翘得越高;自由度ν越大,t分布曲线越接近正态分布曲线,当自由度ν=∞时,t分布曲线为标准正态分布曲线。图5所示为对应于图4中自由度ν=34的t分布的示意曲线图。当t=2.032时,如图5所示,其对应的p=0.05为t分布曲线双侧的阴影面积之和,即,相对于t分布曲线下的总面积1,阴影面积总面积为0.05。而当t>2.032时,其对应的t分布曲线双侧的阴影面积更小,即概率p更小。

在一个实施例中,数据总体分布与上述t检验的相同,即,所述对比数据组与所述待检测组具有相同的总体分布,所述对比数据组与所述待检测组具有方差齐性,且其总体都为正态分布。在该实施例中,所述待检测数据组与所述对比数据组的样本数较大,例如,n1和n2都大于30,则对所述对比数据组与所述待检测组进行z检验。图6示出根据本说明书实施例的z检验流程图。如图6所示,包括以下步骤:

在步骤s61,设定假设μ1=μ2;

在步骤s62,根据以下公式计算z检验统计量:

以及

在步骤s63,根据所述z检验统计量确定假设μ1=μ2成立的第二概率p2。

在通过计算获得z检验统计量之后,可通过查询正态分布表获得p2值。

在一个实施例中,所述对比数据组与所述待检测组总体都为正态分布,但是不确定其是否具有方差齐性。在该情况中,在对所述待检测数据组与所述对比数据组进行两组间显著性检验之前,还包括:对所述待检测数据组与所述对比数据组进行方差齐性检验(f检验)。所述f检验包括:计算所述待检测数据组与所述对比数据组的f检验值:并根据f值判断所述待检测数据组与所述对比数据组的方差齐性。

当确定所述待检测数据组与所述对比数据组的总体方差不齐时,对所述待检测数据组与所述对比数据组进行t’检验。图7示出根据本说明书实施例的t’检验的流程图。如图7所示,所述t’检验包括以下步骤:

在步骤s71,设定假设μ1=μ2;

在步骤s72,根据以下公式计算t’检验统计量:

在步骤s73,根据以下公式计算t’检验统计量的自由度ν:

以及

在步骤s74,根据所述t’检验统计量及其自由度ν确定假设μ1=μ2成立的第三概率p3。

在一个实施例中,在对所述待检测数据组与所述对比数据组进行两组间显著性检验之前,根据所述待检测数据组和所述对比数据组的共同分布特性,对所述待检测数据组的数据和所述对比数据组的数据进行相同的预处理。两组间显著性检验适用于总体分布为正态分布的两组数据。当数据的总体分布呈不对称分布时(即,偏态分布),可通过根据数据的分布特性对数据进行对应的数据变换,来将数据的总体分布转换为正态分布。

在一个实施例中,所述待检测数据组和所述对比数据组的数据呈正偏态分布,即,较小数据多,较大数据少。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行对数变换。即,对原始数据x取对数,例如,x’=logx或x’=lnx,并以x’的值作为分析变量。通过该对数变换,将服从正偏态分布的数据转换为服从正态分布的数据,并且还可以使方差不齐的两组数据达到方差齐的要求。

在一个实施例中,所述待检测数据组和所述对比数据组的数据呈泊松分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行平方根变换。即,对原始数据x取平方根,例如,并以x’的值作为分析变量。通过该平方根变换,将总体服从泊松分布的数据或总体轻度偏态的数据正态化,并且可以使方差不齐且各样本的方差与均数间呈正相关的数据总体达到方差齐的要求。

在一个实施例中,所述待检测数据组和所述对比数据组的数据呈极严重的正偏态分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行倒数变换。在另一个实施例中,所述待检测数据组和所述对比数据组的数据的总体呈总体率较小或总体率较大的二项分布。在这种情况中,可对所述待检测数据组和所述对比数据组的数据进行平方根反正弦变换。

在一个实施例中,可通过例如如下方法中的任意一种或多种方法检验两组数据的正态性:图示法(p-p图、q-q图)、矩法、w检验、d检验、kolmogorovd检验和x2检验等。

再参考图2,在步骤s24,根据所述两组间显著性检验的检验结果,确定是否存在数据异常。

根据在对步骤s23的描述中所述的t检验、z检验和t’检验对应的概率值p(p为p1、p2或p3),当p≤0.05时,所述假设μ1=μ2成立的概率较小,即,所述待检测数据组与所述对比数据组的差异显著。当p≤0.01时,所述假设μ1=μ2成立的概率极小,即,所述待检测数据组与所述对比数据组的差异非常显著。

在一个实施例中,设定当p≤0.01时,所述待检测数据组与所述对比数据组都有可能存在数据异常。在默认对比数据组为无异常数据的情况中,确定所述待检测数据组存在数据异常。

在一个实施例中,在上述步骤s22中的获取所述待检测数据的多个历史数据作为对比数据组可以包括:获取所述待检测数据的多组历史数据,对其中每两组历史数据进行第二两组间显著性检验,并根据所述第二两组间显著性检验的检验结果,确定无异常的一组历史数据,作为所述对比数据组。这里的两组间显著性检验根据历史数据组的数据情况也可以为t检验、z检验或t’检验中的一种,这三种显著性检验的具体计算步骤如上文所述,在此不再赘述。通过对多个历史数据组之间进行两组间显著性检验来进一步确保对比数据组的无异常性,进一步提高了对待检测数据组的异常检测的准确性。

在一个实施例中,在上述步骤s24中的根据所述显著性检验的检验结果,确定否存在数据异常之后,在确定所述待检测数据组中存在数据异常的情况中,可以将所述待检测数据组分为预定数目个的组作为新待检测数据组,例如分为两个或四个组。对每个所述待检测数据组与所述对比数据组进行两组间显著性检验,并根据检验结果,确定出存在数据异常的新待检测数据组。这里的两组间显著性检验根据新待检测数据组的数据情况也可以为t检验、z检验或t’检验中的一种,这三种显著性检验的具体计算步骤如上文所述,在此不再赘述。

例如,在待检测数据组是10w量级的情况中,当确定待检测数据组中存在异常时,如果将该待检测数据组直接转至人工检查,工作量将非常大。通过将该待检测组再划分为例如四个组作为新待检测数据组,再次进行所述显著性检验,可以确定出存在数据异常的新待检测数据组。而该新待检测数据组的数据数量级已经降了一个量级,从而可以大大降低人工检查的工作量。

图8示出了根据本说明书实施例的确定数据异常的装置800。如图8所示,装置800包括:第一获取单元81,配置为,获取对应于预定特征的多个待检测数据,作为第一待检测数据组;第二获取单元82,配置为,获取所述待检测数据的多个历史数据,作为对比数据组;第一检验单元83,配置为,对所述第一待检测数据组与所述对比数据组进行两组间显著性检验;以及第一确定单元84,配置为,根据所述两组间显著性检验的检验结果,确定是否存在数据异常。

在一个实施例中,装置800还包括:划分单元85,配置为,在根据所述显著性检验的检验结果,确定是否存在数据异常之后,在确定所述第一待检测数据组中存在数据异常的情况中,将所述第一待检测数据组划分为预定数目个的第二待检测数据组;第二检验单元86,配置为,对每个所述第二待检测数据组与所述对比数据组进行两组间显著性检验;以及第二确定单元87,配置为,根据所述两组间显著性检验的检验结果,确定出存在数据异常的第二待检测数据组。

在一个实施例中,装置800还包括预处理单元88,配置为,在对所述第一待检测数据组与所述对比数据组进行两组间显著性检验之前,根据所述第一待检测数据组和所述对比数据组的共同分布特性,对所述第一待检测数据组的数据和所述对比数据组的数据进行相同的预处理。

根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上文所述的确定数据异常的方法。

通过以上实施例的方法和装置,即使获取的数据因加密处理而失去了业务含义,也可以通过将其与对比数据进行显著性检验而确定是否存在数据异常,从而更有效地发现数据异常,进而进行预警和干预。

本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1