一种分布数据异动判断定位方法及系统的制作方法_2

文档序号:8395947阅读:来源:国知局
份_订单类型_支付方式”,以此类推。同样地可以得到由多维度基准值分布数据所得的历史一级维度基准值分布数据和历史维度组合基准值分布数据。其中,多维度基准值分布数据是对应多维度分布数据每个维度的每个数据的基准值,例如对于省份A的基准值、对于省份B的基准值等。将多维度分布数据里的每个数据对应的前期非异动数据进行处理,加权平均生成历史基准值并存储为一个多维数据表则得到多维度基准值分布数据。多维度分布数据可以采用时粒度、日粒度、周粒度、月粒度、年粒度等时间粒度进行保存,前期非异动数据则是指多维度分布数据中所保存的数据采用相同时间粒度进行保存的前期数据中无异动的数据。例如对于省份A的数据,如果采用日粒度进行保存,则为前N天的省份A的数据中无异动的数据,对其进行加权平均则得到省份A的历史基准值。
[0022]步骤S102中,对当前一级维度分布数据,以及当前维度组合分布数据分别计算其相对于历史一级维度基准值分布数据和历史维度组合基准值分布数据的结构异动。基于假设检验对上述两组数据进行结构诊断,来发现两组数据的结构是否一致,不一致则认为有异动。即通过结构异动判断当前一级维度分布数据与历史一级维度基准值分布数据的结构是否一致,通过结构异动判断当前维度组合分布数据与历史维度组合基准值分布数据的结构是否一致。假设检验的思想是小概率反证法思想,小概率思想时指小概率事件(如P〈0.01或P〈0.05)在一次试验中基本不会发生。步骤S102中,利用这一思想,就是先假设两组数据结构保持一致,然后用统计检验的方法确定假设成立的可能性大小,如可能性很小,则假设不成立,说明两组数据结构有变化,从而得出在这个维度上是有异动的。
[0023]本发明技术方案,基于假设检验的思路,通过对指标数据在维度上的结构检验或维度交叉后的数据结构进行检验的方法,相比于基于阈值比较波动幅度的判定方法,能够更准确地判断异动,并能快速作出异动定位。
[0024]仍然拿之前的例子来说明,当在线支付系统出现故障时,订单量、订单金额会有波动,支付方式维度的数据肯定会有波动,同样省份维度或订单类型维度的数据也会有波动。现有的基于阈值比较波动幅度的方法,一般来说会发现这三个维度上的数据都有异动,但很难定位出是支付环节导致的异动。但通过本发明基于假设检验的方法,分别对支付方式、省份、订单类型这三个维度上的数据进行检验,不难发现,省份、订单类型数据跟历史基准值比较,可能数值均有下降,但在整体结构上是基本一致(如省份维度,每个省份的数据占比变化不大)的,通过结构检验,就不会判断为异常。但从支付方式维度来看,在线支付出问题时,在线支付的订单量或订单金额占比必然下降很严重,其他支付方式如货到付款、邮政汇款等的占比则此消彼长大幅上升,其结构发生了明显异常,对数据进行结构检验,就能捕捉到这个异常,从而实现数据的异动定位。所以本发明弥补了现有异动判定与异动定位方法的不足。
[0025]在其中一个实施例中,还包括:
[0026]异动定位步骤,包括:将结构异动最高的异动一级维度分布数据所对应的维度作为关键异动维度,所述异动维度组合分布数据所对应的维度组合为异动维度组合,所述异动维度组合中包括所述关键异动维度的维度组合为受关键异动维度影响的维度组合,所述受关键异动维度影响的维度组合所包括的除关键异动维度以外的其他维度为受关键异动维度影响的维度,显示所述关键异动维度以及受关键异动维度影响的维度。
[0027]本实施例中,通过判断关键异动维度,从而找出受关键异动维度影响的维度组合,得出受关键异动维度影响的其他维度。
[0028]在其中一个实施例中:
[0029]所述异动判定步骤,具体包括:计算当前一级维度分布数据与对应的历史一级维度基准值分布数据的卡方值,所述异动一级维度分布数据为对应的卡方值超过异动阈值的当前一级维度分布数据,计算当前维度组合分布数据与对应的历史维度组合基准值分布数据的卡方值,所述异动维度组合分布数据为对应的卡方值超过异动阈值的当前维度组合分布数据;
[0030]所述异动定位步骤,具体包括:结构异动最高的异动一级维度分布数据为与最小卡方值对应的异动一级维度分布数据。
[0031]卡方检验:卡方检验是一种假设检验方法,统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。通过卡方值可以得出假设成立的概率,即显著性水平或P值,P值越小,则假设成立的可能性小,假设越不成立。
[0032]本实施例采用最小卡方值对异动进行判断,使得异动判断定位更为可靠。
[0033]在其中一个实施例中:
[0034]所述异动判定步骤,具体包括:计算当前一级维度分布数据与对应的历史一级维度基准值分布数据的卡方值,所述异动一级维度分布数据为对应的卡方值超过异动阈值的当前一级维度分布数据,计算当前维度组合分布数据与对应的历史维度组合基准值分布数据的卡方值,所述异动维度组合分布数据为对应的卡方值超过异动阈值的当前维度组合分布数据;
[0035]所述异动定位步骤,具体包括:选择与最小卡方值对应的异动一级维度分布数据为最小异动一级维度分布数据,从其他的异动一级维度分布数据中,选择对应的卡方值与最小卡方值的差值小于差值阈值的异动一级维度分布数据,与对应的历史一级维度基准值分布数据进行拟合优度检验计算得到可决系数,结构异动最高的异动一级维度分布数据为与最小可决系数对应的异动一级维度分布数据。
[0036]拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R~2。R~2的取值范围是[0,1]。R~2的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R~2的值越接近0,说明回归直线对观测值的拟合程度越差。
[0037]本实施例中对异动判断采用卡方值与拟合优度检验结合的方式对异动进行判断定位,使得异动判断定位更为准确。
[0038]在其中一个实施例中,所述异动定位步骤,还包括:将关键异动维度所对应的异动一级维度分布数据作为关键异动一级维度分布数据,对关键异动一级维度分布数据与对应的历史一级维度基准值分布数据的每一数据项分别计算差值,将其中差值的绝对值最大的数据项作为异动主因,显示所述异动主因。
[0039]本实施例能够显示出异动主因,使得异动判断定位更为精确。
[0040]图2为本发明一种分布数据异动判断定位系统的结构模块图,包括:
[0041]分布数据准备模块201,用于:获取多维度分布数据,以及多维度基准值分布数据,所述多维度基准值分布数据为所述多维度分布数据的每个数据对应的历史基准值,由多个维度交叉组合得到多个维度组合,根据所述多维度分布数据分别生成多个关于一级维度的当前一级维度分布数据,以及多个关于维度组合的当前维度组合分布数据,根据所述多维度基准值分布数据分别生成多个关于一级维度的历史一级维度基准值分布数据,以及多个关于维度组合的历史维度组合基准值分布数据;
[0042]异动判定模块202,用于:将所述当前一级维度分布数据与对应的历史一级维度基准值分布数据进行比较得到每个当前一级维度分布数据相对于对应的历史一级维度基准值分布数据的结构异动,结构异动超过异动阈值的当前一级维度分布数据为异动一级维度分布数据,将所述当前维
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1