一种数据处理方法、装置以及计算机存储介质与流程

文档序号:24123481发布日期:2021-03-02 12:27阅读:80来源:国知局
一种数据处理方法、装置以及计算机存储介质与流程

[0001]
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置以及计算机存储介质。


背景技术:

[0002]
随着互联网应用渗透到生活的各个方面,人们愈发地重视用户的选择,无论是网页流程的制作,还是应用页面的改版一般都需要做ab测试(即ab test)来验证用户对两组(a/b)版本产品的青睐。一个大规模ab测试系统关注的实验指标有成百上千个,每一个ab实验可能也有10多个关联的指标,而传统的ab测试一次只能对一个指标做实验,远远不能满足互联网产品的需求。
[0003]
在目前互联网ab测试中,往往需要实验中各指标相互独立,然而实际产品中各指标具有相关联,在这种情况下所确定出的α
per
可能会与预期的第一类错误不匹配,进而在使用α
per
进行ab测试后,可能会导致实际的第一类错误过大。


技术实现要素:

[0004]
本申请实施例提供一种数据处理方法、装置以及计算机存储介质,可以保证α
per
与第一类错误之间的关系的准确性,更好控制ab测试后的第一类错误。
[0005]
本申请实施例一方面提供了一种数据处理方法,包括:
[0006]
获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据;
[0007]
对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0008]
根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0009]
根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0010]
其中,还包括:
[0011]
将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
[0012]
所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0013]
其中,所述将所述用户业务数据集合划分得到数据组,将所述数据组组合得到数据组对,每组数据组对包括两组数据组,包括:
[0014]
确定所述用户业务数据集合随机排序次数n,若所述n小于次数阈值,则对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,对所述数据组进行两两组合,得到数据组对,直至所述n等于所述次数阈值,得到所有的数据组对。
[0015]
其中,所述对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,包括:
[0016]
对多个所述多维业务数据进行随机排序;
[0017]
确定每个所述多维业务数据的哈希值;
[0018]
根据所述哈希值,将排序后的多个所述多维业务数据划分为g组数据组;所述g为偶数。
[0019]
其中,所述根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量,包括:
[0020]
对所述数据组对进行多维假设检验,根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0021]
根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状态;所述检验状态包括显著差异状态和非差异状态;
[0022]
统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量。
[0023]
其中,所述根据所述第一测试显著水平值与多个检验值,确定所述数据组对的检验状态,包括:
[0024]
若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为显著差异状态;
[0025]
若所述多个检验值中不存在一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为非差异状态。
[0026]
其中,所述根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值,包括:
[0027]
将所述显著差异数量与所述数据组对的总数量的比值,确定为所述第一测试显著水平值对应的总体显著水平值。
[0028]
本申请实施例一方面提供了一种数据处理装置,包括:
[0029]
获取模块,用于获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户对应的多维业务数据;
[0030]
组合模块,用于对多个所述多维业务数据进行划分得到数据组;将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0031]
第一确定模块,用于根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0032]
第二确定模块,用于根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0033]
其中,还包括:
[0034]
添加模块,用于将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
[0035]
所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0036]
其中,所述组合模块,包括:
[0037]
确定单元,用于确定所述用户业务数据集合随机排序次数n;
[0038]
排序划分单元,用于若所述n小于次数阈值,则对多个所述多维业务数据进行随机排序;对排序后的多个所述多维业务数据进行划分得到数据组;
[0039]
组合单元,对所述数据组进行两两组合,得到数据组对,直至所述n等于所述次数阈值,得到所有的数据组对。
[0040]
其中,所述排序划分单元,包括:
[0041]
排序子单元,用于对多个所述多维业务数据进行随机排序;
[0042]
确定子单元,用于确定每个所述多维业务数据的哈希值;
[0043]
划分子单元,用于根据所述哈希值,将排序后的多个所述多维业务数据划分为g组数据组;所述g为偶数。
[0044]
其中,所述第一确定模块,包括:
[0045]
检验单元,用于对所述数据组对进行多维假设检验;
[0046]
第一确定单元,用于根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0047]
第二确定单元,用于根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状态;所述检验状态包括显著差异状态和非差异状态;
[0048]
统计单元,用于统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量;
[0049]
其中,第二确定单元,具体用于若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为显著差异状态;且具体用于若所述多个检验值中的所有检验值均大于或等于所述第一测试显著水平值,则确定所述数据组对的检验状态为非差异状态。
[0050]
其中,所述第二确定模块,具体用于将所述显著差异数量与所述数据组对的总数量的比值,确定为所述第一测试显著水平值对应的总体显著水平值。
[0051]
本申请实施例一方面提供了一种数据处理装置,包括:处理器和存储器;
[0052]
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本申请实施例中的方法。
[0053]
本申请实施例一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本申请实施例中的方法。
[0054]
本申请实施例通过获取第一测试显著水平值以及用户业务数据集合,其中,用户业务数据集合包括多个用户分别对应的多维业务数据;对多个多维业务数据进行划分得到数据组,将数据组组合得到数据组对,数据组对包括两组数据组;根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;根据显著差异数量,确定第一测试显著水平值对应的总体显著水平值。上述可知,由于是根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,来确定数据组对是否具有显著差异状态,可见数据组对的显著差异状态是通过综合考虑多维指标的数据(即多维业务数据)所确定的,因此,通过具有显著差异状态的数据组对的数量(即显着差异数量)可以准确地确定测试显著水平值对应的总体显著水平值;因此,即使在多维指标相互关联的场景下,也能保证测试显著水平值与总体显著水平值之间的准确
性,从而可以基于测试显著水平值与总体显著水平值之间的关系,更好的控制ab测试后的第一类错误(即总体显著水平值)。
附图说明
[0055]
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1是本申请实施例提供的一种系统架构示意图;
[0057]
图2是本申请实施例提供的一种数据处理的场景示意图;
[0058]
图3是本申请实施例提供的一种数据处理方法的流程示意图;
[0059]
图4是本申请实施例提供的另一种数据处理的场景示意图;
[0060]
图5a是本申请实施例提供的另一种数据处理方法的流程示意图;
[0061]
图5b是本申请实施例提供的又一种数据处理的场景示意图;
[0062]
图6是本申请实施例提供的又一种数据处理方法的流程示意图;
[0063]
图7是本申请实施例提供的一种数据处理装置的结构示意图;
[0064]
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0065]
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0066]
请参见图1,是本申请实施例提供的一种系统架构示意图。服务器10a为用户终端集群提供服务,用户终端集群可以包括:服务器10b、用户终端10c、...、用户终端10d,每个用户终端均可以将获取到的多个用户对应的多维业务数据发送至服务器10a,多维业务数据包括用户的多个维度数据,比如年龄、访问时长、点击率等数据。请一并参见图2,图2是本申请实施例提供的一种数据处理的场景示意图,继续以服务器10a为例,在图2中,服务器10a接收到n个用户对应的多维业务数据,上述多维业务数据包括m个维度的业务数据(也可以称之为m维业务数据),将n个m维业务数据添加至用户业务数据集合20a,用户业务数据集合20a中每一行数据为一个用户对应的m个维度的业务数据,即用户业务数据集合20a包含n行m个维度的业务数据。对用户业务数据集合20a进行第一次随机排序,改变n个m维业务数据的行序,得到排序后的n个m维业务数据,对排序后的n个m维业务数据进行均匀划分,得到g组数据组,即每组数据组中包含的m维业务数据的数量是等同的,且每组数据组中包含的m维业务数据互不相同,g可以为偶数。进一步将数据组两两组合得到(g/2)组数据组对,每组数据组对包括两组数据组,如图2中的数据组对1包括数据组1和数据组2、数据组对2包括数据组3和数据组4、
……
、数据组对g/2包括数据组g-1和数据组g。本申请可以再次对用户业务数据集合20a进行第二次随机排序,以得到新的g/2组数据组对,以此类推,可以进行n次随机排序(即循环n次),在n次随机排序后即可得到n*g/2组数据组对。根据预先获取的测试
显著水平值和n*g/2组数据组对中两组数据组的m维业务数据,确定实验策略函数f,实验策略函数f的输出即为n*g/2组数据组对中具有显著差异状态的数据组对的数量(该数量可以称之为显著差异数量),其中,当数据组对中的两组数据组的m维业务数据之间具有显著差异时,可以确定该数据组对具有显著差异状态,其中,测试显著水平值可以用于参与决策两组数据组的m维业务数据之间是否具有显著差异;根据上述显著差异数量,可以确定上述测试显著水平值对应的总体显著水平值。
[0067]
若上述的测试显著水平值为α
per
=0.001,则可以进一步获取测试显著水平值α
per
=0.002,通过上述的方式可以重新得到新的n*g/2组数据组对,进而根据新的n*g/2组数据组对和取值为0.002的α
per
,确定该α
per
所对应的总体显著水平值,以此类推,通过α
per
循环取值k次(如取值0.001、0,002、0.003、
……
、0.05,则k=50),可以得到k个α
per
分别对应的总体显著水平值,进而可以将k个测试显著水平值分别对应的总体显著水平值之间的映射关系添加至映射关系表。当终端用户(如用户终端10c或用户终端10d)想通过上述n个用户对应的m个维度业务数据对两组版本的产品进行ab测试时,可以发出查询请求到服务器10a,获取服务器10a返回的映射关系表,从映射关系表中查询总体显著水平值所对应的测试显著水平值,根据ab两组测试版本所需的总体显著水平值x,可以直接从映射关系表中获取总体显著水平值x所对应的测试显著水平值,并采用获取到的该测试显著水平值进行ab测试。
[0068]
其中,用户终端可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(mid,mobile internet device)、pos(point of sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
[0069]
其中,生成数据组对、多维假设检验确定数据组对的检验状态以及确定测试显著水平值与总体显著水平值之间的映射关系的具体过程可以参见以下图3至图8所对应的实施例。
[0070]
进一步地,请参见图3,是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,所述方法可以包括:
[0071]
步骤s101,获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据。
[0072]
具体的,服务器获取第一测试显著水平值;上述第一测试显著水平值是统计学中的显著性水平α,用于与数据组对中的两组数据组的多维检验值(即统计学中显著性检验的p值)做大小对比,即第一测试显著水平值可以确认上述数据组对的假设检验状态。
[0073]
进一步获取用户业务数据集合(如上述图2所对应实施例中的用户业务数据集合20a),上述多维业务数据包括用户的多个维度数据,例如用户年龄、用户访问时长、用户点击率等;用户业务数据集合的格式为:将一个用户对应的多个维度的业务数据为作为一行的数据,即若存在l个用户的多维业务数据,则用户业务数据集合可以包括l行的多维业务数据,每行多维业务数据分别对应不同的用户。
[0074]
步骤s102,对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组。
[0075]
具体的,对上述多个所述多维业务数据进行均匀划分得到数据组,即每组数据组中包含的多维业务数据的数量是等同的,且每组数据组中包含的多维业务数据互不相同;进一步将数据组两两组合得到数据组对,每组数据组对包括两组数据组。
[0076]
步骤s103,根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量。
[0077]
具体的,请一并参见图4,是本申请实施例提供的有一种数据处理的场景示意图。在图4中,对数据组对1中数据组1和数据组2的m维业务数据分别独立做m次假设检验,如用户年龄、用户性别、用户访问时长以及用户点击率四项指标,即m=4,则独立对用户年龄、用户性别、用户访问时长以及用户点击率做4次假设检验,即对每个维度指标独立做一次假设检验,进一步地,根据数据组对1中两组数据组的4维业务数据,确定4个维度指标对应的4个检验值,即用户年龄、用户性别、用户访问时长以及用户点击率所对应的检验值,其中,上述检验值为统计学中显著性检验的p值。判断数据组对1的上述4个检验值与第一测试显著水平值的大小,若年龄维度指标对应的检验值小于第一测试显著水平值,则说明数据组对1在年龄维度指标中存在显著差异,否则无差异。同理,判断用户性别、用户访问时长以及用户点击率所对应的检验值与第一测试显著水平值的大小,确定数据组对1在上述维度指标中是否存在显著差异。若4个检验值中存在至少一个检验值小于上述第一测试显著水平值,则确定数据组对1的检验状态为显著差异状态;若上述4个检验值中的所有检验值均大于或等于上述第一测试显著水平值,则确定数据组对1的检验状态为非差异状态。以此类推,确定其余各组数据组对的差异状态。
[0078]
显著差异数量即为上图2中的实验策略函数f,上述实验策略函数f包括图2中上述n*g/2组数据组对中检验状态为显著差异状态的总和,其中,0<=f<=n*g/2。
[0079]
步骤s104,根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0080]
具体的,根据数据组对的总数量和上述显著差异数量,即实验策略函数f,确定第一测试显著水平值对应的总体显著水平值(α
total
),
[0081][0082]
n为用户业务数据集合排序次数;
[0083]
m为维度指标个数;
[0084]
g为数据组的组数;
[0085]
α
per
为测试显著水平值(即上述的第一测试显著水平值);
[0086]
为数据组对的总数量。
[0087]
请参见图5a,是本申请实施例提供的另一种数据处理方法的流程示意图。如图5a所示,生成数据组对的具体过程包括如下步骤s201-步骤s205,且步骤s201-步骤s205为图3所对应实施例中步骤s102的一个具体实施例。
[0088]
步骤s201,确定所述用户业务数据集合随机排序次数n。
[0089]
步骤s202,若所述n小于次数阈值,则对多个所述多维业务数据进行随机排序。
[0090]
具体的,请一并参见图5b,是本申请实施例提供的又一种数据处理的场景示意图。当所述n小于随机排序次数阈值时,对用户业务数据集合20a按照行shuffle随机排序,生成新的数据集合,如图5b中所示的用户业务数据集合21a、用户业务数据集合22a、
……
、用户
业务数据集合2na,共生成n个新的数据集合。
[0091]
步骤s203,确定每个所述多维业务数据的哈希值。
[0092]
具体的,利用哈希算法给排序后的用户业务数据集合中的多维业务数据取哈希值,即每行多维业务数据获得一个哈希值。
[0093]
步骤s204,根据所述哈希值将排序后的多个所述多维业务数据划分为g组数据组;所述g为偶数。
[0094]
通过哈希值来为多个多维业务数据划分数据组,可以避免在划分数据组的时候受到多维业务数据的行序号的影响,因此,通过哈希值可以保证在划分数据组的时候更具随机性。
[0095]
图5b中,,根据每行多维业务数据对应的哈希值对排序后的用户业务数据集合进行均匀划分,生成g组数据组,每组数据组中包含的多维业务数据的数量是等同的,n个新的数据集合共得到n*g组数据组。
[0096]
步骤s205,对所述数据组进行两两组合,得到数据组对。
[0097]
具体的,如图5b所示,对用户业务数据集合21a生成的g组数据组两两组合得到(g/2)组数据组对,其中,每组数据组对包括两组数据组,如数据组对1包括数据组1和数据组2,即通过用户业务数据集合21a可以得到(g/2)组数据组对,同理,通过用户业务数据集合22a也可以得到(g/2)组数据组对,以此类推,通过用户业务数据集合2na也可以得到(g/2)组数据组对,即通过n个互不相同的用户业务数据集合总共可以得到n*g/2组数据组对,由于每个用户业务数据集合中的多维业务数据的排序顺序互不相同,所以每个数据组对互不相同。
[0098]
请参见图6,是本申请实施例提供的又一种数据处理方法的流程示意图。如图6所示,所述方法可以包括:
[0099]
步骤s301,获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据。
[0100]
步骤s302,对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组。
[0101]
其中,步骤s301-步骤s302的具体实现方式可以参见上述图3对应实施例中的步骤s101-步骤s102,这里不再进行赘述。
[0102]
步骤s303,对所述数据组对进行多维假设检验,根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值。
[0103]
步骤s304,若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检测状态为显著差异状态。
[0104]
其中,步骤s303-步骤s304的具体实现方式可以参见上述图3所示实施例中的步骤s103的具体过程,故此处不再进行赘述。
[0105]
步骤s305,统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量。
[0106]
具体的,请参见图2所示实施例的具体场景过程,显著差异数量(即实验策略函数f)包括检验状态为显著差异状态的数据组对的数量总和,0<=f<=100000。
[0107]
步骤s306,将所述显著差异数量与所述数据组对的总数量的比值,确定为所述第
一测试显著水平值对应的总体显著水平值。
[0108]
具体的,确定总体显著水平值的具体过程可以参见上述图3对应实施例中的s104所描述的过程,故此处不再进行赘述,。
[0109]
步骤s307,将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0110]
具体的,综合步骤s301-步骤s306,可以确定第一测试显著水平值对应的总体显著水平值,且将两者的映射关系添加至映射关系表。实际上,测试显著水平值可以包括k个(第一测试显著水平值可以是k个测试显著水平值中的其中一个),如测试显著水平值α
per
=0.001,0.002,

,0.05(一共50个测试显著水平值),每个测试显著水平值均可以通过步骤s301-步骤s306的方式确定其对应的总体显著水平值,因此,k个测试显著水平值即可对应k个总体显著水平值。将k个测试显著水平值分别对应的总体显著水平值均添加到映射关系表,使得映射关系表可以包括多个测试显著水平值分别对应的总体显著水平值。
[0111]
请参见图7,是本申请实施例提供的一种数据处理装置的结构示意图。如图7所示,数据处理装置1可以包括:获取模块11、组合模块12、第一确定模块13、第二确定模块14。
[0112]
获取模块11,用于获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户对应的多维业务数据;
[0113]
组合模块12,用于对多个所述多维业务数据进行划分得到数据组;将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0114]
第一确定模块13,用于根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0115]
第二确定模块14,用于根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0116]
其中,获取模块11、组合模块12、第一确定模块13、第二确定模块14的具体功能实现方式可以参见上述图6对应实施例中的步骤s301-步骤s307,这里不再进行赘述。
[0117]
再请参见图7,组合模块12可以包括:确定单元121、排序划分单元122、组合单元123。
[0118]
确定单元121,用于确定所述用户业务数据集合随机排序次数n;
[0119]
排序划分单元122,用于若所述n小于次数阈值,则对多个所述多维业务数据进行随机排序;对排序后的多个所述多维业务数据进行划分得到数据组;
[0120]
组合单元123,对所述数据组进行两两组合,得到数据组对,直至所述n等于所述次数阈值,得到所有的数据组对。
[0121]
其中,确定单元121、排序划分单元122、组合单元123的具体功能实现方式可以参见上述图5a对应实施例中的步骤s201-步骤s205,这里不再进行赘述。
[0122]
再请参见图7,排序划分单元122可以包括:排序子单元1221、确定子单元1222、划分子单元1223。
[0123]
排序子单元1221,用于对多个所述多维业务数据进行随机排序;
[0124]
确定子单元1222,用于确定每个所述多维业务数据的哈希值;
[0125]
划分子单元1223,用于根据所述哈希值将排序后的多个所述多维业务数据划分为
g组数据组;所述g为偶数。
[0126]
其中,排序子单元1221、确定子单元1222、划分子单元1223的具体功能实现方式可以参见上述图5a对应实施例中的步骤s202-步骤s204,这里不再进行赘述。
[0127]
再请参见图7,第一确定模块13可以包括:检验单元131、第一确定单元132、第二确定单元133、统计单元134。
[0128]
检验单元131,用于对所述数据组对进行多维假设检验;
[0129]
第一确定单元132,用于根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0130]
第二确定单元133,用于根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状态;所述检验状态包括显著差异状态和非差异状态;
[0131]
统计单元134,用于统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量。
[0132]
其中,检验单元131、第一确定单元132、第二确定单元133、统计单元134的具体功能实现方式可以参见上述图6对应实施例中的步骤s303-步骤s305,这里不再进行赘述。
[0133]
再请参见图7,数据处理装置1还可以包括添加模块15。
[0134]
添加模块15,用于将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0135]
其中,添加模块15的具体功能实现方式可以参见上述图6对应实施例中的步骤s307,这里不再进行赘述。
[0136]
本申请实施例通过获取第一测试显著水平值以及用户业务数据集合,其中,用户业务数据集合包括多个用户分别对应的多维业务数据;对多个多维业务数据进行划分得到数据组,将数据组组合得到数据组对,数据组对包括两组数据组;根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;根据显著差异数量,确定第一测试显著水平值对应的总体显著水平值;将第一测试显著水平值与总体显著水平值之间的映射关系添加至映射关系表;映射关系表包括多个测试显著水平值分别对应的总体显著水平值,多个测试显著水平值包括第一测试显著水平值。上述可知,由于是根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,来确定数据组对是否具有显著差异状态,可见显著差异状态是通过综合考虑多维指标的数据(即多维业务数据)所确定的,因此,通过具有显著差异状态的数据组对的数量(即显着差异数量)可以准确地确定测试显著水平值对应的总体显著水平值;因此,即使在多维指标相互关联的场景下,也能保证测试显著水平值与总体显著水平值之间的准确性,从而可以基于测试显著水平值与总体显著水平值之间的关系,更好的控制ab测试后的第一类错误(即总体显著水平值)。
[0137]
进一步地,请参见图8,是本申请实施例提供的一种电子设备的结构示意图。如图8所示,上述图8中的数据处理装置1可以应用于所述电子设备1000,所述电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还
可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
[0138]
在图8所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
[0139]
获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据;
[0140]
对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0141]
根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0142]
根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0143]
在一个实施例中,所述处理器1001执行以下步骤:
[0144]
将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
[0145]
所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0146]
在一个实施例中,所述处理器1001在执行对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组时,具体执行以下步骤:
[0147]
确定所述用户业务数据集合随机排序次数n,若所述n小于次数阈值,则对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,对所述数据组进行两两组合,得到数据组对,直至所述n等于所述次数阈值,得到所有的数据组对。
[0148]
在一个实施例中,所述处理器1001在执行对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组时,具体执行以下步骤:
[0149]
对多个所述多维业务数据进行随机排序;
[0150]
确定每个所述多维业务数据的哈希值;
[0151]
根据所述哈希值将排序后的多个所述多维业务数据划分为g组数据组;所述g为偶数。
[0152]
在一个实施例中,所述处理器1001在执行根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量时,具体执行以下步骤:
[0153]
对所述数据组对进行多维假设检验,根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0154]
根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状
态;所述检验状态包括显著差异状态和非差异状态;
[0155]
统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量。
[0156]
在一个实施例中,所述处理器1001在执行根据所述第一测试显著水平值与多个检验值,确定所述数据组对的检验状态时,具体执行以下步骤:
[0157]
若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为显著差异状态;
[0158]
若所述多个检验值中的所有检验值均大于或等于所述第一测试显著水平值,则确定所述数据组对的检验状态为非差异状态。
[0159]
在一个实施例中,所述处理器1001在执行根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值时,具体执行以下步骤:
[0160]
将所述显著差异数量与所述数据组对的总数量的比值,确定为所述第一测试显著水平值对应的总体显著水平值。
[0161]
上述可知,通过对多维业务数据集合进行随机排序得到新的数据集合,将新的数据组进行两两组合得到新的数据组对,并对每组数据组对中的两组数据组做ab假设检验,确定具有显著差异状态的数据组对的数量,作为显著差异数量,最后根据显著差异数量,确定测试显著水平值对应的总体显著水平值。由于总体显著水平值一一对应获取的测试显著水平值,所以保证α
per
与第一类错误之间关系的准确性,大幅度提高了ab实验方法的准确性。
[0162]
应当理解,本申请实施例中所描述的电子设备1000可执行前文图3到图6所对应实施例中对所述数据处理方法的描述,也可执行前文图7所对应实施例中对所述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0163]
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3到图6对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
[0164]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0165]
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1