寻优抽样方法、装置、电子设备及存储介质与流程

文档序号:36724977发布日期:2024-01-16 12:31阅读:20来源:国知局
寻优抽样方法、装置、电子设备及存储介质与流程

本技术涉及数据处理领域,具体而言,涉及一种寻优抽样方法、装置、电子设备及存储介质。


背景技术:

1、ab测试(a/b testing),又称为ab实验和对照试验,广泛应用于互联网产品、设计、搜索、推荐系统、广告系统、数据分析、数字化运营和智能营销等领域,也广泛应用于自然科学、心理学、经济学和生物医药等领域,是数据驱动和开展科学研究的重要手段。在ab实验中,会抽取两组流量a和b,流量组a保持线上效果不变,流量组b上新策略,对ab两组流量观察指标,得到新策略的影响效果。

2、在流量抽样得到ab两组流量时,通常要求两组流量均匀平等,多个指标差异值尽量少,以保证后续试验结果的精确性。目前,通常采用分层抽样和平衡抽样的方式来获取ab试验的流量组。然而,在需要考虑多个指标时,这两种方法抽取的流量组的均匀性和综合考量性较差。


技术实现思路

1、有鉴于此,本技术的目的在于提供一种寻优抽样方法、装置、电子设备及存储介质,其能够使ab试验组间的多个指标的差异尽可能小,同时考虑ab试验组的各指标在目标业务中的重要程度差异,极大地提高ab试验组的均匀性。

2、为了实现上述目的,本技术实施例采用的技术方案如下:

3、第一方面,本技术实施例提供一种寻优抽样方法,所述方法包括:

4、对样本集合进行第一预设次数的随机抽样,得到第一预设数量的第一样本组合对;其中,每个所述第一样本组合对包括两个样本组,且所述两个样本组在所述样本集合中的占比相等;

5、计算每个所述第一样本组合对中两个样本组间的各指标的相对差值,并根据所有所述第一样本组合对的所述相对差值,进行指标波动分析,得到各指标的波动逆权重;

6、针对预设的每个重要性系数,结合所述重要性系数和各指标的所述波动逆权重,评估所述样本集合中各级指标组的指标波动情况,得到各级所述指标组的波动得分;其中,所述指标组的级别与目标业务的关注程度相关;

7、综合各所述重要性系数对应的各级指标组的波动得分,进行最优分析,得到最优的重要性系数作为重要性权重;

8、以所述重要性权重和各指标的所述波动逆权重作为评估参数,从所述样本集合中获取最优的试验样本组合对。

9、在一种可能的实施方式中,所述结合所述重要性系数和各指标的所述波动逆权重,评估所述样本集合中各级所述指标组的指标波动情况,得到各级所述指标组的波动得分的步骤,包括:

10、对所述样本集合进行第二预设次数的随机抽样,得到第二预设数量的第二样本组合对,并基于所述重要性系数和各指标的所述波动逆权重,计算出每个所述第二样本组合对的指标均匀值;

11、从所有所述第二样本组合对中,选取所述指标均匀值最小的第二样本组合对,作为一个候选样本组合对;

12、基于各指标的所述波动逆权重,对所述候选样本组合对的各级所述指标组的指标波动性进行分析,得到各级所述指标组的波动得分;

13、判断当前的候选样本组合对的数量是否达到目标值,若否,则返回执行所述对所述样本集合进行第二预设次数的随机抽样,得到第二预设数量的第二样本组合对的步骤,直至当前的候选样本组合对的数量达到目标值。

14、在一种可能的实施方式中,所述基于所述重要性系数和各指标的所述波动逆权重,计算出每个所述第二样本组合对的指标均匀值的步骤,包括:

15、针对每个所述第二样本组合对,确定所述第二样本组合对中两个样本组的指标值,并根据所述指标值,计算所述两个样本组的每个指标的相对差值;

16、根据各指标的所述相对差值、所述波动逆权重和重要性系数,计算出第二样本组合对的指标均匀值。

17、在一种可能的实施方式中,所述根据各指标的所述相对差值、所述波动逆权重和重要性系数,计算出第二样本组合对的指标均匀值的步骤,包括:

18、采用均匀性评估模型,对第二样本组合对的各指标的所述相对差值、所述波动逆权重和重要性系数,进行评估计算,得到指标均匀值;

19、所述均匀性评估模型包括:

20、

21、其中,表征指标均匀值,表征指标的数量,表征第n个指标的波动逆权重,表征重要性系数,表征两个样本组的第n个指标的相对差值。

22、在一种可能的实施方式中,所述基于各指标的所述波动逆权重,对所述候选样本组合对的各级所述指标组的指标波动性进行分析,得到各级所述指标组的波动得分的步骤,包括:

23、针对每个指标,计算所述候选样本组合对的两个样本组的所述指标的相对差值;

24、针对每级所述指标组,采用波动性评估模型,依据所述指标组中每个指标的相对差值和所述波动逆权重,进行评估计算,得到所述指标组的波动得分;

25、所述波动性评估模型包括:

26、

27、其中,表征波动得分,表征指标组中指标的数量,表征指标组中第n个指标的波动逆权重,表征指标组中第n个指标的相对差值。

28、在一种可能的实施方式中,所述根据所有所述第一样本组合对的所述相对差值,进行指标波动分析,得到各指标的波动逆权重的步骤,包括:

29、针对每个所述指标,对所有所述第一样本组合对的所述指标的相对差值进行曲线拟合,得到所述指标的波动曲线;

30、针对每个所述指标,从所述指标的波动曲线中,统计出相对差值的波动范围值,将所述波动范围值的倒数作为所述指标的波动逆权重。

31、在一种可能的实施方式中,所述综合各所述重要性系数对应的各级指标组的波动得分,进行最优分析,得到最优的重要性系数作为重要性权重的步骤,包括:

32、针对每个所述重要性系数,计算所述重要性系数对应的每级所述指标组的波动得分的波动均值,并对各级所述指标组的波动均值加权求和,得到所述重要性系数的综合波动分;

33、从所有所述重要性系数中,选择所述综合波动分最小的重要性系数,得到重要性权重。

34、在一种可能的实施方式中,所述以所述重要性权重和各指标的所述波动逆权重作为评估参数,从所述样本集合中获取最优的试验样本组合对的步骤,包括:

35、对所述样本集合进行第三预设次数的随机抽样,得到第三预设数量的第三样本组合对;其中,所述第三样本组合对包括两个样本组,且所述两个样本组在所述样本集合中的占比相等;

36、基于所述重要性系数和各指标的所述波动逆权重,对每个所述第三样本组合对进行均匀性分析,选取均匀性最优的第三样本组合对作为试验样本组合对。

37、在一种可能的实施方式中,所述基于所述重要性系数和各指标的所述波动逆权重,对每个所述第三样本组合对进行均匀性分析,选取均匀性最优的第三样本组合对作为试验样本组合对的步骤,包括:

38、针对每个所述第三样本组合对,计算所述第三样本组合对中两个样本组的各指标的相对差值;

39、采用均匀性评估模型,结合所述重要性权重和各指标的所述相对差值和所述波动逆权重,对所述第三样本组合对进行均匀性分析,得到指标均匀值;

40、从所有所述第三样本组合对中,选择所述指标均匀值最小的第三样本组合对,作为试验样本组合对。

41、在一种可能的实施方式中,在所述对样本集合进行第一预设次数的随机抽样,得到第一预设数量的第一样本组合对的步骤之前,所述方法还包括:

42、确定样本集合与目标业务相关的所有指标,并依据所述目标业务的关注程度,将所述所有指标划分为多级指标组。

43、第二方面,本技术实施例提供一种寻优抽样装置,包括抽样模块、波动分析模块、波动评估模块、权重寻优模块和试验寻优模块;

44、所述抽样模块,用于对样本集合进行第一预设次数的随机抽样,得到第一预设数量的第一样本组合对;其中,每个所述第一样本组合对包括两个样本组,且所述两个样本组在所述样本集合中的占比相等;

45、所述波动分析模块,用于计算每个所述第一样本组合对中两个样本组间的各指标的相对差值,并根据所有所述第一样本组合对的所述相对差值,进行指标波动分析,得到各指标的波动逆权重;

46、所述波动评估模块,用于针对预设的每个重要性系数,结合所述重要性系数和各指标的所述波动逆权重,评估所述样本集合中各级指标组的指标波动情况,得到各级所述指标组的波动得分;其中,所述指标组的级别与目标业务的关注程度相关;

47、所述权重寻优模块,用于综合各所述重要性系数对应的各级指标组的波动得分,进行最优分析,得到最优的重要性系数作为重要性权重;

48、所述试验寻优模块,用于以所述重要性权重和各指标的所述波动逆权重作为评估参数,从所述样本集合中获取最优的试验样本组合对。

49、第三方面,本技术实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现如第一方面中任一种可能的实施方式所述的寻优抽样方法。

50、第四方面,本技术实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一种可能的实施方式所述的寻优抽样方法。

51、本技术实施例提供的寻优抽样方法、装置、电子设备及存储介质,方法中,通过对样本集合进行随机抽样得到第一预设数量的第一样本组合对,计算每个第一样本组合对中两个样本组的各指标的相对差值,根据该相对差值进行指标波动分析,得到各指标的波动逆权重。对预设的每个重要性系数,结合该重要性系数和各指标的波动逆权重,评估样本集合中各级指标组的指标波动情况,得到各级指标组的波动得分,其中,指标组的级别与目标业务的关注程度相关。进而,综合各重要性系数对应的各级指标组的波动得分,确定最优的重要性系数作为重要性权重,并依据重要性权重和各指标的波动逆权重,从样本集合中获取最优的试验样本组合对。如此,实现ab试验组的波动逆权重和重要性系数的寻优,进而以权重寻优结果作为评估参数获取最优的试验样本组合对,能够使ab试验组间的多个指标的差异尽可能小,同时,考虑了ab试验组的各指标在目标业务中的重要程度差异,极大地提高了ab试验组的均匀性。

52、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1