实验样本分组方法、实验样本收集平台和设备与流程

文档序号:36236726发布日期:2023-12-01 17:53阅读:40来源:国知局
实验样本分组方法与流程

本申请涉及在线实验测试领域,特别是涉及一种实验样本分组方法、实验样本收集平台和设备。


背景技术:

1、实验设计在因果推断问题中是非常重要的一环,实验样本质量、分组结果对于实验结果有较大影响。传统的实验样本收集平台,通过招募被试者,进行社会学、心理学、经济学、教育学等学科的实验。在测试前,采取研究者手动输入或者程序辅助纯随机分组的方式(如research randomizer,研究随机化器),将被试者按照一定比例分到实验组与对照组。

2、然而,在因果推断实验中,当面对样本数量较小、变量维度较多的情况,存在偶发性变量非均衡问题。当分组确定后,由于无法改变实验结果,使得某些重要标签的分布不均衡,导致试验结果误差较大。

3、针对相关技术中存在实验样本分组均衡性较差的问题,目前还未提出有效解决方案。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够改善实验样本分组均衡性的实验样本分组方法、实验样本收集平台和设备。

2、第一方面,本申请提供了一种实验样本分组方法,所述方法包括:

3、将第一样本进行随机分组;

4、计算当前分组的均衡指标;

5、判断当前分组的均衡指标是否落入阈值范围之内;

6、若是,则中止分组,输出分组结果,所述分组结果包括分组信息和当前分组的均衡指标;

7、若否,则返回至将第一样本进行随机分组的步骤;

8、其中,确定所述阈值范围包括:

9、将第二样本进行n次随机分组,输出对应于每一次分组的均衡指标,其中,所述均衡指标包括:各组样本之间的马氏距离,以及常数回归模型和全参数回归模型之间的aic差值;n为大于1的自然数;

10、在n个分组结果中根据第一预设比例pa选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围。

11、在其中一个实施例中,输出对应于每一次分组的均衡指标包括:

12、根据所述第二样本的总数、第二预设比例、各组样本之间的变量差值,计算各组样本之间的马氏距离,并将所述马氏距离作为第一均衡指标,其中,所述第二预设比例为将所述第二样本随机划分为实验组和对照组的分组比例。

13、在其中一个实施例中,计算所述第一均衡指标,包括:

14、;

15、其中,m表示所述马氏距离,n表示所述第二样本的总数,pw表示所述第二预设比例,x表示总实验样本,xt表示实验组中的样本,表示实验组的列均值向量,xc表示对照组中的样本,表示对照组的列均值向量,cov表示协方差运算符,-1代表求逆。

16、在其中一个实施例中,计算常数回归模型和全参数回归模型之间的aic差值,包括:

17、将当前分组的分组信息作为因变量,将常数项作为自变量,构建常数回归模型,并计算所述常数回归模型的aic;

18、将当前分组的分组信息作为因变量,将当前分组的样本变量作为自变量,构建全参数回归模型,训练所述全参数回归模型,并计算训练好之后的全参数回归模型的aic;

19、计算所述常数回归模型和所述全参数回归模型之间的aic差值。

20、在其中一个实施例中,所述常数回归模型和所述全参数回归模型采用逻辑回归构建,基于逻辑回归构建得到的常数回归模型和全参数回归模型之间的aic差值为第二均衡指标。

21、在其中一个实施例中,所述常数回归模型和所述全参数回归模型采用贝叶斯逻辑回归构建,基于贝叶斯逻辑回归构建得到的常数回归模型和全参数回归模型之间的aic差值为第三均衡指标。

22、在其中一个实施例中,采用贝叶斯逻辑回归构建常数回归模型,包括:

23、在所述常数回归模型中,设定自变量和常数项的先验分布情况。

24、在其中一个实施例中,在n个分组结果中根据第一预设比例pa选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围,包括:

25、将所述n个分组结果的均衡指标从优到劣进行排序,并将第n×pa个均衡指标的值作为阈值;

26、和/或,在所述目标分组中,所述常数回归模型的aic小于所述全参数回归模型的aic。

27、第二方面,本申请还提供了一种实验样本收集平台,包括:

28、交互模块,用于创建实验问卷,以及收集用户的用户信息和用户基于所述实验问卷输入的答案;

29、分组模块,耦合至所述交互模块,用于根据所述用户的用户信息,执行上述第一方面所述的实验样本分组方法,得到分组结果;

30、展示模块,耦合至所述交互模块和所述分组模块,用于输出所述实验问卷的答案和所述分组结果。

31、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的实验样本分组方法。

32、上述实验样本分组方法、实验样本收集平台和设备,根据各组样本之间的马氏距离以及常数回归模型和全参数回归模型之间的aic差值,设立均衡指标,并通过多次随机分组设立均衡指标的阈值范围,使得在实验进行之前,对实验样本的每一次分组进行均衡测试,筛选均衡指标落入阈值范围之内的随机分组,以此作为分组结果输出,以平衡不同组之间的变量分布,改善实验样本分组均衡性,使实验结果更加精确。



技术特征:

1.一种实验样本分组方法,其特征在于,所述方法包括:

2.根据权利要求1所述的实验样本分组方法,其特征在于,输出对应于每一次分组的均衡指标包括:

3.根据权利要求2所述的实验样本分组方法,其特征在于,计算所述第一均衡指标,包括:

4.根据权利要求1所述的实验样本分组方法,其特征在于,计算常数回归模型和全参数回归模型之间的aic差值,包括:

5.根据权利要求4所述的实验样本分组方法,其特征在于,所述常数回归模型和所述全参数回归模型采用逻辑回归构建,基于逻辑回归构建得到的常数回归模型和全参数回归模型之间的aic差值为第二均衡指标。

6.根据权利要求4所述的实验样本分组方法,其特征在于,所述常数回归模型和所述全参数回归模型采用贝叶斯逻辑回归构建,基于贝叶斯逻辑回归构建得到的常数回归模型和全参数回归模型之间的aic差值为第三均衡指标。

7.根据权利要求6所述的实验样本分组方法,其特征在于,采用贝叶斯逻辑回归构建常数回归模型,包括:

8.根据权利要求1所述的实验样本分组方法,其特征在于,在n个分组结果中根据第一预设比例pa选取目标分组,并根据所述目标分组的均衡指标确定所述阈值范围,包括:

9.一种实验样本收集平台,其特征在于,包括:

10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求8中任一项所述的实验样本分组方法的步骤。


技术总结
本申请涉及一种实验样本分组方法、实验样本收集平台和设备,方法包括:将第一样本进行随机分组;计算当前分组的均衡指标;判断当前分组的均衡指标是否落入阈值范围之内;若是,则中止分组,输出分组结果,分组结果包括分组信息和当前分组的均衡指标;若否,则返回至将第一样本进行随机分组的步骤;其中,确定阈值范围包括:将第二样本进行N次随机分组,输出对应于每一次分组的均衡指标,其中,均衡指标包括:各组样本之间的马氏距离,以及常数回归模型和全参数回归模型之间的AIC差值;在N个分组结果中根据第一预设比例pa选取目标分组,并根据目标分组的均衡指标确定阈值范围。本申请改善了实验样本分组均衡性,使实验结果更加精确。

技术研发人员:杨佳熹,李晓晨,陈奎,那崇宁,翟毅腾
受保护的技术使用者:之江实验室
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1