一种实验数据的分组方法、装置、介质及电子设备与流程

文档序号:29351352发布日期:2022-03-22 21:35阅读:116来源:国知局
一种实验数据的分组方法、装置、介质及电子设备与流程

1.本技术实施例涉及数据处理领域,尤其涉及一种实验数据的分组方法、装 置、介质及电子设备。


背景技术:

2.现如今,桶实验/分割实验(abtest,a/b)被广泛应用在市场营销和互联 网等行业,业务人员通过a/b实验可以了解到用户的需求。传统的a/b实验中, 实验集和对照集通常是在数据集足够大的情况下,通过随机切分产生两组在各 个属性维度上分布相近的数据。
3.然而,在现实的场景中,往往会出现数据规模不够大的情况,a/b实验会 被限制在一个很小的规模上。当数据规模过小,同时数据的属性维度较多时, 随机切分方法的公平性和可靠性就会被影响,使a/b实验的结果存在偏差,降 低a/b实验结果的准确性。


技术实现要素:

4.本技术实施例提供一种实验数据的分组方法、装置、介质及电子设备,可 以对分割实验所需的实验集和对照集进行划分,并且在备选数据集不够大的情 况下,依然得到数据的分布相近以及效果可比的实验集和对照集。
5.第一方面,本技术实施例提供了一种实验数据的分组方法,所述方法包括: 获取实验用备选数据;其中,所述备选数据包括属性维度信息;
6.对所述备选数据按照聚类算法进行聚类,得到至少两个簇;
7.按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合 得到目标分组;
8.若所述目标分组的属性维度信息统计结果符合预设检验规则,则确定所述 目标分组有效。
9.第二方面,本技术实施例提供了一种实验数据的分组装置,该装置包括:
10.数据备选模块,用于获取实验用备选数据;其中,所述备选数据包括属性 维度信息;
11.数据聚类模块,用于对所述备选数据按照聚类算法进行聚类,得到至少两 个簇;
12.数据分组模块,用于按照预先配置的分组数和分组比例,对每个簇进行分 组,并进行分组组合得到目标分组;
13.分组检验模块,用于若所述目标分组的属性维度信息统计结果符合预设检 验规则,则确定所述目标分组有效。
14.第三方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现如本技术实施例所述的实验数据的分组 方法。
15.第四方面,本技术实施例提供了一种电子设备,包括存储器,处理器及存 储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程 序时实现如本申
请实施例所述的实验数据的分组方法。
16.本技术实施例所提供的技术方案,通过获取实验用备选数据集,设置分组 数和分组比例;通过聚类算法对数据集进行聚类得到至少两个簇,按照的分组 数和分组比例对每个簇进行分组,并进行分组组合得到目标分组;通过预设检 验规则检验目标分组的属性维度信息的检验结果,确定目标分组是否有效。可 以对分割实验所需的实验集和对照集进行划分,并且在备选数据集不够大的情 况下,依然得到数据的分布相近以及效果可比的实验集和对照集。在一定程度 上增强了小型数据集分割实验结果的准确性。
附图说明
17.图1是本技术实施例一提供的实验数据的分组方法的流程图;
18.图2是本技术实施例二提供的实验数据的分组的流程图;
19.图3是本技术实施例三提供的实验数据的分组的流程图;
20.图4是本技术实施例四提供的一种实验数据的分组装置的结构框图;
21.图5是本技术实施例六提供的一种电子设备的结构示意图。
具体实施方式
22.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本技术,而非对本技术的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部结 构。
23.在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被 描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理, 但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺 序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未 包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、 子程序等等。
24.实施例一
25.图1是本技术实施例一提供的实验数据的分组方法的流程图,本实施例可 适用于小型数据集分割实验的场景,该方法可以由本技术实施例所提供的实验 数据的分组装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于 电子设备中。
26.如图1所示,所述实验数据的分组方法包括:
27.s110,获取实验用备选数据;其中,备选数据包括属性维度信息。
28.其中,实验可以是a/b实验,a/b实验可以被理解为是一种将网页、应用 程序或运营方法等数据的两个版本相互比较,以确定哪个版本的性能更好的方 法。a/b实验可以通过科学的实验设计、采样样本代表性、流量分割与小流量 测试等方式来获得具有代表性的结论,并确信该结论可推广到全部流量。
29.首先获取实验所需的备选数据,其中,备选数据可以是根据用户需求/实验 场景得到的数据。示例的,某店铺做了一场直播活动后,有1000个人购买了活 动中的产品,共产生了10万块的商品交易总额,现需要知道这场直播的投资回 报率是多少,即用户需要知道购买这些产品的用户有多少人是通过看直播购买 的,有多少人是即使不看直播也会购买的,可以通过进行a/b实验得到实验结 果。其中,a/b实验的备选数据可以是此次观看直播
并购买产品的人。a/b实 验中可以将备选数据分为一个实验集和一个/多个对照集。其中实验集可以是施 以新模型的训练集合,例如使用某公司开发的新版本的软件的人,或者通过某 种新途径购买使用某商品的人的集合。对照集可以是施以旧模型的训练集合, 例如使用某公司开发的老旧版本的软件的人,或者没有通过某种新途径购买使 用某商品的人的集合。实验集和对照集的划分方法可以按照将数据对半分开, 一半做实验集,一半做对照集。其中,备选数据包括属性维度信息,将数据按 照属性维度信息划分可以分析不同的人群的差异,提高实验结果的准确度。例 如将示例中实验集的人可以按照新老客、单身、恋爱、已婚、男性和女性等维 度进行划分。
30.s120,对备选数据按照聚类算法进行聚类,得到至少两个簇。
31.其中,聚类可以将物理或抽象对象的集合分成由类似的对象组成的多个类。 聚类算法可以理解为需要把一批样本分成多个类,保证每一个类中的样本之间 是相似的,而不同类的样本之间是不同的。例如,聚类算法可以帮助市场分析 人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消 费模式/习惯。聚类算法可以发现数据中分布的一些深层的信息,并且概括出每 一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析。
32.其中,聚类算法中将数据分为不同的类型,其类型可以被称为簇。利用聚类算 法对数据进行聚类,可以得到至少两个簇。聚类算法可以分为划分聚类算法、 层次聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类 算法等方法。
33.本方案中,可选的,对备选数据按照子空间聚类算法(clique)进行聚类, 得到至少两个簇。
34.clique聚类算法需要设定两个参数,分别是网格的步长和密度的阈值。其 中,网格步长可以确定空间的划分,密度阈值可以用来定义密集网格。其中网 格步长可以理解为每个维度中网格单元的数量。密度阈值可以理解为,用于判 断每个网格是否为高密度单元,如果网格中的点数大于密度阈值,则认为该网 格为高密度网格单元,可以将相连的高密度网格单元识别为簇。示例的,有一 组数据,已经按照属性维度信息对数据进项划分,划分后的数据为,体重(37, 42,49,56,61,65),身高(147,154,161,165,172,177),年龄(9, 14,20,24,30,38)。使用clique聚类算法对数据进行聚类,定义每个维度 中网格步长为5(从0开始,每个维度中网格单元的数量为6),密度阈值为0 (只要网格中有点,该网格就被认为是高密度网格单元)。示例中使用的数据 为3维(体重、身高、年龄),3维的数据经过聚类结果是由2维聚类结果组 合而成的。其中2维聚类结果是由(体重,身高),(体重,年龄)和(身高, 年龄)经过聚类算法得到的结果。假设示例中的数据经过clique聚类算法得到 的2维聚类结果是,(体重,身高):([0,1],[2,3],[4,5]);(体重,年龄): ([0,1],[2],[4,5]);(身高,年龄):([0,1],[2,3],[4,5])。将2维数据 聚类结果组合成原来3维数据的聚类结果为,[0,1],[2],[3],[4,5],则在本示 例中,经过clique聚类算法对数据进行分类得到了4个簇([0,1],[2],[3],[4,5])。
[0035]
clique聚类算法属于基于网格的聚类算法,clique聚类算法在基于网格的 聚类算法基础上同时非常好的结合了基于密度的聚类算法。因此clique聚类算 法既能够发现任意形状的簇,又可以像基于网格的算法一样处理较大的多维数 据,使实验结果更具说服力。
[0036]
在对备选数据进行分类时,需要判断每个网格是否为高密度单元,如果网 格中的点数大于密度阈值,则认为该网格为高密度网格单元,可以将相连的高 密度网格单元识别为簇。
[0037]
本方案中,可选的,若存在簇网格中包含的备选数据少于设定阈值,则删 除该簇网格。其中阈值可以是密度阈值。
[0038]
将备选数据中少于设定阈值的簇网格删除,可以达到对备选数据按照其数 据相关性进行一次筛选,方便为后续实验做数据准备,并且可以提高实验结果 的准确度。
[0039]
s130,按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分 组组合得到目标分组。
[0040]
在得到备选数据后,需要对每个簇按照一定的分组数和分组比例进行分组。 其中,分组数可以按照备选数据的属性进行划分。例如广告商想在某部影视剧 中穿插自己的广告,需要知道应该穿插何种广告。则观看该影视剧的人可以作 为备选数据,针对此备选数据,可以基于年龄、性别、单身、恋爱和已婚等属 性将备选数据分为5组。其中分组比例可以按照其属性对于实验结果的影响度 或根据用户需求进行划分。例如上述示例中,年龄和性别可能对于广告商来说 更加重要,则可以给年龄组合性别组划分较大的比例,其余组则划分较小的比 例。进一步地,对每个数据簇按比例进行随机抽取,将每个簇的随机抽取的数 据组进行组合得到目标分组。
[0041]
s140,若目标分组的属性维度信息统计结果符合预设检验规则,则确定目 标分组有效。
[0042]
得到目标分组后,对目标分组的属性维度信息进行结果统计,并检验其结 果是否符合预设检验规则。其中,预设检验规则可以用于检验一个分布是否符 合某种理论分布或比较两个经验分布是否有显著差异。其中,常用的clique聚 类算法的检验规则有ks(kolmogorov-smirnov)检验规则、t(student-t)检 验规则、f(f-test)检验规则、grubbs检验规则、狄克逊(dixon)检验规则和 卡方检验规则等。对目标分组的属性维度信息的统计结果通过预设检验规则进 行检验,若其统计结果符合预设检验规则,则确定目标分组是有效目标分组。
[0043]
本技术实施例所提供的技术方案,通过获取实验用备选数据;其中,备选 数据包括属性维度信息;对备选数据按照聚类算法进行聚类,得到至少两个簇; 按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合得到 目标分组;若目标分组的属性维度信息统计结果符合预设检验规则,则确定目 标分组有效。可以对分割实验所需的实验集和对照集进行划分,并且在备选数 据集不够大的情况下,依然得到数据的分布相近以及效果可比的实验集和对照 集。在一定程度上增强了小型数据集分割实验结果的准确性。
[0044]
实施例二
[0045]
图2是本技术实施例二提供的实验数据的分组的流程图,本实施例以上述 实施例为基础进行细化。如图2所示,本实施例的方法具体包括如下步骤:
[0046]
s210,获取实验用备选数据;其中,备选数据包括属性维度信息。
[0047]
其中,实验可以是a/b实验。首先获取实验所需的备选数据,其中,备选 数据可以是根据用户需求/实验场景得到的数据。备选数据包括属性维度信息, 将数据按照属性维度信息划分可以分析不同的人群的差异,提高实验结果的准 确度。
[0048]
s220,对备选数据按照聚类算法进行聚类,得到至少两个簇。
[0049]
其中,聚类算法可以发现数据中分布的一些深层的信息,并且概括出每一 类的特点,或者把注意力放在某一个特定的类上以作进一步的分析。其中,聚 类算法中将数据分为不同的类型,其类型可以被称为簇。利用聚类算法对数据 进行聚类,可以得到至少两个簇。
[0050]
s230,按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分 组组合得到目标分组。
[0051]
其中,分组数可以按照备选数据的属性进行划分。其中分组比例可以按照 其属性对于实验结果的影响度或根据用户需求进行划分。进一步地,对每个数 据簇按比例进行随机抽取,将每个簇的随机抽取的数据组进行组合得到目标分 组。
[0052]
s240,对目标分组的属性维度信息结果进行统计,并通过预设检验规则确 定目标分组是否是有效目标分组。
[0053]
其中,预设检验规则可以用于检验一个分布是否符合某种理论分布或比较 两个经验分布是否有显著差异。
[0054]
s250,若目标分组的属性维度信息统计结果不符合预设检验规则,则确定 目标分组无效;并重新执行s230。
[0055]
得到目标分组后,对目标分组的属性维度信息进行结果统计,并检验其结 果是否符合预设检验规则。对目标分组的属性维度信息的统计结果通过预设检 验规则进行检验,若其统计结果不符合预设检验规则,则确定目标分组是无效 目标分组。进一步地,重新按照预先配置的分组数和分组比例,对每个簇重新 分组,得到新的目标分组,直到目标分组为有效分组。
[0056]
s260,若目标分组的属性维度信息统计结果符合预设检验规则,则确定目 标分组有效。
[0057]
对目标分组的属性维度信息的统计结果通过预设检验规则进行检验,若其 统计结果符合预设检验规则,则确定目标分组是有效目标分组。
[0058]
申请实施例所提供的技术方案,通过获取实验用备选数据;对备选数据按 照聚类算法进行聚类,得到至少两个簇;按照预先配置的分组数和分组比例, 对每个簇进行分组,并进行分组组合得到目标分组;若目标分组的属性维度信 息统计结果不符合预设检验规则,则确定目标分组无效;并重新执行:按照预 先配置的分组数和分组比例,对每个簇进行分组;若目标分组的属性维度信息 统计结果符合预设检验规则,则确定目标分组有效。可以对分割实验所需的实 验集和对照集进行划分,并且在备选数据集不够大的情况下,依然得到数据的 分布相近以及效果可比的实验集和对照集。在一定程度上增强了小型数据集分 割实验结果的准确性。
[0059]
实施例三
[0060]
图3是本技术实施例三提供的实验数据的分组的流程图,本实施例以上述 实施例为基础进行细化。如图3所示,本实施例的方法具体包括如下步骤:
[0061]
s310,获取实验用备选数据;其中,备选数据包括属性维度信息。
[0062]
s320,对备选数据按照聚类算法进行聚类,得到至少两个簇。
[0063]
s330,按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分 组组合
得到目标分组。
[0064]
s340,对所述目标分组的属性维度信息统计结果进行预设检验规则的检验 其中,预设检验规则包括ks检验规则。
[0065]
其中,预设检验规则可以用于检验一个分布是否符合某种理论分布或比较 两个经验分布是否有显著差异。其中,预设检验规则包括ks检验规则。ks检 验规则是比较一个频率分布与理论分布或者两个观测值分布的检验方法。在对 数据进行ks检验之前,用户可以先为数据定义一个置信度。其中,置信度可 以是对一个概率样本的某个总体参数的区间估计。置信度可以被理解为,在一 组数据中测出其均值测,置信度可以是该均值和总体真实情况的差距小于某一 给定值的概率。置信度也可以被用于检验数据生成的假设是否成立。例如,某 一直播平台观看直播并购买产品的人中至少有50%的人是本来不想购买产品, 通过观看直播才决定购买产品的人,则置信度为0.5。ks检验的基本思想可以 是,对于一个事件,若对事件总体的某个假设是真实的,那么不利于或者不能 支持这一假设的事件a在一次试验中是几乎不可能发生的。如果事件a真的发 生了,则有理由怀疑这一假设的真实性,从而拒绝该假设。示例的,假设有一 组数据a,a组数据中包含有1000个数据,假设a组中的数据服从正态分布。 经过ks检验规则,最终返回的结果是一个p值。其中p值可以被理解为,当 包括原假设在内的所有假设都是正确的情况下,研究所选择的检验统计量至少 和其观测值一样大的可能性。假设经过ks检验得到的p值为p=0.76,比指定 的显著水平(置信度为0.5)大,则不能拒绝假设:a组数据服从正态分布。如 果p值小于指定的显著性水平(置信度),则可以肯定的拒绝提出的假设,认 为a组肯定不服从正态分布,这个拒绝是绝对正确的。
[0066]
s350,对目标分组按照两两分组,得到分组检验对。
[0067]
得到目标分组后,对目标分组进行两两分组。例如目标分组为a组、b组、 c组和d组,则通过两两分组可以得到ab为一组、bc为一组、cd为一组以 及da为一组。进一步地,通过两两分组得到的分组检验对为:ab、bc、cd 和da。
[0068]
s360,将每一对分组检验对的属性维度信息进行统计,得到各属性维度信 息的统计结果。
[0069]
在得到分组检验对后,对每一对分组检验对的属性维度信息进行统计。例 如属性维度被设置成性别、年龄和身高。假设通过统计得到了ab组的性别是 男和性别是女的比例,年龄在某区间内的比例(可以根据用户需求设置),身 高在某区间的比例(可以根据用户需求设置),分别对ab、bc、cd和da中 数据的属性维度信息进行统计,得到各属性维度信息的统计结果。
[0070]
s370,根据各属性维度信息的统计结果与预设置信度比较结果,确定所述 目标分组是否有效。
[0071]
如s340所述,在对数据进行ks检验之前,用户可以先为数据定义一个置 信度。示例的,预设置信度为0.5,如上所述,现在有a和b两个样本大小为 1000的数据为一组,使用ks检验ab是否来自同一个样本,提出假设:a和b 服从相同的分布(假设属性信息只有一个维度)。经过ks检验,假设最终返 回的结果p=0.047,比指定的显著水平(置信度为0.5)小,则可以认为该分组 是无效分组。假设最终返回的结果比指定的显著水平(置信度为0.5)大,则可 以认为该分组是有效分组。
[0072]
本方案中,可选的,若各属性维度信息的统计结果均大于预设置信度,则 确定所述目标分组有效。
[0073]
具体的,对每组中每个属性维度信息的统计结果进行检验得出结果,若每 一项属性维度信息经过检验得到的结果都大于预设置信度,则确定所述目标分 组有效。例如,ab组中年龄在某区间、身高在某区间和性别为男性经过检验得 出的p值分别为0.66、0.57和0.59(预设置信度均为0.5),则可以认为ab组 为有效分组。
[0074]
本方案中,可选的,若各属性维度信息的统计结果中,目标属性维度信息 的统计结果均大于预设置信度,则确定所述目标分组有效。
[0075]
其中,目标属性维度可以是根据用户需求指定的属性维度,或者是根据整 个实验过程认为与实验目的更接近的属性维度。例如,在年龄、身高和性别三 个属性维度中,用户认为年龄和性别是重要的,则将年龄和性别设置为目标属 性维度。具体的,对每组中每个属性维度信息的统计结果进行检验得出结果, 若目标属性维度信息经过检验得到的结果都大于预设置信度,则确定所述目标 分组有效。例如,ab组中年龄在某区间、身高在某区间和性别为男性经过检验 得出的p值分别为0.66、0.33和0.59(预设置信度均为0.5),则可以认为ab 组为有效分组。
[0076]
本方案中,可选的,若各属性维度信息的统计结果中,存在预设数量的属 性维度信息的统计结果大于预设置信度,则确定所述目标分组有效。
[0077]
其中,预设数量可以根据用户需求指定。例如,在年龄、身高和性别三个 属性维度中,用户认为三个维度中只要有任意两个维度满足要求,就认为该目 标分组是有效目标分组。具体的,对每组中每个属性维度信息的统计结果进行 检验得出结果,若存在预设数量的属性维度信息的统计结果大于预设置信度, 则确定所述目标分组有效。例如,若ab组中年龄在某区间、身高在某区间和 性别为男性经过检验得出的p值分别为0.66、0.33和0.59(预设置信度均为0.5), 则可以认为ab组为有效分组。若ab组中年龄在某区间、身高在某区间和性 别为男性经过检验得出的p值分别为0.66、0.57和0.33(预设置信度均为0.5), 则可以认为ab组为有效分组。
[0078]
通过上述三种确定有效目标分组的方式,即可以根据实验结果直接判断目 标分组是否是有效分组,也可以根据用户需求和整体实验过程灵活判断目标分 组是否是有效分组,使得本技术的实验数据分组方法更具实用价值。
[0079]
本方案通过获取实验用备选数据;对备选数据按照聚类算法进行聚类,得 到至少两个簇;按照预先配置的分组数和分组比例,对每个簇进行分组,并进 行分组组合得到目标分组;对所述目标分组的属性维度信息统计结果进行预设 检验规则的检验其中,预设检验规则包括ks检验规则;对目标分组按照两两 分组,得到分组检验对;将每一对分组检验对的属性维度信息进行统计,得到 各属性维度信息的统计结果;根据各属性维度信息的统计结果与预设置信度比 较结果,确定所述目标分组是否有效。可以对分割实验所需的实验集和对照集 进行划分,并且在备选数据集不够大的情况下,依然得到数据的分布相近以及 效果可比的实验集和对照集。在一定程度上增强了小型数据集分割实验结果的 准确性。
[0080]
实施例四
[0081]
图4是本技术实施例四提供的一种实验数据的分组装置的结构框图,该装 置可执行本发明任意实施例所提供的实验数据的分组方法,具备执行方法相应 的功能模块和有
益效果。如图4所示,该装置可以包括:
[0082]
数据备选模块410,用于获取实验用备选数据;其中,所述备选数据包括 属性维度信息;
[0083]
数据聚类模块420,用于对所述备选数据按照聚类算法进行聚类,得到至 少两个簇;
[0084]
数据分组模块430,用于按照预先配置的分组数和分组比例,对每个簇进 行分组,并进行分组组合得到目标分组;
[0085]
分组检验模块440,用于若所述目标分组的属性维度信息统计结果符合预 设检验规则,则确定所述目标分组有效。
[0086]
本技术实施例四提供的一种实验数据的分组装置,通过获取实验用备选数 据;其中,所述备选数据包括属性维度信息;对所述备选数据按照聚类算法进 行聚类,得到至少两个簇;按照预先配置的分组数和分组比例,对每个簇进行 分组,并进行分组组合得到目标分组;若所述目标分组的属性维度信息统计结 果符合预设检验规则,则确定所述目标分组有效。可以对分割实验所需的实验 集和对照集进行划分,并且在备选数据集不够大的情况下,依然得到数据的分 布相近以及效果可比的实验集和对照集。在一定程度上增强了小型数据集分割 实验结果的准确性。
[0087]
可选的,所述数据聚类模块420,具体用于:
[0088]
对所述备选数据按照clique聚类算法进行聚类,得到至少两个簇。
[0089]
可选的,所述数据聚类模块420,还用于:
[0090]
若存在簇网格中包含的备选数据少于设定阈值,则删除所述簇网格。
[0091]
可选的,所述装置还包括:
[0092]
分组重置模块:若所述目标分组的属性维度信息统计结果不符合预设检验 规则,则确定所述目标分组无效;并重新执行:按照预先配置的分组数和分组 比例,对每个簇进行分组。
[0093]
可选的,所述预设检验规则包括ks检验规则。
[0094]
可选的,所述分组检验模块440,还包括:
[0095]
检验对获取单元:对所述目标分组按照两两分组,得到分组检验对;
[0096]
检验对结果统计单元:将每一对分组检验对的属性维度信息进行统计,得 到各属性维度信息的统计结果;
[0097]
目标分组确定单元:根据所述各属性维度信息的统计结果与预设置信度比 较结果,确定所述目标分组是否有效。
[0098]
可选的,所述目标分组确定单元,具体用于:
[0099]
若各属性维度信息的统计结果均大于预设置信度,则确定所述目标分组有 效。
[0100]
可选的,所述目标分组确定单元,具体用于:
[0101]
若各属性维度信息的统计结果中,目标属性维度信息的统计结果均大于预 设置信度,则确定所述目标分组有效。
[0102]
可选的,所述目标分组确定单元,具体用于:
[0103]
若各属性维度信息的统计结果中,存在预设数量的属性维度信息的统计结 果大于预设置信度,则确定所述目标分组有效。
[0104]
上述装置可执行本技术实施例所提供的实验数据的分组方法,具备执行方 法相应的功能模块和有益效果。
[0105]
实施例五
[0106]
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现如本技术所有发明实施例提供的实验数据的分组方 法:
[0107]
获取实验用备选数据;其中,所述备选数据包括属性维度信息;
[0108]
对所述备选数据按照聚类算法进行聚类,得到至少两个簇;
[0109]
按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合 得到目标分组;
[0110]
若所述目标分组的属性维度信息统计结果符合预设检验规则,则确定所述 目标分组有效。
[0111]
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以 是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可 以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或 器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的 列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机 存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或 闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器 件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任 何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使 用或者与其结合使用。
[0112]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据 信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种 形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计 算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质, 该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器 件使用或者与其结合使用的程序。
[0113]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—— 但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0114]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计 算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、 smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的 程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算 机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算 机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形 中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan) —连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提 供商来通过因特网连接)。
[0115]
实施例六
[0116]
本技术实施例六提供了一种电子设备。图5是本技术实施例六提供的一种 电子设备的结构示意图。如图5所示,本实施例提供了一种电子设备500,其 包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当所 述一个或多个程序被所述一个或多个处理器520执行,使得所述一个或多个处 理器520实现本技术实施例所提供的实验数据
的分组方法,该方法包括:
[0117]
获取实验用备选数据;其中,所述备选数据包括属性维度信息;
[0118]
对所述备选数据按照聚类算法进行聚类,得到至少两个簇;
[0119]
按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合 得到目标分组;
[0120]
若所述目标分组的属性维度信息统计结果符合预设检验规则,则确定所述 目标分组有效。
[0121]
当然,本领域技术人员可以理解,处理器520还实现本技术任意实施例所 提供的实验数据的分组方法的技术方案。
[0122]
图5显示的电子设备500仅仅是一个示例,不应对本技术实施例的功能和 使用范围带来任何限制。
[0123]
如图5所示,该电子设备500包括处理器520、存储装置510、输入装置 530和输出装置540;电子设备中处理器520的数量可以是一个或多个,图5中 以一个处理器520为例;电子设备中的处理器520、存储装置510、输入装置 530和输出装置540可以通过总线或其他方式连接,图5中以通过总线550连 接为例。
[0124]
存储装置510作为一种计算机可读存储介质,可用于存储软件程序、计算 机可执行程序以及模块单元,如本技术实施例中的实验数据的分组方法对应的 程序指令。
[0125]
存储装置510可主要包括存储程序区和存储数据区,其中,存储程序区可 存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的 使用所创建的数据等。此外,存储装置510可以包括高速随机存取存储器,还 可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非 易失性固态存储器件。在一些实例中,存储装置510可进一步包括相对于处理 器520远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实 例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0126]
输入装置530可用于接收输入的数字、字符信息或语音信息,以及产生与 电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显 示屏、扬声器等电子设备。
[0127]
本技术实施例提供的电子设备,可以对分割实验所需的实验集和对照集进 行划分,并且在备选数据集不够大的情况下,依然得到数据的分布相近以及效 果可比的实验集和对照集。在一定程度上增强了小型数据集分割实验结果的准 确性。
[0128]
上述实施例中提供的实验数据的分组装置、介质及电子设备可执行本技术 任意实施例所提供的实验数据的分组方法,具备执行该方法相应的功能模块和 有益效果。未在上述实施例中详尽描述的技术细节,可参见本技术任意实施例 所提供的实验数据的分组方法。
[0129]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1