数据确定方法、装置、存储介质及电子设备与流程

文档序号:29123895发布日期:2022-03-04 23:15阅读:74来源:国知局
数据确定方法、装置、存储介质及电子设备与流程

1.本公开涉及数据处理技术领域,具体地,涉及一种数据确定方法、装置、存储介质及电子设备。


背景技术:

2.医疗科研工作人员针对记录数据进行建模分析时,可能对单因素结果与多因素结果(例如,结果p值小于0.05)有特定的要求,或者想验证某一个或几个特征在记录数据下是否可以在单因素或多因素建模中得到期望的结果,以快速验证科研思路。
3.其中,在上述因素建模分析的过程需要数据进行支撑,相关技术中,通常是根据经验,通过人工的方式从记录数据中筛选用于因素建模分析的数据,然而,通过人工筛选数据的方式存在获取数据效率低的问题。


技术实现要素:

4.本公开的目的是提供一种数据确定方法、装置、存储介质及电子设备,以提高获取用于因素建模分析的数据的效率。
5.为了实现上述目的,第一方面,本公开提供一种数据确定方法,所述方法包括:
6.获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;
7.基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;
8.基于预设的簇筛选策略,从所述多个簇中确定目标簇;
9.将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。
10.可选地,所述方法还包括:
11.获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型;
12.获取所述第一数据类型以及所述第二数据类型的并集,作为所述目标数据类型。
13.可选地,所述基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,包括:
14.基于所述各个对象分别对应在所述目标数据类型下的数据间的差异,通过k均值聚类算法,对所述各个对象进行聚类,得到所述聚类结果。
15.可选地,所述k均值聚类算法的所述多个簇的数量的确定步骤包括:
16.获取所述目标数据类型包括的各个分类数据类型分别对应的分类数量;
17.将目标分类数据类型包括的所述分类数量,与所述目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,所述目标分类数据类型为对应分类数量最多的数据类
型;
18.基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量。
19.可选地,所述基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量,包括:
20.基于所述参考簇数量以及簇数量浮动值,确定实验簇数量;
21.将各个所述实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对所述各个对象进行聚类,得到k均值聚类算法对应在各个所述实验簇数量下的聚类结果;
22.基于各个聚类结果对应的赤池信息量,确定所述k均值聚类算法的所述多个簇的数量。
23.可选地,所述基于预设的簇筛选策略,从所述多个簇中确定目标簇,包括:
24.基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值;
25.确定从所述多个簇中删除一个待定簇之后,基于所述预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,所述待定簇为所述多个簇中的任一个簇;
26.确定对应所述第二损失函数值最小时删除的待定簇为待删除簇;
27.在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值小于所述第一损失函数值的情况下,将所述多个簇中删除所述待删除簇之后剩余的簇确定为新的多个簇,并返回基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值的步骤,直到在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值大于所述第一损失函数值,且在从所述多个簇中删除所述待删除簇之后剩余的簇包括的对象大于预设数量时,将从所述多个簇中删除所述待删除簇之后剩余的簇确定为所述目标簇。
28.可选地,所述损失函数包括:
[0029][0030]
其中,unii表示纳入单因素建模分析的第i个所述第一数据类型在单因素建模分析时对应的p值,l表示第一数据类型的数量,mulj表示纳入多单因素建模分析的第j个所述第二数据类型在多因素建模分析时对应的p值,m表示第二数据类型的数量,w1表示在因素建模分析时对于单因素建模分析的侧重权重,0≤w1≤1,w2表示在因素建模分析时对于多因素建模分析的侧重权重,0≤w2≤1,w3、w4为超参数,auc表示模型评估指标的值,n表示所述目标簇包括的对象的数量,n表示所述数据集中各个对象的数量,x表示衡量建模分析时是否具备统计学意义的参考值。
[0031]
第二方面,本公开提供一种数据确定装置,所述装置包括:
[0032]
获取模块,用于获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;
[0033]
聚类模块,用于基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结
果,所述聚类结果包括多个簇;
[0034]
目标簇确定模块,用于基于预设的簇筛选策略,从所述多个簇中确定目标簇;
[0035]
目标数据确定模块,用于将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。
[0036]
第三方面,本公开提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0037]
第四方面,本公开提供一种电子设备,包括:
[0038]
存储器,其上存储有计算机程序;
[0039]
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
[0040]
通过上述技术方案,在获取到待处理数据之后,然后基于待处理数据,对各个对象进行聚类处理,得到聚类结果,然后基于预设的簇筛选策略,从多个簇中确定目标簇,最后便可以将目标对象对应在目标数据类型下的数据,确定为目标数据,由于进行了聚类处理,使得后续的筛选过程的筛选结果能够更加准确,避免人工重复多次进行筛选尝试,提高了获取用于因素建模分析的数据的效率,同时减少了获取用于因素建模分析的数据过程中耗费的人力和时间,降低了获取用于因素建模分析的数据的难度。
[0041]
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0042]
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0043]
图1是根据本公开一示例性实施例示出的一种数据确定方法的流程图;
[0044]
图2是根据本公开一示例性实施例示出的另一种数据确定方法的流程图;
[0045]
图3是根据本公开另一示例性实施例示出的一种归一化前后聚类效果示意图;
[0046]
图4是根据本公开一示例性实施例示出的一种数据确定装置的框图;
[0047]
图5是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
[0048]
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0049]
因素建模分析可以包括单因素建模分析以及多因素建模分析。
[0050]
其中,单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。
[0051]
多因素分析亦称“多因素指数体系”,是指数体系的一种。用于说明一个现象总变动受三个或三个以上因素影响时,其中每个因素的变化对总变动影响的方向和程度。
[0052]
示例性地,在心脏淀粉样变的研究中,医疗科研人员想查看mayo12分期、治疗方案类型、rflc等变量同时参与研究时,是否可以在多因素逻辑回归中得到期望结果。
[0053]
一般情况下,单因素和多因素分析相辅相成,单因素分析可以初步探索预测变量
与响应变量的关系,并且当样本量不是很大的时候可以通过单因素分析删除部分无关的预测变量;而多因素分析可以进一步排出其它混杂因素的影响,从而确定预测变量与响应变量的相关性。
[0054]
发明人研究发现,相关技术中获取因素建模分析的数据时,通常是通过人工从记录数据中筛选用于因素建模分析的数据,由于数据特征维度大,逐个按变量筛选会产生相互影响,不清楚删除哪些特征,这就使得人工筛选存在较大的盲目性,需要多次不断的尝试筛选,从而降低了获取用于因素建模分析的数据的效率。
[0055]
因此,本公开提供一种数据确定方法、装置、存储介质及电子设备,以提高获取用于因素建模分析的数据的效率。
[0056]
请参阅图1,图1是根据本公开一示例性实施例示出的一种数据确定方法的流程图。该方法应用于电子设备,如图1所示,该数据确定方法包括:
[0057]
s110,获取待处理数据,待处理数据包括数据集中各个对象对应在目标数据类型下的数据,目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到。
[0058]
其中,数据集是指某个领域中记录的针对研究对象的数据特征以及对应在数据特征下的数据的集合。其中,对象可以是人或者动物等实体。
[0059]
示例性地,请参阅下表,下表示出了在医疗领域中的某个数据集中的部分数据。在下表中,对象可以是某个病人,数据特征包括年龄、诊断时间、轻链类型、nyha(new york heart association,纽约心功能分级)、ctnl(cardiac troponin,心肌肌钙蛋白)、rflc(游离轻链比值)、治疗方案类型、mayo12分期等,并且,每个数据特征下对应有数据,详细参见表格,此处不再例举。
[0060][0061]
可以理解的是,通常要进行因素建模分析,事先就需要确定因素建模分析的变量或者数据类型,本公开实施例中,可以根据待进行的因素建模分析,得到待纳入单因素建模分析的第一数据类型,以及待纳入多因素建模分析的第二数据类型。例如,对于一个医疗科研人员而言,其决定要进行怎样的因素建模分析,是可以知道的,例如,其想要进行的因素建模分析包括单因素建模分析以及多因素建模分析,又例如,单因素建模分析可以是分别分析轻链类型以及治疗方案类型两个变量带来的影响,多因素分析可以是分析mayo12分期、治疗方案类型以及rflc同时参与研究带来的影响。
[0062]
本公开实施例中,在获取到第一数据类型以及第二数据类型之后,便可以根据第一数据类型以及第二数据类型得到目标数据类型,接着,便可以将各个对象在目标数据类型下的数据确定为待处理数据。
[0063]
s120,基于待处理数据,对各个对象进行聚类处理,得到聚类结果,聚类结果包括多个簇。
[0064]
结合前述内容可知,待处理数据包括数据集中各个对象对应在目标数据类型下的数据,那么在得到待处理数据之后,可以根据各个对象在目标数据类型下的数据的差异,对各个数据对象进行聚类处理,得到包括多个簇的聚类结果,每个聚类结果中对应不同的对象。
[0065]
其中,对各个对象进行聚类处理可以有多种聚类方法,例如,k均值聚类算法、均值漂移聚类以及基于密度的聚类方法等。
[0066]
s130,基于预设的簇筛选策略,从多个簇中确定目标簇。
[0067]
其中,簇筛选策略是用于从聚类结果包括的多个簇中筛选得到目标簇的策略。
[0068]
沿用前述示例,假设聚类结果包括8个簇,在基于预设的簇筛选策略进行处理之后,剩下3个簇,那么这剩下的3个簇可以确定为目标簇。
[0069]
s140,将目标对象对应在目标数据类型下的数据,确定为目标数据,目标对象为目标簇中包括的对象,目标数据用于验证因素建模分析。
[0070]
本公开实施例中,目标对象是指目标簇中包括的对象。那么在筛选得到目标簇之后,可以获取目标簇中包括的对象分别对应在目标数据类型下的数据,并将这些数据确定为目标数据,从而,便能够进一步将目标数据用于验证因素建模分析。
[0071]
采用上述方法,在获取到待处理数据之后,然后基于待处理数据,对各个对象进行聚类处理,得到聚类结果,然后基于预设的簇筛选策略,从多个簇中确定目标簇,最后便可以将目标对象对应在目标数据类型下的数据,确定为目标数据,由于进行了聚类处理,使得后续的筛选过程的筛选结果能够更加准确,避免人工重复多次进行筛选尝试,提高了获取用于因素建模分析的数据的效率,同时减少了获取用于因素建模分析的数据过程中耗费的人力和时间,降低了获取用于因素建模分析的数据的难度。
[0072]
请参阅图2,图2是根据本公开一示例性实施例示出的一种数据确定方法的流程图。该方法应用于电子设备,如图2所示,该数据确定方法包括:
[0073]
s210,获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型。
[0074]
结合前述内容可知,可以根据待进行的因素建模分析,得到待纳入单因素建模分析的第一数据类型,以及待纳入多因素建模分析的第二数据类型,因此,在一种实施方式中,用户可以在电子设备的信息输入界面输入第一数据类型以及第二数据类型,从而通过用户输入的信息,电子设备便可以获取第一数据类型以及第二数据类型。
[0075]
s220,获取第一数据类型以及第二数据类型的并集,作为目标数据类型。
[0076]
考虑到单因素建模分析与多因素建模分析包括的数据类型可能存在重复,为了简化问题,以及避免分开讨论时相互影响,本公开实施例中,可以获取第一数据类型以及第二数据类型的并集,作为目标数据类型。
[0077]
沿用前述示例,单因素建模分析是分别分析轻链类型以及治疗方案类型两个变量
带来的影响,多因素分析是分析mayo12分期、治疗方案类型以及rflc同时参与研究带来的影响,因此,获取到的第一数据类型包括轻链类型以及治疗方案类型,获取到的第二数据类型包括mayo12分期、治疗方案类型以及rflc,此时,取第一数据类型以及第二数据类型的并集之后,得到的目标数据类型包括轻链类型、治疗方案类型、mayo12分期以及rflc。
[0078]
此外,考虑到在实际数据中,目标数据类型包括分类数据以及数值型数据,各自对应的量纲不同,因此,为了便于后续根据数据间的差异对各个对象进行聚类,在一些实施方式中,在获取到目标数据类型之后,可以对各个目标数据类型下的数据进行归一化处理,以便于统一量纲,从而降低数据在数量级上的差异。从而,在得到归一化处理后的数据之后,再利用归一化的数据进行后续的聚类处理。
[0079]
示例性地,请参考图3,图3是在心脏课题数据集中选取两个数据类型,分别是治疗方案类型(马法兰、硼替佐米、来那度胺、沙利度胺)与rflc(游离轻链比值),依据这两个数据类型画出对各个对象进行聚类的二维聚类图,其中,左图以及右图分别示出了归一化前后聚类效果示意图,根据对比可以看出,左图中更多的是根据rflc的数值对各个对象进行了聚类(分别聚到了图中的0-100、100-200、200-300、300-400以及这400以上等多个簇中),而右图更多的是根据治疗方案类型对各个对象进行了聚类(分别聚到了图中的0、1、2、3这4个簇中),可以理解的是,分类数据类型能够更加明确的分类,因此,归一化后,主要根据分类数据类型进行聚类,聚类结果更合理。
[0080]
s230,基于各个对象分别对应在目标数据类型下的数据间的差异,通过k均值聚类算法,对各个对象进行聚类,得到聚类结果。
[0081]
其中,k均值聚类算法也可以称为k-means算法。
[0082]
本公开实施例中,是基于各个对象分别对应在目标数据类型下的数据共同决定某个对象是聚类到哪个簇的。假设目标数据类型包括轻链类型、治疗方案类型、mayo12分期以及rflc,则某个对象可以根据该对象对应的轻链类型、治疗方案类型、mayo12分期以及rflc4个数据共同决定该对象聚类到哪个簇。
[0083]
在一些实施方式中,基于各个对象分别对应在目标数据类型下的数据间的差异,通过k均值聚类算法,对各个对象进行聚类,具体可以是针对每一个对象,对该对象在目标数据类型下的数据进行处理,得到一个综合数据,然后根据各个对象对应的综合数据的差异,采用k均值聚类算法对各个对象进行聚类。其中,对对象在目标数据类型下的数据进行处理,得到综合数据的过程可以有多种,例如,可以是将该对象在目标数据类型下的数据进行相加的操作,或者是将该对象在目标数据类型下的数据进行加权求和的操作等。
[0084]
沿用前述示例,假设目标数据类型包括轻链类型、治疗方案类型、mayo12分期以及rflc,且假设存在5个对象(对象1、对象2、对象3、对象4、对象5),此时,可以先对这5个对象分别对应在轻链类型、治疗方案类型、mayo12分期以及rflc下的数据进行向量化处理,得到各个对象对应的4个向量,例如,对象1对应的a1、b1、c1、d1这4个向量,对象2对应的a2、b2、c2、d2这4个向量,对象3对应的a3、b3、c3、d3这4个向量,对象4对应的a4、b4、c4、d4这4个向量,对象5对应的a5、b5、c5、d5这4个向量,接着分别对各个对象对应的4个向量直接相加或者加权相加的操作,得到各个对象对应的综合向量,例如,将对象1的a1、b1、c1、d1这4个向量直接相加,得到对象1对应的综合数据1,同理,可以分别得到对象2对应的综合数据2、对象3对应的综合数据3、对象4对应的综合数据4以及对象5对应的综合数据5,接着,便可以根
据综合数据1、综合数据2、综合数据3、综合数据4以及综合数据5之间的差异,通过k均值聚类算法,对各个对象进行聚类,得到聚类结果。
[0085]
在一些实施方式中,k均值聚类算法中的综合数据之间的差异可以是向量之间的欧式距离差异。
[0086]
此外,考虑到目标数据类型的特点,即存在分类数据类型以及数值型数据类型,因此,在一些实施方式中,为了提高聚类的效率,使用的k均值聚类算法的多个簇的数量的确定步骤可以包括:获取目标数据类型包括的各个分类数据类型分别对应的分类数量;将目标分类数据类型包括的分类数量,与目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,目标分类数据类型为对应分类数量最多的数据类型;基于参考簇数量,确定k均值聚类算法的多个簇的数量。
[0087]
由于分类数据类型可能存在多个,此时,可以根据各个分类数据类型分别包括的分类数量确定目标分类数据类型,本公开实施例中,可以将对应分类数量最多的数据类型确定为目标分类数据类型。
[0088]
继续沿用前述示例,目标数据类型包括轻链类型、治疗方案类型、mayo12分期以及rflc时,分类数据类型包括治疗方案类型、mayo12分期以及轻链类型,其中,治疗方案类型对应的分类数量为4个,分别为马法兰、硼替佐米、来那度胺以及沙利度胺,mayo12分期对应的分类数量为3,分别为ⅰ期、ⅱ期以及ⅲ期,轻链类型对应的分类数量为2,分别为al-λ以及al-k。则此时,目标分类数据类型为治疗方案类型。
[0089]
进一步地,在确定目标分类数据类型为治疗方案类型之后,便可以将治疗方案类型包括的分类数量4,与目标数据类型包括的数据类型的数量4的乘积,确定为参考簇数量,即确定的参考簇数量为16个。
[0090]
进一步地,在确定参考簇数量之后,便能够基于参考簇数量,确定k均值聚类算法的多个簇的数量。
[0091]
其中,基于参考簇数量,确定k均值聚类算法的多个簇的数量可以有多种方式。
[0092]
在一些实施方式中,可以直接将参考簇数量确定为k均值聚类算法的多个簇的数量。
[0093]
此外,为了进一步提高聚类的合理性,在另一些实施方式中,基于参考簇数量,确定k均值聚类算法的多个簇的数量的步骤可以包括:基于参考簇数量以及簇数量浮动值,确定实验簇数量;将各个实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对各个对象进行聚类,得到k均值聚类算法对应在各个实验簇数量下的聚类结果;基于各个聚类结果对应的赤池信息量,确定k均值聚类算法的多个簇的数量。
[0094]
本公开实施例中,考虑到参考簇数量只是一个预估的值,因此,可以将参考簇数量作为一个参考标准,并在其附近浮动,再通过测试的方式确定使得聚类更加合理的簇数量。其中,实验簇数量即是指进行测试的簇数量。
[0095]
本公开实施例中,簇数量浮动值可以根据实际需要进行设置,例如设置为1或2等数值,沿用前述示例,若参考簇数量为16,在簇数量浮动值设为1时,实验簇数量为15、16以及17,在簇数量浮动值设为2时,实验簇数量为14、15、16、17以及18。
[0096]
从而,在确定实验簇数量之后,便可以将各个实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对各个对象进行聚类,得到k均值聚类算法对应在各个
实验簇数量下的聚类结果,然后,再计算各个聚类结果对应的赤池信息量(aic,akaike information criterion),将赤池信息量最大的聚类结果对应的实验簇数量确定为k均值聚类算法的多个簇的数量。
[0097]
s240,基于预设损失函数以及多个簇包括的对象对应的数据,计算得到第一损失函数值。
[0098]
其中,簇包括的对象对应的数据是指利用损失函数计算损失函数值时所需要用到的数据,也即损失函数中对应的参数。
[0099]
s250,确定从多个簇中删除一个待定簇之后,基于预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,待定簇为多个簇中的任一个簇。
[0100]
s260,确定对应第二损失函数值最小时删除的待定簇为待删除簇。
[0101]
s270,在从多个簇中删除待删除簇之后对应的第二损失函数值小于第一损失函数值的情况下,将多个簇中删除待删除簇之后剩余的簇确定为新的多个簇,并返回基于预设损失函数以及多个簇包括的对象对应的数据,计算得到第一损失函数值的步骤,直到在从多个簇中删除待删除簇之后对应的第二损失函数值大于第一损失函数值,且在从多个簇中删除待删除簇之后剩余的簇包括的对象大于预设数量时,将从多个簇中删除待删除簇之后剩余的簇确定为目标簇。
[0102]
在一些实施方式中,可以基于损失函数,定义数据筛选策略,在一些实施方式中,预设损失函数可以包括:
[0103][0104]
其中,unii表示纳入单因素建模分析的第i个第一数据类型在单因素建模分析时对应的p值,l表示第一数据类型的数量,mulj表示纳入多单因素建模分析的第j个第二数据类型在多因素建模分析时对应的p值,m表示第二数据类型的数量,w1表示在因素建模分析时对于单因素建模分析的侧重权重,0≤w1≤1,w2表示在因素建模分析时对于多因素建模分析的侧重权重,0≤w2≤1,w1、w2可以由科研人员根据需要设定,示例性地,心脏课题中科研人员只关注多因素的结果,则将w1设为0,w2设为1,w3、w4为超参数,auc表示模型评估指标的值,n表示目标簇包括的对象的数量,n表示数据集中各个对象的数量,x表示衡量建模分析时是否具备统计学意义的参考值,x可以根据实际需要,而设置不同的数值,例如,在要求较高时,可以设置为0.05,在要求相对较低时,可以设置为0.1、0.15等数值。
[0105]
其中,引入w3(1-auc)项可以在保证纳入的前提下,模型的准确率尽可能大,也即可以提高模型的准确性,引入w4(1-n/n)项可以在保证纳入的情况下,使样本尽可能多,以便证明思路有数据基础,也即可以提高说服力。
[0106]
采用上述损失函数,通过使得每一条数据对应的p值均小于等于x,从而能够最大化找到能让p值小于x的簇,以满足后续将确定的目标数据用于验证因素建模分析的需要。
[0107]
为了方便理解,下面对上述步骤s340-s370的步骤进行举例说明,即基于预设的簇筛选策略,从多个簇中确定目标簇的过程进行详细说明。
[0108]
示例性地,假设经过聚类处理之后的聚类结果包括8个簇,首先,将这8个簇包括的对象对应的数据代入损失函数,计算得到第一损失函数值,接着,从8个簇中删除一个簇,例
如第一次删除簇1,此时簇1则为待定簇,得到剩余的7个簇(簇2、3、4、5、6、7、8),然后将剩余的7个簇包括的对象对应的数据代入损失函数,计算得到第二损失函数值loss11,重新再从8个簇中删除另外一个簇,例如,本次删除簇2,此时簇2则为待定簇,得到剩余的7个簇(簇1、3、4、5、6、7、8),然后将剩余的7个簇包括的对象对应的数据代入损失函数,计算得到第二损失函数值loss12,重复上述过程,直到所有簇均被选择删除之后,可以得到loss11、loss12
……
loss18,此时,将损失函数最小时对应的待定簇确定为待删除簇,假设损失函数loss11最小,则将簇1确定为待删除簇。
[0109]
此时,损失函数loss11可以对应两种情况,一种是loss11大于或者等于第一损失函数值,此时,表明不再能够找到使得p值小于衡量建模分析时是否具备统计学意义的参考值x的簇,则可以结束从多个簇中确定目标簇的过程,另一种是loss11小于第一损失函数值,表明能够继续找到使得p值小于衡量建模分析时是否具备统计学意义的参考值x的簇,则可以继续从多个簇中确定目标簇的过程。
[0110]
假设loss11小于第一损失函数值,接着,可以从8个簇中删除簇1,得到7个簇(簇2、3、4、5、6、7、8),将这剩余的7个簇确定为新的多个簇,并返回前述的计算得到第一损失函数值的步骤,也即将这剩余的7个簇包括的对象对应的数据代入损失函数,计算得到第一损失函数值,直到某一轮时,例如,第3轮时,假设前3轮的待删除簇分别是1、2、3,对应第三轮剩余的簇为簇4、5、6、7、8,计算得到的第二损失函数值大于或者等于第一损失函数值(该第一损失函数值基于第二轮剩余的簇进行计算得到,例如簇3、4、5、6、7、8),且簇4、5、6、7、8包括的对象的数量大于或者等于预设数量,例如预设数量为100个,此时便可以将簇4、5、6、7、8确定为目标簇。
[0111]
在另一种情况下,若计算得到的第二损失函数值大于或者等于第一损失函数值,而包括的对象的数量小于预设数量,则表明在数据集中不能得到目标簇,也即在当前数据集中不能得到用于验证因素建模分析的目标数据,此时可以提醒用户更换因素建模分析时使用的数据类型,或者更换数据集。
[0112]
s280,将目标对象对应在目标数据类型下的数据,确定为目标数据,目标对象为目标簇中包括的对象,目标数据用于验证因素建模分析。
[0113]
其中,步骤s280的详细描述可以参考前述步骤s140的详细描述,此处不再赘述。
[0114]
通过上述方式,在获取到待处理数据之后,然后基于待处理数据,对各个对象进行聚类处理,得到聚类结果,然后基于预设的簇筛选策略,从多个簇中确定目标簇,最后便可以将目标对象对应在目标数据类型下的数据,确定为目标数据,由于获取的是第一数据类型以及第二数据类型的并集,作为目标数据类型,因此,可以简化数据确定的过程,以及避免分开讨论时相互影响,从而进一步提高了获取用于因素建模分析的数据的效率,此外,通过根据预设的损失函数设置的筛选策略,使得每次都删除使得损失函数趋于最小的簇,以确保得到最优结果,提高了获取用于因素建模分析的数据的准确性。
[0115]
另外应当理解的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受上文所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,上文所描述的实施例属于优选实施例,所涉及的步骤并不一定是本公开所必须的。
[0116]
基于同一构思,本公开还提供一种数据确定装置,该装置可以通过软件、硬件或者
两者结合的方式成为电子设备的部分或全部。参照图4,该数据确定装置400可以包括:
[0117]
获取模块410,用于获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;
[0118]
聚类模块420,用于基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;
[0119]
目标簇确定模块430,用于基于预设的簇筛选策略,从所述多个簇中确定目标簇;
[0120]
目标数据确定模块440,用于将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。
[0121]
可选地,所述装置400还包括:
[0122]
数据类型模块,用于获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型;
[0123]
目标数据类型确定模块,用于获取所述第一数据类型以及所述第二数据类型的并集,作为所述目标数据类型。
[0124]
可选地,所述聚类模块用于:
[0125]
基于所述各个对象分别对应在所述目标数据类型下的数据间的差异,通过k均值聚类算法,对所述各个对象进行聚类,得到所述聚类结。
[0126]
可选地,所述装置400还包括:
[0127]
簇数量确定模块,用于获取所述目标数据类型包括的各个分类数据类型分别对应的分类数量;将目标分类数据类型包括的所述分类数量,与所述目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,所述目标分类数据类型为对应分类数量最多的数据类型;基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量。
[0128]
可选地,所述簇数量确定模块,还用于:
[0129]
基于所述参考簇数量以及簇数量浮动值,确定实验簇数量;将各个所述实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对所述各个对象进行聚类,得到k均值聚类算法对应在各个所述实验簇数量下的聚类结果;基于各个聚类结果对应的赤池信息量,确定所述k均值聚类算法的所述多个簇的数量。
[0130]
可选地,所述目标簇确定模块430还用于:
[0131]
基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值;确定从所述多个簇中删除一个待定簇之后,基于所述预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,所述待定簇为所述多个簇中的任一个簇;确定对应所述第二损失函数值最小时删除的待定簇为待删除簇;在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值小于所述第一损失函数值的情况下,将所述多个簇中删除所述待删除簇之后剩余的簇确定为新的多个簇,并返回基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值的步骤,直到在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值大于所述第一损失函数值,且在从所述多个簇中删除所述待删除簇之后剩余的簇包括的对象大于预设数量时,将从所述多个簇中删除所述待删除簇之后剩余的簇确定为所述目标簇。
[0132]
可选地,所述损失函数包括:
[0133][0134]
其中,unii表示纳入单因素建模分析的第i个所述第一数据类型在单因素建模分析时对应的p值,l表示第一数据类型的数量,mulj表示纳入多单因素建模分析的第j个所述第二数据类型在多因素建模分析时对应的p值,m表示第二数据类型的数量,w1表示在因素建模分析时对于单因素建模分析的侧重权重,0≤w1≤1,w2表示在因素建模分析时对于多因素建模分析的侧重权重,0≤w2≤1,w3、w4为超参数,auc表示模型评估指标的值,n表示所述目标簇包括的对象的数量,n表示所述数据集中各个对象的数量,x表示衡量建模分析时是否具备统计学意义的参考值
[0135]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0136]
基于同一发明构思,本公开还提供一种电子设备,包括:
[0137]
存储器,其上存储有计算机程序;
[0138]
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一数据确定方法的步骤。
[0139]
在可能的方式中,该电子设备的框图可以如图5所示。参照图5,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(i/o)接口504,以及通信组件505中的一者或多者。
[0140]
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的数据确定方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
[0141]
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据确定方法。
[0142]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据确定方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的数据确定方法。
[0143]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据确定方法的代码部分。
[0144]
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
[0145]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
[0146]
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1