样本生成方法、分类模型训练方法、识别方法及对应装置与流程

文档序号:21697896发布日期:2020-07-31 22:49阅读:182来源:国知局
样本生成方法、分类模型训练方法、识别方法及对应装置与流程

本发明涉及机器学习技术领域,更具体的说,涉及一种样本生成方法、分类模型训练方法、识别方法及对应装置。



背景技术:

现有技术在对分类模型进行训练时,需要分类模型算法工程师对获取的原始数据集进行人工切分,得到训练集和验证集;然后由人工对训练集进行模型特征筛选和模型参数调整。

因此,现有分类模型的训练方法需要耗费大量的人力和时间,导致分类模型的训练效率低。



技术实现要素:

有鉴于此,本发明公开一种样本生成方法、分类模型训练方法、识别方法及对应装置,以实现基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

一种样本生成方法,包括:

获取预设训练集中每个数据特征的特征指标和特征信息价值;

基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;

确定每个所述基础特征的特征贡献度;

从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

可选的,所述预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征;

按照所述预设切分策略得到所述预设训练集的过程包括:

将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;

将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。

可选的,所述确定每个所述基础特征的特征贡献度,具体包括:

采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。

一种分类模型训练方法,包括:

将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用上述所述的样本生成方法得到的目标特征。

可选的,还包括:

将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。

一种识别方法,包括:

获取待识别数据;

调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为上述所述的分类模型训练方法生成的模型;

获取对所述待识别数据的识别结果。

一种样本生成装置,包括:

特征获取单元,用于获取预设训练集中每个数据特征的特征指标和特征信息价值;

基础特征筛选单元,用于基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;

确定单元,用于确定每个所述基础特征的特征贡献度;

目标特征筛选单元,用于从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

可选的,还包括:

切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;

所述切分单元具体用于:

将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特征;

将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。

可选的,所述确定单元具体用于:

采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。

一种分类模型训练装置,包括:

模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用上述所述的样本生成装置得到的目标特征。

可选的,还包括:

评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。

一种识别装置,包括:

数据获取单元,用于获取待识别数据;

模型调用单元,用于调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为上述所述的分类模型训练装置生成的模型;

识别单元,用于获取对所述待识别数据的识别结果。

从上述的技术方案可知,本发明公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种样本生成方法流程图;

图2为本发明实施例公开的一种识别方法流程图;

图3为本发明实施例公开的一种样本生成装置的结构示意图;

图4为本发明实施例公开的一种识别装置的结构示意图。

具体实施方式

在对分类模型进行训练时,面对采用人工训练分类模型需要耗费大量的人力和时间的问题,在进行数据特征筛选时,有人提出了依赖模型本身的单一特征进行数据特征筛选的方法,例如,var(variance,方差阈值)方法,具体为:统计样本的方差,将方差超过var的样本进行剔除,得到用于分类模型训练的样本。由于很多样本不一定符合正太分布,因此var方法容易影响样本质量,导致训练得到的分类模型不准确。再例如,svm(supportvectormachine,特征向量机)方法,具体为:基于空间距离,将空间划分为两个区间,以分割位置为基准,从近到远进行样本筛选,得到用于分类模型训练的样本。由于样本通常存在很多缺失值,因此容易对空间距离的判断造成影响,所以采用svm方法得到的样本并不准确。再例如,pca(principalcomponentanalysis,主成分分析)方法,通过映射将样本点进行空间交换,并从映射后的特征维度中,选择差异较大的特征维度对应的样本进行分类模型的训练。由于样本特征降维后,失去了原始特征,因此,容易对分类模型的训练精度造成影响。

面对采用人工训练分类模型需要耗费大量的人力和时间的问题,以及基于模型本身的单一特征进行样本筛选存在的种种问题,本发明公开一种样本生成方法、分类模型训练方法、识别方法及对应装置,以实现基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

另外,本发明还有效避免了基于模型本身的单一特征进行样本筛选存在的种种问题。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

参见图1,本发明一实施例公开的一种样本生成方法流程图,该方法包括步骤:

步骤s101、获取预设训练集中每个数据特征的特征指标和特征信息价值;

需要说明的是,预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征。

其中,按照预设切分策略得到预设训练集的过程可以包括:

将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;

将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。

具体的,根据样本数据集中各个数据的时间标签,将各个数据按照时序进行排序,得到目标样本数据集。为提高训练集中各个数据的准确性,在实际应用中,可以将时间最近数据集和时间最远数据集作为测试集,该测试集不参与模型训练,仅模拟真实环境数据,以评估分类模型线上真实效果和衰减程度。目标样本数据集中除测试集以外的样本数据集,也即位于预设位置的样本数据集,用于进行分类模型训练。本实施例将位于预设位置的样本数据集按照预设比例随机拆分为训练集和验证集,此处拆分得到的训练集也即预设训练集,拆分得到的验证集也即后续的预设验证集。。

其中,预设比例的取值依据实际需要而定,本发明在此不做限定。

需要说明的是,在实际应用中,测试集并不局限于时间最近数据集和时间最远数据集。另外,在实际应用中,还可以根据预先设定的训练集包含的数据数量,对位于预设位置的样本数据集进行拆分,其中,训练集包含的数据数量可以根据实际需要自行配置调节。

举例说明,假设样本数据集中包含2019年07月到2019年10月的数据,则可以将2019年07月的数据和2019年10月的数据作为测试集,将2019年08月的数据和2019年9月的数据作为位于预设位置的样本数据集,通过对2019年08月的数据和2019年9月的数据按照预设比例随机拆分,得到预设训练集和预设验证集。

还需要说明的是,当样本数据集中包含的数据量非常大,比如,百万级以上,则还可以配置切分数据集的数据上下限。

本实施例中,数据特征的特征指标可以包括:覆盖率、平均值、方差、类型和变化率等。其中,变化率是指对训练集各个时间段的数据特征的统计数据再进行计算,以判断特征是否稳定。

特征信息价值指的是:通过计算数据特征的woe(weightofevidence,证据权重),根据woe的数值来评估该数据特征的iv(informationvalue,信息价值)。

其中,特征信息价值的具体计算过程可参见现有成熟方案,此处不再赘述。

步骤s102、基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;

其中,预设筛选规则可以根据实际经验来确定。比如,特征信息价值的经验阈值为0.01,特征指标中覆盖率的经验阈值为10%,则可以将特征信息价值不小于0.01,覆盖率不小于10%的数据特征作为筛选得到的基础特征。

步骤s103、确定每个所述基础特征的特征贡献度;

具体的,采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度。

其中,第一预设训练模型包含有贡献度属性,第一预设训练模型比如,随机森林、决策树、gbdt(gradientboostingdecisiontree,梯度提升迭代决策树)、xgboost等。

步骤s104、从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

在实际应用中,在确定每个基础特征的特征贡献度后,可以建立一个贡献度文件,该贡献度文件中的各个基础特征按照特征贡献度由大到小排序。

选取贡献度文件中特征贡献度排名前预设数量的基础特征作为目标样本中的目标特征,比如,将特征贡献度排名前100的基础特征作为目标样本中的目标特征。

综上可知,本发明公开的样本生成方法,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

为进一步优化上述实施例,本发明还公开了一种分类模型训练方法,该方法包括:

将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型。

其中,目标特征为采用图1所示实施例得到的目标特征。

预设训练集和预设验证集的确定过程,可参见样本生成方法对应部分,此处不再赘述。

综上可知,本发明公开的分类模型训练方法,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

本发明在得到分类模型后,还会进一步对分类模型的准确性、衰减情况等进行验证。

因此,为进一步优化上述实施例,分类模型训练方法还可以包括:

将目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果。

其中,本实施例中的预设测试集为目标样本数据集中位于预设位置的数据,目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。

在实际应用中,在将样本数据集中的各个数据,基于时间标签按照时序进行排序得到目标样本数据集后,可以将时间最近数据集和时间最远数据集作为本实施例中的预设测试集。举例说明,假设样本数据集中包含2019年07月到2019年10月的数据,则可以将2019年07月的数据和2019年10月的数据作为预设测试集。

本实施例中,对预设测试集的评估结果可以包括:模型概率分和评估指标,其中,评估指标可以包括:ks(kolmogorov-smimov)检验、auc(areaundertheroccurve,roc曲线下的面积)、f1-score、准确率、psi(populationstabilityindex,群体稳定性指数)等。

与上述方法实施例相对应,本发明还公开了一种识别方法。

参见图2,本发明一实施例公开的一种识别方法流程图,该方法包括步骤:

步骤s201、获取待识别数据;

步骤s202、调用预设分类模型对所述待识别数据进行处理;

其中,本实施例中的预设分类模型也即上述实施例中生成的分类模型。

步骤s203、获取对所述待识别数据的识别结果。

为便于理解采用分类模型的识别方法,本实施例提供了一个分类模型的应用场景,如下:

为降低信贷风险和损失,银行会对逾期用户进行催收。目前主要采用分类模型对逾期用户进行还款概率预测,区分还款概率高中低的用户,并针对性的进行催收。比如,预测还款概率高的用户可以采用短信或者语音提醒,预测还款概率低的用户可以进行一定的施压和重点催收。

综上可知,本发明公开的识别方法,获取待识别数据,调用预设分类模型对待识别数据进行处理,得到对待识别数据的识别结果,在生成预设分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成预设分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

与上述方法实施例相对应,本发明还公开了一种样本生成装置。

参见图3,本发明一实施例公开的一种样本生成装置的结构示意图,该装置包括:

特征获取单元301,用于获取预设训练集中每个数据特征的特征指标和特征信息价值;

需要说明的是,预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征。

因此,样本生成装置还可以包括:

切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;

所述切分单元具体用于:

将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特征;

将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。

具体的,根据样本数据集中各个数据的时间标签,将各个数据按照时序进行排序,得到目标样本数据集。为提高训练集中各个数据的准确性,在实际应用中,可以将时间最近数据集和时间最远数据集作为测试集,该测试集不参与模型训练,仅模拟真实环境数据,以评估分类模型线上真实效果和衰减程度。目标样本数据集中除测试集以外的样本数据集,也即位于预设位置的样本数据集,用于进行分类模型训练。本实施例将位于预设位置的样本数据集按照预设比例随机拆分为训练集和验证集,此处拆分得到的训练集也即预设训练集,拆分得到的验证集也即后续的预设验证集。。

其中,预设比例的取值依据实际需要而定,本发明在此不做限定。

需要说明的是,在实际应用中,测试集并不局限于时间最近数据集和时间最远数据集。另外,在实际应用中,还可以根据预先设定的训练集包含的数据数量,对位于预设位置的样本数据集进行拆分,其中,训练集包含的数据数量可以根据实际需要自行配置调节。

还需要说明的是,当样本数据集中包含的数据量非常大,比如,百万级以上,则还可以配置切分数据集的数据上下限。

本实施例中,数据特征的特征指标可以包括:覆盖率、平均值、方差、类型和变化率等。其中,变化率是指对训练集各个时间段的数据特征的统计数据再进行计算,以判断特征是否稳定。

特征信息价值指的是:通过计算数据特征的woe(weightofevidence,证据权重),根据woe的数值来评估该数据特征的iv(informationvalue,信息价值)。

其中,特征信息价值的具体计算过程可参见现有成熟方案,此处不再赘述。

基础特征筛选单元302,用于基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;

其中,预设筛选规则可以根据实际经验来确定。比如,特征信息价值的经验阈值为0.01,特征指标中覆盖率的经验阈值为10%,则可以将特征信息价值不小于0.01,覆盖率不小于10%的数据特征作为筛选得到的基础特征。

确定单元303,用于确定每个所述基础特征的特征贡献度;

其中,确定单元303具体可以用于:采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度。

其中,第一预设训练模型包含有贡献度属性,第一预设训练模型比如,随机森林、决策树、gbdt(gradientboostingdecisiontree,梯度提升迭代决策树)、xgboost等。

目标特征筛选单元304,用于从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

在实际应用中,在确定每个基础特征的特征贡献度后,可以建立一个贡献度文件,该贡献度文件中的各个基础特征按照特征贡献度由大到小排序。

选取贡献度文件中特征贡献度排名前预设数量的基础特征作为目标样本中的目标特征,比如,将特征贡献度排名前100的基础特征作为目标样本中的目标特征。

综上可知,本发明公开的样本生成装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

为进一步优化上述实施例,本发明还公开了一种分类模型训练装置,该装置包括:

模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型。

其中,目标特征为采用图3所示实施例得到的目标特征。

预设训练集和预设验证集的确定过程,可参见样本生成方法对应部分,此处不再赘述。

综上可知,本发明公开的分类模型训练装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

本发明在得到分类模型后,还会进一步对分类模型的准确性、衰减情况等进行验证。

因此,为进一步优化上述实施例,分类模型训练装置还可以包括:

评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果。

其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。

在实际应用中,在将样本数据集中的各个数据,基于时间标签按照时序进行排序得到目标样本数据集后,可以将时间最近数据集和时间最远数据集作为本实施例中的预设测试集。举例说明,假设样本数据集中包含2019年07月到2019年10月的数据,则可以将2019年07月的数据和2019年10月的数据作为预设测试集。

本实施例中,对预设测试集的评估结果可以包括:模型概率分和评估指标,其中,评估指标可以包括:ks(kolmogorov-smirnov)检验、auc(areaundertheroccurve,roc曲线下的面积)、f1-score、准确率、psi(populationstabilityindex,群体稳定性指数)等。

与上述装置实施例相对应,本发明还公开了一种识别装置。

参见图4,本发明一实施例公开的一种识别装置的结构示意图,该装置包括:

数据获取单元401,用于获取待识别数据;

模型调用单元402,用于调用预设分类模型对所述待识别数据进行处理,其中,本实施例中的预设分类模型也即上述实施例中生成的分类模型。

识别单元403,用于获取对所述待识别数据的识别结果。

为便于理解采用分类模型的识别装置,本实施例提供了一个分类模型的应用场景,如下:

为降低信贷风险和损失,银行会对逾期用户进行催收。目前主要采用分类模型对逾期用户进行还款概率预测,区分还款概率高中低的用户,并针对性的进行催收。比如,预测还款概率高的用户可以采用短信或者语音提醒,预测还款概率低的用户可以进行一定的施压和重点催收。

综上可知,本发明公开的识别装置,获取待识别数据,调用预设分类模型对待识别数据进行处理,得到对待识别数据的识别结果,在生成预设分类模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成预设分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

需要说明的是,装置实施例中各组成部分的工作原理,请参见方法实施例对应部分,此处不再赘述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句″包括一个......″限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1