选择性集成异质模型的实体对象分类方法及相关设备与流程

文档序号:21203424发布日期:2020-06-23 19:35阅读:250来源:国知局
选择性集成异质模型的实体对象分类方法及相关设备与流程

本公开涉及数据处理技术领域,尤其涉及一种选择性集成异质模型的实体对象分类方法及相关设备。



背景技术:

在互联网的应用场景中,每天会有大量的数据需要分析,而机器学习作为一种技术手段,正在越来越多的场景中发挥着作用。对于给定的任务,为取得良好的部署效果,集成学习往往是一种不错的选择,通过集成多个不同的模型,来提升整体的泛化性能往往是可行的。

然而,通常的模型集成就是基于训练得到的基分类器来取平均得到最后的预测结果,这样的方式往往达不到较好的效果,且会存在存储开销大,预测时间长的问题。与之对应的,选择性集成是一种缓解这一问题的方式,通过对所有的候选模型进行选择和合理组合,往往可以达到更好的整体效果,且模型存储开销和预测时间开销可以大大减小。因此,需要提供一种更快速或者更可靠的模型集成方案。



技术实现要素:

有鉴于此,本说明书一个或多个实施例的目的在于提出一种选择性集成异质模型的实体对象分类方法及相关设备,以解决上述问题。

基于上述目的,本说明书一个或多个实施例提供了一种选择性集成异质模型的实体对象分类方法,包括:

获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;

利用所述训练数据集,训练得到异质的至少两组基分类器;

按照指定轮数循环执行下列基分类器组合的生成及评分步骤:

生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;在第一轮中,通过随机生成权值的方式为每个基分类器赋予权值;

利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;

确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。

本说明书一个或多个实施例还提供了一种选择性集成异质模型的实体对象分类装置,包括:

获取模块,用于获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;

训练模块,用于利用所述训练数据集,训练得到异质的至少两组基分类器;

基分类器组合生成及评分模块,用于按照指定轮数循环执行下列基分类器组合的生成及评分步骤:

生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;

利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;

分类模块,用于确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。

本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。

本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行所述方法。

从上面所述可以看出,本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法及相关设备,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器,每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性,能够更好地完成实体对象分类。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统的示意图;

图2为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的一种流程示意图;

图3为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的另一种流程示意图;

图4为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类装置的框图结构示意图;

图5为本说明书一个或多个实施例提供的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。

监督学习:机器学习的一个研究领域,给定的数据包含大量有标记样本,基于如此的训练数据构建模型,来对测试样本进行预测。其中样本表示为描述其特征的特征向量,所有样本均为有标记样本,附有表示其属性的标记信息(如标记为正样本或负样本)。

集成学习:机器学习的一个研究领域,通过将多个基学习器进行结合,以期得到比单个学习器优越的泛化性能。

同质模型:当集成学习中的多个基分类器属于同种类的分类器(如都是神经网络模型),此时称各个模型之间是同质的。

异质模型:当集成学习中的多个基分类器属于不同的分类器(如支持向量机、神经网络、随机森林等),此时称各个模型之间是异质的。

作为一种集成学习的实施方案,可以基于同一种学习算法(如神经网络)训练得到多个同质基分类器(比如5个),并将多个同质基分类器各自的预测结果的平均值作为模型最终的预测结果。但是,基于同质模型的集成方案,受限于模型本身的特点,可能在某些任务上不具有优势。同时,简单地将各种模型的预测结果进行平均,而不做模型的筛选,可能会因为某些个体模型效果较差导致整体模型效果不理想。

图1示出了本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统的示意图。

如图1所示,所述选择性集成异质模型的实体对象分类系统,通过利用训练数据集中的训练数据,基于不同的学习算法训练得到异质的至少两组基分类器;其中,所述异质可以是指所述至少两组基分类器中至少一组基分类器的类型与其他组的基分类器的类型不同;亦即,所述至少两组基分类器中存在异质的基分类器。例如,若这里训练得到三组基分类器,其中至少有一组基分类器的类型(例如为神经网络)与另外两组基分类器的类型(例如为决策树)不同,从而在最终得到的目标分类模型(选择性集成异质模型)中,不同类型的基分类器能够发挥其本身的特点,使得目标分类模型作为整体能够适用于更多应用场景。

例如,假设这里基于三种学习算法(例如支持向量机、神经网络、随机森林)分别训练得到三组基分类器(同一组基分类器中的基分类器的类型是相同的),这三组基分类器中组与组之间互为异质的。这样,在最终选择性集成后得到的目标分类模型则可兼具三种类型的基分类器的特点,从而适用于更多的场景。

本说明书一个或多个实施例中,在训练得到至少两组基分类器后,按照指定轮数循环执行下列生成基分类器组合以及对基分类器组合进行评分的步骤:

生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;

利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。

其中,所述指定轮数根据需要进行设置,例如,可以是10轮、15轮、20轮,等等。

所述基分类器组合是从各组基分类器中分别按照一定规则挑选一定数量的基分类器后组合得到。例如,针对一个基分类器组合,其生成过程可以包括:首先,给训练得到的异质的至少两组基分类器中的每个基分类器赋予一个权值,所述赋予权值所采用的方式可以是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为训练得到的异质的至少两组基分类器中的每个所述基分类器赋予权值;对于第一轮得到的基分类器组合,其中的基分类器的权值是通过随机生成的方式得到的。其次,基于各基分类器的权值从大到小的顺序,从每组基分类器中选出至少一个基分类器。例如,对于一组基分类器,假设其中包括4个基分类器,各基分类器对应被赋予的权值分别是0.1、0.2、0.3、0.4,这样,假设按照权值从大到小的顺序需从该组基分类器中选出一个基分类器,则选出权值为0.4的基分类器,假设需从该组基分类器中选出两个基分类器,则选出权值为0.3和0.4对应的基分类器,依次类推。最后,将从每组基分类器中选取的基分类器集合成所述基分类器组合。

本说明书一个或多个实施例中,在生成若干基分类器组合时,各基分类器组合中基分类器被赋予的权值可能是不同的。例如,在对基分类器赋予权值(采用演化算法或随机生成)时,生成的权值是若干组,例如10组权值,针对每组权值,对应地,按照前述方法生成一个基分类器组合,这样,针对这若干组权值,最后就会相应得到若干基分类器组合,而这些基分类器组合中,对应被选出的基分类器可能是不同的,被选出的基分类器被赋予的权值也可能是不同的。

本说明书一个或多个实施例中,在生成若干基分类器组合后,针对每个基分类器组合结合其包括的基分类器被赋予的权值(此时的带有权值的基分类器组合已经相当于一个选择性集成异质模型),可以对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。在得到每个所述基分类器组合的评分后,进行下一轮的基分类器组合的生成及评分步骤时,则可利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法重新为每个所述基分类器赋予权值(此时的权值也可以是若干组),然后,再从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到新的基分类器组合,并可对新的基分类器组合再次利用验证数据集中的数据进行预测并得到评分。循环执行基分类器组合的生成及评分步骤直到达到指定轮数。

最后,对于所有轮中的基分类器组合,各自均具有一个相应的评分,其中评分最高的基分类器组合再结合其包括的基分类器所对应的权值,就能得到最终的选择性集成异质模型,并可利用该模型进行分类预测。

本说明书一个或多个实施例中,前述对基分类器赋予的权值可以被看作权重向量。例如,所述选择性集成异质模型的实体对象分类系统,可以根据集成学习的一些结合策略所采用的方法,确定所述至少两组基分类器的第一预定数量(例如10组)的权重向量(其中包括每个基分类器被赋予的权值)。这里权重向量是指所述至少两组基分类器中的所有基分类器的权值组合得到的向量。对于一组基分类器而言,该组基分类器对应的向量可以称为子权重向量。例如,假设训练得到三组基分类器,第一组基分类器对应于第一子权重向量,第二组基分类器对应于第二子权重向量,第三组基分类器对应于第三子权重向量,则权重向量即为第一子权重向量、第二子权重向量和第三子权重向量三者的结合。这里,可以不止确定一个权重向量,可以根据预设的第一预定数量,确定得到第一预定数量的权重向量,例如10组权重向量。可选地,在第一轮中,所述第一预定数量的权重向量是通过随机生成的方式得到的。

在得到第一预定数量的权重向量之后,所述选择性集成异质模型的实体对象分类系统,需要根据这些权重向量对所述至少两组基分类器中的基分类器进行选择性集成。具体地,对于每个所述权重向量,根据每个子权重向量中各权重的值(权值),选择第二预定数量(例如1个)的权重并将该子权重向量中其余权重的值置为0,得到第一预定数量的校正权重向量。这里,所述第二预定数量是根据需要进行取值的。例如,假设这里的第二预定数量为1,则从每组基分类器中选择一个基分类器;例如,本步骤中,所述选择方法可以是选择子权重向量中权重的值最大的那个权重,然后把该子权重向量中其余权重的值置为0(这里,权值被置零可以被理解为对应的基分类器没有被选取,而未被置零的权值对应的基分类器则是被选出的基分类器);然后,把这些校正后的子权重向量组合成校正权重向量。对于每组权重向量,均采用该步骤进行处理,得到第一预定数量(例如10组)的校正权重向量,所述校正权重向量中权值被置零的基分类器可以被理解为该基分类器没有被选取,而所述校正权重向量中未被置零的权值对应的基分类器则是被选出的基分类器。

然后,所述选择性集成异质模型的实体对象分类系统,利用所述第一预定数量的校正权重向量,结合所述至少两组基分类器,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述校正权重向量的评分。可选地,这里的评分方法可以采用机器学习中常用的模型性能度量方法。例如,受试者工作特征方法(receiveroperatingcharacteristic,简称roc)或者roc曲线下面积计算方法(areaunderroccurve,简称auc)。可选地,本步骤中,用于进行预测的校正权重向量可以先做归一化处理,然后再用于进行预测,从而使得各校正权重向量之间的性能更具可比性。

接着,所述选择性集成异质模型的实体对象分类系统,可以利用演化算法,结合所述校正权重向量及其评分,重新生成第一预定数量的新的权重向量,利用重新生成的权重向量,重复前述计算校正权重向量到计算校正权重向量评分的步骤,得到新一轮的校正权重向量的评分;重复前一步骤直至达到指定轮数,最终得到所有轮中每个所述校正权重向量及其评分。

在完成指定轮数的评分步骤后,确定所有轮中得到的每个所述校正权重向量的评分中评分最高的校正权重向量,基于所述评分最高的校正权重向量从每组基分类器中各选择第二预定数量的基分类器。

最后,所述选择性集成异质模型的实体对象分类系统,将被选择的所述基分类器按照其对应的校正权重向量结合得到目标分类模型(所述选择性集成异质模型),用以进行分类预测。这里,所述目标分类模型中包括了被选择的基分类器及其权重,在对数据进行分类预测时,只需将各基分类器的分类预测结果进行加权平均即可得到最终的分类预测结果。

可选地,所述演化算法采用遗传算法、遗传规划、进化策略和进化规划中的至少一种。

本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器(如支持向量机、神经网络、随机森林、梯度下降决策树(gbdt)等),每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性。而通过对每一类基分类器训练多个模型,可以充分探索每一个模型在同步参数下能够达到的最好效果,进一步提升整体性能。

本说明书一个或多个实施例中,所述选择性集成异质模型的实体对象分类系统可用于对各种实体对象进行分类。本说明书一个或多个实施例中的实体对象例如可以是用户、设备或用户的账户(也可简称账户)中的任意一种。

例如,对于用户,可以对用户性质(例如合法或不合法)、用户状态(例如有风险或无风险)等等进行分类。同理,对于用户的账户,也可以对账户性质(例如合法或不合法)、账户状态(例如有风险或无风险)等等进行分类,对于设备,也可以对设备性质(例如合法或不合法)、设备状态(例如有风险或无风险)等等进行分类。

本说明书一个或多个实施例中,所述选择性集成异质模型的实体对象分类系统可用于对用户性质进行分类(例如将用户分为合法用户或不合法用户);所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。

可以看到,在训练数据中,用户基本信息、用户动态信息和用户关系信息中存在不同类型的特征,例如,对于年龄信息、消费信息等数据,通常是连续性特征,对于性别、学历等数据,通常是离散性特征,而对于不同类型的特征,其更适用于不同的基分类器。比如连续性特征用树模型(如gbdt、随机森林)训练更合适,而离散性特征用神经网络模型训练更合适。这样,针对训练数据中的不同类型特征,在进行异质模型的选择性集成时,最终得到的目标分类模型更能较好地完成任务。

类似的,对于账户和设备,也可以通过采集账户/设备基本信息、账户/设备动态信息和账户/设备关系信息来得到训练数据集和验证数据集,在此不再赘述。

图2示出了本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的一种流程示意图。

如图2所示,所述选择性集成异质模型的实体对象分类方法,包括:

步骤102:获取训练数据集和验证数据集。

可选地,所述训练数据集和验证数据集中的数据均带有分类标记。例如,若所述选择性集成异质模型的实体对象分类方法用于对用户性质进行分类,所述分类标记则为用户性质标记,如合法用户或不合法用户。

步骤104:利用所述训练数据集,训练得到异质的至少两组基分类器;其中,所述至少两组基分类器中至少一组基分类器的类型与其他组的基分类器的类型不同;亦即,所述至少两组基分类器中存在异质的基分类器。

可选地,所述基分类器包括逻辑回归模型、支持向量机模型、决策树模型、梯度下降决策树模型、随机森林模型、神经网络模型中的至少一种。

例如,若这里训练得到三组基分类器,其中至少有一组基分类器的类型(例如为神经网络)与另外两组基分类器的类型(例如为决策树)不同,从而在最终得到的目标分类模型中,不同类型的基分类器能够发挥其本身的特点,使得目标分类模型作为整体能够适用于更多应用场景。

可选地,所述至少两组基分类器中各组基分类器与其他组的基分类器的类型各不相同。

例如,假设这里基于三种学习算法(例如支持向量机、神经网络、随机森林)分别训练得到三组基分类器(同一组中的基分类器的类型是相同的),这三组基分类器中组与组之间互为异质的。这样,在最终选择性集成后得到的目标分类模型则可兼具三种基分类器的特点,从而适用于更多的场景。

按照指定轮数循环执行下列基分类器组合的生成步骤106及评分步骤108。所述指定轮数根据需要进行设置,例如,可以是10轮、15轮、20轮,等等。

步骤106:生成若干基分类器组合。

本步骤中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的。

所述基分类器组合是从各组基分类器中分别按照一定规则挑选一定数量的基分类器后组合得到。例如,针对一个基分类器组合,其生成过程可以包括:首先,给训练得到的异质的至少两组基分类器中的每个基分类器赋予一个权值,所述赋予权值所采用的方式可以是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为训练得到的异质的至少两组基分类器中的每个所述基分类器赋予权值;对于第一轮得到的基分类器组合,其中的基分类器的权值是通过随机生成的方式得到的。其次,基于各基分类器的权值从大到小的顺序,从每组基分类器中选出至少一个基分类器。例如,对于一组基分类器,假设其中包括4个基分类器,各基分类器对应被赋予的权值分别是0.1、0.2、0.3、0.4,这样,假设按照权值从大到小的顺序需从该组基分类器中选出一个基分类器,则选出权值为0.4的基分类器,假设需从该组基分类器中选出两个基分类器,则选出权值为0.3和0.4对应的基分类器,依次类推。最后,将从每组基分类器中选取的基分类器集合成所述基分类器组合。

本说明书一个或多个实施例中,在生成若干基分类器组合时,各基分类器组合中基分类器被赋予的权值可能是不同的。例如,在对基分类器赋予权值(采用演化算法或随机生成)时,生成的权值是若干组,例如10组权值,针对每组权值,对应地,按照前述方法生成一个基分类器组合,这样,针对这若干组权值,最后就会相应得到若干基分类器组合,而这些基分类器组合中,对应被选出的基分类器可能是不同的,被选出的基分类器被赋予的权值也可能是不同的。

本说明书一个或多个实施例中,前述对基分类器赋予的权值可以被看作权重向量。可选地,例如,可以根据集成学习的一些结合策略所采用的方法,确定所述至少两组基分类器的第一预定数量(例如10组)的权重向量(其中包括每个基分类器被赋予的权值)。

本步骤中,所述权重向量是指所述至少两组基分类器中的所有基分类器的权值组合得到的向量。对于一组基分类器而言,该组基分类器对应的向量可以称为子权重向量。例如,假设训练得到三组基分类器,第一组基分类器对应于第一子权重向量,第二组基分类器对应于第二子权重向量,第三组基分类器对应于第三子权重向量,则权重向量即为第一子权重向量、第二子权重向量和第三子权重向量三者的结合。这里,可以不止确定一个权重向量,可以根据预设的第一预定数量,确定得到第一预定数量的权重向量,例如10组权重向量。可选地,在第一轮中,所述第一预定数量的权重向量是通过随机生成的方式得到的。

在得到第一预定数量的权重向量之后,所述选择性集成异质模型的实体对象分类系统,需要根据这些权重向量对所述至少两组基分类器中的基分类器进行选择性集成。具体地,对于每个所述权重向量,根据每个子权重向量中各权重的值(权值),选择第二预定数量(例如1个)的权重并将该子权重向量中其余权重的值置为0,得到第一预定数量的校正权重向量。这里,所述第二预定数量是根据需要进行取值的。例如,假设这里的第二预定数量为1,则从每组基分类器中选择一个基分类器;例如,本步骤中,所述选择方法可以是选择子权重向量中权重的值最大的那个权重,然后把该子权重向量中其余权重的值置为0(这里,权值被置零可以被理解为对应的基分类器没有被选取,而未被置零的权值对应的基分类器则是被选出的基分类器);然后,把这些校正后的子权重向量组合成校正权重向量。对于每组权重向量,均采用该步骤进行处理,得到第一预定数量(例如10组)的校正权重向量,所述校正权重向量中权值被置零的基分类器可以被理解为该基分类器没有被选取,而所述校正权重向量中未被置零的权值对应的基分类器则是被选出的基分类器。

步骤108:利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。

本说明书一个或多个实施例中,在生成若干基分类器组合后,针对每个基分类器组合结合其包括的基分类器被赋予的权值(此时的带有权值的基分类器组合已经相当于一个选择性集成异质模型),可以对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。在得到每个所述基分类器组合的评分后,进行下一轮的基分类器组合的生成及评分步骤时,则可利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法重新为每个所述基分类器赋予权值(此时的权值也可以是若干组),然后,再从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到新的基分类器组合,并可对新的基分类器组合再次利用验证数据集中的数据进行预测并得到评分。循环执行基分类器组合的生成及评分步骤直到达到指定轮数。

可选地,这里的评分方法可以采用机器学习中常用的模型性能度量方法。例如,受试者工作特征方法(receiveroperatingcharacteristic,简称roc)或者roc曲线下面积计算方法(areaunderroccurve,简称auc)。

本说明书一个或多个实施例中,前述对基分类器赋予的权值被看作权重向量时,可以利用所述第一预定数量的校正权重向量,结合所述至少两组基分类器,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述校正权重向量的评分。可选地,本步骤中,用于进行预测的校正权重向量可以先做归一化处理,然后再用于进行预测,从而使得各校正权重向量之间的性能更具可比性。

在执行步骤106和步骤108直至指定轮数后,则可执行下述步骤。

步骤110:确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行分类预测。

本步骤中,对于所有轮中的基分类器组合,各自均具有一个相应的评分,其中评分最高的基分类器组合再结合其包括的基分类器所对应的权值,就能得到最终的选择性集成异质模型,并可利用该模型进行分类预测。

本步骤中,所述选择性集成异质模型中包括了被选择的基分类器及其权值(该权值为前述生成基分类器组合时为该基分类器所赋予的权值),在对数据进行分类预测时,只需将各基分类器的分类预测结果进行加权平均即可得到最终的分类预测结果。

本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器,每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性。而通过对每一类基分类器训练多个模型,可以充分探索每一个模型在同步参数下能够达到的最好效果,进一步提升整体性能。

本说明书一个或多个实施例中,所述选择性集成异质模型的实体对象分类方法可用于对各种实体对象进行分类。本说明书一个或多个实施例中的实体对象例如可以是用户、设备或用户的账户(也可简称账户)中的任意一种。

例如,对于用户,可以对用户性质(例如合法或不合法)、用户状态(例如有风险或无风险)等等进行分类。同理,对于用户的账户,也可以对账户性质(例如合法或不合法)、账户状态(例如有风险或无风险)等等进行分类,对于设备,也可以对设备性质(例如合法或不合法)、设备状态(例如有风险或无风险)等等进行分类。

本说明书一个或多个实施例中,所述选择性集成异质模型的实体对象分类方法可用于对用户性质进行分类(例如将用户分为合法用户或不合法用户);所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。

可以看到,在训练数据中,用户基本信息、用户动态信息和用户关系信息中存在不同类型的特征,例如,对于年龄信息、消费信息等数据,通常是连续性特征,对于性别、学历等数据,通常是离散性特征,而对于不同类型的特征,其更适用于不同的基分类器。比如连续性特征用树模型(如gbdt、随机森林)训练更合适,而离散性特征用神经网络模型训练更合适。这样,针对训练数据中的不同类型特征,在进行异质模型的选择性集成时,最终得到的目标分类模型更能较好地完成任务。

类似的,对于账户和设备,也可以通过采集账户/设备基本信息、账户/设备动态信息和账户/设备关系信息来得到训练数据集和验证数据集,在此不再赘述。

图3示出了本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的另一种流程示意图。

如图3所示,所述选择性集成异质模型的实体对象分类方法,包括:

步骤202:获取训练数据集dt和验证数据集dv。

可选地,所述训练数据集和验证数据集中的数据均带有分类标记。

步骤204:利用所述训练数据集,训练得到至少两组基分类器;其中,所述至少两组基分类器中至少一组基分类器的类型与其他组的基分类器的类型不同。

可选地,所述基分类器包括逻辑回归模型(lr)、决策树模型、随机森林模型、神经网络模型中的至少一种。

可选地,所述至少两组基分类器中各组基分类器与其他组的基分类器的类型各不相同。

例如,选择n种类型的基分类器m1,m2,…,mn。参考图1所示,m1代表逻辑回归模型,m2代表随机森林模型,mn代表神经网络模型。参数k为每一组基分类器中训练得到的基分类器的数目。

例如,对于每一组基分类器,基于不同参数,训练得到候选模型,分别表示为m11,m12,…m1k,m21,m22,…m2k,…,mn1,mn2,…mnk,其中mij表示基分类器mj在第i组参数下得到的子模型,共计得到候选模型(基分类器)n*k个。

步骤206:确定所述至少两组基分类器的第一预定数量(例如10组)的权重向量;其中,权重向量中的每一项为0到1之间的数;每个所述权重向量中包括各组基分类器i对应的子权重向量ωi1,ωi2,…,ωik。

步骤208:对于每个所述权重向量,根据每个子权重向量ωi1,ωi2,…,ωik中各权重的值,选择第二预定数量的权重并将该子权重向量中其余权重的值置为0,得到第一预定数量的校正权重向量。

例如,对于每一组子权重向量,可以选择权重的值最大的一项。假设第一组子权重向量中最大项为ω11,则采用步骤208处理后,子权重向量ω11,ω12,…,ω1k变为ω11,0,…,0,其中只有一项不为0(表示每一类基分类器中只选择其中的一个);假设第二组子权重向量中最大项为ω22,则采用步骤208处理后,子权重向量ω21,ω22,…,ω2k变为0,ω22,0,…,0;依次类推,假设第n组子权重向量中最大项为ωnk,则采用步骤208处理后,子权重向量ωn1,ωn2,…,ωnk变为0,…,0,ωnk。这样,最终得到的校正权重向量即为:ω11,0,…,0,ω22,0,…,0,…,0,…,0,ωnk。

又例如,对于每一组子权重向量,可以选择权重的值最大的前两项。假设第一组子权重向量中最大的两项为ω11和ω12,则采用步骤208处理后,子权重向量ω11,ω12,…,ω1k变为ω11,ω12,0,…,0,其中只有两项不为0(表示每一类基分类器中只选择其中的两个);假设第二组子权重向量中最大的两项为ω22和ω23,则采用步骤208处理后,子权重向量ω21,ω22,…,ω2k变为0,ω22,ω23,0,…,0;依次类推;假设第n组子权重向量中最大的两项为为ωnk-1和ωnk,则采用步骤208处理后,子权重向量ωn1,ωn2,…,ωnk变为0,…,0,ωnk-1,ωnk。这样,最终得到的校正权重向量即为:ω11,ω12,0,…,0,0,ω22,ω23,0,…,0,…,0,…,0,ωnk-1,ωnk。

其他示例参考前面实施例的原理,在此不再赘述。

步骤210:将所述校正权重向量进行归一化,得到完成归一化的所述校正权重向量,使得校正权重向量中全部权重的值之和为1。

步骤212:利用所述第一预定数量的归一化后的校正权重向量,结合所述至少两组基分类器,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述校正权重向量的评分。

例如,将验证数据集dv的样本的标记表示为(一个长度等于预测样本数的向量),用p表示将每一个模型的预测结果拼接起来的矩阵(是一个长度等于预测样本数,宽度等于候选模型数n*k的矩阵),用ω表示校正权重向量,当ω取不同的值,可以计算表示按权重向量ω集成不同模型的预测结果得到的最终结果,进而基于可以计算各种评价指标,来评估当前权重向量的好坏。本实施例的优化目标就是得到合适的ω,使得其取得较好的评价指标。

可选地,利用所述第一预定数量的归一化后的校正权重向量,结合所述至少两组基分类器,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述校正权重向量的评分,包括:

根据归一化后的所述校正权重向量中取值不为零的权重,从所述至少两组基分类器选择与所述取值不为零的权重对应的基分类器,组成分类模型;

将所述验证数据集中的数据输入所述分类模型,并按照归一化后的所述校正权重向量进行加权预测,得到所述预测结果;

根据所述预测结果,按照预定的模型性能评价方法,得到相应的校正权重向量的评分。

步骤214:利用演化算法(也称进化算法),结合所述校正权重向量及其评分,重新生成第一预定数量的权重向量,利用重新生成的权重向量,重复前述计算校正权重向量到计算校正权重向量评分的步骤,得到新一轮的校正权重向量的评分。

本步骤通过演化算法,结合前述步骤中计算得到的校正权重向量及其评分,重新生成第一预定数量的权重向量,从而能够利用演化算法对权重向量进行优化。可选地,当需要利用演化算法重新生成权重向量时,前述步骤206中,即在第一轮中,可以采用随机生成权重向量的方式确定所述至少两组基分类器的第一预定数量的权重向量。

可选地,所述遗传算法(geneticalgorithms)、遗传规划(geneticprogramming)、进化策略(evolutionstrategies)和进化规划(evolutionprogramming)中的至少一种。

步骤216:重复前一步骤直至达到指定轮数(如10轮)。

步骤218:确定所有轮中得到的每个所述校正权重向量的评分中评分最高的校正权重向量,基于所述评分最高的校正权重向量从每组基分类器中各选择第二预定数量的基分类器。

步骤220:将被选择的所述基分类器结合得到目标分类模型,用以进行分类预测。对于新的待分类样本,只需将目标分类模型的预测结果结合每一个模型的权重进行加权预测即可。

作为一个实施例,所述选择性集成异质模型的实体对象分类方法用于对用户性质进行分类;所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。

本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法,引入各种异质的基分类器,可以充分利用每一类基分类器的优势使得整体模型的效果更为鲁棒;对于每一类基分类器,采用选择集成的方案,能够更好的挖掘每一个基分类器的性能,使得整体的效果更好,进一步地,可以降低数据对特定模型的强依赖。此外。在候选模型的选择过程中,采用权重向量校正的演化算法,针对本实施例中约束条件较多的复杂优化问题,能够高效得到比较好的解。

需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

图4示出了本说明书一个或多个实施例提供的选择性集成异质模型的分类装置的框图结构示意图。

如图4所示,所述选择性集成异质模型的分类装置,包括:

获取模块301,用于获取训练数据集和验证数据集;

训练模块302,用于利用所述训练数据集,训练得到异质的至少两组基分类器;

基分类器组合生成及评分模块303,用于按照指定轮数循环执行下列基分类器组合的生成及评分步骤:

生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;

利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;

分类模块304,用于确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行分类预测。

本说明书一个或多个实施例提供的选择性集成异质模型的分类装置,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器,每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性。

可选地,所述基分类器组合生成及评分模块,用于:

生成若干基分类器组合;其中,每个所述基分类器组合是通过随机生成权值的方式为每个基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;

利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。

可选地,所述演化算法采用遗传算法、遗传规划、进化策略和进化规划中的至少一种。

可选地,所述训练数据集和验证数据集中的数据均带有分类标记。

可选地,所述基分类器包括逻辑回归模型、支持向量机模型、决策树模型、梯度下降决策树模型、随机森林模型、神经网络模型中的至少一种。

可选地,所述选择性集成异质模型的分类装置用于对用户性质进行分类;所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器401、存储器402、输入/输出接口403、通信接口404和总线405。其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。

处理器401可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器402可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器402可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器402中,并由处理器401来调用执行。

输入/输出接口403用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口404用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线405包括一通路,在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器401、存储器402、输入/输出接口403、通信接口404以及总线405,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1