一种用于更新分类模型的方法及装置的制造方法

文档序号:9929554阅读:159来源:国知局
一种用于更新分类模型的方法及装置的制造方法
【技术领域】
[0001] 本申请设及基于决策树的分类模型,具体设及一种用于更新分类模型的方法。本 申请同时设及一种用于更新分类模型的装置。
【背景技术】
[0002] 随着互联网技术的发展,出现了大量的网络应用,例如:网络社交、网络阅读等,网 络应用提供方为了向用户推荐更有针对性的信息、或者进行必要的监控管理,通常需要根 据用户在网络应用中的操作行为,针对预先设定的目标进行分类预测,例如:用户是否属于 活跃群体、用户的操作行为是否存在潜在风险等。为了提高预测效率和准确性,在大多数网 络应用中通常采用分类模型进行分类预测。
[0003] 所谓分类模型(也常常称作分类器),是指根据数据的特点把未知类别的样本映 射到给定类别中的某一个。构造分类模型的过程通常分为训练和测试两个阶段。在训练阶 段,通过分析由属性描述的训练样本集来构造模型,在测试阶段,使用测试样本集来评估模 型的分类准确率,如果分类准确率满足一定的要求,则分类模型就可W投入实际应用,对未 知类别的样本进行分类预测。
[0004] 分类模型的构造过程通常由机器学习过程实现,其中决策树(decision tree)是 通过寻找属性和类别之间的关系来进行类别的预测。为了提升分类的正确性,在决策树的 基础上又出现了随机森林分类器,即:由多个决策树组成的分类器,当待分类样本进入随机 森林时,其实就是让每一颗决策树进行分类,最后选取被所有决策树选择次数最多的类别 作为最终的分类结果。 阳〇化]上述基于决策树的分类模型在互联网领域得到了广泛的应用,针对运类模型的机 器学习过程,基本都采用离线学习方式:通过对全量的历史用户行为数据的学习、分析,得 出关于分类的知识,从而完成对分类模型的构建并部署上线。随着时间的推移,用户的行为 规律通常会发生变化,各个网络应用或者网站向用户呈现的商品、信息等也处于不断地调 整之中,导致分类模型的预测结果与实际分类不一致的程度超出了预先设定的范围,即:分 类模型退化,其分类的准确率已无法满足要求。针对运种情况,现有技术通常采用人工干预 进行离线计算的方式,利用全量历史数据重新训练分类模型,并将训练好的分类模型再次 部署上线进行分类预测。
[0006] 上述更新分类模型的方式,存在W下缺陷:
[0007] 1)每次都采用全量数据进行分类模型的构建,随着数据量的增大、处理时间会相 应延长,导致模型训练效率降低;
[0008] 2)通常在分类模型退化后才重新进行训练,也就是说分类模型不能实时或者及时 地根据数据的变化做出相应的调整,导致业务响应慢,在一些相对比较敏感的业务领域,例 如:风险控制领域,不法分子就可能利用运一缺陷通过多次尝试达到绕过分类模型、避免被 识别的目的,导致系统防控的滞后性。

【发明内容】

[0009] 本申请提供一种用于更新分类模型的方法,W解决现有分类模型更新方式训练效 率低、W及更新不及时的问题。本申请另外提供一种用于更新分类模型的装置。
[0010] 本申请提供一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组 成,用于根据网络应用中的用户行为数据进行类别预测,所述方法包括:
[0011] 从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练 样本集;
[0012] 确定新增决策树的数量;
[0013] 根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
[0014] 按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并 从中选择序位处于高位的、所述预定数量的决策树;
[0015] 汇总所选的决策树,得到更新后的分类模型。
[0016] 可选的,所述确定新增决策树的数量是指,使用所述训练样本集对所述分类模型 进行验证,并根据验证结果确定新增决策树的数量。
[0017] 可选的,所述使用所述训练样本集对所述分类模型进行验证,并根据验证结果确 定新增决策树的数量,包括:
[0018] 使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
[0019] 根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
[0020] 根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数 值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的 离散概率分布;
[0021] 根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机 数值作为所述新增决策树的数量。
[0022] 可选的,所述使用所述训练样本集中的每个样本,验证所述分类模型的正确性,包 括:
[0023] 根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
[0024] 判断预测的类别与所述训练样本的实际类别是否一致;
[00巧]若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
[00%] 可选的,所述根据所述训练样本集,采用随机森林算法生成所述新增数量的决策 树,包括:
[0027] 根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合; 阳028] 使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据 所选属性进行分裂的方式生成一棵新决策树;所述按照预定策略选取属性是指,从随机选 择的样本属性中按照预定策略选取属性;
[0029] 转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合 的步骤继续执行,直至生成所述新增数量的决策树。
[0030] 可选的,所述按照预定策略选取属性包括:根据信息增益选取属性、根据信息增益 率选取属性、或者根据基尼指标选取属性。
[0031] 可选的,在所述采用在每个节点按照预定策略选取属性、并根据所选属性进行分 裂的方式生成一棵新决策树之后,执行下述操作:
[0032] 计算表征所述新决策树的分类效果的指标;
[0033] 相应的,所述按照分类效果对所述分类模型包含的决策树和所述新生成的决策树 进行排序,并从中选择序位处于高位的、所述预定数量的决策树,包括:
[0034] 针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
[0035] 按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
[0036] 从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
[0037] 可选的,所述表征所述新决策树的分类效果的指标是指,袋外数据误差;
[0038] 相应的,所述针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标 包括:
[0039] 将每棵新决策树的袋外数据汇总得到袋外数据集合;
[0040] 使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的 袋外数据误差。 阳041] 可选的,在执行所述确定新增决策树的数量的步骤之前,执行下述操作:
[0042] 判断是否已创建所述分类模型;
[0043] 若否,所述确定新增决策树的数量是指,将预先设定的、分类模型包含决策树的数 量作为所述新增决策树的数量;相应的,在执行所述采用随机森林算法生成所述新增数量 的决策树后,直接执行所述汇总所选的决策树得到更新后的分类模型的步骤,已生成的所 述新增数量的决策树即为所选的决策树。
[0044] 相应的,本申请还提供一种用于更新分类模型的装置,包括:
[0045] 训练样本集获取单元,用于从提供所述用户行为数据的服务器中,获取预定时间 段内的增量数据,作为训练样本集;
[0046] 新增数量确定单元,用于确定新增决策树的数量;
[0047] 决策树创建单元,用于根据所述训练样本集,采用随机森林算法生成所述新增数 量的决策树;
[0048] 决策树筛选单元,用于按照分类效果对所述分类模型包含的决策树和所述新生成 的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;
[0049] 分类模型输出单元,用于汇总所选的决策树,得到更新后的分类模型。
[0050] 可选的,所述新增数量确定单元具体用于,使用所述训练样本集对所述分类模型 进行验证,并根据验证结果确定新增决策树的数量。
[0051] 可选的,所述新增数量确定单元包括:
[0052] 正确性验证子单元,用于使用所述训练样本集中的每个样本,验证所述分类模型 的正确性;
[0053] 正确率计算子单元,用于根据验证结果,计算所述分类模型对所述训练样本集进 行分类的正确率;
[0054] 泊松分布参数确定子单元,用于根据所述正确率确定泊松分布的参数值,使得所 述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有 放回抽样得到新样本集所遵循的离散概率分布;
[0055] 随机数确定子单元,用于根据所述泊松分布的参数值确定符合所述离散概率分布 的随机数值,并将该随机数值作为所述新增决策树的数量。
[0056] 可选的,所述正确性验证子单元包括:
[0057] 第一循环控制子单元,用于针对所述训练样本集中的每个样本,依次触发W下子 单元工作;
[0058] 类别预测子单元,用于根据训练样本包含的属性信息,采用所述分类模型进行类 别预测;
[0059] 判断子单元,用于判断预测的类别与所述训练样本的实际类别是否一致;若一致, 判定所述分类模型对所述训练样本的分类结果是正确的。
[0060] 可选的,所述决策树创建
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1