一种用于更新分类模型的方法及装置的制造方法

文档序号：9929554阅读：159来源：国知局

一种用于更新分类模型的方法及装置的制造方法
【技术领域】
[0001] 本申请设及基于决策树的分类模型，具体设及一种用于更新分类模型的方法。本申请同时设及一种用于更新分类模型的装置。
【背景技术】
[0002] 随着互联网技术的发展，出现了大量的网络应用，例如：网络社交、网络阅读等，网络应用提供方为了向用户推荐更有针对性的信息、或者进行必要的监控管理，通常需要根据用户在网络应用中的操作行为，针对预先设定的目标进行分类预测，例如：用户是否属于活跃群体、用户的操作行为是否存在潜在风险等。为了提高预测效率和准确性，在大多数网络应用中通常采用分类模型进行分类预测。
[0003] 所谓分类模型（也常常称作分类器），是指根据数据的特点把未知类别的样本映射到给定类别中的某一个。构造分类模型的过程通常分为训练和测试两个阶段。在训练阶段，通过分析由属性描述的训练样本集来构造模型，在测试阶段，使用测试样本集来评估模型的分类准确率，如果分类准确率满足一定的要求，则分类模型就可W投入实际应用，对未知类别的样本进行分类预测。
[0004] 分类模型的构造过程通常由机器学习过程实现，其中决策树（decision tree)是通过寻找属性和类别之间的关系来进行类别的预测。为了提升分类的正确性，在决策树的基础上又出现了随机森林分类器，即：由多个决策树组成的分类器，当待分类样本进入随机森林时，其实就是让每一颗决策树进行分类，最后选取被所有决策树选择次数最多的类别作为最终的分类结果。阳〇化]上述基于决策树的分类模型在互联网领域得到了广泛的应用，针对运类模型的机器学习过程，基本都采用离线学习方式：通过对全量的历史用户行为数据的学习、分析，得出关于分类的知识，从而完成对分类模型的构建并部署上线。随着时间的推移，用户的行为规律通常会发生变化，各个网络应用或者网站向用户呈现的商品、信息等也处于不断地调整之中，导致分类模型的预测结果与实际分类不一致的程度超出了预先设定的范围，即：分类模型退化，其分类的准确率已无法满足要求。针对运种情况，现有技术通常采用人工干预进行离线计算的方式，利用全量历史数据重新训练分类模型，并将训练好的分类模型再次部署上线进行分类预测。
[0006] 上述更新分类模型的方式，存在W下缺陷：
[0007] 1)每次都采用全量数据进行分类模型的构建，随着数据量的增大、处理时间会相应延长，导致模型训练效率降低；
[0008] 2)通常在分类模型退化后才重新进行训练，也就是说分类模型不能实时或者及时地根据数据的变化做出相应的调整，导致业务响应慢，在一些相对比较敏感的业务领域，例如：风险控制领域，不法分子就可能利用运一缺陷通过多次尝试达到绕过分类模型、避免被识别的目的，导致系统防控的滞后性。

【发明内容】

[0009] 本申请提供一种用于更新分类模型的方法，W解决现有分类模型更新方式训练效率低、W及更新不及时的问题。本申请另外提供一种用于更新分类模型的装置。
[0010] 本申请提供一种用于更新分类模型的方法，所述分类模型由预定数量的决策树组成，用于根据网络应用中的用户行为数据进行类别预测，所述方法包括：
[0011] 从提供所述用户行为数据的服务器中，获取预定时间段内的增量数据，作为训练样本集；
[0012] 确定新增决策树的数量；
[0013] 根据所述训练样本集，采用随机森林算法生成所述新增数量的决策树；
[0014] 按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序，并从中选择序位处于高位的、所述预定数量的决策树；
[0015] 汇总所选的决策树，得到更新后的分类模型。
[0016] 可选的，所述确定新增决策树的数量是指，使用所述训练样本集对所述分类模型进行验证，并根据验证结果确定新增决策树的数量。
[0017] 可选的，所述使用所述训练样本集对所述分类模型进行验证，并根据验证结果确定新增决策树的数量，包括：
[0018] 使用所述训练样本集中的每个样本，验证所述分类模型的正确性；
[0019] 根据验证结果，计算所述分类模型对所述训练样本集进行分类的正确率；
[0020] 根据所述正确率确定泊松分布的参数值，使得所述正确率与所述泊松分布的参数值满足反比关系；所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布；
[0021] 根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值，并将该随机数值作为所述新增决策树的数量。
[0022] 可选的，所述使用所述训练样本集中的每个样本，验证所述分类模型的正确性，包括：
[0023] 根据训练样本包含的属性信息，采用所述分类模型进行类别预测；
[0024] 判断预测的类别与所述训练样本的实际类别是否一致；
[00巧]若一致，判定所述分类模型对所述训练样本的分类结果是正确的。
[00%] 可选的，所述根据所述训练样本集，采用随机森林算法生成所述新增数量的决策树，包括：
[0027] 根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合；阳028] 使用所述bootstrap样本集合，采用在每个节点按照预定策略选取属性、并根据所选属性进行分裂的方式生成一棵新决策树；所述按照预定策略选取属性是指，从随机选择的样本属性中按照预定策略选取属性；
[0029] 转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合的步骤继续执行，直至生成所述新增数量的决策树。
[0030] 可选的，所述按照预定策略选取属性包括：根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
[0031] 可选的，在所述采用在每个节点按照预定策略选取属性、并根据所选属性进行分裂的方式生成一棵新决策树之后，执行下述操作：
[0032] 计算表征所述新决策树的分类效果的指标；
[0033] 相应的，所述按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序，并从中选择序位处于高位的、所述预定数量的决策树，包括：
[0034] 针对所述分类模型包含的每棵决策树，计算表征其分类效果的指标；
[0035] 按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序；
[0036] 从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
[0037] 可选的，所述表征所述新决策树的分类效果的指标是指，袋外数据误差；
[0038] 相应的，所述针对所述分类模型包含的每棵决策树，计算表征其分类效果的指标包括：
[0039] 将每棵新决策树的袋外数据汇总得到袋外数据集合；
[0040] 使用所述袋外数据集合，计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。阳041] 可选的，在执行所述确定新增决策树的数量的步骤之前，执行下述操作：
[0042] 判断是否已创建所述分类模型；
[0043] 若否，所述确定新增决策树的数量是指，将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量；相应的，在执行所述采用随机森林算法生成所述新增数量的决策树后，直接执行所述汇总所选的决策树得到更新后的分类模型的步骤，已生成的所述新增数量的决策树即为所选的决策树。
[0044] 相应的，本申请还提供一种用于更新分类模型的装置，包括：
[0045] 训练样本集获取单元，用于从提供所述用户行为数据的服务器中，获取预定时间段内的增量数据，作为训练样本集；
[0046] 新增数量确定单元，用于确定新增决策树的数量；
[0047] 决策树创建单元，用于根据所述训练样本集，采用随机森林算法生成所述新增数量的决策树；
[0048] 决策树筛选单元，用于按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序，并从中选择序位处于高位的、所述预定数量的决策树；
[0049] 分类模型输出单元，用于汇总所选的决策树，得到更新后的分类模型。
[0050] 可选的，所述新增数量确定单元具体用于，使用所述训练样本集对所述分类模型进行验证，并根据验证结果确定新增决策树的数量。
[0051] 可选的，所述新增数量确定单元包括：
[0052] 正确性验证子单元，用于使用所述训练样本集中的每个样本，验证所述分类模型的正确性；
[0053] 正确率计算子单元，用于根据验证结果，计算所述分类模型对所述训练样本集进行分类的正确率；
[0054] 泊松分布参数确定子单元，用于根据所述正确率确定泊松分布的参数值，使得所述正确率与所述泊松分布的参数值满足反比关系；所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布；
[0055] 随机数确定子单元，用于根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值，并将该随机数值作为所述新增决策树的数量。
[0056] 可选的，所述正确性验证子单元包括：
[0057] 第一循环控制子单元，用于针对所述训练样本集中的每个样本，依次触发W下子单元工作；
[0058] 类别预测子单元，用于根据训练样本包含的属性信息，采用所述分类模型进行类别预测；
[0059] 判断子单元，用于判断预测的类别与所述训练样本的实际类别是否一致；若一致，判定所述分类模型对所述训练样本的分类结果是正确的。
[0060] 可选的，所述决策树创建

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈雄;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：数据库之间更新的方法及其装置的制造方法
上一篇：房屋信息获取方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。