分类模型优化方法及装置的制造方法

文档序号:9787502阅读:451来源:国知局
分类模型优化方法及装置的制造方法
【技术领域】
[0001 ]本公开涉及信息技术领域,尤其涉及一种分类模型优化方法及装置。
【背景技术】
[0002] 随着社交圈的规模越来越大,用户在工作或生活中经常会收到很多邮件,如会议 邮件、广告邮件等。为了便于进行管理,通常需要对邮件进行分类。
[0003] 分类时,用户会先创建多个邮件文件夹,并设置好邮件分类规则,即每个邮件文件 夹所对应的邮件特征集合。每当接收到一个邮件时,分析邮件的内容来获取该邮件的特征 集合,根据设置好的邮件分类规则,确定与该邮件的特征集合匹配的邮件文件夹,并将该邮 件存储于匹配的邮件文件夹中,从而实现对该邮件的分类。

【发明内容】

[0004] 为克服相关技术中存在的问题,本公开提供一种分类模型优化方法及装置。所述 技术方案如下:
[0005] 根据本公开实施例的第一方面,提供一种分类模型优化方法,所述方法包括:
[0006] 根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标 邮件存储于所述第一类别标识对应的第一邮件文件夹中;
[0007] 当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作 时,确定所述第二邮件文件夹对应的第二类别标识;
[0008] 根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
[0009] 根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向 量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于对邮件进行分 类。
[0010] 在另一实施例中,所述根据所述目标邮件的特征向量和所述第二类别标识以及多 个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
[0011] 按照预设权重,对所述目标邮件的特征向量进行调整,所述预设权重大于1;
[0012] 根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对 应的类别标识进行训练,得到所述第二分类模型。
[0013] 在另一实施例中,所述方法还包括:
[0014] 根据所述多个样本邮件中每个样本邮件的至少一项特征集合,获取每个样本邮件 的特征向量;
[0015] 根据样本邮件的历史分类记录,确定每个样本邮件对应的类别标识。
[0016] 在另一实施例中,所述根据所述目标邮件的特征向量和所述第二类别标识以及多 个样本邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,包括:
[0017] 将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量 以及对应的类别标识组合成第一特征数据集;
[0018] 根据所述第一特征数据集进行训练,得到所述第二分类模型。
[0019] 在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第二分类模 型,包括:
[0020] 对所述第一特征数据集进行降维,得到第二特征数据集;
[0021 ]对所述第二特征数据集进行归一化,得到第三特征数据集;
[0022]根据所述第三特征数据集进行训练,得到所述第二分类模型。
[0023] 在另一实施例中,所述对所述第一特征数据集进行降维,得到第二特征数据集,包 括:
[0024] 确定所述第一特征数据集中的每个特征维度标识,每个特征维度标识与所述第一 特征数据集中的多个特征向量相应位置上的特征对应;
[0025] 对于每个特征维度标识,
[0026] 确定所述特征维度标识与每个类别标识之间的关联度;
[0027] 如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从 所述第一特征数据集中,删除所述特征维度标识对应的特征集合;
[0028] 将删除特征集合后的特征数据集确定为所述第二特征数据集。
[0029] 在另一实施例中,所述确定所述特征维度标识与每个类别标识之间的关联度,包 括:
[0030] 基于当前训练得到的分类模型,对所述多个特征向量分别进行分类,得到多个增 益类别标识;
[0031 ]删除所述多个特征向量中所述特征维度标识对应的特征,得到多个子向量,并基 于当前训练得到的分类模型,对所述多个子向量分别进行分类,得到多个测试类别标识;
[0032] 根据所述多个增益类别标识与所述多个测试类别标识之间的差异,确定所述特征 维度标识与每个类别标识之间的关联度。
[0033] 在另一实施例中,所述对所述第二特征数据集进行归一化,得到第三特征数据集, 包括:
[0034] 应用以下公式,对所述第二特征数据集进行归一化,得到所述第三特征数据集:
[0036]其中,X为所述第二特征数据集中任一位置上的值,y为对X进行归一化后得到的 值,MaxValue为X所在特征维度下多个特征的最大值,MinValue为X所在特征维度下多个特 征的最小值。
[0037] 在另一实施例中,所述根据所述第一特征数据集进行训练,得到所述第二分类模 型,包括:
[0038] 对初始分类模型的权重参数进行初始化;
[0039] 根据当前的分类模型的权重参数,对所述第一特征数据集中第一特征向量进行分 类,得到估计类别标识;
[0040] 获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差;
[0041] 如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据 调整后的权重参数,对所述第一特征数据集中第二特征向量继续进行分类,直至当前获取 到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于 当前的权重参数,生成所述第二分类模型。
[0042] 在另一实施例中,所述方法还包括:
[0043] 基于所述第一分类模型,对所述目标邮件进行分类。
[0044] 在另一实施例中,所述基于所述第一分类模型,对所述目标邮件进行分类,包括:
[0045] 根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特征向量;
[0046] 根据所述特征向量和所述第一分类模型,确定所述目标邮件对应的类别标识。
[0047] 在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、 收件用户特征集合、标题特征集合中的至少一项。
[0048] 根据本公开实施例的第二方面,提供一种分类模型优化装置,包括装置包括:
[0049] 存储模块,用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标 识,将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中;
[0050] 确定模块,用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件 文件夹的操作时,确定所述第二邮件文件夹对应的第二类别标识;
[0051 ]获取模块,用于根据所述目标邮件的至少一项特征集合,获取所述目标邮件的特 征向量;
[0052]训练模块,用于根据所述目标邮件的特征向量和所述第二类别标识以及多个样本 邮件的特征向量和对应的类别标识进行训练,得到第二分类模型,所述第二分类模型用于 对邮件进行分类。
[0053]在另一实施例中,所述训练模块还用于按照预设权重,对所述目标邮件的特征向 量进行调整,所述预设权重大于1,根据调整后的特征向量、所述第二类别标识、所述多个样 本邮件的特征向量和对应的类别标识进行训练,得到所述第二分类模型。
[0054] 在另一实施例中,所述获取模块还用于根据所述多个样本邮件中每个样本邮件的 至少一项特征集合,获取每个样本邮件的特征向量;
[0055] 所述确定模块还用于根据样本邮件的历史分类记录,确定每个样本邮件对应的类 别标识。
[0056] 在另一实施例中,所述训练模块还用于将所述目标邮件的特征向量和所述第二类 别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集,根据 所述第一特征数据集进行训练,得到所述第二分类模型。
[0057] 在另一实施例中,所述训练模块还用于对所述第一特征数据集进行降维,得到第 二特征数据集,对所述第二特征数据集进行归一化,得到第三特征数据集,根据所述第三特 征数据集进行训练,得到所述第二分类模型。
[0058] 在另一实施例中,所述训练模块还用于确定所述第一特征数据集中的每个特征维 度标识,每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对 应,对于每个特征维度标识,确定所述特征维度标识与每个类别标识之间的关联度,如果确 定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值,则从所述第一特征数 据集中,删除所述特征维度标识对应的特征集合,将删除特征集合后的特征数据集确定为 所述第二特征数据集。
[0059] 在另一实施例中,所述训练模块还用于基于当前训练得到的分类模型,对所述多 个特征向量分别进行分类,得到多个增益类别标识,删除所述多个特征向量中所述特征维 度标识对应的特征,得到多个子向量,并基于当前训练得到的分类模型,对所述多个子向量 分别进行分类,得到多个测试类别标识,根据所述多个增益类别标识与所述多个测试类别 标识之间的差异,确定所述特征维度标识与每个类别标识之间的关联度。
[0060]在另一实施例中,所述训练模块还用于应用以下公式,对所述第二特征数据集进 行归一化,得到所述第三特征数据集:
[0062]其中,X为所述第二特征数据集中任一位置上的值,y为对X进行归一化后得到的 值,MaxValue为X所在特征维度下多个特征的最大值,MinValue为X所在特征维度下多个特 征的最小值。
[0063]在另一实施例中,所述训练模块还用于对初始分类模型的权重参数进行初始化, 根据当前的分类模型的权重参数,对所述第一特征数据集中第一特征向量进行分类,得到 估计类别标识,获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差, 如果所述误差不小于预设阈值,则根据所述误差对所述权重参数进行调整,根据调整后的 权重参数,对所述第一特征数据集中第二特征向量继续进行分类,直至当前获取到的估计 类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时,基于当前的权 重参数,生成所述第二分类模型。
[0064]在另一实施例中,所述装置还包括:
[0065] 分类模块,用于基于所述第一分类模型,对所述目标邮件进行分类。
[0066] 在另一实施例中,所述分类模块还用于根据所述目标邮件的至少一项特征集合, 获取所述目标邮件的特征向量,根据所述特征向量和所述第一分类模型,确定所述目标邮 件对应的类别标识。
[0067] 在另一实施例中,邮件的特征集合包括:预设规则特征集合、发件用户特征集合、 收件用户特征集合、标题特征集合中的至少一项。
[0068] 根据本公开的第三方面,提供一种分类模型优化装置,所述装置包括:
[0069] 处理器;
[0070]用于存储处理器可执行的指令的存储器;
[0071]其中,所述处理器被配置为:
[0072] 根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识,将所述目标 邮件存储于所述第一类别标识对应的第一邮件文件夹中;
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1