分类模型优化方法及装置的制造方法

文档序号：9787502阅读：451来源：国知局

分类模型优化方法及装置的制造方法
【技术领域】
[0001 ]本公开涉及信息技术领域，尤其涉及一种分类模型优化方法及装置。
【背景技术】
[0002] 随着社交圈的规模越来越大，用户在工作或生活中经常会收到很多邮件，如会议邮件、广告邮件等。为了便于进行管理，通常需要对邮件进行分类。
[0003] 分类时，用户会先创建多个邮件文件夹，并设置好邮件分类规则，即每个邮件文件夹所对应的邮件特征集合。每当接收到一个邮件时，分析邮件的内容来获取该邮件的特征集合，根据设置好的邮件分类规则，确定与该邮件的特征集合匹配的邮件文件夹，并将该邮件存储于匹配的邮件文件夹中，从而实现对该邮件的分类。

【发明内容】

[0004] 为克服相关技术中存在的问题，本公开提供一种分类模型优化方法及装置。所述技术方案如下：
[0005] 根据本公开实施例的第一方面，提供一种分类模型优化方法，所述方法包括：
[0006] 根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中；
[0007] 当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时，确定所述第二邮件文件夹对应的第二类别标识；
[0008] 根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量；
[0009] 根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型，所述第二分类模型用于对邮件进行分类。
[0010] 在另一实施例中，所述根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型，包括：
[0011] 按照预设权重，对所述目标邮件的特征向量进行调整，所述预设权重大于1;
[0012] 根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练，得到所述第二分类模型。
[0013] 在另一实施例中，所述方法还包括：
[0014] 根据所述多个样本邮件中每个样本邮件的至少一项特征集合，获取每个样本邮件的特征向量；
[0015] 根据样本邮件的历史分类记录，确定每个样本邮件对应的类别标识。
[0016] 在另一实施例中，所述根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型，包括：
[0017] 将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集；
[0018] 根据所述第一特征数据集进行训练，得到所述第二分类模型。
[0019] 在另一实施例中，所述根据所述第一特征数据集进行训练，得到所述第二分类模型，包括：
[0020] 对所述第一特征数据集进行降维，得到第二特征数据集；
[0021 ]对所述第二特征数据集进行归一化，得到第三特征数据集；
[0022]根据所述第三特征数据集进行训练，得到所述第二分类模型。
[0023] 在另一实施例中，所述对所述第一特征数据集进行降维，得到第二特征数据集，包括：
[0024] 确定所述第一特征数据集中的每个特征维度标识，每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应；
[0025] 对于每个特征维度标识，
[0026] 确定所述特征维度标识与每个类别标识之间的关联度；
[0027] 如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值，则从所述第一特征数据集中，删除所述特征维度标识对应的特征集合；
[0028] 将删除特征集合后的特征数据集确定为所述第二特征数据集。
[0029] 在另一实施例中，所述确定所述特征维度标识与每个类别标识之间的关联度，包括：
[0030] 基于当前训练得到的分类模型，对所述多个特征向量分别进行分类，得到多个增益类别标识；
[0031 ]删除所述多个特征向量中所述特征维度标识对应的特征，得到多个子向量，并基于当前训练得到的分类模型，对所述多个子向量分别进行分类，得到多个测试类别标识；
[0032] 根据所述多个增益类别标识与所述多个测试类别标识之间的差异，确定所述特征维度标识与每个类别标识之间的关联度。
[0033] 在另一实施例中，所述对所述第二特征数据集进行归一化，得到第三特征数据集，包括：
[0034] 应用以下公式，对所述第二特征数据集进行归一化，得到所述第三特征数据集：
[0036]其中，X为所述第二特征数据集中任一位置上的值，y为对X进行归一化后得到的值，MaxValue为X所在特征维度下多个特征的最大值，MinValue为X所在特征维度下多个特征的最小值。
[0037] 在另一实施例中，所述根据所述第一特征数据集进行训练，得到所述第二分类模型，包括：
[0038] 对初始分类模型的权重参数进行初始化；
[0039] 根据当前的分类模型的权重参数，对所述第一特征数据集中第一特征向量进行分类，得到估计类别标识；
[0040] 获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差；
[0041] 如果所述误差不小于预设阈值，则根据所述误差对所述权重参数进行调整，根据调整后的权重参数，对所述第一特征数据集中第二特征向量继续进行分类，直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时，基于当前的权重参数，生成所述第二分类模型。
[0042] 在另一实施例中，所述方法还包括：
[0043] 基于所述第一分类模型，对所述目标邮件进行分类。
[0044] 在另一实施例中，所述基于所述第一分类模型，对所述目标邮件进行分类，包括：
[0045] 根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量；
[0046] 根据所述特征向量和所述第一分类模型，确定所述目标邮件对应的类别标识。
[0047] 在另一实施例中，邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
[0048] 根据本公开实施例的第二方面，提供一种分类模型优化装置，包括装置包括：
[0049] 存储模块，用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中；
[0050] 确定模块，用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时，确定所述第二邮件文件夹对应的第二类别标识；
[0051 ]获取模块，用于根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量；
[0052]训练模块，用于根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型，所述第二分类模型用于对邮件进行分类。
[0053]在另一实施例中，所述训练模块还用于按照预设权重，对所述目标邮件的特征向量进行调整，所述预设权重大于1，根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练，得到所述第二分类模型。
[0054] 在另一实施例中，所述获取模块还用于根据所述多个样本邮件中每个样本邮件的至少一项特征集合，获取每个样本邮件的特征向量；
[0055] 所述确定模块还用于根据样本邮件的历史分类记录，确定每个样本邮件对应的类别标识。
[0056] 在另一实施例中，所述训练模块还用于将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集，根据所述第一特征数据集进行训练，得到所述第二分类模型。
[0057] 在另一实施例中，所述训练模块还用于对所述第一特征数据集进行降维，得到第二特征数据集，对所述第二特征数据集进行归一化，得到第三特征数据集，根据所述第三特征数据集进行训练，得到所述第二分类模型。
[0058] 在另一实施例中，所述训练模块还用于确定所述第一特征数据集中的每个特征维度标识，每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应，对于每个特征维度标识，确定所述特征维度标识与每个类别标识之间的关联度，如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值，则从所述第一特征数据集中，删除所述特征维度标识对应的特征集合，将删除特征集合后的特征数据集确定为所述第二特征数据集。
[0059] 在另一实施例中，所述训练模块还用于基于当前训练得到的分类模型，对所述多个特征向量分别进行分类，得到多个增益类别标识，删除所述多个特征向量中所述特征维度标识对应的特征，得到多个子向量，并基于当前训练得到的分类模型，对所述多个子向量分别进行分类，得到多个测试类别标识，根据所述多个增益类别标识与所述多个测试类别标识之间的差异，确定所述特征维度标识与每个类别标识之间的关联度。
[0060]在另一实施例中，所述训练模块还用于应用以下公式，对所述第二特征数据集进行归一化，得到所述第三特征数据集：
[0062]其中，X为所述第二特征数据集中任一位置上的值，y为对X进行归一化后得到的值，MaxValue为X所在特征维度下多个特征的最大值，MinValue为X所在特征维度下多个特征的最小值。
[0063]在另一实施例中，所述训练模块还用于对初始分类模型的权重参数进行初始化，根据当前的分类模型的权重参数，对所述第一特征数据集中第一特征向量进行分类，得到估计类别标识，获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差，如果所述误差不小于预设阈值，则根据所述误差对所述权重参数进行调整，根据调整后的权重参数，对所述第一特征数据集中第二特征向量继续进行分类，直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时，基于当前的权重参数，生成所述第二分类模型。
[0064]在另一实施例中，所述装置还包括：
[0065] 分类模块，用于基于所述第一分类模型，对所述目标邮件进行分类。
[0066] 在另一实施例中，所述分类模块还用于根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量，根据所述特征向量和所述第一分类模型，确定所述目标邮件对应的类别标识。
[0067] 在另一实施例中，邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
[0068] 根据本公开的第三方面，提供一种分类模型优化装置，所述装置包括：
[0069] 处理器；
[0070]用于存储处理器可执行的指令的存储器；
[0071]其中，所述处理器被配置为：
[0072] 根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中；

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪平仄;张涛;侯文迪;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。