分类模型优化方法及装置的制造方法_5

文档序号：9787502阅读：来源：国知局

2还可以由以下步骤2073-2075代替：
[0221] 2073、对该第一特征数据集进行降维，得到第二特征数据集。
[0222] 其中，邮件处理装置可以先确定该第一特征数据集中的每个特征维度标识，每个特征维度标识与该第一特征数据集中的多个特征向量相应位置上的特征对应，对于每个特征维度标识，确定该特征维度标识与每个类别标识之间的关联度，如果确定该特征维度标识与每个类别标识之间的关联度均小于预设阈值，则从该第一特征数据集中，删除该特征维度标识对应的特征集合，将删除特征集合后的特征数据集确定为该第二特征数据集。
[0223] 在确定该特征维度标识与每个类别标识之间的关联度时，该邮件处理装置可以基于当前训练得到的分类模型，对该多个特征向量分别进行分类，得到多个增益类别标识，删除该多个特征向量中该特征维度标识对应的特征，得到多个子向量，并基于当前训练得到的分类模型，对该多个子向量分别进行分类，得到多个测试类别标识，根据该多个增益类别标识与该多个测试类别标识之间的差异，确定该特征维度标识与每个类别标识之间的关联度。
[0224] 2074、对该第二特征数据集进行归一化，得到第三特征数据集。
[0225]其中，进行归一化处理时，该邮件处理装置可应用以下公式，对该第二特征数据集进行归一化，得到该第三特征数据集：
[0227]其中，X为该第二特征数据集中任一位置上的值，y为对X进行归一化后得到的值， MaxValue为X所在特征维度下多个特征的最大值，MinValue为X所在特征维度下多个特征的最小值。
[0228] 2075、根据该第三特征数据集进行训练，得到该第二分类模型。
[0229]需要说明的是，步骤207中训练第二分类模型的过程与步骤203中训练第一分类模型的过程类似，区别仅在于步骤207中在用户移动目标邮件时，将目标邮件也作为一个样本应用到第二分类模型的训练过程中，从而保证训练出的第二分类模型能够更好地体现用户的分类习惯。
[0230]另外，如果该邮件处理装置在每次用户移动邮件时均重新训练分类模型，会导致计算量过大，尤其是，如果用户在短时间内频繁地移动同一个邮件，该邮件处理装置重新训练出的多个分类模型不能准确体现用户的分类习惯，浪费了计算资源。
[0231] 则为了减小计算量，节省计算资源，该邮件处理装置可以在检测到用户移动邮件的操作时，不立即进行训练，而是先生成移动操作记录，在经过预设时长后根据该移动操作记录中对该邮件的最后一次移动操作，确定该邮件当前所在的文件夹，根据当前所在的文件夹的类别标识进行训练。那么，如果在该预设时长内用户多次地移动了该邮件，该邮件处理装置仅需根据该邮件最终的移动位置训练出一个分类模型，而无需训练多个分类模型。
[0232] 本实施例中，如果邮件处理装置将目标邮件分类至第一邮件文件夹后，用户又将目标邮件移动至第二邮件文件夹，说明对目标邮件的分类不符合用户的分类习惯，则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及多个样本邮件的特征向量和对应的类别标识再次进行训练，进一步学习用户的分类习惯，提高了邮件分类的准确率，达到了准确分类邮件的效果。
[0233] 本实施例提供的方法，通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中，当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时，确定该第二邮件文件夹对应的第二类别标识，根据该目标邮件的至少一项特征集合，获取该目标邮件的特征向量，根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型。通过在用户移动目标邮件时，根据目标邮件对应的第二类别标识生成第二分类模型，进一步学习用户的分类习惯，提高了分类邮件的准确率，提高了用户管理邮件的效率，达到了准确分类邮件的效果。
[0234] 下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。
[0235] 图3是根据一示例性实施例示出的一种分类模型优化装置框图，如图3所示，所述分类模型训练装置包括:存储模块301、确定模块302、获取模块303和训练模块304。
[0236] 所述存储模块301，被配置为用于根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将所述目标邮件存储于所述第一类别标识对应的第一邮件文件夹中；
[0237] 所述确定模块302,被配置为用于当检测到将所述目标邮件从所述第一邮件文件夹移动至第二邮件文件夹的操作时，确定所述第二邮件文件夹对应的第二类别标识；
[0238] 所述获取模块303,被配置为用于根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量；
[0239] 所述训练模块304,被配置为用于根据所述目标邮件的特征向量和所述第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型，所述第二分类模型用于对邮件进行分类。
[0240] 本实施例中，如果邮件处理装置将目标邮件分类至第一邮件文件夹后，用户又将目标邮件移动至第二邮件文件夹，说明对目标邮件的分类不符合用户的分类习惯，则根据该目标邮件的特征向量和第二邮件文件夹对应的第二类别标识以及多个样本邮件的特征向量和对应的类别标识再次进行训练，进一步学习用户的分类习惯，提高了邮件分类的准确率，达到了准确分类邮件的效果。
[0241] 本实施例提供的装置，通过根据基于第一分类模型对目标邮件进行分类时确定的第一类别标识，将该目标邮件存储于该第一类别标识对应的第一邮件文件夹中，当检测到将该目标邮件从第一邮件文件夹移动至第二邮件文件夹的操作时，确定该第二邮件文件夹对应的第二类别标识，根据该目标邮件的至少一项特征集合，获取该目标邮件的特征向量，根据该目标邮件的特征向量和第二类别标识以及多个样本邮件的特征向量和对应的类别标识进行训练，得到第二分类模型。通过在用户移动目标邮件时，根据目标邮件对应的第二类别标识生成第二分类模型，进一步学习用户的分类习惯，提高了分类邮件的准确率，提高了用户管理邮件的效率，达到了准确分类邮件的效果。
[0242] 在另一实施例中，所述训练模块304还被配置为用于按照预设权重，对所述目标邮件的特征向量进行调整，所述预设权重大于1，根据调整后的特征向量、所述第二类别标识、所述多个样本邮件的特征向量和对应的类别标识进行训练，得到所述第二分类模型。
[0243] 在另一实施例中，所述获取模块303还被配置为用于根据所述多个样本邮件中每个样本邮件的至少一项特征集合，获取每个样本邮件的特征向量；
[0244] 所述确定模块302还被配置为用于根据样本邮件的历史分类记录，确定每个样本邮件对应的类别标识。
[0245] 在另一实施例中，所述训练模块304还被配置为用于将所述目标邮件的特征向量和所述第二类别标识、所述多个样本邮件的特征向量以及对应的类别标识组合成第一特征数据集，根据所述第一特征数据集进行训练，得到所述第二分类模型。
[0246] 在另一实施例中，所述训练模块304还被配置为用于对所述第一特征数据集进行降维，得到第二特征数据集，对所述第二特征数据集进行归一化，得到第三特征数据集，根据所述第三特征数据集进行训练，得到所述第二分类模型。
[0247] 在另一实施例中，所述训练模块304还被配置为用于确定所述第一特征数据集中的每个特征维度标识，每个特征维度标识与所述第一特征数据集中的多个特征向量相应位置上的特征对应，对于每个特征维度标识，确定所述特征维度标识与每个类别标识之间的关联度，如果确定所述特征维度标识与每个类别标识之间的关联度均小于预设阈值，则从所述第一特征数据集中，删除所述特征维度标识对应的特征集合，将删除特征集合后的特征数据集确定为所述第二特征数据集。
[0248] 在另一实施例中，所述训练模块304还被配置为用于基于当前训练得到的分类模型，对所述多个特征向量分别进行分类，得到多个增益类别标识，删除所述多个特征向量中所述特征维度标识对应的特征，得到多个子向量，并基于当前训练得到的分类模型，对所述多个子向量分别进行分类，得到多个测试类别标识，根据所述多个增益类别标识与所述多个测试类别标识之间的差异，确定所述特征维度标识与每个类别标识之间的关联度。
[0249] 在另一实施例中，所述训练模块304还被配置为用于应用以下公式，对所述第二特征数据集进行归一化，得到所述第三特征数据集：
[0251] 其中，X为所述第二特征数据集中任一位置上的值，y为对X进行归一化后得到的值，MaxValue为X所在特征维度下多个特征的最大值，MinValue为X所在特征维度下多个特征的最小值。
[0252] 在另一实施例中，所述训练模块304还被配置为用于对初始分类模型的权重参数进行初始化，根据当前的分类模型的权重参数，对所述第一特征数据集中第一特征向量进行分类，得到估计类别标识，获取所述估计类别标识与所述第一特征向量对应的类别标识之间的误差，如果所述误差不小于预设阈值，则根据所述误差对所述权重参数进行调整，根据调整后的权重参数，对所述第一特征数据集中第二特征向量继续进行分类，直至当前获取到的估计类别标识与当前特征向量对应的类别标识之间的误差小于所述预设阈值时，基于当前的权重参数，生成所述第二分类模型。
[0253] 参见图4,在另一实施例中，所述装置还包括:分类模块305。
[0254] 所述分类模块305,被配置为用于基于所述第一分类模型，对所述目标邮件进行分类。
[0255] 在另一实施例中，所述分类模块305还被配置为用于根据所述目标邮件的至少一项特征集合，获取所述目标邮件的特征向量，根据所述特征向量和所述第一分类模型，确定所述目标邮件对应的类别标识。
[0256] 在另一实施例中，邮件的特征集合包括:预设规则特征集合、发件用户特征集合、收件用户特征集合、标题特征集合中的至少一项。
[0257] 上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再 --赘述。
[0258] 图5是根据另一示例性实施例示出的一种分类模型优化装置的框图。例如，装置 500可以被提供为一服务器。参照图5,装置500包括处理组件502,其进一步包括一个或多个处理器，以及由存储器504所代表的存储器资源，用于存储可由处理组件502的执行的指令，例如应用程序。存储器504中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件502被配置为执行指令，以执行上述分类模型优化方法。
[0259] 装置500还可以包括一个电源组件506被配置为执行装置500的电源管理，一个有线或无线网络接口 508被配置为将装置500连接到网络，和一个输入输出（I/O)接口 510。装置500可以操作基于存储在存储器504的操作系统，例如Windows Server?，Mac OS X?， Unix?，Linux?，FreeBSD? 或类似。
[0260] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6