垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法_6

文档序号:8383639阅读:来源:国知局
权利要求3所述的方法,其特征在于,所述方法还包括: 响应于所述k个初始模型的性能不满足预定条件,进行以下至少一项处理: 调整所述初始模型的参数; 对所述消息样本进行数据清洗;以及 优化或重新选择所述监督学习所采用的算法。
5. 根据权利要求4所述的方法,其特征在于,所述对所述消息样本进行数据清洗包括 以下至少一项: 对所述消息样本中标记不一致的相似消息进行重标记或过滤;以及 获取用户举报或撤销的消息,更新所述消息样本。
6. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 对所述垃圾消息模型进行优化,包括以下至少一项处理: 过滤所述垃圾消息模型中的介词和/或量词特征; 过滤所述垃圾消息模型中在所述消息样本中的出现频率低于预设频率阈值的特征;以 及 过滤所述垃圾消息模型中条件概率低于预设概率阈值的特征。
7. -种垃圾消息的识别方法,其特征在于,所述方法包括: 对待识别消息进行特征提取,得到所述待识别消息的特征向量; 对所述特征向量中的每一个特征,在垃圾消息模型中查找仅包含该特征的消息为垃圾 消息的条件概率,其中所述垃圾消息模型依据消息样本训练得到; 根据所述特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概 率,计算包含所述特征向量中所有特征的所述待识别消息为垃圾消息的联合概率;以及 响应于所述联合概率大于垃圾消息概率阈值,确定所述待识别消息为垃圾消息。
8. 根据权利要求7所述的方法,所述计算包含所述特征向量中所有特征的所述待识别 消息为垃圾消息的联合概率,包括: 计算所述特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概 率的乘积作为第一因子; 计算所述特征向量中每一个特征所对应的仅包含该特征的消息为正常消息的条件概 率的乘积作为第二因子; 将所述第一因子与第二因子进行求和运算得到第三因子;以及 将所述第一因子与第三因子进行比值运算得到包含所述特征向量中所有特征的所述 待识别消息为垃圾消息的联合概率。
9. 根据权利要求7所述的方法,其特征在于,所述方法还包括确定所述垃圾消息概率 阈值,包括: 依据所述垃圾消息模型,计算消息测试集中各消息为垃圾消息的概率; 对所述消息测试集中各消息为垃圾消息的概率进行分箱处理; 设置概率最小的箱体的概率值为初始正常消息阈值,概率最大的箱体的概率值为初始 垃圾消息阈值,设置介于初始正常消息阈值与初始垃圾消息阈值之间的概率值为不确定消 息阈值; 依次将正常消息阈值向后面的箱体移动,垃圾消息阈值向前面的箱体移动,直到二者 相等; 统计每一次移动后所述消息测试集中误拦、漏拦以及不确定消息的数量,计算代价函 数;以及 确定最小代价函数所对应的垃圾消息阈值为所述垃圾消息概率阈值。
10. 根据权利要求9所述的方法,其特征在于,所述方法还包括: 更新所述消息测试集,包括加入部分用户举报的消息和/或用户撤销的消息。
11. 根据权利要求7-10之一所述的方法,其特征在于,在所述对待识别的消息进行特 征提取之前,所述方法还包括: 判断所述待识别消息的发送方或所述待识别消息中的关键词是否在设定的黑名单或 白名单中; 当所述待识别消息的发送方或所述待识别消息中的关键词在设定的黑名单中时,确定 所述待识别消息为垃圾消息;以及 当所述待识别消息的发送方或者所述待识别消息中的关键词在设定的白名单中时,确 定所述待识别消息为正常消息;并且 所述对待识别消息进行特征提取包括: 响应于所述待识别消息的发送方或者所述待识别消息中的关键词既不在黑名单也不 在设定的白名单中,执行所述特征提取。
12. 根据权利要求7所述的方法,其中,所述垃圾消息模型根据权利要求1-6任一所述 的方法进行训练。
13. -种垃圾消息模型的训练装置,其特征在于,所述装置包括: 获取单元,配置用于获取消息样本,其中所述消息样本包括正常消息样本和垃圾消息 样本; 特征提取单元,配置用于对所述消息样本进行特征提取,得到所述消息样本的特征向 量;以及 训练单元,配置用于采用监督学习方式对所述消息样本进行全量训练,得到垃圾消息 模型,其中所述垃圾消息模型包括所述特征向量中各特征所对应的仅包含该特征的消息为 垃圾消息的条件概率。
14. 根据权利要求13所述的装置,其特征在于,所述训练单元包括: 频率统计单元,配置用于统计所述特征向量中各特征在所述正常消息样本及所述垃圾 消息样本中出现的频率;以及 条件概率计算单元,配置用于对所述特征向量中的每一个特征,根据该特征在所述正 常消息样本及所述垃圾消息样本中出现的频率,计算仅包含该特征的消息为垃圾消息的条 件概率。
15. 根据权利要求13所述的装置,其特征在于,所述装置还包括: 交叉验证单元,配置用于对所述消息样本进行k折交叉验证处理,按照所述监督学习 方式得到k个初始模型及对应的性能,以及确定所述k个初始模型的性能是否满足预定条 件;并且 所述训练单元包括:全量训练单元,配置用于响应于所述k个初始模型的性能满足预 定条件,对所述消息样本进行全量训练; 其中k为正整数。
16. 根据权利要求15所述的装置,其特征在于,所述装置还包括调整单元,配置用于响 应于所述k个初始模型的性能不满足预定条件,进行以下至少一项处理: 调整所述初始模型的参数; 对所述消息样本进行数据清洗;以及 优化或重新选择所述监督学习所采用的算法。
17. 根据权利要求16所述的装置,其特征在于,所述调整单元配置用于按以下至少一 个方式对所述消息样本进行数据清洗: 对所述消息样本中标记不一致的相似消息进行重标记或过滤;以及 获取用户举报或撤销的消息,更新所述消息样本。
18. 根据权利要求13所述的装置,其特征在于,所述装置还包括: 优化单元,配置用于按以下至少一种方式对所述垃圾消息模型进行优化: 过滤所述垃圾消息模型中的介词和/或量词特征; 过滤所述垃圾消息模型中在所述消息样本中的出现频率低于预设频率阈值的特征;以 及 过滤所述垃圾消息模型中条件概率低于预设概率阈值的特征。
19. 一种垃圾消息的识别装置,其特征在于,所述装置包括: 特征提取单元,配置用于对待识别消息进行特征提取,得到所述待识别消息的特征向 量; 查找单元,配置用于对所述特征向量中的每一个特征,在垃圾消息模型中查找仅包含 该特征的消息为垃圾消息的条件概率,其中所述垃圾消息模型依据消息样本训练得到; 计算单元,配置用于根据所述特征向量中每一个特征所对应的仅包含该特征的消息为 垃圾消息的条件概率,计算包含所述特征向量中所有特征的所述待识别消息为垃圾消息的 联合概率;以及 确定单元,配置用于响应于所述联合概率大于垃圾消息概率阈值,确定所述待识别消 息为垃圾消息。
20. 根据权利要求19所述的装置,所述计算单元配置用于按如下方式计算所述联合概 率: 计算所述特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概 率的乘积作为第一因子; 计算所述特征向量中每一个特征所对应的仅包含该特征的消息为正常消息的条件概 率的乘积作为第二因子; 将所述第一因子与第二因子进行求和运算得到第三因子;以及 将所述第一因子与第三因子进行比值运算得到包含所述特征向量中所有特征的所述 待识别消息为垃圾消息的联合概率。
21. 根据权利要求19所述的装置,其特征在于,所述装置还包括垃圾消息概率阈值确 定单元,其配置用于按如下方式确定所述垃圾消息概率阈值: 依据所述垃圾消息模型,计算消息测试集中各消息为垃圾消息的概率; 对所述消息测试集中各消息为垃圾消息的概率进行分箱处理; 设置概率最小的箱体的概率值为初始正常消息阈值,概率最大的箱体的概率值为初始 垃圾消息阈值,设置介于初始正常消息阈值与初始垃圾消息阈值之间的概率值为不确定消 息阈值; 依次将正常消息阈值向后面的箱体移动,垃圾消息阈值向前面的箱体移动,直到二者 相等; 统计每一次移动后所述消息测试集中误拦、漏拦以及不确定消息的数量,计算代价函 数; 确定最小代价函数所对应的垃圾消息阈值为所述垃圾消息概率阈值。
22. 根据权利要求19所述的装置,其特征在于,所述装置还包括: 更新单元,配置用于更新所述消息测试集,包括加入部分用户举报的消息和/或用户 撤销的消息。
23. 根据权利要求19-22之一所述的装置,其特征在于,所述装置还包括: 黑白名单匹配单元,配置用于判断所述待识别消息的发送方或所述待识别消息中的关 键词是否在设定的黑名单或白名单中;并且 所述确定单元还配置用于响应于所述待识别消息的发送方或所述待识别消息中的关 键词在设定的黑名单中时,确定所述待识别消息为垃圾消息,以及响应于所述待识别消息 的发送方或者所述待识别消息中的关键词在设定的白名单中时,确定所述待识别消息为正 常消息;以及 所述特征提取单元配置用于响应于所述待识别消息的发送方或者所述待识别消息中 的关键词既不在黑名单也不在设定的白名单中,执行所述特征提取。
24.根据权利要求19所述的装置,其中,所述垃圾消息模型由权利要求13-18任一所述 的装置训练得到。
【专利摘要】本申请公开了垃圾消息模型的训练方法、垃圾消息的识别方法以及相应的装置。垃圾消息模型的训练方法包括:获取消息样本;对消息样本进行特征提取,得到消息样本的特征向量;以及采用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。按照本申请实施方式的技术方案,能够从大量的消息样本中发现隐含但事实存在的垃圾消息模式,这使得训练得到的垃圾消息模型具备对消息进行精确识别的能力。本申请实施方式的垃圾消息识别方法可以精确区分包含同一个特征的不同消息为垃圾消息还是正常消息,提高了识别的准确率。
【IPC分类】G06F17-30, H04L12-58
【公开号】CN104702492
【申请号】CN201510122618
【发明人】王巍巍, 罗雪峰
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年6月10日
【申请日】2015年3月19日
...
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1