垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法_3

文档序号:8383639阅读:来源:国知局
W为评价模型效果的参数,其可W包括准确率和召回率。准 确率反映的是识准率,其可W表示为被准确识别的垃圾消息数量占测试集中全部被识别的 垃圾消息数量的比重,也即所有识别出来的垃圾消息中准确识别的垃圾消息所占的比重。 召回率反映的是识全率,其可W表示为被准确识别的垃圾消息数量占测试集中全部垃圾消 息总数量的比重。当然,除了准确率和召回率外,也可W采用其他参数来衡量模型的效果。 在一些实现中,可W计算k个初始模型的准确率和召回率的平均值、均方误差等作为k个初 始模型的性能。在一些实现中,还可W使用漏检率和误检率,其中漏检率反映的是出错率, 其可W表示为被错误识别为垃圾消息的正常消息占测试集中全部垃圾消息总数量的比重; 误检率反映的是虚报率,其可W表示为被识别成垃圾消息的正常消息数量占测试集中全部 被识别的垃圾消息数量的比重。
[0074] 在一些实施例中,上述对消息样本进行k折交叉验证处理可W如下进行;首先对 消息样本进行乱序,然后将消息样本分成等比例的k份子样本,之后选取其中的k-1份子样 本作为训练集,采用预设的监督学习方法训练出一个初始模型,接着运用该初始模型对剩 下的1份子样本进行垃圾消息识别,将识别结果与消息本身的垃圾消息标记进行对比,统 计识别结果与标记一致及不一致的数量,之后依据统计结果求出该初始模型的性能参数, 例如准确率和召回率。依次计算k个初始模型W及性能参数,可W将该k个初始模型的性 能参数的平均值作为该k个初始模型的性能度量。
[0075] 接着,在步骤404中,确定k个初始模型的性能是否满足预定条件。
[0076] 在本实施例中,预定条件可W为性能参数的阔值条件,例如可W设置准确率和召 回率的平均值的阔值,例如设置为某一固定数值,当准确率和召回率的平均值超过该阔值 时,可W确定k个初始模型的性能满足预定条件,此时,可W认为训练的初始模型达到了预 设效果,否则认为该k个初始模型不满足预定条件。
[0077] 然后,在步骤405中,响应于k个初始模型的性能满足预定条件,对消息样本进行 全量训练,得到垃圾消息模型。
[007引如果k个初始模型的性能满足预定条件,则说明训练能够达到预定的效果,此时 可W对消息样本进行全量训练,计算特征向量中各特征所对应的仅包含该特征的消息为垃 圾消息的条件概率,得到垃圾消息模型。
[0079] 在步骤406中,响应于k个初始模型的性能不满足预定条件,可W进行一些调整, 例如调整初始模型参数、消息样本和/或监督学习算法。
[0080] 如果k个初始模型的性能不满足预定条件,也就意味着该次训练的模型不适合推 广到新的数据上,则可W优化影响初始模型的性能的参数、数据或方法,直到初始模型的性 能满足预设条件为止。可w从数据和算法两个方面进行优化。具体来说,可w进行w下至 少一项处理;调整初始模型的参数;对消息样本进行数据清洗;W及优化或重新选择监督 学习所采用的分类算法。
[0081] 取决于不同的分类算法,所产生的初始模型可W有不同的参数。通过适当地调整 初始模型的参数,可W调整模型的性能。数据清洗可W将质量较差的数据过滤,用W提高模 型的质量。例如,查找消息样本中是不是有大量的标记错误,比如将正常消息标记为垃圾 消息。在一些实现中,数据清洗可W包括对消息样本中标记不一致的相似消息进行重标记 或过滤。进一步地,可W对所有的训练数据求相似度,如果相似的消息的垃圾消息标记不一 致,那么就可W过滤掉比例较小的那部分消息。例如,有相似的10条消息,其中7条标记为 正常消息,3条标记为垃圾消息,那么就可W认为该些消息属于正常消息,把标记为垃圾消 息的过滤掉。该样可W避免类似的消息,一部分被标记为正常消息,而另一部分被标记为垃 圾消息的情况,影响初始模型的性能。在另一些实现中,数据清洗可W包括获取用户举报或 撤销的消息,更新消息样本。例如可W定期收集用户举报的垃圾消息W及用户撤销的被误 拦的正常消息,对消息样本中的数据进行更新,W使消息样本更加可靠。
[0082] 另外,还可W通过人工维护数据库来过滤数据,该些数据库里的数据都经过人工 审查,在消息样本中,如果与人工审查过的消息类似但是垃圾消息标记不一致,也可W从消 息样本中将其过滤掉。
[0083] 在一些实施例中,上述垃圾消息模型的训练方法还可W包括步骤407,对垃圾消息 模型进行优化。优化可W包括W下至少一项处理:过滤垃圾消息模型中的介词和/或量词 特征;过滤垃圾消息模型中在消息样本中的出现频率低于预设频率阔值的特征;W及过滤 垃圾消息模型中条件概率低于预设概率阔值的特征。
[0084] 一般情况下,介词和量词特征在消息中不具有实际的含义,将该些特征从特征向 量中剔除,可W简化模型,加快垃圾消息模型的训练。
[0085] 在实际中,有些特征在日常的消息中很少出现,可W将此类特征进行过滤。具体 地,可W设置预设频率阔值,如果在消息样本中某个特征出现的频率小于预设频率阔值,贝U 可W对该特征进行过滤。从而减少特征向量中特征的数量,降低特征向量的维度,进一步提 升训练的速度和精度。
[0086] 另外,还可W过滤掉没有到达预设条件概率阔值的特征W实现对模型进行简化的 目的。例如,如果设置预设条件概率阔值为0. 85,模型中包含特征"房产快讯"的消息为垃 圾消息的条件概率为0. 99998516,大于预设条件概率阔值,则可W保留该"房产快讯"特征; 而模型中包含特征"天气"的消息为垃圾消息的条件概率为0. 79986998,小于预设条件概率 阔值,则可W过滤该"天气"特征。
[0087] 可选地或附加地,还可W根据不同的需求对垃圾消息模型做其他的优化,比如应 用在终端设备中的垃圾消息训练模型需要足够精简,对于识别率和错误率没有太高的要 求,所W可W设置较高的条件概率阔值,使得保留的特征数量较少;又如,应用在服务器中 的垃圾消息训练模型对识别率和错误率有较高的要求,所W可W设置较高的条件概率阔 值,使得保留的特征数量较多。
[008引按照上面结合图4描述的诸多实施例,可W获得如下优点:
[0089]首先,在训练垃圾消息模型之前,采用k折交叉验证处理对消息样本进行k轮循环 训练及验证,能够保证模型的准确率和召回率,使得最终训练得到的垃圾消息模型具有更 局的识别率。
[0090] 其次,对k折交叉验证处理的初始模型的性能效果进行判断,只有在初始模型的 性能达到预置条件时,才进行全量训练得出垃圾消息模型,否则调整初始模型的参数,和/ 或,对所述消息样本进行数据清洗,从数据和算法两个方面进行优化,W提高消息样本和训 练算法的质量,进而可W保证训练出高质量的垃圾消息模型。
[0091] 再次,垃圾消息模型可W根据不同的需求做不同的优化和裁剪,使得垃圾消息模 型可W应用在不同需求的场合。例如,在识别率和错误率要求不是太高的情况下,可W对模 型裁剪的足够精简;而在识别率和错误率要求比较高的情况下,则可W对模型进行较少的 裁剪,提高了模型的灵活性。
[0092] 垃圾消息的识别
[0093] 请参考图5,其示出了根据本申请一个实施例的垃圾消息的识别方法的示例性流 程图。
[0094] 如图5所示,在步骤501中,对待识别消息进行特征提取,得到待识别消息的特征 向量。
[0095] 在本实施例中,待识别的消息可W是终端设备上接收到的消息,也可W是即时 通信工具中收到的网络消息,还可W是服务器中消息队列发过来的信息文字或图片消 息。如果待识别消息是图片消息,可W通过OCR(光学字符识别,化tical化aracter Recognition)技术识别成文本内容之后再执行后面的步骤。
[0096] 对待识别的消息可W按照本申请上述实施例提供的垃圾消息模型训练方法中同 样的方式进行特征提取,得到待识别消息的特征向量。例如,提取的特征可W包括消息发送 方特征(例如发件人号码)、关键词特征,W及一些抽象特征,比如是否包含网址,是否包含 号码,是否包含银行卡号等。其中关键词特征可W通过文本切词的方式获取。
[0097] 接着,在步骤502中,对特征向量中的每一个特征,在垃圾消息模型中查找仅包含 该特征的消息为垃圾消息的条件概率。
[009引在本实施例中,垃圾消息模型为依据消息样本训练得到的模型,可W为依据本申 请上述实施例中提供的垃圾消息模型训练方法训练得到的模型。该垃圾消息模型中包括消 息样本的各特征W及各特征所对应的消息中仅包含该特征时为垃圾消息的条件概率。因 此,对于待识别的消息对应的特征向量,可W直接在垃圾消息模型中查找该特征向量中各 特征所对应的消息中仅包含该特征时为垃圾消息的条件概率。
[0099] 之后,在步骤503中,根据特征向量中每一个特征所对应的仅包含该特征的消息 为垃圾消息的条件概率,计算包含特征向量中所有特征的待识别消息为垃圾消息的联合概 率。
[0100] 在查找到每个特征所对应的仅包含该特征的消息为垃圾消息的条件概率之后,可 W计算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率。具体地,如果已知 包含一个特征wi的消息为垃圾消息的条件概率P(SIwi),则可W计算得出包含一个特征wi 的消息为正常消息的条件概率P化Iwi),其中S代表垃圾消息,h代表正常消息,wi代表第i 个特征。消息中包含特征向量中所有特征时为垃圾消息的联合概率P(s|w)可W根据下式 (2)计算:
[0101]
[0102] 需要说明的是,上述公式(2)是基于数据平衡化的假设得到的。
[0103] 结合本实施例,在一些实现中,计算包含特征向量中所有特征的待识别消息为垃 圾消息的联合概率,可W包括;计算特征向量中每一个特征所对应的仅包含该特征的消息 为垃圾消息的条件概率的乘积作为第一因子;计算特征向量中每一个特征所对应的仅包含 该特征的消息为正常消息的条件概率的乘积作为第二因子;将第一因子与第二因子进行求 和运算得到第=因子;将第一因子与第=因子进行比值运算得到包含特征向量中所有特征 的待识别消息为垃圾消息的联合概率。
[0104] 之后,在步骤504中,响应于联合概率大于垃圾消息概率阔值,确定待识别消息为
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1