垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法_2

文档序号:8383639阅读:来源:国知局
社交应用验证码消息被分类为验证码消息,然后根据是否被标记为垃圾消息对被分类 为验证码消息的所有消息进行投票统计,统计结果为验证码消息中未被标记为垃圾消息的 消息数据所占比例较大,则可W从垃圾消息样本中剔除被举报的社交应用验证码消息,或 者也可W将被举报的社交应用验证码消息加入正常消息样本中,从而过滤掉被恶意举报的 消息,保证垃圾消息模型的效果W及垃圾消息识别的准确性。
[0040] 针对消息中包含乱码的情况,上述过滤乱码的预处理操作具体可W包括将包含该 乱码的消息从消息样本中剔除、W及根据消息的上下文将乱码进行还原。对消息发送方的 联系方式进行预处理可W包括去掉前缀(例如去掉+86、86、086、0086等前缀),^及过滤非 数字字符等。该样一方面可W避免同一个号码提取出不同特征,降低特征数量,提升垃圾消 息训练的速度,另一方面可W避免该特征由于数据过少而被过滤,提高垃圾消息识别的召 回率。
[0041] 接着,在步骤202中,对消息样本进行特征提取,得到消息样本的特征向量。
[0042] 消息样本的要素至少包括消息发送方和消息内容。消息发送方一般可W包括多位 数字字符,消息内容一般可W包括文字、图片、视频等信息。在一些实施例中,可W采用文本 特征提取方法对消息样本进行特征提取。消息样本中包含多种特征,例如消息发送方特征、 关键词特征、消息长度特征W及一些抽象特征等。
[0043] 进一步的,消息发送方特征可W包括数字字符长度特征、数字字符组合特征、W及 根据消息内容进行切词后获得的特征。例如当垃圾消息样本集中的一条广告推送消息内容 包含商家名称时,可通过文本切词获得该商家名称,作为该条消息的消息发送方特征之一。
[0044] 关键词特征可W通过关键词提取来获取。例如,可W首先通过文本切词来获取消 息内容中的单字、词组和短语,然后滤除该些单字、词组和短语中的介词、副词、连词、助词 等,得到具有实际意义的关键词。进一步的,还可W将剩余的单字、词组和短语与已有关键 词进行词义相似度匹配,若能匹配,则可W将匹配的关键词作为该单字、词组或短语的关键 词特征。
[0045] 抽象特征具体可W包括但不限于;是否包含网址、是否包含号码、是否包含银行卡 号、是否包含金额数值等。
[0046] 在本实施例中,可W采用多种特征提取方法提取消息样本中的多个特征。例如采 用简单的统计方法来计算消息长度特征,采用预定英文字符(如.com、,cn等)检测来提取 是否包含网址特征,采用数字字符长度检测来提取是否包含银行卡号或号码特征等等。本 申请在此方面没有限制。
[0047] 接着,在步骤203中,采用监督学习方式对消息样本进行全量训练,得到垃圾消息 模型。
[0048] 监督学习是一种机器学习方法,利用一组已知类别的样本调整分类器的参数,使 其达到所要求性能的过程,也称为监督训练。
[0049] 在本实施例中,可W基于消息样本中标记的消息是否被标记为垃圾消息,采用监 督学习方法对消息样本进行全量训练。监督学习的方式可W根据实际应用进行选择,包括 但不限于朴素贝叶斯、决策树、支持向量机等分类方法。依据选择的分类方法对消息样本中 的所有消息数据进行全量训练,得到垃圾消息模型。
[0050] 垃圾消息模型中可W包括步骤202所得到的特征向量中各特征所对应的仅包含 该特征的消息为垃圾消息的条件概率。目P,对于特征向量中每一个特征,可W计算消息中只 包含该特征时,消息为垃圾消息的条件概率。其中,条件概率可W表示事件A在另外一个事 件B已经发生条件下的发生概率,表示为P(AIB),即"在B条件下A发生的概率"。
[0化1] 根据本申请上述实施例提供的方法,采用监督学习的方式对消息样本训练获得垃 圾消息模型,该垃圾消息模型中包括特征向量中各特征所对应的仅包含该特征的消息为垃 圾消息的条件概率。因此,现对于现有方案,本申请的实施例具有如下优点:
[0化2] 首先,现有关键词黑名单和正则表达式的方法一般都是根据经验设定或者从已经 标记为垃圾消息的消息中提取,具有一定的随意性,无法识别不在关键词范围内的垃圾消 息,识别率也难W保证;而本发明实施例的上述监督学习的方式能够从海量的消息样本中 发现隐含的但事实存在的模式,该使得训练得到的垃圾消息模型具备对消息进行精确识别 的能力,可W对不在关键词范围内的垃圾消息进行识别。并且,并且,随着学习的不断进行, 上述垃圾消息模型的准确率和召回率会越来越高。
[0化3] 其次,现有的关键词黑名单和正则匹配的方法实时性差,需要根据消息内容编写 正则模板或者提取关键词,很难发现新出现的垃圾消息类型;而本发明实施例能够根据持 续收集的消息样本持续更新垃圾消息模型,能及时发现新出现的垃圾消息类型。
[0054] 再者,现有黑名单和正则匹配的方法均采用非黑即白的方式,该样带来的误判是 一定存在的,比如将"赌博"设置成黑名单关键词,就会把政府部口发送的禁止赌博的消息 也分类成垃圾消息;而本发明实施例得到的垃圾消息模型中包括各特征单独存在时消息为 垃圾消息的条件概率,也即,通过概率来描述每个特征与所属消息是否为垃圾消息之间的 关系,因此所述垃圾消息模型具备精确区分包含同一个关键词的垃圾消息和正常消息的能 力。
[0055] 进一步参考图3,其示出了根据本申请一个实施例的全量训练方法的示例性流程 图,也即示出了上述步骤203的一种实现方式的流程图。
[0化6]如图3所示,在步骤301中,统计特征向量中各特征在正常消息样本及垃圾消息样 本中出现的频率。
[0057]在本实施例中,可W分别统计特征向量中各特征在正常消息样本和垃圾消息样本 中出现的数量,与消息样本中消息总数量作比值运算获得各特征在正常消息样本及垃圾消 息样本中出现的频率。
[0化引接着,在步骤302中,对特征向量中的每一个特征,根据该特征在正常消息样本及 垃圾消息样本中出现的频率,计算仅包含该特征的消息为垃圾消息的条件概率。
[0化9] 具体地,如果W事件A表示消息中只包含某一特征,事件B表示该消息为垃圾消 息,则该特征所对应的仅包含该特征的消息为垃圾消息的条件概率可w表示为:包含该特 征的垃圾消息总数/包含该特征的消息样本总数,假设包含某特征的垃圾消息样本和包含 该特征的正常消息样本的出现频率分别Pi和P2,则仅包含该特征的消息为垃圾消息的条件 概率P3的计算公式可W为:
[0060] A=A (1) Pi
[0061] 在具体应用中,由于消息样本的规模有限并且类型不同,许多合理的特征关系在 消息样本中不一定出现,因此可能会造成模型出现零概率问题。然而,对于未出现的事件 (即未提取到的特征),如果认为其概率为零,则可能会影响到垃圾消息识别的精度。因此, 在一些实现中,为了避免零概率问题,还可W对上述公式(1)得到的结果做一些平滑处理。 例如,可W从概率的总量中为未出现的事件分配一个很小的比例。该样,出现的事件的概率 总和应当小于1。该时,可W将所有出现的事件概率调小一点。该样就给未出现的事件赋予 了一个很小的非零值概率,从而解决了零概率的问题。可W采取多种平滑处理方法,包括但 不限于黑盒方法和白盒方法等,本申请在此方面没有限制。
[0062] 在计算出各特征所对应的仅包含该特征的消息为垃圾消息的条件概率后,最终输 出的垃圾消息模型具体可W包括特征W及包含该特征的消息为垃圾消息的条件概率。例 如,包含特征"房产快讯"的消息为垃圾消息的条件概率为0. 99998516,包含特征"赚钱稳" 的消息为垃圾消息的条件概率为0. 9999828,包含特征"075728839999"的消息为垃圾消息 的条件概率为0. 9999808等等。
[0063] 在上述实施例中,可W依据特征在正常消息和垃圾消息中出现的频率统计数据来 获取特征向量中每个特征所对应的消息中仅包含该特征时为垃圾消息的条件概率,从而得 出垃圾消息模型。该模型通过概率来描述每个特征与包含该特征的消息是否为垃圾消息之 间的关系,可W精确地区分包含同一个关键词的垃圾消息和正常消息。
[0064] 进一步参考图4,其示出了根据本申请另一个实施例的垃圾消息模型的训练方法 的示例性流程图。
[0065] 如图4所示,在步骤401中,获取消息样本。
[0066] 在本实施例中,服务器或终端设备可W通过收集用户举报、撤销、标记的消息来获 取包括正常消息样本和垃圾消息样本的消息样本。该些消息可W是通过移动运营商发送或 接收的消息,例如短信,也可W是通过例如微信、iMessage等即时通讯工具交互的消息,还 可W是通过电子邮件、社交平台等获取的文字消息。该些消息可W由用户进行举报、撤销或 标记处理。用户撤销的消息W及未处理的消息可W作为正常消息样本,用户举报或标记的 消息可W作为垃圾消息样本。
[0067] 接着,在步骤402中,对消息样本进行特征提取,得到消息样本的特征向量。
[0068] 在获取正常消息样本和垃圾消息样本之后,服务器或终端设备可W提取消息样本 中的特征,并将同一消息样本中提取出的所有特征作为该消息样本的特征向量。
[0069] 上述步骤401和402分别与前述实施例中的步骤201和步骤202相同,此处不再 寶述。
[0070] 之后,在步骤403中,对消息样本进行k折交叉验证处理,按照监督学习方式得到 k个初始模型及对应的性能。
[0071] k折交叉验证处理,即将初始样本分割成k个子样本,其中每次处理将其中一个子 样本作为测试集,其余k-1个子样本作为训练集进行训练,其中k为正整数。k折交叉验证 处理的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次, 使得验证结果更可靠。在具体应用中,10折交叉验证是最常用的,本申请对k的取值不做具 体限制。
[0072] 在本实施例中,可W将消息样本分割成k个子样本,按照上述方法进行k次训练和 测试,得出k个初始模型及其对应的性能。其中训练初始模型的方法可W采用朴素贝叶斯、 决策树、支持向量机等监督学习方法,本申请在此方面不作具体限制。
[0073]k个初始模型的性能可
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1