垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法_2

文档序号：8383639阅读：来源：国知局

社交应用验证码消息被分类为验证码消息，然后根据是否被标记为垃圾消息对被分类为验证码消息的所有消息进行投票统计，统计结果为验证码消息中未被标记为垃圾消息的消息数据所占比例较大，则可W从垃圾消息样本中剔除被举报的社交应用验证码消息，或者也可W将被举报的社交应用验证码消息加入正常消息样本中，从而过滤掉被恶意举报的消息，保证垃圾消息模型的效果W及垃圾消息识别的准确性。
[0040] 针对消息中包含乱码的情况，上述过滤乱码的预处理操作具体可W包括将包含该乱码的消息从消息样本中剔除、W及根据消息的上下文将乱码进行还原。对消息发送方的联系方式进行预处理可W包括去掉前缀（例如去掉+86、86、086、0086等前缀），^及过滤非数字字符等。该样一方面可W避免同一个号码提取出不同特征，降低特征数量，提升垃圾消息训练的速度，另一方面可W避免该特征由于数据过少而被过滤，提高垃圾消息识别的召回率。
[0041] 接着，在步骤202中，对消息样本进行特征提取，得到消息样本的特征向量。
[0042] 消息样本的要素至少包括消息发送方和消息内容。消息发送方一般可W包括多位数字字符，消息内容一般可W包括文字、图片、视频等信息。在一些实施例中，可W采用文本特征提取方法对消息样本进行特征提取。消息样本中包含多种特征，例如消息发送方特征、关键词特征、消息长度特征W及一些抽象特征等。
[0043] 进一步的，消息发送方特征可W包括数字字符长度特征、数字字符组合特征、W及根据消息内容进行切词后获得的特征。例如当垃圾消息样本集中的一条广告推送消息内容包含商家名称时，可通过文本切词获得该商家名称，作为该条消息的消息发送方特征之一。
[0044] 关键词特征可W通过关键词提取来获取。例如，可W首先通过文本切词来获取消息内容中的单字、词组和短语，然后滤除该些单字、词组和短语中的介词、副词、连词、助词等，得到具有实际意义的关键词。进一步的，还可W将剩余的单字、词组和短语与已有关键词进行词义相似度匹配，若能匹配，则可W将匹配的关键词作为该单字、词组或短语的关键词特征。
[0045] 抽象特征具体可W包括但不限于；是否包含网址、是否包含号码、是否包含银行卡号、是否包含金额数值等。
[0046] 在本实施例中，可W采用多种特征提取方法提取消息样本中的多个特征。例如采用简单的统计方法来计算消息长度特征，采用预定英文字符（如.com、,cn等）检测来提取是否包含网址特征，采用数字字符长度检测来提取是否包含银行卡号或号码特征等等。本申请在此方面没有限制。
[0047] 接着，在步骤203中，采用监督学习方式对消息样本进行全量训练，得到垃圾消息模型。
[0048] 监督学习是一种机器学习方法，利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练。
[0049] 在本实施例中，可W基于消息样本中标记的消息是否被标记为垃圾消息，采用监督学习方法对消息样本进行全量训练。监督学习的方式可W根据实际应用进行选择，包括但不限于朴素贝叶斯、决策树、支持向量机等分类方法。依据选择的分类方法对消息样本中的所有消息数据进行全量训练，得到垃圾消息模型。
[0050] 垃圾消息模型中可W包括步骤202所得到的特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。目P，对于特征向量中每一个特征，可W计算消息中只包含该特征时，消息为垃圾消息的条件概率。其中，条件概率可W表示事件A在另外一个事件B已经发生条件下的发生概率，表示为P(AIB)，即"在B条件下A发生的概率"。
[0化1] 根据本申请上述实施例提供的方法，采用监督学习的方式对消息样本训练获得垃圾消息模型，该垃圾消息模型中包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。因此，现对于现有方案，本申请的实施例具有如下优点：
[0化2] 首先，现有关键词黑名单和正则表达式的方法一般都是根据经验设定或者从已经标记为垃圾消息的消息中提取，具有一定的随意性，无法识别不在关键词范围内的垃圾消息，识别率也难W保证；而本发明实施例的上述监督学习的方式能够从海量的消息样本中发现隐含的但事实存在的模式，该使得训练得到的垃圾消息模型具备对消息进行精确识别的能力，可W对不在关键词范围内的垃圾消息进行识别。并且，并且，随着学习的不断进行，上述垃圾消息模型的准确率和召回率会越来越高。
[0化3] 其次，现有的关键词黑名单和正则匹配的方法实时性差，需要根据消息内容编写正则模板或者提取关键词，很难发现新出现的垃圾消息类型；而本发明实施例能够根据持续收集的消息样本持续更新垃圾消息模型，能及时发现新出现的垃圾消息类型。
[0054] 再者，现有黑名单和正则匹配的方法均采用非黑即白的方式，该样带来的误判是一定存在的，比如将"赌博"设置成黑名单关键词，就会把政府部口发送的禁止赌博的消息也分类成垃圾消息；而本发明实施例得到的垃圾消息模型中包括各特征单独存在时消息为垃圾消息的条件概率，也即，通过概率来描述每个特征与所属消息是否为垃圾消息之间的关系，因此所述垃圾消息模型具备精确区分包含同一个关键词的垃圾消息和正常消息的能力。
[0055] 进一步参考图3,其示出了根据本申请一个实施例的全量训练方法的示例性流程图，也即示出了上述步骤203的一种实现方式的流程图。
[0化6]如图3所示，在步骤301中，统计特征向量中各特征在正常消息样本及垃圾消息样本中出现的频率。
[0057]在本实施例中，可W分别统计特征向量中各特征在正常消息样本和垃圾消息样本中出现的数量，与消息样本中消息总数量作比值运算获得各特征在正常消息样本及垃圾消息样本中出现的频率。
[0化引接着，在步骤302中，对特征向量中的每一个特征，根据该特征在正常消息样本及垃圾消息样本中出现的频率，计算仅包含该特征的消息为垃圾消息的条件概率。
[0化9] 具体地，如果W事件A表示消息中只包含某一特征，事件B表示该消息为垃圾消息，则该特征所对应的仅包含该特征的消息为垃圾消息的条件概率可w表示为：包含该特征的垃圾消息总数/包含该特征的消息样本总数，假设包含某特征的垃圾消息样本和包含该特征的正常消息样本的出现频率分别Pi和P2,则仅包含该特征的消息为垃圾消息的条件概率P3的计算公式可W为：
[0060] A=A (1) Pi
[0061] 在具体应用中，由于消息样本的规模有限并且类型不同，许多合理的特征关系在消息样本中不一定出现，因此可能会造成模型出现零概率问题。然而，对于未出现的事件 (即未提取到的特征），如果认为其概率为零，则可能会影响到垃圾消息识别的精度。因此，在一些实现中，为了避免零概率问题，还可W对上述公式（1)得到的结果做一些平滑处理。例如，可W从概率的总量中为未出现的事件分配一个很小的比例。该样，出现的事件的概率总和应当小于1。该时，可W将所有出现的事件概率调小一点。该样就给未出现的事件赋予了一个很小的非零值概率，从而解决了零概率的问题。可W采取多种平滑处理方法，包括但不限于黑盒方法和白盒方法等，本申请在此方面没有限制。
[0062] 在计算出各特征所对应的仅包含该特征的消息为垃圾消息的条件概率后，最终输出的垃圾消息模型具体可W包括特征W及包含该特征的消息为垃圾消息的条件概率。例如，包含特征"房产快讯"的消息为垃圾消息的条件概率为0. 99998516,包含特征"赚钱稳" 的消息为垃圾消息的条件概率为0. 9999828,包含特征"075728839999"的消息为垃圾消息的条件概率为0. 9999808等等。
[0063] 在上述实施例中，可W依据特征在正常消息和垃圾消息中出现的频率统计数据来获取特征向量中每个特征所对应的消息中仅包含该特征时为垃圾消息的条件概率，从而得出垃圾消息模型。该模型通过概率来描述每个特征与包含该特征的消息是否为垃圾消息之间的关系，可W精确地区分包含同一个关键词的垃圾消息和正常消息。
[0064] 进一步参考图4,其示出了根据本申请另一个实施例的垃圾消息模型的训练方法的示例性流程图。
[0065] 如图4所示，在步骤401中，获取消息样本。
[0066] 在本实施例中，服务器或终端设备可W通过收集用户举报、撤销、标记的消息来获取包括正常消息样本和垃圾消息样本的消息样本。该些消息可W是通过移动运营商发送或接收的消息，例如短信，也可W是通过例如微信、iMessage等即时通讯工具交互的消息，还可W是通过电子邮件、社交平台等获取的文字消息。该些消息可W由用户进行举报、撤销或标记处理。用户撤销的消息W及未处理的消息可W作为正常消息样本，用户举报或标记的消息可W作为垃圾消息样本。
[0067] 接着，在步骤402中，对消息样本进行特征提取，得到消息样本的特征向量。
[0068] 在获取正常消息样本和垃圾消息样本之后，服务器或终端设备可W提取消息样本中的特征，并将同一消息样本中提取出的所有特征作为该消息样本的特征向量。
[0069] 上述步骤401和402分别与前述实施例中的步骤201和步骤202相同，此处不再寶述。
[0070] 之后，在步骤403中，对消息样本进行k折交叉验证处理，按照监督学习方式得到 k个初始模型及对应的性能。
[0071] k折交叉验证处理，即将初始样本分割成k个子样本，其中每次处理将其中一个子样本作为测试集，其余k-1个子样本作为训练集进行训练，其中k为正整数。k折交叉验证处理的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，使得验证结果更可靠。在具体应用中，10折交叉验证是最常用的，本申请对k的取值不做具体限制。
[0072] 在本实施例中，可W将消息样本分割成k个子样本，按照上述方法进行k次训练和测试，得出k个初始模型及其对应的性能。其中训练初始模型的方法可W采用朴素贝叶斯、决策树、支持向量机等监督学习方法，本申请在此方面不作具体限制。
[0073]k个初始模型的性能可

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6