一种垃圾邮件检测的方法和设备的制作方法

文档序号:7807964阅读:207来源:国知局
一种垃圾邮件检测的方法和设备的制作方法
【专利摘要】本发明的实施方式提供了一种垃圾邮件检测的方法。该方法包括:响应于接收待测邮件,解析该待测邮件的脚注声明标签并将脚注声明标签作用范围内的内容确定为待验证脚注;依据提取出的该待验证脚注的属性特征,利用真伪脚注分类模型检测该待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与历史真脚注间对应关系以及历史伪脚注的属性特征与历史伪脚注间对应关系而建立的;响应于该待验证脚注被检测为真脚注,基于待测邮件中去除该待验证脚注的剩余内容进行垃圾邮件检测;响应于该待验证脚注被检测为伪脚注,基于待测邮件中的所有内容进行垃圾邮件检测。此外,本发明的实施方式提供了一种垃圾邮件检测的设备。
【专利说明】一种垃圾邮件检测的方法和设备
【技术领域】
[0001]本发明的实施方式涉及网络信息处理技术,更具体地,本发明的实施方式涉及一种垃圾邮件检测的方法和设备。
【背景技术】
[0002]本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前,网络邮箱已经成为人们日常工作、生活中必不可少的沟通工具。虽然网络邮箱为用户的沟通提供了便捷,但网络邮箱中越来越多的垃圾邮件也给用户带来了烦恼。为了防止垃圾邮件的发送,现有的邮件反垃圾技术中,垃圾邮件检测的方式主要是基于垃圾邮件一般是大量具有相似内容的邮件,通过自动收集内容相似的邮件,如果彼此间具有相似内容的邮件数量较多,则将这些邮件识别为垃圾邮件。
[0004]然而,实际上彼此间具有相似内容且数量较多的邮件并非都是垃圾邮件。在用户发送的邮件中,邮件正文有时会被邮箱系统自动加入格式固定的一部分内容,这些内容可以被视为邮件的脚注内容,如邮箱服务商自身的系统版本声明或者超大附件列表等。由于邮件脚注是由邮箱系统自动添加的,往往大量来自同一邮箱系统的正常邮件会包含相同的脚注内容,此时,如果基于完整的邮件内容进行垃圾邮件检测,就会导致这些不属于垃圾邮件的正常邮件容易被误判为垃圾邮件。
[0005]因此,为了避免具有脚注内容的正常邮件被误判为垃圾邮件,在对某一邮件进行垃圾邮件识别时,就需要先识别出该邮件中的脚注内容,再基于该邮件中去除邮件脚注的剩余内容去对该邮件进行垃圾邮件检测。例如,一种现有的垃圾检测方式在于,考虑到邮箱系统自动添加的邮件脚注一般都具有专门用于标记脚注的脚注声明标签,通过对邮件正文进行解析查找用于标记脚注的脚注声明标签,并将脚注声明标签作用范围内的邮件内容识别为邮件脚注,以便基于邮件中去除邮件脚注的剩余内容对邮件进行垃圾邮件检测。

【发明内容】

[0006]但是,由于现有技术中仅仅是将脚注声明标签作用范围的内容识别为邮件脚注,而识别出的邮件脚注在垃圾邮件检测时又会被去除,因此,一旦垃圾邮件的发送者将垃圾内容放置于脚注声明标签作用范围内,就可以使得垃圾内容被识别为邮件脚注,而伪装成邮件脚注的垃圾内容就可以避开垃圾邮件检测,使得垃圾内容无法被检测出来,最终导致无法防止垃圾邮件的发送。
[0007]因此在现有技术中,对于脚注声明标签作用范围内的内容,由于无法区分究竟是邮箱系统自动添加的真脚注还是由垃圾内容伪装的伪脚注,使得垃圾内容会被识别成邮件脚注而避开垃圾邮件检测,这是非常令人烦恼的过程。
[0008]为此,非常需要一种改进的垃圾邮件检测的方法和设备,以使脚注声明标签作用范围内的真脚注与伪脚注能够被区分,从而避免作为伪脚注的垃圾内容避开垃圾邮件检测。
[0009]在本上下文中,本发明的实施方式期望提供一种垃圾邮件检测的方法和设备。
[0010]在本发明实施方式的第一方面中,提供了一种垃圾邮件检测的方法,包括:响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注;提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
[0011]在本发明实施方式的第二方面中,提供了一种垃圾邮件检测的设备,包括:脚注标签解析模块,用于响应于接收待测邮件,从所述待测邮件中解析脚注声明标签;待验证脚注确定模块,用于将所述脚注声明标签作用范围内的内容确定为待验证脚注;属性提取模块,用于提取所述待验证脚注的属性特征;脚注真伪检测模块,用于依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;第一邮件检测模块,用于响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;第二邮件检测模块,用于响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
[0012]根据本发明实施方式用于检测垃圾邮件的方法和设备,对于待测邮件中脚注声明标签作用范围内的待验证脚注,通过预先对历史脚注的属性特征与真伪性之间的对应关系进行机器学习而建立的真伪脚注分类模型,可以依据待验证脚注的属性特征来检测待验证脚注的真伪性,从而在待验证脚注被检测为真脚注时可以基于待测邮件中去除该待验证脚注的剩余内容对待测邮件进行垃圾邮件检测,而在待验证脚注被检测为伪脚注时可以基于待测邮件中的所有内容对待检测邮件进行垃圾邮件检测。因此,在对待测邮件进行垃圾邮件检测时,可以依据历史脚注的属性特征与真伪性之间的对应关系以及待测邮件中待验证脚注的属性特征来区分待测邮件中的待验证脚注究竟是真脚注还是伪脚注,这不仅避免了包含真脚注的邮件被检测成垃圾邮件,避免对正常邮件发送的拦截,而且也避免由垃圾内容伪装的伪脚注被识别成真脚注,使得垃圾内容难以避开垃圾邮件的检测,防止垃圾邮件的发送,从而提高了垃圾邮件检测的准确性,为用户带来了更好的体验。
【专利附图】

【附图说明】
[0013]通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
[0014]图1示意性地示出了本发明的实施方式的一个示例性应用场景的框架示意图;
[0015]图2示意性地示出了本发明中垃圾邮件检测的方法一实施例的流程图;[0016]图3a示意性地示出了本发明实施例中一种邮箱服务商自动添加的脚注示例的示意图;
[0017]图3b示意性地示出了本发明实施例中一种邮箱服务商自动添加的脚注对应的HTML代码示例的示意图;
[0018]图4示意性地示出了本发明实施例中建立决策树一实施方式的流程图;
[0019]图5示意性地示出了本发明实施例中检测待验证脚注真伪性一实施方式的流程图;
[0020]图6示意性地示出了本发明实施例中待验证脚注在决策树上的一种检测过程示例的不意图;
[0021]图7示意性地示出了本发明中垃圾邮件检测的另一实施例的流程图;
[0022]图8示意性地示出了本发明中垃圾邮件检测的设备一实施例的结构图;
[0023]图9示意性地示出了本发明中垃圾邮件检测的设备另一实施例的结构图。
[0024]在附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0025]下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0026]本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0027]根据本发明的实施方式,提出了一种垃圾邮件检测的方法和设备。
[0028]在本文中,需要理解的是,所涉及的术语“脚注”表示的是邮件中脚注声明标签作用范围内的内容,其包括“真脚注”和“伪脚注”两类。其中,“伪脚注”表示的是由垃圾内容伪装成的“脚注”,即垃圾内容被放置于脚注声明标签作用范围内而形成的“脚注”;“真脚注”表示的是正常内容被放置于脚注声明标签作用范围内而形成的“脚注”,该正常内容例如可以是邮箱系统自动添加的系统版本声明、超大附件列表等。可以理解的是,对于“垃圾内容”与“正常内容”分别具体包括的内容,本发明不做限制。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
[0029]下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0030]发明概沭
[0031]本发明人发现,在对邮件进行垃圾邮件检测时,邮件中脚注声明标签作用范围内的脚注内容会影响垃圾邮件检测的准确性。由于垃圾邮件的检测主要是将彼此间具有相似内容且数量较多的邮件识别为垃圾邮件,因此,一方面,大量正常邮件具有相同的真脚注,这就需要在垃圾邮件检测时需要剔除邮件中的真脚注,另一方面,垃圾邮件可能会将垃圾内容放置于脚注声明标签作用范围内而形成伪脚注,这就需要垃圾邮件检测时不能剔除邮件中的伪脚注。由此可见,在垃圾邮件检测时,为了保证垃圾邮件检测的准确性,就需要区分邮件中的脚注究竟是真脚注还是伪脚注,从而在垃圾邮件检测时剔除真脚注而保留伪脚注。但是,现有技术中并未考虑到包含垃圾内容的伪脚注,也没有区分邮件中的脚注是真脚注还是伪脚注,而采用的是在垃圾邮件检测时剔除了所有的脚注,这就使得作为伪脚注的垃圾内容避开了垃圾邮件检测,导致无法防止垃圾邮件的方式,从而造成垃圾邮件检测的不准确。
[0032]基于上述发现,本发明的基础思想之一在于:为了区分邮件中脚注的真伪性,可以预先对历史脚注的属性特征与真伪性之间的对应关系进行机器学习而建立真伪脚注分类模型,在需要对某一邮件进行垃圾邮件检测时,通过该真伪脚注分类模型,可以实现依据该邮件中脚注声明标签作用范围内的待验证脚注的属性特征来检测该待验证脚注的真伪性,进而在检测垃圾邮件时可以剔除真脚注而保留伪脚注,这不仅避免了包含真脚注的邮件被检测成垃圾邮件,从而避免了对正常邮件发送的拦截,而且也避免由垃圾内容伪装的伪脚注被识别成真脚注,使得垃圾内容难以避开垃圾邮件的检测,从而防止垃圾邮件的发送,因此,垃圾邮件检测的准确性得以提高。
[0033]在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
[0034]应用场景总览
[0035]首先参考图1,图1是本发明的实施方式的一个示例性应用场景的框架示意图。其中,用户通过用户设备上的客户端102与提供网络邮箱服务的服务器101进行交互。本领域技术人员可以理解,图1所示的框架示意图仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的适用范围不受到该框架任何方面的限制。
[0036]需要注意的是,此处的用户设备可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,W1-F1、LAN、蜂窝、同轴电缆等)实现其上客户端102与服务器101交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。
[0037]还需要注意的是,此处的服务器101仅是现有的、正在研发的或将来研发的、能够向用户提供网络邮箱服务的设备的一个示例。本发明的实施方式在此方面不受任何限制。
[0038]基于图1所示的框架,服务器101可以响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注。然后,服务器101可以提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的。再后,服务器101可以响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;或者,服务器101可以响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
[0039]可以理解的是,本发明的应用场景中,虽然此处和下面将本发明实施方式的动作描述为由服务器101执行,但是这些动作也可以部分由客户端102执行、部分由服务器101执行,或者完全由客户端102执行。本发明在执行主体方面不受限制,只要执行了本发明实施方式所公开的动作即可。[0040]示例性方法
[0041]下面结合图1的应用场景,参考图2?6来描述根据本发明示例性实施方式的用于垃圾邮件检测的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
[0042]参见图2,示出了本发明中垃圾邮件检测的方法一实施例的流程图。在本实施例中,例如具体可以包括如下步骤:
[0043]步骤201、响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注。
[0044]其中,邮箱服务商给邮件自动添加的脚注一般都具有专门的HTML (Hyper TextMarkup Language,超文本标记语言)标签来标记,该HTML标签即是脚注声明标签,例如可以是〈DIV id = 〃XXXBigAttach">、<DIV id = 〃YYYBigAttach">、〈span id = 〃ZZZ_mail_footer,等等。
[0045]通过对整个邮件内容对应的HTML代码进行解析,可以查找到邮件中脚注声明的html标签并确定html标签的作用范围,从而最终找出邮件中的待验证脚注。例如,对于如图3a所示的“超大附件列表”,其作为一种邮箱服务商自动添加的脚注,整个内容对应的HTML代码截图如图3b所示,其中,其脚注声明标签为〈div id = 〃divMailBigAttach〃>。可以理解的是,当邮件中存在多个脚注声明标签嵌套时,可以取所有脚注声明标签的最大作用范围内的内容作为待验证脚注。
[0046]具体地,在待测邮件中,待验证脚注的定位可以可以是通过递归遍历邮件中HTML内容对应在HTML解析树的节点来实现。当遍历到HTML解析树上某个节点时,可以判断该节点是否为脚注声明标签的节点,如果是,则将这一节点下的内容定位成待验证脚注,如果否,则分别遍历当前节点的子节点,重新判断子节点是否具有脚注声明标签。
[0047]需要说明的是,在待测邮件中,除了邮箱服务商可能自动添加的正常内容放置于脚注声明标签作用范围内,垃圾邮件发送者也可能将垃圾内容放置于脚注声明标签作用范围之内,因此,脚注声明标签作用范围内的待验证脚注可能是真脚注,也可能是伪脚注。为了检测待验证脚注的真伪性,可以进入执行步骤202。
[0048]步骤202、提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的。
[0049]其中,真伪脚注分类模型具体可以是对历史脚注的属性特征与历史脚注的真伪性之间的对应关系进行机器学习而建立的机器学习模型。机器学习模型是可以用于表示多个输入变量的变量值与多个输出变量的变量值之间对应关系的计算工具,具体到本实施例,该真伪脚注分类模型表示的可以是邮件脚注的属性特征与邮件脚注真伪性之间对应关系,也即,在该模型中,输入变量是邮件脚注的属性特征,输出变量为邮件脚注的真伪性。由于历史脚注的属性特征以及历史脚注的真伪性均是已知的,通过对历史脚注的属性特征与历史脚注的真伪性之间对应关系的训练学习,可以建立表示任意邮件脚注的属性特征与该邮件脚注的真伪性间对应关系的真伪脚注分类模型,从而以待验证脚注属性特征作为输入变量,该真伪脚注分类模型就可以计算出作为输出变量的待验证脚注真伪性。
[0050]可以理解的是,本实施例中的真伪脚注分类模型,可以是一个针对多个输入变量与一个输出变量的机器学习模型。具体地说,其输出变量为邮件脚注的真伪性,即其输出变量的变量值包括真脚注和伪脚注,而其输入变量为邮件脚注的属性特征,可以是从该邮件及该脚注提取出的一种或多种信息,这些信息能够体现真脚注与伪脚注的区别。例如,考虑到包含伪脚注的垃圾邮件通常是群发给大量用户的而包含真脚注的正常邮件通常并不会发送给太多的用户,属性特性可以包括邮件的收件人列表中的收件人个数;又如,考虑到包含伪脚注的垃圾邮件通常比包含真脚注的正常邮件包含更多的内容,属性特征可以包括邮件中去掉HTML代码后的纯文本长度;再如,考虑到伪脚注中的垃圾内容包含的文案行数通常比真脚注中的正常内容更多,属性特征可以包括脚注内容所包含的文案行数。此外,除了收件人个数、纯文本长度和文案行数外,基于邮件及其脚注中能够体现真脚注与伪脚注区别的信息,属性特征还可以包括邮件纯文本中的阿拉伯数字个数、引用其他URL的图片个数、脚注中包含的超链接个数、脚注中包含的属于发件邮箱所在网站的超链接个数、脚注中包含的不属于发件邮箱所在网站的超链接个数、脚注中包含的属于发件邮箱所在网站的图片个数、脚注中包含的不属于发件邮箱所在网站的图片个数、脚注中包含的HTML内容对应在HTML解析树上的节点个数、脚注中包含的HTML内容对应在HTML解析树上的节点深度、脚注的HTML标签种类等等。其中,HTML解析树是HTML内容以树状结构组织各个元素所形成的,前述HTML解析树上的节点个数表示的可以是HTML内容在树状结构上的元素个数,前述HTML解析树上的节点深度表示的可以是HTML内容在树状结构上的层数。另外,前述的HTML标签种类即是脚注声明标签的种类,例如可以包括〈SPAN〉、<DIV>、<A>等。
[0051]在前述列举的属性特征示例中,包括有两种类型,即数值型属性特征和布尔型属性特征。其中,数值型属性特征的值可以是以数值大小来表示的,布尔型属性特征的值则是仅包括两个完全相反的值(如“是”和“否”)。例如,前述列举的布尔型属性特征示例为HTML标签种类,而前述列举的其余属性特征示例则均为数值型属性特征。
[0052]需要说明的是,对于前述列举的属性特征示例,可以选择任意一个或多个用于建立真伪脚注分类模型和检测待验证脚注的真伪性,本实施例对此不做限定。
[0053]步骤203、响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测。
[0054]当待验证脚注被检测为真脚注时,表明待验证脚注为正常内容,此时,为了避免真脚注被误识别为垃圾内容,可以基于待测邮件中去除了待验证脚注以后的剩余内容来对待测邮件进行垃圾邮件检测。
[0055]步骤204、响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
[0056]当待验证脚注被检测为伪脚注时,表明待验证脚注为垃圾内容,此时,为了避免伪脚注避开垃圾邮件检测,可以基于待测邮件中保留了待验证脚注以后的所有内容来对待测邮件进行垃圾邮件检测。
[0057]可以理解的是,本实施例中,可以采用待测邮件的副本来进行垃圾邮件检测,这样可以使得垃圾邮件检测时剔除脚注不会影响到后续待测邮件的发送。
[0058]需要说明的是,在本实施例中,真伪脚注分类模型例如可以采用随机森林模型、支持向量机SVM、神经网络等可以用于分类的机器学习模型。下面以随机森林模型为例,对本实施例中建立真伪脚注分类模型的实施方式及检测待验证脚注真伪性的实施方式进行示例性介绍。
[0059]在本实施例中的一些实施方式中,真伪脚注分类模型可以是至少包括一个决策树的随机森林模型。其中,在建立真伪脚注分类模型时,可以分别建立各个决策树。例如,参见图4,在一些实施方式中,对于一个决策树来说,建立过程具体可以包括如下步骤:
[0060]步骤401、以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合。
[0061]具体地,对于预先收集的多个历史邮件,可以先以各个历史邮件中脚注声明标签作用范围内的内容形成各个历史脚注,然后在建立每个决策树时,可以选取全部或部分的历史脚注作为其根节点的样本集合,其中,选取历史脚注的方式例如可以是采用随机有放回的方式。
[0062]可以理解的是,在为该决策树的建立选取了根节点样本集合中的历史脚注之后,还可以提取出各个历史脚注的属性特征,以便在后续构造决策数的各个节点时确定节点的划分属性以及特征阈值。
[0063]步骤402、判断所述当前样本集合中各历史脚注的真伪性。
[0064]需要说明的是,作为二叉树的决策树,其树上的节点可以有两类;一类节点连接着下一层的两个节点,这类节点可以被理解成分叉节点;另一类节点为决策树的末端节点,其不具有连接的下一层节点,这类节点可以被理解成叶子节点。在本实施方式中,对于一分叉节点来说,其可以具有一划分属性及对应于该划分属性的特征阈值,当脚注处于一分叉节点时,通过该脚注属于该分叉节点的划分属性的属性特征与该分叉节点的特征阈值之间的关系,可以确定该脚注进入该分叉节点下一层的哪一节点;对于一叶子节点来说,其表示的可以是真脚注或伪脚注的输出结果,当脚注处于一叶子节点,该叶子节点所表示的输出结果的真伪性即是该脚注的真伪性。基于此,在建立决策树的过程中,之所以要对当前样本集合中各个历史脚注的真伪性进行判断,是为了确定当前节点为分叉节点还是为叶子节点。
[0065]可以理解的是,基于本步骤中当前节点上历史脚注真伪性判断结果的不同,可以选择进入执行步骤403、步骤406或步骤407。
[0066]步骤403、响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,为所述当前节点选取一种属性特征作为当前划分属性。
[0067]当对当前节点上历史脚注中既有真脚注又有伪脚注时,可以将当前节点构造成一个分叉节点,此时,需要为作为分叉节点的当前节点选取一种属性特征作为其划分属性,即当前划分属性。具体地,在一些实施方式中,选取当前划分属性的方式,例如可以是先从可选的属性特征中随机选取m个作为备选属性特征,然后再从备选属性特征中选择对当前样本集合中历史脚注真伪性的区分度最大的备选属性特征作为当前划分属性。其中,属性特征对于当前样本集合中历史脚注真伪性的区分度,可以是表示,当前样本集合中历史真脚注与历史伪脚注在该属性特征上所体现的区别程度。
[0068]步骤404、按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度。[0069]其中,在当前节点上确定了当前划分属性之后,还需要为当前节点选择当前划分属性的特征阈值。特征阈值的选择依据,例如可以是使按照该特征阈值划分出的两个样本子集合具有历史脚注的最大真伪性区分度,也即,在划分出的两个样本子集合,一个子集合中大部分历史脚注为历史真脚注而尽量减少历史伪脚注,另一个子集合中大部分历史脚注为历史伪脚注而尽量减少历史真脚注。
[0070]可以理解的是,根据划分属性的类型不同,特征阈值的形式也不同,划分样本子集合的方式也不同。
[0071]对于数值型属性特征的划分属性来说,其特征阈值可以是一个特定的数值,相应地,当前样本集合中,属于该划分属性的属性特征不超过该特征阈值的历史脚注可以组成一个样本子集合,属于该划分属性的属性特征超过该特征阈值的历史脚注可以组成一个样本子集合。例如,假设当前节点的划分属性是前述属性特征示例中的收件人个数,特征阈值是10,则其当前样本集合划分出的样本子集合中,一个子集合中所有历史脚注的收件人个数都不超过10,另一个子集合中所有历史脚注的收件人个数都超过10。
[0072]对于布尔型属性特征的划分属性来说,其特征阈值可以是属于该划分属性的属性特征本身,相应地,当前样本集合中,具有属于该划分属性的属性特征的历史脚注可以组成一个样本子集合,不具有属于该划分属性的属性特征的历史脚注可以组成一个样本子集合。例如,假设当前节点的划分属性是前述属性特征示例中的HTML标签种类〈DIV〉,特征阈值为〈DIV〉,则其当前样本集合划分出的样本子集合中,一个子集合中所有历史脚注都具有<DIV>种类的HTML标签,另一个子集合中所有历史脚注都不具有<DIV>种类的HTML标签种类。
[0073]步骤405、在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行步骤402。
[0074]可以理解的是,本次当前节点所构造出的子节点,都需要再作为当前节点继续进行构造,直至整个决策树上不存在没有构造子节点的分叉节点为止,也即,整个决策树上的所有末端节点均为叶子节点。
[0075]步骤406、响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点。
[0076]当对当前节点上历史脚注均为真脚注时,可以将当前节点构造成一个叶子节点,由于最终处于该叶子节点上的历史脚注均为真脚注,所以该叶子节点可以被构成表示检测结果为真脚注的叶子节点。
[0077]步骤407、响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点。
[0078]当对当前节点上历史脚注均为伪脚注时,可以将当前节点构造成一个叶子节点,由于最终处于该叶子节点上的历史脚注均为伪脚注,所以该叶子节点可以被构成表示检测结果为伪脚注的叶子节点。
[0079]可以理解的是,图4所示出的是一个决策树的构造方式。当真伪脚注分类模型中包含多个决策树,可以按照多次实施图4所示的构造方式来完成多个决策树的构造。
[0080]接着返回图2。[0081]在本实施例中的一些实施方式中,对于采用至少包括一个决策树的随机森林模型作为真伪脚注分类模型的实施方式,在利用真伪脚注分类模型检测待验证脚注的真伪性时时,可以分别通过各个决策树来检测,再综合各个决策树来最终确定待验证脚注的真伪性。例如,参见图5,在一些实施方式中,待验证脚注真伪性的检测过程具体可以包括以下步骤:
[0082]步骤501、在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述验证脚注的检测结果节点。
[0083]具体地,对于一个决策树来说,可以先使待验证脚注属于该决策树的根节点,然后以根节点为当前节点,根据待验证脚注属于当前节点的划分属性的属性特征与当前节点的特征阈值之间的关系,确定待验证脚注属于当前节点下的哪一子节点,再以确定出的子节点作为当前节点,继续查找待验证脚注所属的下一级节点,直至确定待验证脚注在该决策树上所属的叶子节点为止。可以理解的是,待验证脚注在一个决策树上一般仅属于一个叶子节点,该叶子节点所表示的检测结果即是这一决策树对待验证脚注的检测结果,也即,该叶子节点也就是该待验证脚注在该决策树上的检测结果节点。此外,对于数值型属性特征来说,可以根据该待验证脚注属于当前节点的划分属性的属性特征是否超过当前节点的特征阈值,确定待验证脚注属于当前节点下的哪一子节点;对于布尔型属性特征来说,可以根据该待验证脚注属于当前节点的划分属性的属性特征是否为当前节点的特征阈值,确定待验证脚注属于当前节点下的哪一子节点。
[0084]例如,待验证脚注在决策树上的一检测过程示例如图6所示,假设属性1、属性3、属性4都为数值型属性特征,首先使该待验证脚注处于属性I的根节点,根据待验证脚注属于属性I的属性特征超过阈值1,确定该待验证脚注属于属性3的节点,然后使该待验证脚注处于属性3的节点,根据待验证脚注属于属性3的属性特征不超过阈值3,确定该待验证脚注属于属性4的节点,再使该待验证脚注处于属性4的节点,根据待验证脚注属于属性4的属性特征超过阈值4,确定该待验证脚注属于伪脚注的叶子节点,从而最终确定该验证脚注在决策树上的检测结果为伪脚注。
[0085]接着返回图5。
[0086]在确定了待验证脚注在真伪脚注分类模型的各个决策树上的检测结果节点之后,可以根据真伪脚注的检测结果节点之间在数量上的关系来确定待验证脚注在真伪脚注分类模型中的检测结果。具体地,设置一个决策阈值,依据检测结果节点中表示检测结果为真脚注的节点数量与决策阈值间的大小关系来确定进入执行步骤502还是进入执行步骤503,以便确定待验证脚注的检测结果。其中,决策阈值例如可以是依据检测结果节点数量来设定的,如决策阈值可以是Μ/2+1,Μ为检测结果节点的数量。当然,也可以依据检测结果节点中表示检测结果为伪脚注的节点数量与决策阈值间的大小关系来确定待验证脚注的最终结果。
[0087]步骤502、响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注。
[0088]步骤503、响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。[0089]接着返回图2。
[0090]需要说明的是,本实施例中仅是以至少包含一个决策树的随机森林模型来对建立真伪脚注分类模型的实施方式以及检测待验证脚注真伪性的实施方式进行了示例性介绍,但这并不表明本实施例的真伪脚注分类模型仅可以采用随机森林模型这一种实现方式,相反,本实施例可以采用任意一种具有分类功能的机器学习模型来实现真伪脚注分类模型,例如包括但不限于前述列举的SVM、神经网络等示例。
[0091]通过本实施例的技术方案,由于预先对历史脚注的属性特征与真伪性之间的对应关系进行机器学习而建立真伪脚注分类模型,在需要对某一邮件进行垃圾邮件检测时,通过该真伪脚注分类模型,可以实现依据该邮件中脚注声明标签作用范围内的待验证脚注的属性特征来检测该待验证脚注的真伪性,进而在检测垃圾邮件时可以剔除真脚注而保留伪脚注,这不仅避免了包含真脚注的邮件被检测成垃圾邮件,从而避免了对正常邮件发送的拦截,而且也避免由垃圾内容伪装的伪脚注被识别成真脚注,使得垃圾内容难以避开垃圾邮件的检测,从而防止垃圾邮件的发送,因此,垃圾邮件检测的准确性得以提高。
[0092]此外,由于采用的是基于脚注的属性特征通过预先建立的机器学习模型来检测待验证脚注的真伪性,而并不是基于脚注的完整内容通过直接与预先收集的历史真脚注和/或历史伪脚注进行匹配来确定待验证脚注的真伪性,这样不仅避免了邮箱自动添加的真脚注由于格式和/或文案的改变而导致的无法识别,而且无需不断更新收集历史脚注就可以确定为收录的新脚注的真伪性,从而大大减少了不断更新收集历史脚注所造成的大量人力成本。
[0093]需要说明的是,通常真伪分类模型在对待验证脚注的真伪性检测时计算量较大,而网络邮箱系统又往往需要同时处理大量的待测邮件,这就要求系统需要为垃圾邮件检测耗费大量的计算资源,从而造成系统负担较大。为了减轻网络邮箱系统的负担,可以预先收集一些历史真脚注,在对待测邮件进行垃圾邮件检测时,可以先将其待验证脚注与预先收集的历史真脚注匹配,而仅在匹配不成功的情况下再利用真伪分类模型对待验证脚注的真伪性进行检测,这样就可以使大量经常出现的真脚注不必经过真伪脚注分类模型的检测,从而减轻了网络邮箱的负担。
[0094]具体地,参见图7,示出了本发明中垃圾邮件检测的另一实施例的流程图。在本实施例中,例如具体可以包括:
[0095]步骤701、响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注。
[0096]步骤702、响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配。
[0097]本实施例中,待验证脚注与预先收集的历史真脚注可以进行精确匹配,也可以进行模糊匹配。其中,精确匹配具体是匹配待验证脚注与预先收集的历史真脚注是否在内容上完全相同,即精确匹配时前述历史真脚注模板即为历史真脚注本身;模糊匹配具体是待验证脚注和预先收集的历史真脚注都经过模糊匹配前处理之后再匹配,即模糊匹配时前述历史真脚注模板即为历史真脚注经过模糊匹配前处理之后得到的模板。
[0098]可以理解的是,在本实施例的一些实施方式中,邮箱系统经常会对其自动添加的真脚注进行轻微改动,为了使相对于已收集历史真脚注进行了轻微改动的待验证脚注也能够通过匹配识别出来,可以将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。具体地,在一种模糊匹配实施方式的示例中,待验证脚注与历史真脚注模板的模糊匹配方式例如具体可以包括:对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息;从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息;在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。
[0099]在上述示例中,对待验证脚注进行的模糊匹配前处理主要包括模糊处理和提取信息摘要特征码。其中,通过模糊处理待验证脚注得到简化信息的方式,例如可以是先提取待验证脚注的纯文本内容、然后再对该纯文本内容进行url去参数、小写转换、特殊符号(如空格符、换行符、部分标点符号、HTML标签的尖括号等)过滤,得到简化信息。考虑到url带有的参数变量不同、大小写的不同以及特殊符号的不同会造成最终无法匹配成功,但这些内容的不同却并不会影响脚注本质上的相同,为此,在模糊处理时通过url去参数可以排除url中参数变量对匹配结果的影响。此外,信息摘要的特征码例如可以是MD5指纹。考虑到脚注的的HTML内容过长,利用模糊处理得到的简化信息进行匹配也会造成较大的系统开销,为此,通过提取简化信息的信息摘要特征码进行匹配,可以大大减小系统的开销。
[0100]需要说明的是,在模糊匹配的实施方式中,不仅需要在匹配时对待验证脚注进行模糊匹配前处理,也需要在预先收集历史真脚注模板时对历史真脚注进行模糊匹配前处理。其中,为了实现匹配,待验证脚注与历史真脚注两者的模糊匹配前处理方式需要相同,例如,在前述模糊匹配方式的示例中,在预先收集历史真脚注时也需要对历史真脚注进行模糊处理和信息摘要特征码的提取,从而得到历史真脚注模板。
[0101]步骤703、响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测。
[0102]当预先收集的历史真脚注模板中存在与待验证脚注相匹配的历史真脚注模板时,表明该待验证脚注为真脚注,进而就可以基于待测邮件中去除了待验证脚注以后的剩余内容来对待测邮件进行垃圾邮件检测,而无需再通过真伪脚注分类模型对待验证脚注的真伪性进行检测。
[0103]步骤704、响应于所述待验证脚注不具有匹配的历史真脚注模板,提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而
建立的。
[0104]当预先收集的历史真脚注模板中不存在与待验证脚注相匹配的历史真脚注模板时,不能确定该待验证脚注是真脚注还是伪脚注,此时需再通过真伪脚注分类模型对待验证脚注的真伪性进行检测。
[0105]步骤705、响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测。
[0106]步骤706、响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。[0107]可以理解的是,本实施例中,对于被真伪脚注分类模型检测为真脚注的待验证脚注,由于其未能与当前已收集的历史真脚注模板实现匹配,可见其形成的模板是在当前未收集的历史真脚注模板中不存在的。为了实现对历史真脚注模板进行更新以使得后续与该待验证脚注相似的真脚注无需再进行真伪脚注分类模型的检测,在本实施例的一些实施方式中,步骤704之后例如还可以包括:
[0108]步骤707、响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数。
[0109]可以理解的是,待验证脚注形成待验证模板的过程,可以与对待验证脚注的模糊匹配前处理过程相同。因此,待验证模板形成的相关内容可参见前述待验证脚注的模糊匹配前处理过程,在此不再赘述。
[0110]步骤708、响应于所述形成次数达到记录阈值,收集所述待验证模板作为历史真脚注模板。
[0111]考虑到待验证脚注一旦与历史真脚注模板匹配就不再使用真伪脚注分类模型进行检测,所以一旦将伪脚注作为历史真脚注模板收集则会造成这些伪脚注避开垃圾邮件检测,而且,真伪脚注分类模型的检测结果具有一定的失误几率,因此,在一些实施方式中,为了防止真伪脚注分类模型误判为真脚注的伪脚注被收集成历史真脚注模板,可以设置数值大于I的记录阈值,以使得一个待验证脚注多次被检测为真脚注的情况下才会被收录为历史真脚注,这一方面可以避免被真伪脚注分类模型误判为真脚注的伪脚注被收集为历史真脚注而导致后续类似的伪脚注避开垃圾邮件检测,另一方面通过收录多次被检测为真脚注的历史真脚注在真伪脚注分类模型检测之前对后续的待验证脚注进行匹配,还可以避免真伪脚注分类模型的一些误判,从而提高垃圾邮件检测的准确性。
[0112]通过本实施例的技术方案,在利用机器学习建立的真伪脚注分类模型检测待验证脚注真伪性的基础上,通过在真伪脚注分类模型检测之前将待验证脚注与预先收集的历史真脚注进行匹配,可以使得匹配成功的待验证脚注无需经过真伪脚注分类模型的检测,这不仅能够保证垃圾邮件检测的准确性,还减小了邮箱系统为垃圾邮件检测的花费的系统开销,降低了系统的负担。
[0113]示例性设备
[0114]在介绍了本发明示例性实施方式的方法之后,接下来,参考图8、9对本发明示例性实施方式的、用于垃圾邮件检测的设备进行介绍。
[0115]参见图8,示出了本发明中垃圾邮件检测的设备一实施例的结构图。在本实施例中,所述设备例如具体可以包括:
[0116]脚注标签解析模块801,用于响应于接收待测邮件,从所述待测邮件中解析脚注声明标签;
[0117]待验证脚注确定模块802,用于将所述脚注声明标签作用范围内的内容确定为待验证脚注;
[0118]属性提取模块803,用于提取所述待验证脚注的属性特征;
[0119]脚注真伪检测模块804,用于依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;
[0120]第一邮件检测模块805,用于响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;
[0121]第二邮件检测模块806,用于响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
[0122]可选的,在本实施例的一些实施方式中,所述真伪脚注分类模型例如具体可以包括至少一个决策树。进一步可选的,在进一步的一些实施方式中,所述决策树的建立过程例如具体可以包括:
[0123]以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合;
[0124]判断所述当前样本集合中各历史脚注的真伪性;
[0125]响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点;
[0126]响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点;
[0127]响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,执行如下步骤:
[0128]为所述当前节点选取一种属性特征作为当前划分属性;
[0129]按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度;
[0130]在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行所述判断所述当前样本集合中各历史脚注的真伪性。
[0131]可选的,在本实施例的另一些实施方式中,所述脚注真伪检测模块例如具体可以包括:
[0132]所属节点确定子模块,用于在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述验证脚注的检测结果节点;
[0133]真脚注确定子模块,用于响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注;
[0134]伪脚注确定子模块,用于响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。
[0135]参见图9,示出了本发明中垃圾邮件检测的设备另一实施例的结构图。在本实施例中,除了图8所示的所有结构外,所述设备例如还可以包括:
[0136]待验证脚注匹配模块901,用于响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配;
[0137]第三邮件检测模块902,用于响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;
[0138]属性提取触发模块903,用于响应于所述待验证脚注不具有匹配的历史真脚注模板,触发所述属性提取模块。
[0139]可选的,在本实施例的一些实施方式中,所述设备例如还可以包括:
[0140]真脚注次数统计模块904,用于响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数;
[0141]真脚注模板收集模块905,用于响应于所述形成次数达到记录阈值,收集所述待验证模板脚注作为历史真脚注模板。
[0142]可选的,在本实施例的另一些实施方式中,所述待验证脚注匹配模块,例如具体可以用于将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。
[0143]可选的,在本实施例的又一些实施方式中,所述待验证脚注匹配模块例如具体可以包括:
[0144]模糊处理子模块,用于对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息;
[0145]特征码提取子模块,用于从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息;
[0146]模板匹配子模块,用于在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。
[0147]通过本发明设备实施例的技术方案,由于预先对历史脚注的属性特征与真伪性之间的对应关系进行机器学习而建立真伪脚注分类模型,在需要对某一邮件进行垃圾邮件检测时,通过该真伪脚注分类模型,可以实现依据该邮件中脚注声明标签作用范围内的待验证脚注的属性特征来检测该待验证脚注的真伪性,进而在检测垃圾邮件时可以剔除真脚注而保留伪脚注,这不仅避免了包含真脚注的邮件被检测成垃圾邮件,从而避免了对正常邮件发送的拦截,而且也避免由垃圾内容伪装的伪脚注被识别成真脚注,使得垃圾内容难以避开垃圾邮件的检测,从而防止垃圾邮件的发送,因此,垃圾邮件检测的准确性得以提高。
[0148]应当注意,尽管在上文详细描述中提及了垃圾邮件检测的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0149]此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0150]虽然已经参考若干【具体实施方式】描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的【具体实施方式】,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
【权利要求】
1.一种方法,包括: 响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注; 提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的; 响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测; 响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
2.根据权利要求1所述的方法,所述真伪脚注分类模型包括至少一个决策树。
3.根据权利要求2所述的方法,所述决策树的建立过程具体包括: 以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合; 判断所述当前样本集合中各历史脚注的真伪性; 响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点; 响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点; 响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,执行如下步骤: 为所述当前节点选取一种属性特征作为当前划分属性; 按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度; 在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行所述判断所述当前样本集合中各历史脚注的真伪性。
4.根据权利要求2所述的方法,所述依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性,包括: 在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述验证脚注的检测结果节点; 响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注; 响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。
5.根据权利要求1所述的方法,还包括: 响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配; 响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测; 响应于所述待验证脚注不具有匹配的历史真脚注模板,进入执行所述提取所述待验证脚注的属性特征。
6.根据权利要求5所述的方法,还包括: 响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数; 响应于所述形成次数达到记录阈值,收集所述待验证模板脚注作为历史真脚注模板。
7.根据权利要求5所述的方法,其中,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配,具体为将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。
8.根据权利要求7所述的方法,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配,包括: 对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息; 从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息; 在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。
9.一种设备,包括: 脚注标签解析模块,用于响应于接收待测邮件,从所述待测邮件中解析脚注声明标签; 待验证脚注确定模块,用于将所述脚注声明标签作用范围内的内容确定为待验证脚注; 属性提取模块,用于提取所述待验证脚注的属性特征; 脚注真伪检测模块,用于依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的; 第一邮件检测模块,用于响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测; 第二邮件检测模块,用于响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
10.根据权利要求9所述的设备,所述真伪脚注分类模型包括至少一个决策树。
11.根据权利要求10所述的设备,所述决策树的建立过程具体包括: 以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合; 判断所述当前样本集合中各历史脚注的真伪性; 响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点; 响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点; 响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,执行如下步骤: 为所述当前节点选取一种属性特征作为当前划分属性; 按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度; 在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行所述判断所述当前样本集合中各历史脚注的真伪性。
12.根据权利要求10所述的设备,所述脚注真伪检测模块包括: 所属节点确定子模块,用于在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述验证脚注的检测结果节点; 真脚注确定子模块,用于响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注; 伪脚注确定子模块,用于响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。
13.根据权利要求9所述的设备,还包括: 待验证脚注匹配模块,用于响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配; 第三邮件检测模块,用于响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;属性提取触发模块,用于响应于所述待验证脚注不具有匹配的历史真脚注模板,触发所述属性提取模块。
14.根据权利要求13所述的设备,还包括: 真脚注次数统计模块,用于响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数; 真脚注模板收集模块,用于响应于所述形成次数达到记录阈值,收集所述待验证模板脚注作为历史真脚注模板。
15.根据权利要求13所述的设备,其中,所述待验证脚注匹配模块,具体用于将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。
16.根据权利要求15所述的设备,所述待验证脚注匹配模块包括: 模糊处理子模块,用于对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息; 特征码提取子模块,用于从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息;模板匹配子模块,用于在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。
【文档编号】H04L12/58GK104038391SQ201410312489
【公开日】2014年9月10日 申请日期:2014年7月2日 优先权日:2014年7月2日
【发明者】林洋港, 潘照明, 周森 申请人:网易(杭州)网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1