一种识别垃圾邮件的方法和装置与流程

文档序号:12037723阅读:300来源:国知局
一种识别垃圾邮件的方法和装置与流程

本申请涉及垃圾邮件的识别的技术领域,具体涉及一种识别垃圾邮件的方法和装置。本申请同时还涉及一种用于垃圾邮件识别的邮件指纹的生成方法和装置。



背景技术:

随着网络技术的发展,网络环境遭受到很多的破坏,其中一种就是常见的垃圾邮件,垃圾邮件的出现严重影响用户使用电子邮件的用户体验,甚至可能给用户造成严重的损失。

垃圾邮件发送的行为特征之一是,发送大量内容相似的邮件给不同的邮件接收人,因此,一种常用的垃圾邮件识别策略是识别统计在一定时间段内接收到的同一类相似邮件的数量,如果该数量超过指定阀值,则被认为具有群发垃圾邮件嫌疑。

但是,针对上述识别策略,其存在一定的问题,其主要问题是,当邮件的内容相似时,如果其文本字串有一定变化,则该策略中生成的邮件指纹将出现很大差异,因此,无法统计归于同一类相似垃圾邮件,也就不能通过该生成的邮件指纹判别邮件是否为垃圾邮件。然而,在现实中,已有不少垃圾邮件制造者有意识的在邮件文本中加入很多干扰信息,或者改写编造更多的内容相似,但文本表面上差异较大的垃圾邮件,从而绕开邮件反垃圾系统的检查。

因此,针对上述这些问题,采用现有技术进行垃圾邮件的识别将遇到较大的困难,另一方面也说明,采用现有方法识别的垃圾邮件的准确性并不高。



技术实现要素:

本申请提供一种识别垃圾邮件的方法,以解决现有技术中存在的上述问题。

本申请另外提供一种识别垃圾邮件的装置。

此外,本申请还提供一种用于垃圾邮件识别的邮件指纹的生成方法和装置。

本申请提供一种识别垃圾邮件的方法,包括:

提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;

将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹;

将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时,增加具有该邮件指纹的电子邮件计数;

判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值;

若是,则所述待识别的电子邮件为垃圾邮件。

可选的,所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

可选的,当所述邮件特征为邮件主题特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件主题特征;

所述邮件主题特征的获取采用以下方式:

获取所述邮件主题特征中的邮件分类信息;或者,

获取所述邮件主题特征中的触发动作信息;所述触发动作信息表征引导做出进一步动作的信息;或者,

获取所述邮件主题特征中的附件信息。

可选的,所述获取所述邮件主题特征中的邮件分类信息步骤中,获取邮件分类信息的方式包括:

通过预先设置的文本分类器获取待识别的电子邮件的邮件内容类型,将所述邮件内容类型作为所述邮件主题特征中的邮件分类信息。

可选的,所述通过预先训练的文本分类器获取待识别的电子邮件的邮件内容类型步骤中,所述文本分类器包括:朴素贝叶斯文本分类器、支持向量计算法文本分类器或最小临近法文本分类器。

可选的,在通过预先设置的文本分类器获取待识别的电子邮件的邮件内容类型步骤之前,执行以下步骤:

将所述待识别的电子邮件进行预处理。

可选的,所述预处理包括以下处理方式中的至少一种:统一字符编码处理、去除噪声处理、分词处理、归一化处理。

可选的,所述获取所述邮件主题特征中的触发动作信息步骤中的触发动作信息包括:回复的邮件地址、电话、社交软件联系方式、银行卡信息、公司信息和/或网页链接符号。

可选的,当所述触发动作信息为网页链接符号时;

相应的,所述获取所述邮件主题特征中的邮件分类信息步骤之后,执行以下步骤:

判断所述网页链接符号对应的网址是否为常规网址;

若是,将该网址中的参数部分去除,形成的新网址记录为保留网址集;

若否,判断该网址是否为短网址;

当该网址为短网址时,将网址的域名部分保留形成的新网址记录为保留网址集;

将所述保留网址集中的网址与预设的白名单进行匹配,将所述保留网址集中与所述白名单中的信息相同的网址排除,形成新的保留网址集;

将所述新的保留网址集作为附加网页链接符号。

可选的,所述获取所述邮件主题特征中的触发动作信息步骤包括:

采用预设的模式匹配方法获取所述邮件主题特征中的触发动作信息。

可选的,所述预设的模式匹配方法包括正则表达式方法。

可选的,所述获取所述邮件主题特征中的附件信息步骤包括:

判断所述电子邮件中是否包含有附件;

若是,提取所述附件的后缀名作为所述附件信息。

可选的,当所述邮件特征为邮件形态特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件形态特征;

所述邮件形态特征的获取采用以下方式:

获取邮件文本类型信息;

获取邮件语言信息;

获取邮件字符编码信息;

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型。

可选的,当所述邮件特征为垃圾邮件疑似特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的垃圾邮件疑似特征;

所述垃圾邮件疑似特征的获取方式包括:

预先设置垃圾邮件的特征集合;

通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征;

若是,提取该相同特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

可选的,所述通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征步骤中的相同特征的获取来源包括:邮件信头、正文和/或html代码层面。

可选的,所述通过预设指纹生成方法将所述特征串信息生成为邮件指纹步骤中,所述预设指纹生成方法包括散列函数法。

可选的,所述将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时步骤包括:

判断所述邮件指纹与已有指纹是否相同或相似;

若是,判断所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异是否小于或者等于预设差异阈值;

当所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异小于或者等于预设差异阈值,则所述邮件指纹与已有指纹相匹配。

可选的,所述将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对步骤中,当所述邮件指纹与已有指纹不匹配时,执行以下步骤:

将所述邮件指纹作为新指纹增加至所述邮件指纹集合中;

增加对该新指纹对应的电子邮件的计数;

相应的,所述判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值步骤是:判断该新指纹对应的电子邮件的计数是否大于或等于预设阈值。

可选的,所述邮件特征还包括邮件标题主干;

相应的,所述提取待识别的电子邮件的邮件特征步骤包括:

提取所述待识别的电子邮件的标题;

将所述标题进行去噪和归一化处理,获取电子邮件的邮件标题主干。

可选的,在所述提取待识别的电子邮件的邮件特征步骤之前,执行以下步骤:

对待识别的电子邮件进行解码处理,获取所述待识别的电子邮件的用途标识信息。

本申请还提供一种识别垃圾邮件的装置,包括:

邮件特征提取单元,用于提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;

邮件指纹生成单元,用于将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹;

指纹比对单元,用于将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时,增加具有该邮件指纹的电子邮件计数;

判断单元,用于判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值;

垃圾邮件确定单元,用于当所述判断单元的判断结果为是,则所述待识别的电子邮件为垃圾邮件。

可选的,所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

可选的,当所述邮件特征为邮件主题特征时;

相应的,所述邮件特征提取单元包括:

邮件分类信息获取子单元,用于获取所述邮件主题特征中的邮件分类信息;或者,

触发动作信息获取子单元,用于获取所述邮件主题特征中的触发动作信息;所述触发动作信息表征引导做出进一步动作的信息;或者,

附件信息获取子单元,用于获取所述邮件主题特征中的附件信息。

可选的,还包括:

预处理单元,用于在提取待识别的电子邮件的邮件特征之前,将所述待识别的电子邮件进行预处理。

可选的,所述触发动作信息获取子单元具体用于采用预设的模式匹配方法获取所述邮件主题特征中的触发动作信息。

可选的,所述附件信息获取子单元包括:

附件判断子单元,用于判断所述电子邮件中是否包含有附件;

附件信息生成子单元,用于当所述判断子单元的判断结果为是时,提取所述附件的后缀名作为所述附件信息。

可选的,当所述邮件特征为邮件形态特征时;

相应的,所述邮件特征提取单元包括:

文本类型信息获取子单元,用于获取邮件文本类型信息;

语言信息获取子单元,用于获取邮件语言信息;

字符编码信息获取子单元,用于获取邮件字符编码信息;

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型。

可选的,当所述邮件特征为垃圾邮件疑似特征时;

相应的,所述邮件特征提取单元包括:

特征集合设置子单元,用于预先设置垃圾邮件的特征集合;

相同特征判断子单元,用于通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征;

垃圾邮件疑似信息生成子单元,用于当所述相同特征判断子单元的判断结果为是时,提取该相同特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

可选的,所述指纹比对单元包括:

指纹判断子单元,用于判断所述邮件指纹与已有指纹是否相同或相似;

邮件大小判断子单元,用于当所述指纹判断子单元的判断结果为是时,判断所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异是否小于或者等于预设差异阈值;

指纹匹配子单元,用于当所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异小于或者等于预设差异阈值,则所述邮件指纹与已有指纹相匹配。

可选的,所述指纹比对单元中当所述邮件指纹与已有指纹不匹配时,所述指纹对比单元还包括:

新指纹生成子单元,用于将所述邮件指纹作为新指纹增加至所述邮件指纹集合中;

邮件计数子单元,用于增加对该新指纹对应的电子邮件的计数;

邮件计数判断子单元,用于判断该新指纹对应的电子邮件的计数是否大于或等于预设阈值。

可选的,所述邮件特征还包括邮件标题主干;

相应的,所述邮件特征提取单元还包括:

标题提取子单元,用于提取所述待识别的电子邮件的标题;

标题主干获取子单元,用于将所述标题进行去噪和归一化处理,获取电子邮件的邮件标题主干。

本申请另外还提供一种用于垃圾邮件识别的邮件指纹生成方法,包括:

提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;

将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹。

可选的,所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

可选的,当所述邮件特征为邮件主题特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件主题特征;

所述邮件主题特征的获取采用以下方式:

获取所述邮件主题特征中的邮件分类信息;或者,

获取所述邮件主题特征中的触发动作信息;所述触发动作信息表征引导做出进一步动作的信息;或者,

获取所述邮件主题特征中的附件信息。

可选的,所述获取所述邮件主题特征中的邮件分类信息步骤中,获取邮件分类信息的方式包括:

通过预先设置的文本分类器获取待识别的电子邮件的邮件内容类型,将所述邮件内容类型作为所述邮件主题特征中的邮件分类信息。

可选的,所述通过预先训练的文本分类器获取待识别的电子邮件的邮件内容类型步骤中,所述文本分类器包括:朴素贝叶斯文本分类器、支持向量计算法文本分类器或最小临近法文本分类器。

可选的,所述获取所述邮件主题特征中的触发动作信息步骤中的触发动作信息包括:回复的邮件地址、电话、社交软件联系方式、银行卡信息、公司信息和/或网页链接符号。

可选的,当所述触发动作信息为网页链接符号时;

相应的,所述获取所述邮件主题特征中的邮件分类信息步骤之后,执行以下步骤:

判断所述网页链接符号对应的网址是否为常规网址;

若是,将该网址中的参数部分去除,形成的新网址记录为保留网址集;

若否,判断该网址是否为短网址;

当该网址为短网址时,将网址的域名部分保留形成的新网址记录为保留网址集;

将所述保留网址集中的网址与预设的白名单进行匹配,将所述保留网址集中与所述白名单中的信息相同的网址排除,形成新的保留网址集;

将所述新的保留网址集作为附加网页链接符号。

可选的,所述获取所述邮件主题特征中的触发动作信息步骤包括:

采用预设的模式匹配方法获取所述邮件主题特征中的触发动作信息。

可选的,所述获取所述邮件主题特征中的附件信息步骤包括:

判断所述电子邮件中是否包含有附件;

若是,提取所述附件的后缀名作为所述附件信息。

可选的,当所述邮件特征为邮件形态特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件形态特征;

所述邮件形态特征的获取采用以下方式:

获取邮件文本类型信息;

获取邮件语言信息;

获取邮件字符编码信息;

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型。

可选的,当所述邮件特征为垃圾邮件疑似特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的垃圾邮件疑似特征;

所述垃圾邮件疑似特征的获取方式包括:

预先设置垃圾邮件的特征集合;

通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征;

若是,提取该相同特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

可选的,所述通过预设指纹生成方法将所述特征串信息生成为邮件指纹步骤中,所述预设指纹生成方法包括散列函数法。

本申请还提供一种用于垃圾邮件识别的邮件指纹生成装置,包括:

邮件特征提取单元,用于提取待识别的电子邮件的邮件特征;所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征;

邮件指纹生成单元,用于将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹。

与现有技术相比,本申请具有以下优点:

本申请提供一种识别垃圾邮件的方法,该方法包括:提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹;将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时,增加具有该邮件指纹的电子邮件计数;判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值;若是,则所述待识别的电子邮件为垃圾邮件。采用该方法对垃圾邮件的识别不是单单依赖于邮件文本,而是基于提炼出来的相对稳定的邮件特征(可以包括主题特征、邮件形态特征和垃圾邮件疑似特征等)来形成特征串信息,以特征串信息可以作为预设指纹生成方法的输入,从而生成邮件指纹。进 一步的,利用该邮件指纹从已有的邮件指纹集合中判断出邮件指纹与已有指纹相匹配的相似邮件,并通过相似邮件的计数来判断该待识别的电子邮件是否具有群发垃圾邮件的嫌疑。因此,采用该方法对垃圾邮件的识别能够更好识别、捕捉那些虽然邮件文本不断变化,但内容相似的同一类垃圾邮件,从而可以提高垃圾邮件的识别的准确性。

附图说明

图1是本申请第一实施例提供的一种识别垃圾邮件的方法的流程图。

图2是本申请第一实施例提供的识别垃圾邮件的一种优选方法的流程图。

图3是本申请第二实施例提供的一种识别垃圾邮件的装置的结构示意图。

图4是本申请第三实施例提供的一种用于垃圾邮件识别的邮件指纹生成方法的流程图。

图5是本申请第四实施例提供的一种用于垃圾邮件识别的邮件指纹生成装置的结构示意图。

具体实施方式

本申请第一实施例提供一种识别垃圾邮件的方法,该方法是通过对待识别的电子邮件中一些相对稳定的特征进行收集,并将收集的特征集合,根据预设的指纹生成方法将收集到的稳定的特征集合形成邮件指纹,并根据邮件指纹进行邮件相似性的判断,进而识别待识别的电子邮件是否为垃圾邮件。该方法不是单纯的依赖于比较不稳定的邮件文本特征,而是对收集的所有稳定的特征进行分析后判断获知待识别的电子邮件是否为垃圾邮件。

以下通过具体的实施例对该方法进行说明和描述。图1是本申请第一实施例提供的一种识别垃圾邮件的方法的流程图,请参照图1,该识别垃圾邮件的方法包括以下步骤:

步骤s101,提取待识别的电子邮件的邮件特征。所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征。

所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

所述邮件特征属于从邮件中提取的比较稳定的特征,同样该邮件特征也可 以最大程度上体现该电子邮件的特性或属性。由于该方法中主要是对该邮件特征进行相应的处理,甚至可以定义为判断待识别的电子邮件是否为垃圾邮件的原始根据,因此,提取所述待识别的电子邮件的邮件特征至关重要。

但是,在提取所述邮件特征之前,一般是需要对该待识别的电子邮件进行解析。

通过对电子邮件的解析,可以获得所述待识别的电子邮件的用途标识信息。如果电子邮件是mime格式的,所述电子邮件的解析的方法可以采用mime解码方式进行解析,而对电子邮件的mime解码的过程,实际是通过获知mime各个域的内容,以挑选出对电子邮件分类等有用的内容。因此,可以理解为,经过解析后的获得的电子邮件的用途标识信息是,去掉电子邮件在发送或者接收中添加的信息等一些没有实质用处的信息,剩余一些对体现电子邮件特性和实际内容的信息。

将所述待识别的电子邮件解析后,相应的,所述提取待识别的电子邮件的邮件特征是:从所述电子邮件中提取所述邮件特征。

此外,对所述电子邮件的解析也可以采用其他的方式或方法,因此,该解析方式不仅限于mime解码方式,任何可以将电子邮件进行解码的方式均属于本申请保护范围。

由于提取的所述邮件特征是本申请提供的方法的重要环节,并且,所述邮件特征包括:邮件主题特征、邮件形态特征和垃圾邮件疑似特征,因此,以下分别对邮件特征中存在的上述特征的提取方式进行详细的说明和描述。

以下主要是对所述邮件特征中的邮件主题特征的提取进行的说明。

当所述邮件特征为邮件主题特征时,相应的,所述提取待识别的电子邮件的邮件特征是,提取待识别的电子邮件的邮件主题特征。

所述邮件主题特征的获取采用以下方式:

获取所述邮件主题特征中的邮件分类信息。

获取所述邮件主题特征中的触发动作信息,所述触发动作信息表征引导做出进一步动作的信息。

获取所述邮件主题特征中的附件信息。

因此,可以获知,所述邮件主题特征其实还包括以下三个信息:邮件分类信息、触发动作信息和附件信息。所述邮件主题特征可以是包含上述三个信息, 也可以是任意两个信息的组合,也可以是任意的一个信息。但是,根据信息或特征越多,其作为判断依据就越稳定,判断的结果也就越精准,因此,所述邮件主题特征同时包含上述三个信息时可以为本申请的优选方案。

以下分别对上述三个信息的获取方法进行说明。

首先是获取邮件主题特征中的邮件分类信息。该邮件分类信息主要是指针对垃圾邮件,按照垃圾邮件的内容类型分出的类别信息。例如,常见的垃圾邮件根据内容类型分类可分为的类别为:开发票类,交友类,培训课程类等,该邮件分类信息即是判断该电子邮件的内容类型是否属于该垃圾邮件的常见分类中。

具体的,所述邮件分类信息的获取方式如下:

通过预先设置的文本分类器获取待识别的电子邮件的邮件内容类型,将所述邮件内容类型作为所述邮件主题特征中的邮件分类信息。

所述文本分类器是根据文本的特征,将文本识别为哪一类的分类器。通过文本分类器即可分出该电子邮件的邮件内容类型,因此,该电子邮件类型可以作为所述邮件分类信息。

该实施例中可对所述文本分类器进行简单的说明,所述文本分类器可以包括:朴素贝叶斯文本分类器、支持向量计算法文本分类器或最小临近法文本分类器。

所述朴素贝叶斯文本分类器是根据朴素贝叶斯算法进行文本分类的,所述支持向量计算法文本分类器是根据向量计算法对文本进行分类的,所述最小临近法文本分类器是根据最小临近法对文本进行分类的。虽然上述采用的文本分类器不同,但其根本的目的是将所述待识别的电子邮件进行内容类型的分类,因此,不管是采用何种文本分类器,均可获得所述邮件分类信息。

此外,如果所述邮件分类信息中的内容类型不在已有的内容分类中,可以通过其他方式进行新分类的训练,具体的实现方式如下:

如果某个文本不属于已知任何分类,则直接利用取核心文本(如用tf-idf提取出的核心词)作为当前分类信息。

实际上,垃圾邮件虽然层出不穷,但是常见的垃圾邮件的内容类型则是相对比较稳定的,因此,一般不需要通过获取核心文本并进行离线训练的方式增加新的类型。

以上是对获取所述邮件主题特征中的如何提取邮件分类信息进行的说明,以下对获取所述邮件主题特征中的触发动作信息进行说明。

所述获取所述邮件主题特征中的触发动作信息步骤中的触发动作信息包括:回复的邮件地址、电话、社交软件联系方式、银行卡信息、公司信息和/或网页链接符号。

所述触发动作信息是指,邮件发送者希望接收者的读信的人可以产生后续的动作的相关信息,发送者通过在邮件中设置该触发动作信息,以引导收件人对该相关信息进行回复,则发送者即可接收到收件人相关的信息,这属于垃圾邮件的惯用手段。所述触发动作信息一般为该触发动作信息可以是让接收者回复发件人的邮件地址、电话、qq号码、银行卡号、公司名称等信息。

上述触发动作信息一般采用预设的模式匹配方法获取或提取的。

具体的,所述模式匹配方法一般为正则表达式方法。该正则表达式是,使用单个字符串来描述和匹配一系列符合某个句法规则的字符串,在文本编辑器中,正则表达式通常被用来检索,替换那些符合某个模式的文本。

例如,可以通过正则表达式来匹配和提取某些电话号码,具体的,可以设置\b\d{3,4}-\d{7,8}\b这样的表达式来匹配文本电话号码诸如010-12345678。

在该步骤中,根据所述正则表达式中设定的规则,提取符合该设定的规定的一些文本特征,因此,通过所述正则表达式可以提取和获知所述触发动作信息。

另外,所述触发动作信息还包括网页链接符号,即url链接。针对url链接,根据该链接对应的网址的长短不同,可通过不同的方法获取其相应的网页连接符号信息。

具体的,判断所述网页链接符号对应的网址是否为常规网址,若是,将该网址中的参数部分去除,形成的新网址记录为保留网址集。

判断所述网页链接符号对应的网址是否为常规网址的判断结果为否时,需要进一步判断该网址是否为短网址。

当该网址为短网址时,将网址的域名部分保留形成的新网址记录为保留网址集。

将所述保留网址集中的网址与预设的白名单进行匹配,将所述保留网址集中与所述白名单中的信息相同的网址排除,形成新的保留网址集。

将所述新的保留网址集作为附加网页链接符号。

也就是说,如果是短网址的话,只保留域名部分,如果是常规网址的话,通常应该去除参数部分,之后再将上述提取到的信息,进行白名单过滤,排除例如白名单中的信息。例如,可以排除信用度好的知名网站的网址信息。

以上是提取所述触发动作信息的过程,以下对所述获取邮件主题特征中附件信息进行说明。

具体的,所述获取所述邮件主题特征中的附件信息步骤包括:

判断所述电子邮件中是否包含有附件。

有些垃圾邮件中具有附件,并且垃圾邮件中的附件具有一定共性特征,因此可以根据电子邮件中的附件作为一个甄别的特征,所以,可以对待识别的电子邮件进行附件检测和判断,判断电子邮件中是否有附件。其具体的检测和判断方法在此不做具体的介绍和说明。

当判断所述电子邮件中是否包含有附件步骤中判断结果为是时,提取所述附件的后缀名作为所述附件信息。

由于一般同一批的垃圾邮件中的附件的后缀名具有一定的共性,例如,一般后缀名为.zip格式。因此,可以将附件的后缀名作为一个特征例如所述附件信息中,由于附件的后缀名几乎相同或相似,因此,附件后缀名可以是垃圾邮件的判断的其中一个特征,所以所述附件信息中包含有该附件的后缀名。

此外,可能垃圾邮件的附件大小也存在一定的共同特点,例如,垃圾邮件的附件大小一般相差不大,甚至会存在垃圾邮件的附件大小是相同的,因此,也可以将附件的大小作为一个校验的特征增加至所述附件信息中。

因此,所述附件信息不仅限于附件的后缀名,也可以是其他的垃圾邮件的附件具有共性的特征或者信息,所以,垃圾邮件的附件具有的共性特征均可以作为所述附件信息。

由于上述也介绍过,在提取邮件特征之前可以先对待识别的电子邮件进行mime解码,获得真正有用途的电子邮件特征和信息。在对电子邮件解析或解码之后,在获取所述邮件特征中的邮件分类信息之前,可以先对解析后的电子邮件进行进一步的预处理。

具体的,将所述待识别的电子邮件进行预处理。通过对电子邮件进行预处理之后,可以将所述电子邮件中的一些噪音信息等去除,并且可以统一字符编 码以及对电子邮件的文本信息进行分词或归一化,以方便后续步骤中提取的电子邮件的相关信息的规范化。

所述预处理过程和预处理方式如下:统一字符编码处理、去除噪声处理、分词处理、归一化处理。

所述统一字符编码处理,是将电子邮件的字符编码统一为采用utf8的格式进行编码。

所述去除噪声、分词处理和归一化处理都是为了将电子邮件中的相关信息进行统一化处理的过程,以便在后续步骤中提取的信息具有标准化和统一化,方便进行特征信息的处理。

具体的,所述去除噪声处理,是指在一些垃圾邮件中故意插入的无意义的干扰垃圾邮件识别的字符,如:我*(*···去&#上海,这样的句式,所述去除噪声处理就是将一些无意义的符号去掉,最后获得我去上海这句话。

所述分词处理是将文本内容切分成一个个独立的词,比如:我去上海,这句话可以分成:我去上海三个独立的词。

所述归一化处理通常用于单词类的处理方法,例如将find和found都统一为find。

以上是介绍的提取的待识别的电子邮件的邮件特征中邮件主题特征,该邮件主题特征的提取和获得之后可以形成邮件主题特征的特征串,所述邮件主题特征的特征串可以为邮件特征对应的特征串信息的一部分。

以下介绍获取邮件特征中邮件形态特征部分。

所述邮件形态特征部分也包含有多类信息。具体的该邮件形态特征包含有信息包括:邮件文本类型信息、邮件语言信息以及邮件字符编码信息。

具体的,所述邮件形态特征的获取采用以下方式:获取邮件文本类型信息;获取邮件语言信息;获取邮件字符编码信息。

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型等,所述图片类型是指,电子邮件的内容以图片的方式展现。上述举例说明的几种文本类型信息中的类型是电子邮件中文本展现的基本和常见类型,因此,可将该几种常见的类型作为电子邮件的特征进行提取和获得。

所述邮件语言信息包括多种语言,例如:常用的语言一般为中文、英文等。

所述邮件字符编码信息一般是指,邮件字符的编码方式,例如,常用的编码方式一般为uft8格式或big5格式,该uft8格式是针对unicode的可变长度字符编码,所述big5格式是通用语台湾或香港地区的繁体字编码格式。

另外,所述邮件形态特征除了获取的上述三种信息外,还可以获取邮件大小信息,该邮件大小信息不需要形成特征串信息,而仅作为后续步骤中一个比对特征存在。因此,此处的所述邮件形态特征也报刊邮件大小信息。

以上是对所述邮件形态特征获取的介绍,以下,针对提取所述邮件特征中垃圾邮件疑似特征部分进行介绍和说明。

所述垃圾邮件疑似特征是指,在长期收集垃圾邮件过程中,可以获知垃圾邮件一般具有一些常见或常用的特征,该特征一出现,则可初步认为该邮件具有垃圾邮件的嫌疑,因此,将已经获知的垃圾邮件常有的一些特征作为判断某一电子邮件是否为垃圾邮件的依据,而垃圾邮件常有的一些特征可称为是疑似特征。

具体的,所述提取待识别的电子邮件的邮件特征步骤是提取待识别的电子邮件的垃圾邮件疑似特征。

相应的,所述垃圾邮件疑似特征的获取方式包括:

预先设置垃圾邮件的特征集合。

该特征集合即为上述提及的垃圾邮件一般具有的一些共性的特征的集合,将上述垃圾邮件的共性特征整理为一个特征集合中,后续步骤中可以提取待识别的电子邮件中的与该特征集合中相应的一些特征。

通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征。

该步骤主要是通过模式匹配模型判断某一电子邮件中是否具有与所述特征集合中的相应的特征,因为所述特征集合中的特征一般都是垃圾邮件具有的共性特征,因此,将该特征集合作为提取待识别的电子邮件中的特征的一个依据和参考。

当待识别的电子邮件中有该特征集合中的特征时,可以提取该特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

当待识别的电子邮件中有与所述特征集合中的特征时,说明该电子邮件具有垃圾邮件的可能性很大,因此,必须将与所述特征集合中的相同特征作为该 电子邮件的垃圾邮件疑似特征,并以该垃圾邮件作为验证待识别的电子邮件是否为垃圾邮件的依据和参考特征。

例如,各类常见于垃圾邮件中的特征有:一些垃圾邮件经常把fromheader的username设置为和to接收人相同或者相似,这便是一种垃圾邮件的共性特征。

此外,该相同特征的获取来源一般包括:邮件信头、正文、html代码层面。即,在邮件信头部分、正文部分、html代码层面上最常具有垃圾邮件的共性特征,从上述各部分最容易获得垃圾邮件疑似特征。

此外,所述邮件特征还可以包括邮件标题主干。因为针对很多类似的垃圾邮件,虽然邮件文本不断变化,但是标题的变化却很小,因此,也可以将邮件标题主干作为所述邮件特征。

相应的,所述提取待识别的电子邮件的邮件特征步骤包括:

提取所述待识别的电子邮件的标题。提取该电子邮件的标题之后,可以将所述标题进行去噪和归一化处理,获取电子邮件的邮件标题主干。

以上,是通过各种方法提取所述邮件特征的过程,将所述邮件特征作为后续步骤中判断依据。

步骤s102,将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹。

上述步骤中获取了待识别的电子邮件的邮件特征,而该邮件特征包含有多个特征,将该邮件特征中包含的多个特征进行集合,并形成特征串信息,因此,每一个待识别的电子邮件将对应其相应的特征串信息,该特征串信息体现的是该待识别的电子邮件的一些主要特征,该特征是比较稳定的,即使某一垃圾邮件的文本内容进行了变换了,但经过上述方法获取的该垃圾邮件的邮件特征在一定程度上仍然能够反映该垃圾邮件具有的一般垃圾邮件具有的特性,因此,从这一角度看,上述步骤中提取的所述邮件特征是相对稳定的,不会随着邮件文本的变化而产生较大的变动。

因此,所述生成的特征串信息是可以体现待识别的电子邮件的相关主要特征的。

通过预设的指纹生成方法将所述特征串信息生成为邮件指纹,所述预设指纹生成方法一般采用的散列函数法。

所述散列函数一般也称为哈希函数(hash),是指把任意长度的输入(预映 射)通过散列算法,变换成固定长度的输出,该输出值为散列值。例如,md5散列函数。

将所述特征信息通过所述散列函数,可以形成所述邮件指纹,所述邮件指纹是能够代表一封或者一类电子邮件的数字串。

通过上述方法形成的邮件指纹,由于输入的特征串信息是比较稳定的特征信息,不会根据电子邮件文本的形式变化而产生大的变化,因此,以所述特征串信息为依据形成的邮件指纹在一定程度上也是稳定的,该邮件指纹可以作为判断某些电子邮件之间是否具有相似特征。

以下步骤将以所述邮件指纹为依据判断某些邮件是否为相似邮件,并且根据是否相似进一步判断某些邮件是否为垃圾邮件。

步骤s103,将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时,增加具有该邮件指纹的电子邮件计数。

该步骤中的预先设定的邮件指纹集合是指通过上述步骤可以确定每个电子邮件所对应的邮件指纹,而将该邮件指纹对应其相应的电子邮件,并将该邮件指纹以及与其相应的电子邮件的对应关系均存储在所述邮件指纹集合中,经过一段时间的收集和训练,可以获得由多个邮件指纹以及每个邮件指纹对应的电子邮件,以及具有相同邮件指纹的电子邮件的数量。所以,在预先设定的邮件指纹集合中的已有指纹是经过预先训练出并存储在所述邮件指纹集合中的,该已有指纹是用于与待识别的电子邮件的邮件指纹进行对比的,其具体的对比方式及对比结果判断通过以下的描述进行说明。

具体的,所述将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时步骤包括:

判断所述邮件指纹与已有指纹是否相同或相似。

该步骤是从所述邮件指纹集合中查找是否存在与生成的邮件指纹有相似或相同的已有指纹,如果生成的邮件指纹与所述邮件指纹集合中的某个已有指纹相同或者相似时,说明该生成的邮件指纹已经存入过所述邮件指纹集合,并且在该邮件指纹集合中该指纹对应的电子邮件具有一定的数量记录。如果在所述邮件指纹集合中未找到与生成的邮件指纹相同或者相似的已有指纹,则说明所述生成的邮件指纹与所述已有指纹不匹配。

此步骤中的邮件指纹与已有指纹是否相同或相似的判断方式可根据邮件指纹生成的方法的不同而有所不同。另外,由于邮件指纹是一组数字串,因此,可以根据两组数字串相应位置的字符是否相同来比较两者是否相同或相似。

例如,采用md5函数生成的邮件指纹,其仅可以用来进行相同方式的比较,因此,如果采用md5函数生成邮件指纹,则将邮件指纹与邮件指纹集合中的已有指纹进行比较时,只能比对出在邮件指纹集合中是否有完全相同的指纹,而不能进行相似的指纹的集合的比对。

但是,若采用simhash函数算法生成的邮件指纹,其可以进行两组指纹是否相似的特征的比对。

当上述判断所述邮件指纹与已有指纹是否相同或相似的判断结果为是时,还需要再次判断所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异是否小于或者等于预设差异阈值。

一般情况下,同一批发出的垃圾邮件的邮件大小是相同或相似的,因此,为了更准确的判断两个邮件是否相似,需要再对邮件的大小这一特征进行判断。另外,可能存在内容不同但指纹相同或相似的情况,但这样概率很小。该邮件的大小这一特征可以在提取电子邮件的邮件形态特征的过程中获取,提取的邮件大小信息已经在上述步骤中介绍过,在此不再详细的描述,此处即需要将该获取的邮件大小信息作为比对的基础。

当所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异小于或者等于预设差异阈值,则所述邮件指纹与已有指纹相匹配。

当邮件指纹与已有指纹相同或相似,且两者的邮件大小相同或者相似,则说明两个电子邮件为相似邮件,所述邮件指纹与已有指纹相匹配。

两封电子邮件大小的判断的方法是,预先设定一个差异阈值,该差异阈值一般设定为+1%或者-1%,两个邮件的大小差异不超过1%。该数值是根据经验获得的,该数值也可以具体情况进行相应的设置。

此外,当所述邮件指纹与已有指纹不匹配时,说明在所述邮件指纹集合中并没有与所述邮件指纹相同或者相似的指纹记录,因此,需要将生成的邮件指纹作为新指纹记录及该新指纹对应的邮件大小在所述邮件指纹集合中,以方便后续识别中应用。因此,在当所述邮件指纹与已有指纹不匹配时,应该执行以下步骤:

将所述邮件指纹作为新指纹增加至所述邮件指纹集合中。

首先将生成的邮件指纹作为新指纹增加至所述邮件指纹集合中,使得所述邮件指纹集合中的指纹更加丰富,也方便在后续的电子邮件识别时作为已有指纹与该后续生成的邮件指纹进行比对。

将所述新指纹增加至所述邮件指纹集合中之后,需要增加对该新指纹对应的电子邮件的计数。

由于所述邮件指纹集合中的每个指纹都对应有相应的电子邮件的数量,因此,将该新指纹增加至所述邮件指纹集合中时,也需要将该新指纹对应的电子邮件数量进行记录,该新指纹对应的电子邮件数量从1开始计数,并依次类推。

步骤s104,判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值,当判断结果为是时,执行步骤s105。

该步骤可根据邮件指纹是否与已有指纹相匹配进行分别讨论。

当邮件指纹与已有指纹相匹配时,说明在邮件指纹集合中有该邮件指纹,并且该邮件指纹集合中还记录有该邮件指纹累计的电子邮件的数量,因此,在原来电子邮件的数量的基础上,增加该邮件指纹对应的电子邮件的计数,最后判断该电子邮件对应的电子邮件的计数是否大于或者等于预设的阈值,当判断出该邮件指纹对应的电子邮件的数量超过预设的阈值时,则说明该电子邮件具有群发垃圾邮件的嫌疑,也可认定该电子邮件为垃圾邮件。

而针对邮件指纹与已有指纹不匹配时,所述邮件指纹将作为新指纹存入所述邮件指纹集合中,相应的,将该新指纹对应的电子邮件数量进行记录,之后判断该新指纹对应的电子邮件的计数是否大于或等于预设阈值,当经过一段时间累计之后,可能该新指纹对应的电子邮件的数量会超过预设的阈值,此时,也可以说明该新指纹对应的电子邮件具有群发垃圾邮件的嫌疑,也可认定该电子邮件为垃圾邮件。

所述预设阈值可以设定为300,该预设阈值的设定是根据实际的经验获得的,因此,该预设阈值的具体数值可根据实际情况进行不同的设定。

步骤s105,所述待识别的电子邮件为垃圾邮件。

上述步骤s104已经部分介绍了该步骤的相应内容,当判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值的判断结果为是时,说明该待识别的电子邮件为垃圾邮件。

因此,采用上述方法判断某些电子邮件是否为垃圾邮件时,不是单单依赖于邮件文本,而是基于提炼出来的相对稳定的邮件特征作为依据,进行判断该邮件是否为垃圾邮件,因此,采用该方法对垃圾邮件的识别能够更好识别、捕捉那些虽然邮件文本不断变化,但内容相似的同一类垃圾邮件,从而可以提高垃圾邮件的识别的准确性。

此外,通过一个具体的优选的实施例对该方法进行详细的说明,图2是本申请第一实施例提供的识别垃圾邮件的一种优选方法的流程图。请参照图2该优选的方案具体进行如下说明:

当接收到待识别的电子邮件之后,首先对该电子邮件进行mime解码,解码之后再对该解码后的邮件文本进行预处理操作,经过预处理之后,是提取邮件主题特征的过程,其具体的提取方式是,通过文本分类模型或者文本分类器对邮件的内容类型进行识别,之后再通过模式匹配方法提取电子邮件的触发动作信息,之后再提取电子邮件的附件信息,以上将完成邮件主题特征的提取,以下再提取电子邮件的邮件形态特征,以及采用模式匹配方法提取垃圾邮件疑似特征,最后将上述提取的邮件主题特征、邮件形态特征和垃圾邮件疑似特征作为邮件特征形成特征串信息,即形成特征串文本,将该特征串文本作为输入至散列函数中,计算获取邮件指纹。

获取该邮件指纹之后,需要判断该邮件指纹与已有指纹是否相似,若是,则再判断该邮件指纹对应的邮件的大小是否与已有指纹对应的邮件的大小相近,当两个邮件大小相近时,则增加该邮件指纹对应的邮件的计数。当该邮件指纹对应的电子邮件的计数没有超出预设的阈值时,则说明该电子邮件不是垃圾邮件,得出检查通过的结论;当该邮件指纹对应的电子邮件的计数超出预设的阈值时,则可以判断出该邮件指纹对应的待识别的电子邮件为群发的垃圾邮件。

相应的,若判断生成的邮件指纹与已有指纹不相似时;或者即使生成的邮件指纹与已有的指纹相似,但邮件指纹对应的邮件大小与已有指纹对应的邮件大小不相近(相差较大)时,则说明在所述邮件指纹集合中不存在该邮件指纹,因此,可以将该邮件指纹作为新指纹添加到邮件指纹集合中,并相应的对该新指纹对应的电子邮件增加计数,同时保持该新指纹的邮件大小。当该指纹对应的电子邮件的计数没有超出预设的阈值时,则说明该电子邮件不是垃圾邮件,得出检查通过的结论;当该新指纹对应的电子邮件数量超过预设的阈值时,则也可以说明该新纹对应的电子邮件为垃圾邮件。

本申请第二实施例还提供一种识别垃圾邮件的装置,该装置与第一实施例的方法具有对应关系,图3是本申请第二实施例提供的识别垃圾邮件的装置的结构示意图,请参照图3,该装置包括:

邮件特征提取单元301,用于提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;

邮件指纹生成单元302,用于将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹;

指纹比对单元303,用于将生成的所述邮件指纹与预先设定的邮件指纹集合中的已有指纹进行比对,当所述邮件指纹与已有指纹相匹配时,增加具有该邮件指纹的电子邮件计数;

判断单元304,用于判断具有该邮件指纹的电子邮件计数是否大于或者等于预设阈值;

垃圾邮件确定单元305,用于当所述判断单元的判断结果为是,则所述待识别的电子邮件为垃圾邮件。

优选的,所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

优选的,当所述邮件特征为邮件主题特征时;

相应的,所述邮件特征提取单元包括:

邮件分类信息获取子单元,用于获取所述邮件主题特征中的邮件分类信息;或者,

触发动作信息获取子单元,用于获取所述邮件主题特征中的触发动作信息;所述触发动作信息表征引导做出进一步动作的信息;或者,

附件信息获取子单元,用于获取所述邮件主题特征中的附件信息。

优选的,还包括:

预处理单元,用于在提取待识别的电子邮件的邮件特征之前,将所述待识别的电子邮件进行预处理。

优选的,所述触发动作信息获取子单元具体用于采用预设的模式匹配方法获取所述邮件主题特征中的触发动作信息。

优选的,所述附件信息获取子单元包括:

附件判断子单元,用于判断所述电子邮件中是否包含有附件;

附件信息生成子单元,用于当所述判断子单元的判断结果为是时,提取所述附件的后缀名作为所述附件信息。

优选的,当所述邮件特征为邮件形态特征时;

相应的,所述邮件特征提取单元包括:

文本类型信息获取子单元,用于获取邮件文本类型信息;

语言信息获取子单元,用于获取邮件语言信息;

字符编码信息获取子单元,用于获取邮件字符编码信息;

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型。

优选的,当所述邮件特征为垃圾邮件疑似特征时;

相应的,所述邮件特征提取单元包括:

特征集合设置子单元,用于预先设置垃圾邮件的特征集合;

相同特征判断子单元,用于通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征;

垃圾邮件疑似信息生成子单元,用于当所述相同特征判断子单元的判断结果为是时,提取该相同特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

优选的,所述指纹比对单元包括:

指纹判断子单元,用于判断所述邮件指纹与已有指纹是否相同或相似;

邮件大小判断子单元,用于当所述指纹判断子单元的判断结果为是时,判断所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异是否小于或者等于预设差异阈值;

指纹匹配子单元,用于当所述待识别的电子邮件的大小与已有指纹对应的邮件的大小之间的差异小于或者等于预设差异阈值,则所述邮件指纹与已有指纹相匹配。

优选的,所述指纹比对单元中当所述邮件指纹与已有指纹不匹配时,所述指纹对比单元还包括:

新指纹生成子单元,用于将所述邮件指纹作为新指纹增加至所述邮件指纹集合中;

邮件计数子单元,用于增加对该新指纹对应的电子邮件的计数;

邮件计数判断子单元,用于判断该新指纹对应的电子邮件的计数是否大于或等于预设阈值。

优选的,所述邮件特征还包括邮件标题主干;

相应的,所述邮件特征提取单元还包括:

标题提取子单元,用于提取所述待识别的电子邮件的标题;

标题主干获取子单元,用于将所述标题进行去噪和归一化处理,获取电子邮件的邮件标题主干。

本申请第三实施例还提供一种用于垃圾邮件识别的邮件指纹生成方法,图4是本申请第三实施例提供的一种用于垃圾邮件识别的邮件指纹生成方法的流程图。请参照图4,该邮件指纹生成方法包括:

步骤s401,提取待识别的电子邮件的邮件特征;所述邮件特征用于表征从电子邮件中提取出的具有稳定特性的特征;

步骤s402,将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹。

优选的,所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征。

优选的,当所述邮件特征为邮件主题特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件主题特征;

所述邮件主题特征的获取采用以下方式:

获取所述邮件主题特征中的邮件分类信息;或者,

获取所述邮件主题特征中的触发动作信息;所述触发动作信息表征引导做出进一步动作的信息;或者,

获取所述邮件主题特征中的附件信息。

优选的,所述获取所述邮件主题特征中的邮件分类信息步骤中,获取邮件分类信息的方式包括:

通过预先设置的文本分类器获取待识别的电子邮件的邮件内容类型,将所述邮件内容类型作为所述邮件主题特征中的邮件分类信息。

优选的,所述通过预先训练的文本分类器获取待识别的电子邮件的邮件内 容类型步骤中,所述文本分类器包括:朴素贝叶斯文本分类器、支持向量计算法文本分类器或最小临近法文本分类器。

优选的,所述获取所述邮件主题特征中的邮件分类信息步骤中,获取邮件分类信息的方式包括:

通过预设文本筛选方法从待识别的电子邮件的邮件内容中获取核心文本;

通过离线数据库对所述核心文本进行训练;

判断经过训练后所述核心文本是否符合新分类特征生成条件;

若是,将所述核心文本作为所述邮件主题特征中的邮件分类信息。

优选的,所述获取所述邮件主题特征中的触发动作信息步骤中的触发动作信息包括:回复的邮件地址、电话、社交软件联系方式、银行卡信息、公司信息和/或网页链接符号。

优选的,当所述触发动作信息为网页链接符号时;

相应的,所述获取所述邮件主题特征中的邮件分类信息步骤之后,执行以下步骤:

判断所述网页链接符号对应的网址是否为常规网址;

若是,将该网址中的参数部分去除,形成的新网址记录为保留网址集;

若否,判断该网址是否为短网址;

当该网址为短网址时,将网址的域名部分保留形成的新网址记录为保留网址集;

将所述保留网址集中的网址与预设的白名单进行匹配,将所述保留网址集中与所述白名单中的信息相同的网址排除,形成新的保留网址集;

将所述新的保留网址集作为附加网页链接符号。

优选的,所述获取所述邮件主题特征中的触发动作信息步骤包括:

采用预设的模式匹配方法获取所述邮件主题特征中的触发动作信息。

优选的,所述获取所述邮件主题特征中的附件信息步骤包括:

判断所述电子邮件中是否包含有附件;

若是,提取所述附件的后缀名作为所述附件信息。

优选的,当所述邮件特征为邮件形态特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的邮件形态特征;

所述邮件形态特征的获取采用以下方式:

获取邮件文本类型信息;

获取邮件语言信息;

获取邮件字符编码信息;

其中,所述文本类型信息包括:纯文本类型、html类型和/或图片类型。

优选的,当所述邮件特征为垃圾邮件疑似特征时;

相应的,所述提取待识别的电子邮件的邮件特征步骤是,提取待识别的电子邮件的垃圾邮件疑似特征;

所述垃圾邮件疑似特征的获取方式包括:

预先设置垃圾邮件的特征集合;

通过模式匹配模型判断所述待识别的电子邮件中是否具有与所述垃圾邮件的特征集合中的特征相同的特征;

若是,提取该相同特征作为所述待识别的电子邮件的垃圾邮件疑似特征。

优选的,所述通过预设指纹生成方法将所述特征串信息生成为邮件指纹步骤中,所述预设指纹生成方法包括散列函数法。

上述邮件指纹的生成方法与第一实施例中的邮件指纹生成方法是相对应的,因此,该第三实施例的具体方法请参照本申请的第一实施例。

本申请第四实施例还提供一种用于垃圾邮件识别的邮件指纹生成装置,图5是本申请第四实施例提供的一种用于垃圾邮件识别的邮件指纹生成装置的结构示意图,请参照图5,该装置包括:

邮件特征提取单元501,用于提取待识别的电子邮件的邮件特征;所述邮件特征包括:邮件主题特征、邮件形态特征和/或垃圾邮件疑似特征;

邮件指纹生成单元502,用于将所述邮件特征生成为特征串信息,通过预设指纹生成方法将所述特征串信息生成为邮件指纹。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1