一种垃圾邮件的识别方法、装置以及电子设备与流程

文档序号:15281476发布日期:2018-08-28 23:35阅读:226来源:国知局

本申请涉及垃圾邮件识别技术领域,具体涉及一种垃圾邮件的识别方法。本申请同时涉及一种垃圾邮件的识别装置,以及一种电子设备。



背景技术:

随着网络技术的发展,在用户的工作和生活当中使用电子邮件变的越来越频繁,然而,用户经常会收到各种各样的垃圾邮件,并且需要辨别哪些邮件是正常邮件、哪些邮件是垃圾邮件,给用户工作和生活带来困扰。

目前,针对垃圾邮件的识别,通过收集大量的垃圾邮件和正常邮件作为样本邮件,并根据样本邮件分词后获得的词条在样本邮件当中的数目建立样本词条库;当用户有邮件需要识别时,对当前邮件的邮件主题和邮件内容进行分词,并统计分词获得的词条在样本词条库中出现的次数,根据统计得到的分词获得的词条在样本词条库中出现的次数,利用贝叶斯算法计算当前邮件为垃圾邮件的概率并与预设概率阈值进行比较,如果计算获得的概率大于或者等于预设概率阈值,则当前邮件为垃圾邮件;如果计算获得的概率小于预设概率阈值,则当前邮件为正常邮件。

然而,垃圾邮件制造者为了干扰和逃避垃圾邮件检查系统的检查,其手段之一就是在垃圾邮件中添加干扰信息,比如在邮件正文当中添加非文字字符这一类噪音字符,以干扰、逃避垃圾邮件检查系统的检查。因此,针对上述这些问题,采用现有的垃圾邮件的识别方法进行垃圾邮件的识别较为困难,具有一定的局限性。



技术实现要素:

本申请提供一种垃圾邮件的识别方法,以解决现有技术存在识别困难的问题。本申请另外提供一种垃圾邮件的识别装置,以及一种电子设备。

本申请提供一种垃圾邮件的识别方法,包括:

提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;

结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;

判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。

可选的,所述噪音字符包括下述至少一项:非文字字符、单个字符以及稀疏词。

可选的,所述提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集步骤执行后,且所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比步骤执行前,执行下述步骤:

对获得的所述词条集当中的词条进行归一化处理。

可选的,所述对获得的所述词条集当中的词条进行归一化处理,包括:

利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。

可选的,所述基准词频表采用如下方式获得:

在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件;

提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;

按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;

根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。

可选的,所述词条采集规则包括:采集所述历史词条集当中的文字字符,丢弃所述历史词条集当中的非文字字符,和/或,采集所述历史词条集当中的外文词条;其中,所述外文词条是指利用预设归一化算法进行归一化处理后的外文词条。

可选的,所述基准词条初始的出现频次为0,并且每存在一封正文中出现所述基准词条的历史邮件,所述基准词条的出现频次加1。

可选的,针对所述待识别邮件的正文进行分词,以及针对所述历史邮件各自的正文分别进行分词,基于相同的分词算法实现。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若是,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若不存在,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符;若否,通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若小于或者等于所述稀疏词频次阈值,当前词条为噪音字符;若不存在,当前词条为噪音字符。

可选的,所述词条集当中的词条按照生成的先后顺序进行排序,并且在识别所述词条集当中的噪音字符时,根据所述词条集当中的词条的排序顺序,按照从前到后的顺序依次逐个进行识别。

可选的,所述计算所述词条集当中的噪音字符占比,采用如下方式实现:

统计所述词条集当中词条的总数目以及所述词条集当中的噪音字符的数目;

计算所述词条集当中噪音字符的数目与其中词条的总数目的比值,作为所述词条集当中的噪音字符占比。

可选的,所述将所述待识别邮件识别为垃圾邮件步骤执行前,执行下述步骤:

判断所述词条集当中词条的总数目是否大于预设词条总数目阈值,若是,执行所述将所述待识别邮件识别为垃圾邮件步骤。

可选的,若所述判断所述噪音字符占比是否大于预设噪音字符占比阈值步骤的判断结果为所述噪音字符占比小于或者等于所述噪音字符占比阈值,执行下述操作:

判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间,若是,获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值,若大于,将所述待识别邮件识别为垃圾邮件。

可选的,所述获取所述待识别邮件的邮件特征通过内容检查算法获取;

其中,所述内容检查算法包括:贝叶斯算法。

可选的,所述获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值步骤执行前,执行下述步骤:

过滤所述待识别邮件的正文当中的噪音字符。

本申请还提供一种垃圾邮件的识别装置,包括:

正文提取分词单元,用于提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;

噪音字符识别计算单元,用于结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;

噪音字符占比判断单元,用于判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,运行垃圾邮件识别单元;

所述垃圾邮件识别单元,用于将所述待识别邮件识别为垃圾邮件。

本申请另外提供一种电子设备,包括:

存储器,以及处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:

提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;

结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;

判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。

本申请提供一种垃圾邮件的识别方法,包括:提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。

本申请提供的所述垃圾邮件的识别方法,通过对待识别邮件的正文进行分词,获得正文当中词条的词条集,并结合预先获得的基准词频表识别所述词条集当中的噪音字符,即识别所述待识别邮件的正文当中包含的噪音字符,进一步计算所述待识别邮件的正文当中噪音字符所占的比例,根据所述待识别邮件的正文当中噪音字符所占的比例来识别当前待识别邮件是否为垃圾邮件。所述垃圾邮件的识别方法,根据噪音字符的特性识别待识别邮件当中的噪音字符,并进一步根据待识别邮件当中包含的噪音字符来识别待识别邮件是否为垃圾邮件,实现方式简单,识别垃圾邮件的准确率更高。

附图说明

附图1是本申请提供的一种垃圾邮件的识别方法实施例的处理流程图;

附图2是本申请提供的一种垃圾邮件的识别系统的示意图;

附图3是本申请提供的一种垃圾邮件的识别装置实施例的示意图;

附图4是本申请提供的一种电子设备实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

本申请提供一种垃圾邮件的识别方法,本申请另外提供一种垃圾邮件的识别装置,以及一种电子设备。以下分别结合本申请提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。

本申请提供的一种垃圾邮件的识别方法实施例如下:

参照附图1,其示出了本申请提供的一种垃圾邮件的识别方法实施例的处理流程图;参照附图2,其示出了本申请提供的一种垃圾邮件的识别系统的示意图。此外,由于本实施与本申请提供的下述另一种垃圾邮件的识别方法实施例相互配合,因此,在阅读本实施例时,请参照下述另一种垃圾邮件的识别方法实施例。

步骤s101,提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集。

通过对垃圾邮件进行语义分析发现,垃圾邮件当中的噪音字符往往都有一个特点,这些垃圾邮件的噪音字符经过分词后往往是非文字字符、单个字符或者是极少出现的稀疏词,在此基础上,垃圾邮件当中是否包含噪音字符本身也可以作为区别垃圾邮件和非垃圾邮件(正常邮件)的一种手段,本申请提供的所述垃圾邮件的识别方法,正是基于上述噪音字符经过分词后往往是非文字字符、单个字符或者是极少出现的稀疏词这一特性来识别邮件当中的噪音字符,并根据识别出噪音字符来进一步识别出垃圾邮件。

本申请实施例所述词条集,是指所述待识别邮件的正文经分词操作获得的词条集合。在实际应用中,可采用具体的分词算法针对所述待识别邮件的正文进行分词,获得所述待识别邮件的词条集。分词技术当前已经比较成熟,常见的分词算法有正向/逆向最大匹配法(maximummatching)、最小匹配算法(minimummatching)、逐字匹配算法、神经网络法以及基于n-最短路径分词算法,此外,还可以将一种或者多种分词算法进行组合,利用组合之后获得的算法进行分词。本步骤对所述提取的所述待识别邮件的正文进行分词,并不限于具体的某种分词算法,可采用当前的任意一种分词算法对所述待识别邮件的正文进行分词,或者采用任意一种或者多种分词算法组合成的组合分词算法对所述待识别邮件的正文进行分词,获得所述待识别邮件的词条集。

本步骤中,首先提取所述待识别邮件的正文,提取到所述待识别邮件的正文之后,对提取到的所述待识别邮件的正文进行分词,获得所述待识别邮件的词条集。在实际应用中,还可以在提取所述待识别邮件的正文并进行分词,获得所述待识别邮件的词条集的过程中,针对所述词条集当中包含的词条进行排序,按照所述词条的生成的先后顺序依次排列所述词条集当中的词条。

在具体实施时,在本步骤执行后,即提取所述待识别邮件的正文并进行分词,获得所述待识别邮件的词条集之后,还可以对获得的所述词条集当中的词条进行归一化处理。比如利用预设归一化算法对所述词条集当中的外文词条进行归一化处理,例如,利用归一化算法将英文词条stored、stores归一化处理为store。

步骤s102,结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比。

本申请实施例所述噪音字符,包括非文字字符、单个字符以及稀疏词。但所述噪音字符并不限于此,所述噪音字符还可以上述包含非文字字符、单个字符以及稀疏词三者当中的任意一者或者任意两者,此外,所述噪音字符还可以包含上述包含非文字字符、单个字符以及稀疏词三者之外其他可以作为噪音字符的字符组合或者字符元素。

在具体实施时,所述基准词频表可采用如下方式获得:

1)在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件,即正常邮件。

例如,以当前时间点为截止时间点,在邮件服务器或者邮件数据库中获取过去6个月的正常邮件作为历史邮件,来创建基准词频表。

2)提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;

这一步骤与上述步骤s101提取所述待识别邮件的正文并进行分词,获得所述待识别邮件的词条集相类似,参照上述步骤s101的实现即可。

如上所述,上述步骤s101在针对所述待识别邮件的正文进行分词时,可以采用任意一种分词算法进行分词,或者采用任意多种分词算法的组合进行分词。与之相类似,此处针对所述历史邮件各自的正文分别进行分词,同样可以采用任意一种分词算法进行分词,或者采用任意多种分词算法的组合进行分词。众所周知,采用不同分词算法对同一正文的内容进行分词时,分词获得的结果也有可能有所不同,因此,为了提高对垃圾邮件识别的准确度,在针对所述待识别邮件的正文进行分词时,以及针对所述历史邮件各自的正文分别进行分词是,可以采用相同的分词算法,确保针对同一文本进行分词获得的分词结果是相同的,从而来提升对垃圾邮件识别的准确度。

3)按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;

本实施例中,所述词条采集规则包括:采集所述历史词条集当中的文字字符,丢弃所述历史词条集当中的非文字字符,以及,采集所述历史词条集当中的外文词条;其中,所述外文词条是指利用预设归一化算法进行归一化处理后的外文词条。在采集所述历史词条集当中的词条时,必须同时满足所述词条采集规则包含的三条规则,因此,采集到的基准词条也同时满足所述词条采集规则包含的三条规则。但所述词条采集规则并不限于此,所述词条采集规则还可以包含上述三条规则当中的任意一条或者任意两条,或者包含上述三条规则之外的其他规则,比如所述词条采集规则包括:丢弃无法识别的元素或者元素的组合。

4)根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。

所述基准词条初始的出现频次为0,并且每存在一封正文中出现所述基准词条的历史邮件,所述基准词条的出现频次加1。例如,历史邮件a的正文为:“我去北京,北京天气很好”,分词后获得的历史词条集为:{“我”、“去”、“北京”、“天气”、“很好”},采集到的基准词条包括:“我”、“去”、“北京”、“天气”、“很好”,这些基准词条在历史邮件a当中出现,则分别将这些基准词条的出现频次加1。

本步骤中,根据上述步骤s101获得的所述待识别邮件的词条集,结合所述基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比。

所述结合所述基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符;若否,通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若小于或者等于所述稀疏词频次阈值,当前词条为噪音字符;若大于所述稀疏词频次阈值,当前词条为非噪音词条,即正常词条;若不存在,当前词条为噪音字符。

除此之外,所述结合所述基准词频表识别所述词条集当中的噪音字符的实现方式并不限于此,还可以采用除上述实现方式之外的其他具体实现方式,所述结合所述基准词频表识别所述词条集当中的噪音字符的实现形式的变化,都只是具体实现方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。下述提供的所述结合所述基准词频表识别所述词条集当中的噪音字符的三种实现形式:

实现方式一:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符。

实现方式二:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若是,当前词条为噪音字符。

实现方式三:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若不存在,当前词条为噪音字符。

如上所述,上述步骤s101在提取所述待识别邮件的正文并进行分词,获得所述待识别邮件的词条集的过程中,还可以针对所述词条集当中包含的词条进行排序,按照所述词条的生成的先后顺序依次排列所述词条集当中的词条。在此基础上,本步骤在识别所述词条集当中的噪音字符时,可以根据所述词条集当中的词条的排序顺序,按照从前到后的顺序依次逐个进行识别。

所述计算所述词条集当中的噪音字符占比,采用如下方式实现:

1)统计所述词条集当中词条的总数目以及所述词条集当中的噪音字符的数目;

2)计算所述词条集当中噪音字符的数目与其中词条的总数目的比值,作为所述词条集当中的噪音字符占比。

步骤s103,判断所述噪音字符占比是否大于预设噪音字符占比阈值。

上述步骤s102结合所述基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比,本步骤根据上述步骤s102计算获得的所述词条集当中的噪音字符占比,判断所述噪音字符占比是否大于所述噪音字符占比阈值,若是,表明当前词条集对应的待识别邮件当中噪音字符较多,并且当前词条集当中包含的噪音字符的比例已经超出设定阈值,当前词条集对应的待识别邮件有很大嫌疑是垃圾邮件,执行下述步骤s104,将所述待识别邮件识别为垃圾邮件;若否,表明当前词条集对应的待识别邮件当中噪音字符较少,当前词条集当中包含的噪音字符的比例尚未超出设定阈值,当前词条集对应的待识别邮件是垃圾邮件的嫌疑比较低,则将所述待识别邮件识别为正常邮件。

此外,在具体实施时,本步骤判断所述噪音字符占比是否大于所述预设噪音字符占比阈值,若所述噪音字符占比小于或者等于所述预设噪音字符占比阈值,还可以执行如下操作:

1)判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间,若是,执行下述步骤2);若否,将所述待识别邮件识别为正常邮件。

需要说明的是,所述噪音字符占比阈值区间,是指噪音字符占比较高的一个区间。例如,噪音字符占比阈值为60%,噪音字符占比阈值区间为噪音字符占比50%-噪音字符占比60%这一区间。

2)获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值,若大于,将所述待识别邮件识别为垃圾邮件;若小于,将所述待识别邮件识别为正常邮件。

在实际应用中,所述获取所述待识别邮件的邮件特征可以通过内容检查算法获取。例如,通过贝叶斯算法来待识别邮件的邮件特征。但所述内容检查算法并不限于贝叶斯算法,实际当中提取所述待识别邮件的邮件特征还可以通过贝叶斯算法之外的其他算法来提取。

在本步骤获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于所述相似度阈值之前,还可以过滤所述待识别邮件的正文当中的噪音字符,在该过滤操作执行的基础上,进一步获取所述待识别邮件的邮件特征,并根据所述邮件特征对所述待识别邮件和所述垃圾邮件进行比对。

步骤s104,将所述待识别邮件识别为垃圾邮件。

本步骤得以实施的前提是上述步骤s103判断所述噪音字符占比是否大于预设噪音字符占比阈值的判断结果为是,表明当前词条集对应的待识别邮件当中噪音字符较多,并且当前词条集当中包含的噪音字符的比例已经超出设定阈值,当前词条集对应的待识别邮件有很大嫌疑是垃圾邮件,因此执行本步骤,将所述待识别邮件识别为垃圾邮件。

在具体实施时,在本步骤执行前,即将所述待识别邮件识别为垃圾邮件之前,还可以增加约束条件,在约束条件成立的基础上将所述待识别邮件识别为垃圾邮件。比如在本步骤将所述待识别邮件识别为垃圾邮件之前,判断所述词条集当中词条的总数目是否大于预设词条总数目阈值,若是,执行本步骤,将所述待识别邮件识别为垃圾邮件;若否,不作处理,或者将所述待识别邮件识别为正常邮件。

本申请提供的所述垃圾邮件的识别方法,可以基于附图2所示的邮件系统实现,所述邮件系统包括线上邮件系统部分和离线邮件系统部分,并且,上述步骤s101中提取所述待识别邮件的正文、针对提取的所述正文进行分词以及对所述词条集当中的词条进行归一化处理,上述步骤s102中识别所述待识别邮件的词条集当中的噪音字符以及计算所述待识别邮件的词条集当中的噪音字符占比,上述步骤s103中判断所述噪音字符占比,以及上述步骤s104将所述待识别邮件识别为垃圾邮件,基于所述线上邮件系统来执行。

此外,上述步骤s102中的所述基准词频表和所述邮件存储空间可以设置在所述线上邮件系统当中,也可以设置在所述离线邮件系统当中。如果所述基准词频表和所述邮件存储空间设置在所述线上邮件系统当中,则上述步骤s102中创建所述基准词频表时,从线上的邮件存储空间中获取历史邮件,基于获取的历史邮件提取正文并进行分词,并根据分词结果采集基准词条,进一步统计所述基准词条的出现频次,最终在线上创建所述基准词频表。如果所述基准词频表和所述邮件存储空间设置在所述离线邮件系统当中,则上述步骤s102中创建所述基准词频表时,从离线的邮件存储空间中获取历史邮件,基于获取的历史邮件提取正文并进行分词,并根据分词结果采集基准词条,进一步统计所述基准词条的出现频次,最终创建离线的所述基准词频表。

综上所述,本申请提供的所述垃圾邮件的识别方法,通过对待识别邮件的正文进行分词,获得正文当中词条的词条集,并结合预先获得的基准词频表识别所述词条集当中的噪音字符,即识别所述待识别邮件的正文当中包含的噪音字符,进一步计算所述待识别邮件的正文当中噪音字符所占的比例,根据所述待识别邮件的正文当中噪音字符所占的比例来识别当前待识别邮件是否为垃圾邮件。所述垃圾邮件的识别方法,根据噪音字符的特性识别待识别邮件当中的噪音字符,并进一步根据待识别邮件当中包含的噪音字符来识别待识别邮件是否为垃圾邮件,实现方式简单,识别垃圾邮件的准确率更高。

本申请提供的一种垃圾邮件的识别装置实施例如下:

在上述的实施例中,提供了一种垃圾邮件的识别方法,与之相对应的,本申请还提供了一种垃圾邮件的识别装置,下面结合附图进行说明。

参照附图3,其示出了本申请提供的一种垃圾邮件的识别装置实施例的示意图。

由于装置实施例与上述提供的方法实施例相互对应,阅读本实施例的内容请参照上述方法实施例的对应说明。下述描述的装置实施例仅仅是示意性的。

本申请提供一种垃圾邮件的识别装置,包括:

正文提取分词单元301,用于提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;

噪音字符识别计算单元302,用于结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;

噪音字符占比判断单元303,用于判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,运行垃圾邮件识别单元304;

所述垃圾邮件识别单元304,用于将所述待识别邮件识别为垃圾邮件。

可选的,所述噪音字符包括下述至少一项:非文字字符、单个字符以及稀疏词。

可选的,所述垃圾邮件的识别装置,包括:

归一化处理单元,用于对获得的所述词条集当中的词条进行归一化处理。

可选的,所述归一化处理单元,包括:

外文词条归一化子单元,用于利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。

可选的,所述基准词频表基于运行历史邮件获取单元、历史邮件分词单元、基准词条采集单元和基准词频表创建单元获得;

所述历史邮件获取单元,用于在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件;

所述历史邮件分词单元,用于提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;

所述基准词条采集单元,用于按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;

所述基准词频表创建单元,用于根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。

可选的,所述词条采集规则包括:采集所述历史词条集当中的文字字符,丢弃所述历史词条集当中的非文字字符,和/或,采集所述历史词条集当中的外文词条;其中,所述外文词条是指利用预设归一化算法进行归一化处理后的外文词条。

可选的,所述基准词条初始的出现频次为0,并且每存在一封正文中出现所述基准词条的历史邮件,所述基准词条的出现频次加1。

可选的,针对所述待识别邮件的正文进行分词,以及针对所述历史邮件各自的正文分别进行分词,基于相同的分词算法实现。

可选的,所述噪音字符识别计算单元302,包括:

第一词条判断子单元,用于判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符;且针对所述词条集当中的每一个词条,运行所述第一词条判断子单元。

可选的,所述噪音字符识别计算单元302,包括:

第一词条比对子单元,用于通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,运行第一词条出现频次判断子单元;且针对所述词条集当中的每一个词条,运行所述第一词条比对子单元;

所述第一词条出现频次判断子单元,用于判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若是,当前词条为噪音字符。

可选的,所述噪音字符识别计算单元302,包括:

第二词条比对子单元,用于通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若不存在,当前词条为噪音字符;且针对所述词条集当中的每一个词条,运行所述第二词条比对子单元。

可选的,所述噪音字符识别计算单元302,包括:

第二词条判断子单元,用于判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符;若否,运行第三词条比对子单元;且针对所述词条集当中的每一个词条,运行所述第二词条判断子单元;

所述第三词条比对子单元,用于通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,运行第二词条出现频次判断子单元;若不存在,当前词条为噪音字符;

所述第二词条出现频次判断子单元,用于判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若小于或者等于所述稀疏词频次阈值,当前词条为噪音字符。

可选的,所述词条集当中的词条按照生成的先后顺序进行排序,并且在识别所述词条集当中的噪音字符时,根据所述词条集当中的词条的排序顺序,按照从前到后的顺序依次逐个进行识别。

可选的,所述噪音字符识别计算单元302,包括:

统计子单元,用于统计所述词条集当中词条的总数目以及所述词条集当中的噪音字符的数目;

计算子单元,用于计算所述词条集当中噪音字符的数目与其中词条的总数目的比值,作为所述词条集当中的噪音字符占比。

可选的,所述垃圾邮件的识别装置,包括:

词条总数目判断单元,用于判断所述词条集当中词条的总数目是否大于预设词条总数目阈值,若是,运行所述垃圾邮件识别单元304。

可选的,若所述噪音字符占比判断单元303输出的判断结果为所述噪音字符占比小于或者等于所述噪音字符占比阈值,运行第二噪音字符占比判断单元;

所述第二噪音字符占比判断单元,用于判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间,若是,运行邮件特征获取判断单元;

所述邮件特征获取判断单元,用于获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值,若大于,将所述待识别邮件识别为垃圾邮件。

可选的,所述获取所述待识别邮件的邮件特征通过内容检查算法获取;其中,所述内容检查算法包括:贝叶斯算法。

可选的,所述垃圾邮件的识别装置,包括:

噪音字符过滤单元,用于过滤所述待识别邮件的正文当中的噪音字符;且在所述邮件特征获取判断单元运行前运行所述噪音字符过滤单元。

本申请提供的一种电子设备实施例如下:

在上述的实施例中,提供了一种垃圾邮件的识别方法,此外,本申请还提供了一种用于实现所述垃圾邮件的识别方法的电子设备,下面结合附图进行说明。

参照附图4,其示出了本实施例提供的一种电子设备的示意图。

本申请提供的所述电子设备用于实现本申请提供的所述垃圾邮件的识别方法,本实施例与上述提供的垃圾邮件的识别方法实施例相对应,阅读本实施例的内容请参照上述提供的垃圾邮件的识别方法实施例的对应说明。下述描述的实施例仅仅是示意性的。

本申请提供一种电子设备,包括:

存储器401,以及处理器402;

所述存储器401用于存储计算机可执行指令,所述处理器402用于执行所述计算机可执行指令:

提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集;

结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比;

判断所述噪音字符占比是否大于预设噪音字符占比阈值,若是,将所述待识别邮件识别为垃圾邮件。

可选的,所述噪音字符包括下述至少一项:非文字字符、单个字符以及稀疏词。

可选的,所述提取待识别邮件的正文并进行分词,获得所述待识别邮件的词条集指令执行后,且所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,并计算所述词条集当中的噪音字符占比指令执行前,所述处理器402还用于执行下述计算机可执行指令:

对获得的所述词条集当中的词条进行归一化处理。

可选的,所述对获得的所述词条集当中的词条进行归一化处理,包括:利用预设归一化算法对所述词条集当中的外文词条进行归一化处理。

可选的,所述基准词频表采用如下方式获得:

在预先设置的邮件存储空间中获取以往特定时间区间内的历史邮件;所述历史邮件当中不包含垃圾邮件;

提取所述历史邮件各自的正文并分别进行分词,获得所述历史邮件各自的历史词条集;

按照预设的词条采集规则采集所述历史词条集当中的词条作为基准词条;

根据采集到的所述基准词条以及所述基准词条在所述历史邮件各自的正文中的出现频次,创建所述基准词频表。

可选的,所述词条采集规则包括:采集所述历史词条集当中的文字字符,丢弃所述历史词条集当中的非文字字符,和/或,采集所述历史词条集当中的外文词条;其中,所述外文词条是指利用预设归一化算法进行归一化处理后的外文词条。

可选的,所述基准词条初始的出现频次为0,并且每存在一封正文中出现所述基准词条的历史邮件,所述基准词条的出现频次加1。

可选的,针对所述待识别邮件的正文进行分词,以及针对所述历史邮件各自的正文分别进行分词,基于相同的分词算法实现。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若是,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若不存在,当前词条为噪音字符。

可选的,所述结合预先获得的基准词频表识别所述词条集当中的噪音字符,采用如下方式实现:

针对所述词条集当中的每一个词条,执行如下操作:

判断当前词条是否为非文本字符或者单个字符,若是,当前词条为噪音字符;若否,通过将当前词条与所述基准词频表当中的基准词条进行比对,判断所述基准词频表中是否存在与当前词条相同的基准词条,若存在,判断与当前词条相同的基准词条的出现频次是否小于或者等于稀疏词频次阈值,若小于或者等于所述稀疏词频次阈值,当前词条为噪音字符;若不存在,当前词条为噪音字符。

可选的,所述词条集当中的词条按照生成的先后顺序进行排序,并且在识别所述词条集当中的噪音字符时,根据所述词条集当中的词条的排序顺序,按照从前到后的顺序依次逐个进行识别。

可选的,所述计算所述词条集当中的噪音字符占比,采用如下方式实现:

统计所述词条集当中词条的总数目以及所述词条集当中的噪音字符的数目;

计算所述词条集当中噪音字符的数目与其中词条的总数目的比值,作为所述词条集当中的噪音字符占比。

可选的,所述将所述待识别邮件识别为垃圾邮件指令执行前,所述处理器402还用于执行下述计算机可执行指令:

判断所述词条集当中词条的总数目是否大于预设词条总数目阈值,若是,执行所述将所述待识别邮件识别为垃圾邮件指令。

可选的,若所述判断所述噪音字符占比是否大于预设噪音字符占比阈值指令的执行结果为所述噪音字符占比小于或者等于所述噪音字符占比阈值,执行下述操作:

判断所述待识别邮件的噪音字符占比是否处于预设噪音字符占比阈值区间,若是,获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值,若大于,将所述待识别邮件识别为垃圾邮件。

可选的,所述获取所述待识别邮件的邮件特征通过内容检查算法获取;其中,所述内容检查算法包括:贝叶斯算法。

可选的,所述获取所述待识别邮件的邮件特征,判断获取到的所述邮件特征与垃圾邮件的邮件特征的相似度是否大于预设相似度阈值指令执行前,所述处理器402还用于执行下述计算机可执行指令:

过滤所述待识别邮件的正文当中的噪音字符。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1