一种垃圾邮件过滤方法及系统的制作方法

文档序号:9600746阅读:734来源:国知局
一种垃圾邮件过滤方法及系统的制作方法
【技术领域】
[0001] 本发明涉及垃圾邮件处理技术领域,特别是涉及一种垃圾邮件过滤方法及系统。
【背景技术】
[0002] 当今,随着计算机技术以及互联网的飞速发展,电子邮件(E-mail)早已成为人们 日常工作、生活中不可或缺的沟通方式。
[0003] 实际上,电子邮件在给人们带来极大便利的同时也带来了一些负面影响,即我们 每天收到的邮件有很大一部分是不请自来的,其中,有些是商业广告,有些是政治宣传,有 些是色情广告,还有一些甚至是病毒,我们俗称这些邮件为垃圾邮件。垃圾邮件的发布者为 了大面积散布信息,通常采用多台机器同时巨量发送的方式攻击邮件服务器,导致被攻击 邮件服务器大量带宽的损失,并影响人们正常的工作与生活。因此,寻找一种切实可行的垃 圾邮件过滤方法显得尤为重要。
[0004] 现有的垃圾邮件过滤方法主要有IP过滤技术、用户黑白名单技术、基于规则的关 键字过滤、规则评分等,然而,这些技术都存在共同的缺点:由于垃圾邮件的多源性、不确定 性、多变性,使得垃圾邮件过滤方法的设计复杂度高,并且垃圾邮件过滤的准确率低,已无 法满足当前形势下垃圾邮件过滤的需求。

【发明内容】

[0005] 有鉴于此,本发明提供了一种垃圾邮件过滤方法及系统,以降低垃圾邮件过滤方 法的设计复杂度,提高垃圾邮件过滤的准确性。
[0006] 为解决上述技术问题,本发明提供一种垃圾邮件过滤方法,包括:
[0007] 接收电子邮件,并提取所述电子邮件的基因序列;
[0008] 对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列,确定所述电子 邮件的基因序列与每个所述邮件DNA库中的基因序列的相似度;
[0009] 将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作 为所述电子邮件的邮件属性;
[0010] 其中,所述邮件属性包括垃圾邮件或者非垃圾邮件。
[0011] 上述方法中,优选的,所述提取所述电子邮件的基因序列包括:
[0012] 对所述电子邮件进行分词,得到分词结果;
[0013] 利用贝叶斯统计模型,计算所述分词结果中词语序列对应的先验概率;
[0014] 利用所述词语序列和所述词语序列对应的先验概率,构成所述电子邮件的基因序 列。
[0015] 上述方法中,优选的,在所述对所述电子邮件进行分词,得到分词结果之前,还包 括:
[0016] 将编码格式的所述电子邮件转换为可处理文本格式的电子邮件。
[0017] 上述方法中,优选的,在所述对比所述电子邮件的基因序列与预设的邮件DNA库 中的基因序列之前,还包括:
[0018] 获取作为训练样本的电子邮件,并提取所述训练样本的基因序列;
[0019] 确定所述训练样本的基因序列对应的邮件属性;
[0020] 利用所述训练样本的基因序列、所述训练样本的基因序列对应的邮件属性及两者 之间的对应关系,构建得到所述邮件DNA库。
[0021] 上述方法中,优选的,在所述将所述相似度超过预设阈值的所述邮件DNA库中的 基因序列对应的邮件属性作为所述电子邮件的邮件属性之后,还包括:
[0022] 将所述电子邮件的基因序列和所述电子邮件的基因序列对应的邮件属性更新至 所述邮件NDA库。
[0023] 本发明还提供了一种垃圾邮件过滤系统,包括:
[0024] 提取单元,用于接收电子邮件,并提取所述电子邮件的基因序列;
[0025] 比对单元,用于对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序 列,确定所述电子邮件的基因序列与每个所述邮件DNA库中的基因序列的相似度;
[0026] 属性确定单元,用于将所述相似度超过预设阈值的所述邮件DNA库中的基因序列 对应的邮件属性作为所述电子邮件的邮件属性;
[0027] 其中,所述邮件属性包括垃圾邮件或者非垃圾邮件。
[0028] 上述系统中,优选的,所述提取单元包括:
[0029] 分词子单元,用于对所述电子邮件进行分词,得到分词结果;
[0030] 先验概率计算子单元,用于利用贝叶斯统计模型,计算所述分词结果中词语序列 对应的先验概率;
[0031] 基因序列构建子单元,用于利用所述词语序列和所述词语序列对应的先验概率, 构成所述电子邮件的基因序列。
[0032] 上述系统中,优选的,还包括:
[0033] 预处理模块,用于在所述对所述电子邮件进行分词,得到分词结果之前,将编码格 式的所述电子邮件转换为可处理文本格式的电子邮件。
[0034] 上述系统中,优选的,还包括:
[0035] 邮件DNA库生成模块,用于在所述对比所述电子邮件的基因序列与预设的邮件 DNA库中的基因序列之前,获取作为训练样本的电子邮件,并提取所述训练样本的基因序 列;确定所述训练样本的基因序列对应的邮件属性;利用所述训练样本的基因序列、所述 训练样本的基因序列对应的邮件属性及两者之间的对应关系,构建得到所述邮件DNA库。
[0036] 上述系统中,优选的,还包括:
[0037] 邮件NDA库更新模块,用于在所述将所述相似度超过预设阈值的所述邮件DNA库 中的基因序列对应的邮件属性作为所述电子邮件的邮件属性之后,将所述电子邮件的基因 序列和所述电子邮件的基因序列对应的邮件属性更新至所述邮件NDA库。
[0038] 以上本发明提供的一种垃圾邮件过滤方法及系统中,基于邮件DNA库,首先,接收 电子邮件并提取该电子邮件的基因序列;然后,对比电子邮件的基因序列与预先构建的邮 件DNA库中的基因序列,确定该电子邮件的基因序列与每个邮件DNA库中的基因序列的相 似度;最后,将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为上述 电子邮件的邮件属性,当该邮件属性为垃圾邮件时确定接收到的电子邮件为垃圾邮件。综 上,上述基于邮件DNA库的垃圾邮件过滤方法弥补了IP过滤技术、用户黑白名单技术、基于 规则的关键字过滤、规则评分等方法的不足,大大降低了因垃圾邮件的多源性、不确定性、 多变性带来的垃圾邮件过滤系统的设计复杂度,有效提高了垃圾邮件过滤的准确性,均具 有较高的技术价值。
【附图说明】
[0039] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0040] 图1为本发明实施例提供的一种垃圾邮件过滤方法的流程图;
[0041] 图2为本发明实施例提供的电子邮件预处理的具体过程流程图;
[0042] 图3为本发明实施例提供的提取电子邮件的基因序列的具体过程流程图;
[0043] 图4为本发明实施例提供的邮件DNA库的具体生成过程流程图;
[0044] 图5为本发明实施例提供的一种垃圾邮件过滤系统的结构框图示意图。
【具体实施方式】
[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0046] 本发明的核心是提供垃圾邮件过滤方法及系统,以降低垃圾邮件过滤方法的设计 复杂度,提高垃圾邮件过滤的准确性。
[0047] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和【具体实施方式】 对本发明作进一步的详细说明。
[0048] 参考图1,图1示出了本发明实施例提供的一种垃圾邮件过滤方法的流程图,该方 法具体可以包括如下步骤:
[0049] 步骤S100、接收电子邮件,并提取电子邮件的基因序列。
[0050] 本发明实施例方法的执行主体为垃圾邮件过滤系统,具体地,可由垃圾邮件过滤 系统中的垃圾邮件过滤模块来完成步骤S100至步骤S102的具体内容。
[0051] 在实际应用中,接收到的电子邮件(也称新邮件)的格式通常都是编码格式的, 因此,在提取电子邮件的基因序列之前,需要基于电子邮件的传输协议和编码,将编码格式 的电子邮件转换为可处理文本格式的电子邮件。具体实施时,可以由垃圾邮件过滤系统中 的预处理模块实现上述转换过程。参考图2,示出了电子邮件预处理的具体过程,在电子 邮件接收端,邮件依次经过邮件用户代理模块MUA(MailUserAgent)、邮件传输代理模块 MTA(MailTransferAgent)和邮件投递代理模块MDA(MailDeliveryAgent)最终到达收 件人邮箱。接着,预处理模块提取电子邮件的完整内容,然后将提取的内容根据标签格式化 为可处理文本以供后续处理。
[0052] 参考图3,提取电子邮件的基因序列的具体过程如下:
[0053] 步骤S300、对电子邮件进行分词,得到分词结果。
[0054] 在实际应用中,首先需要基于电子邮件的传输协议和编码,将编码格式的电子邮 件转换为可处理文本格式的电子邮件。具体实施时,可以由垃圾邮件过滤系统中的预处理 模块实现上述转换过程。
[0055] 在接收到新邮件后,对可处理文本格式的电子邮件的内容进行分词,得到分词结 果。
[0056] 步骤S301、利用贝叶斯统计模型,计算分词结果中词语序列对应的先验概率。
[0057] 具体地,将新邮件的基因序列与邮件DNA库中的基因序列进行比对,利用贝叶斯 统计模型设定阈值并判定新邮件的属性。
[0058] 步骤S302、利用词语序列和词语序列对应的先验概率,构成电子邮件的基因序列。
[0059] 以上为提取电子邮件的基因序列的具体过程。
[0060] 步骤S101、对比电子邮件的基因序列与预设的邮件DNA库中的基因序列,确定电 子邮件
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1